Firefox güvenliğini güçlendirmek için Anthropic–Mozilla iş birliği

(anthropic.com)

8 puan yazan GN⁺ 2026-03-07 | 2 yorum | WhatsApp'ta paylaş

Claude Opus 4.6, Mozilla ile iş birliği içinde Firefox'ta 22 güvenlik açığı buldu; bunların 14'ü yüksek risk seviyesinde sınıflandırıldı
Yapay zeka modelinin, karmaşık yazılımlardaki zero-day açıkları hızla tespit edebildiğini gösterdi; düzeltmeler Firefox 148.0 sürümüne yansıtıldı
Claude, JavaScript motoru dahil kod alanlarında binlerce dosyayı analiz ederek 112 rapor sundu; Mozilla bunları temel alarak düzeltmeler yaptı
Yapay zekanın açıkları tespit etme becerisi yüksek olsa da, gerçek exploit (saldırı kodu) yazma becerisinin sınırlı olduğu doğrulandı
Anthropic, yapay zeka tabanlı güvenlik araştırması iş birliği modelini ortaya koyarken, açık kaynak ekosistemiyle iş birliği üzerinden savunmacı odaklı güvenlik güçlendirmesi çağrısı yaptı

Mozilla ile iş birliğine genel bakış

Claude Opus 4.6, 2 haftalık analiz sonunda 22 Firefox açığı buldu; Mozilla bunların 14'ünü yüksek riskli olarak sınıflandırdı
- Bu sayı, 2025'te Firefox'ta düzeltilen yüksek riskli açıkların yaklaşık %20'sine karşılık geliyor
- Düzeltmeler Firefox 148.0 sürümüne dahil edilerek yüz milyonlarca kullanıcıya dağıtıldı
Mozilla, Anthropic'in raporlarını doğrularken hata raporu kriterlerini ve süreçlerini paylaştı, böylece iş birlikçi bir doğrulama sistemi kuruldu
Bu iş birliği, yapay zeka tabanlı güvenlik araştırmacıları ile bakımcılar arasındaki iş birliği modeli için bir örnek olarak sunuluyor

Yapay zeka modeliyle açık tespit süreci

Anthropic, CyberGym benchmark'ını aşan daha gerçekçi testler için Firefox CVE veri kümesi oluşturdu
- Firefox, karmaşık ve güvenliği yüksek bir açık kaynak proje olduğundan yapay zekanın tespit yeteneğini doğrulamak için uygun bir hedef oldu
Claude, geçmiş CVE'leri yeniden ürettikten sonra en güncel sürümde yeni açıkları tespit etmeye çalıştı
- İlk 20 dakika içinde bir Use After Free bellek açığı buldu ve bağımsız doğrulamanın ardından bunu Mozilla'ya bildirdi
Ardından Claude, 6.000'den fazla C++ dosyasını analiz ederek 112 benzersiz rapor sundu
- Sorunların çoğu Firefox 148'de düzeltildi; bir kısmı ise gelecek sürümlerde çözülecek

Açık exploit deneyi

Claude'un güvenlik yeteneğinin üst sınırını değerlendirmek için, bulunan açıkları gerçek saldırı koduna dönüştürüp dönüştüremediği test edildi
- Yüzlerce test ve yaklaşık 4.000 dolar API maliyeti harcandı
- Sonuç olarak yalnızca 2 exploit gerçekten başarıya ulaştı; tespit becerisine kıyasla saldırı üretme becerisi düşük kaldı
Başarılı exploit'ler yalnızca test ortamında çalıştı; gerçek tarayıcıdaki sandbox güvenlik özellikleri kaldırılmış durumdaydı
- Firefox'un çok katmanlı savunma yapısı bu tür saldırıları hafifletebilir
Anthropic, bu deney üzerinden yapay zekanın saldırı araçlarını otomatik üretme olasılığına dikkat çekti

Yapay zeka tabanlı güvenlik araştırmaları için iyi uygulamalar

Anthropic, patching agent araştırmasıyla LLM'lerin hata düzeltme ve doğrulama yapabileceği yöntemler geliştirdi
- Task verifier adlı yardımcı araç kullanılarak yapay zekanın çıktıları gerçek zamanlı doğrulandı
- Açığın ortadan kaldırılıp kaldırılmadığı ve program işlevinin korunup korunmadığı otomatik olarak test edildi
Mozilla'nın güvenilir bulduğu raporların temel bileşenleri şu üç başlıktı
- En küçük yeniden üretim test vakası
- Ayrıntılı Proof-of-Concept
- Aday patch kodu
Araştırmacılara, LLM tabanlı açık raporlarında doğrulanabilirlik ve yeniden üretilebilirlik kanıtlarını birlikte sunmaları tavsiye ediliyor

Gelecek görünümü ve güvenliği güçlendirme ihtiyacı

Claude Opus 4.6, Firefox dışında Linux çekirdeği gibi önemli projelerde de açıklar buldu
Bugün yapay zekanın tespit ve düzeltme yetenekleri, exploit üretme yeteneklerinden daha güçlü; bu da savunmacılar için avantajlı bir durum oluşturuyor
Ancak modellerin gelişim hızı düşünüldüğünde, saldırı yeteneği farkının hızla kapanma ihtimali bulunuyor
Anthropic, Claude Code Security aracılığıyla açık tespiti ve patching yeteneklerini araştırmacılar ile bakımcılara sunuyor
Geliştiricilere, güvenliği güçlendirmek için kritik zaman penceresini değerlendirme çağrısı yaparken,
- Açık arama iş birlikleri
- Hata raporu sınıflandırma araçları geliştirme
- Otomatik patch önerisi yeteneklerini genişletme
  planlarını da paylaşıyor

2 yorum

mammal 2026-03-07

Mozilla Foundation Security Advisory 2026-13

Bu gerçekten inanılmaz.

Bu, sıkı test vakalarının ne kadar önemli olduğunu bir kez daha hatırlatan bir örnek gibi görünüyor.

GN⁺ 2026-03-07

Hacker News yorumları

Bir açık kaynak projesinde güvenliği sürdürmekten sorumluysanız, Claude Code ile bir güvenlik denetimi istemeyi öneririm
Firefox gibi büyük ölçekli projelerde zor olabilir, ancak çoğu proje için token maliyeti yaklaşık 3 dolar seviyesinde
Saldırganların bu tür bir denetimi zaten yapmış olma ihtimali yüksek olduğundan, bunu kendiniz yapmamak artık sorumlu bir tutum değil
Zulip’in ana kod tabanını denetlerken modele her bulguyu kendi kendine gözden geçirmesini istedim; bu süreçte çoğu yanlış pozitif (false positive) elendi
Sonrasında kalan sorunlar için kod yorumları ekleyip güvenlik modelinin amacını netleştirince, yeniden denetimde bunlar da neredeyse tamamen ortadan kalktı
- AI’yi bu şekilde kullanmayı önermem
  “Bir haftalık işi birkaç saniyede yap” demek gerçekte mümkün değil
  Sonuçlar ikna edici görünebilir ama gerçeği yansıtmayabilir
  AI’yi bir stajyer gibi ele alırsanız hayal kırıklığı yaşamazsınız — koca bir programın güvenlik denetimini bir stajyere bırakır mıydınız?
- AI güvenlik denetimi için en iyi pratikleri derleyen uzun bir yazı olup olmadığını merak ediyorum
  Bazı durumlarda çok iyi çalışıyor, bazılarında ise tamamen işe yaramıyor
  Farkın sonunda context engineering ve test harness kalitesine dayandığı görünüyor
  Bu örnek de ilginçti ama daha somut açıklamalar olmasını isterdim
Ben de yakın zamanda bir projeyi açık kaynak olarak yayımladım ve bir Reddit kullanıcısı Claude ile tam bir güvenlik denetimi çalıştırıp 15 güvenlik açığı buldu
FTS injection, LIKE wildcard injection, API kimlik doğrulama eksikliği, gizlilik koruması eksikliği gibi gözden kaçırdığım çok nokta vardı
Şaşırtıcı olan, sonuçların çok sistematik olmasıydı — ciddiyet sınıflandırması, dosya yolları ve satır numaraları, hatta dokümantasyonla gerçek kod arasındaki tutarsızlıkların işaretlenmesi dahil
Özellikle “spesifikasyon ile gerçeklik arasındaki fark” analizi en faydalı kısımdı
LLM güvenlik denetiminin asıl değeri yeni bir zero-day bulmaktan çok, insanların üşenip atladığı tekrarlı ve ayrıntılı kontrolleri üstlenmesinde yatıyor
Firefox gibi tarayıcı güvenlik açıklarının karmaşıklığını anlayan çok fazla kişi yok
Basit bir UAF’ı wasm shellcode ile zincirleyip ileri taşımak bile günler sürebiliyor
AI siber yetenek yarışı şu an için hâlâ sakin, ama bu yıl içinde değişecek gibi görünüyor
Ben de Anthropic gibi Claude’a bir VM ve doğrulayıcı verip exploit üretmesini istedim; kctf-eval ortamında oldukça iyi çalıştı
Yine de modelin gerçekte neyi “anladığı”, yoksa sadece ödül sinyaline göre taklit mi ettiği hâlâ belirsiz
Mozilla’nın güvenlik duyurusunu güncellemiş olması ilginç
Tek bir sürümde 22 açığı kimin bulduğunu merak ediyordum, şimdi ortaya çıkmış oldu
- “Use After Free” ifadesi tekrar tekrar geçiyor ama bu açıkların pratikte neye yol açabileceğine dair somut açıklama az
  Sadece dosya düşürme düzeyindeyse büyük tehdit sayılmaz, ama oturum verisi hırsızlığı gibi şeyler çok daha ilginç
- Tanıdık birçok isim görünüyor
Hataların somut içeriğinden söz edilmemesi tuhaf
Bunun basit bir edge case mi yoksa gerçekten anlamlı bir sorun mu olduğunu bilmek isterdim
LLM’ler tanıdık başarısızlık örüntülerini iyi yakalıyor ama bu her zaman önemli oldukları anlamına gelmiyor
- Hata listesini Anthropic’in orijinal yazısında ve Mozilla’nın güvenlik duyurusunda görebilirsiniz
- Claude’un bulduğu bazı hatalar oldukça ciddi düzeydeydi
  Ben güvenlik uzmanı değilim ama sırf “LLM buldu” diye önemsiz sayılacak şeyler gibi görünmüyor
- Bulunan hatalardan birine dair ayrıntılı bir analiz yazısı var
- Somut açıklama olmayınca pazarlama amaçlı bir yazı gibi görünüyor
AI ajanlarıyla elde ettiğim sonuçlar karışıktı
Test kapsamını genişletme, fuzz test kurulumu, statik analiz araçlarını yapılandırma gibi işlerde faydalı oldular
Ancak gerçekte bir güvenlik sınırı olmadığı hâlde “çok güvenli” diye kesin hüküm verdikleri de oldu
Yerel hataları iyi buluyorlar ama birden fazla özelliğin etkileşimiyle oluşan bileşik açıkları neredeyse hiç yakalayamıyorlar
Sonuç olarak modelin güvenlik iddiaları her zaman doğrulanmalı
- [Mozilla çalışanı] LLM’lerin sık sık yanlış çıktığına katılıyorum
  Bu yaklaşımın değeri, doğrulanabilir test case’ler üretmesinde yatıyor
  Bu, basit bir analiz raporundan çok daha verimli
  Eskiden “sadece yerel hataları iyi buluyor” demek doğruydu ama agentic SDK sayesinde durum değişti
- Kapsam boşluklarını AI’ye tamamlattığınızda çok sayıda anlamsız test üretiliyor
  Zaten kapsam yüksekse geriye kalan alanlar doğası gereği zor bölgelerdir
- Geleneksel statik analiz de örüntü eşleme temelliydi ama son dönemdeki AI tabanlı statik analiz araçları çok daha iyi sonuç veriyor
  Özellikle iş mantığı açıklarını bile yakaladıkları oldu
- Aslında bu sınırlamalar gerçek geliştiriciler için de geçerli
  Yerel hatalar göze çarpar, ama eksik güvenlik sınırları ilk bakışta yeterli görünebilir
- Anthropic’in red team’e özel Claude sürümünü kullananlarla normal kullanıcıların erişim düzeyi aynı değil
Anthropic’in Firefox’u seçme nedeni açık
Çünkü hem yaygın biçimde dağıtılan açık kaynak bir proje hem de güvenlik incelemesinin yoğun olduğu bir proje
Chromium Google’ın Gemini’sini kullanıyor, Safari ise kapalı geliştirme kültürü nedeniyle iş birliğine uygun değil
- Firefox, Chromium kadar karmaşık ama kaynakları çok daha sınırlı bir proje, bu yüzden deney için uygun
- Safari’de black-box saldırı gerekeceğinden bu tür bir yaklaşım zor olurdu
Anthropic yazısına göre Claude’un yazdığı exploit sadece test ortamında çalıştı
Çünkü gerçek tarayıcının sandbox özelliği kaldırılmış durumdaydı
Bu nedenle Firefox’un çok katmanlı savunması (defense in depth) bu tür saldırıları hafifletmiş olurdu
- [Anthropic çalışanı, eski Mozilla] Firefox, sandbox içindeki açıkları da bağımsız güvenlik sorunu olarak değerlendiriyor
  Chrome da benzer bir politika izliyor
  İlgili belgeler Security Severity Ratings sayfasında görülebilir
- Sandbox var diye açıkları görmezden gelmek uygun olmaz
  Sandbox’tan kaçış da mümkün olduğundan tüm hatalar düzeltilmeli
- Sandbox engelliyor olsa bile açığı düzeltmek önemlidir
  Saldırganlar bu tür kısmi zero-day açıklarını biriktirip birlikte kullanabilir
  Bu düzeltme, böyle bir riski azaltması bakımından açık bir güvenlik iyileştirmesi başarısı
Ben de geceleri AI ajanlarını çalıştırıp test yazdırıyorum; Claude’a formal verification denetmesi için de görev verdiğim oldu
Görünüşe göre Anthropic de benzer bir yaklaşım kullanmış
Bundan sonra property test ve fuzz test otomasyonu için ek prompt’lar eklemeyi planlıyorum
- Hafif formal verification uygulanan gerçek örnekler olup olmadığını merak ediyorum
  Üzerinde çalıştığım problemlerin o kadar ağır bir yönteme ihtiyaç duymadığını düşünüyorum ama belki de bu yanlış bir değerlendirmedir
Bir gün Google’ın OSS-Fuzz sistemi gibi, açık kaynağın çekirdek projeleri için otomatik güvenlik denetim sistemleri çıkacak gibi geliyor
Anthropic zaten OSS bakımcılarına Claude erişimini ücretsiz veriyor
LLM’ler yüzünden bug bounty programlarının asılsız raporlarla dolup taşması gibi bir sorun doğdu, ama son modeller artık gerçek açıkları ayırt edecek seviyeye ulaşıyor
Ücretsiz ya da ucuz modellerle değerlendirme yaparsanız kalitenin düşük görünmesi kaçınılmaz
Bunun yerine gelişmiş LLM’lerle çalışan bir güvenlik denetim programı yürütülürse kalite güvence altına alınabilir
Bug bounty sistemini yaşatmak için katılım ücreti ya da LLM tabanlı doğrulama gibi yöntemler de düşünülebilir
- Google zaten Big Sleep adlı AI tabanlı bir güvenlik projesi yürütüyor ve çeşitli açık kaynak projelerine açık raporluyor
  İlgili bağlantı
- Hata raporlarını otomatik doğrulayan bir sistem olsa iyi olurdu
  Örneğin bir VM açılıp ajanın yeniden üretim testi yapması gibi
- Anthropic’in ücretsiz erişimi 6 ayda bir otomatik yenileme modeliyle sunduğunu hatırlıyorum