- Claude Opus 4.6, Mozilla ile iş birliği içinde Firefox'ta 22 güvenlik açığı buldu; bunların 14'ü yüksek risk seviyesinde sınıflandırıldı
- Yapay zeka modelinin, karmaşık yazılımlardaki zero-day açıkları hızla tespit edebildiğini gösterdi; düzeltmeler Firefox 148.0 sürümüne yansıtıldı
- Claude, JavaScript motoru dahil kod alanlarında binlerce dosyayı analiz ederek 112 rapor sundu; Mozilla bunları temel alarak düzeltmeler yaptı
- Yapay zekanın açıkları tespit etme becerisi yüksek olsa da, gerçek exploit (saldırı kodu) yazma becerisinin sınırlı olduğu doğrulandı
- Anthropic, yapay zeka tabanlı güvenlik araştırması iş birliği modelini ortaya koyarken, açık kaynak ekosistemiyle iş birliği üzerinden savunmacı odaklı güvenlik güçlendirmesi çağrısı yaptı
Mozilla ile iş birliğine genel bakış
- Claude Opus 4.6, 2 haftalık analiz sonunda 22 Firefox açığı buldu; Mozilla bunların 14'ünü yüksek riskli olarak sınıflandırdı
- Bu sayı, 2025'te Firefox'ta düzeltilen yüksek riskli açıkların yaklaşık %20'sine karşılık geliyor
- Düzeltmeler Firefox 148.0 sürümüne dahil edilerek yüz milyonlarca kullanıcıya dağıtıldı
- Mozilla, Anthropic'in raporlarını doğrularken hata raporu kriterlerini ve süreçlerini paylaştı, böylece iş birlikçi bir doğrulama sistemi kuruldu
- Bu iş birliği, yapay zeka tabanlı güvenlik araştırmacıları ile bakımcılar arasındaki iş birliği modeli için bir örnek olarak sunuluyor
Yapay zeka modeliyle açık tespit süreci
- Anthropic, CyberGym benchmark'ını aşan daha gerçekçi testler için Firefox CVE veri kümesi oluşturdu
- Firefox, karmaşık ve güvenliği yüksek bir açık kaynak proje olduğundan yapay zekanın tespit yeteneğini doğrulamak için uygun bir hedef oldu
- Claude, geçmiş CVE'leri yeniden ürettikten sonra en güncel sürümde yeni açıkları tespit etmeye çalıştı
- İlk 20 dakika içinde bir Use After Free bellek açığı buldu ve bağımsız doğrulamanın ardından bunu Mozilla'ya bildirdi
- Ardından Claude, 6.000'den fazla C++ dosyasını analiz ederek 112 benzersiz rapor sundu
- Sorunların çoğu Firefox 148'de düzeltildi; bir kısmı ise gelecek sürümlerde çözülecek
Açık exploit deneyi
- Claude'un güvenlik yeteneğinin üst sınırını değerlendirmek için, bulunan açıkları gerçek saldırı koduna dönüştürüp dönüştüremediği test edildi
- Yüzlerce test ve yaklaşık 4.000 dolar API maliyeti harcandı
- Sonuç olarak yalnızca 2 exploit gerçekten başarıya ulaştı; tespit becerisine kıyasla saldırı üretme becerisi düşük kaldı
- Başarılı exploit'ler yalnızca test ortamında çalıştı; gerçek tarayıcıdaki sandbox güvenlik özellikleri kaldırılmış durumdaydı
- Firefox'un çok katmanlı savunma yapısı bu tür saldırıları hafifletebilir
- Anthropic, bu deney üzerinden yapay zekanın saldırı araçlarını otomatik üretme olasılığına dikkat çekti
Yapay zeka tabanlı güvenlik araştırmaları için iyi uygulamalar
- Anthropic, patching agent araştırmasıyla LLM'lerin hata düzeltme ve doğrulama yapabileceği yöntemler geliştirdi
- Task verifier adlı yardımcı araç kullanılarak yapay zekanın çıktıları gerçek zamanlı doğrulandı
- Açığın ortadan kaldırılıp kaldırılmadığı ve program işlevinin korunup korunmadığı otomatik olarak test edildi
- Mozilla'nın güvenilir bulduğu raporların temel bileşenleri şu üç başlıktı
- En küçük yeniden üretim test vakası
- Ayrıntılı Proof-of-Concept
- Aday patch kodu
- Araştırmacılara, LLM tabanlı açık raporlarında doğrulanabilirlik ve yeniden üretilebilirlik kanıtlarını birlikte sunmaları tavsiye ediliyor
Gelecek görünümü ve güvenliği güçlendirme ihtiyacı
- Claude Opus 4.6, Firefox dışında Linux çekirdeği gibi önemli projelerde de açıklar buldu
- Bugün yapay zekanın tespit ve düzeltme yetenekleri, exploit üretme yeteneklerinden daha güçlü; bu da savunmacılar için avantajlı bir durum oluşturuyor
- Ancak modellerin gelişim hızı düşünüldüğünde, saldırı yeteneği farkının hızla kapanma ihtimali bulunuyor
- Anthropic, Claude Code Security aracılığıyla açık tespiti ve patching yeteneklerini araştırmacılar ile bakımcılara sunuyor
- Geliştiricilere, güvenliği güçlendirmek için kritik zaman penceresini değerlendirme çağrısı yaparken,
- Açık arama iş birlikleri
- Hata raporu sınıflandırma araçları geliştirme
- Otomatik patch önerisi yeteneklerini genişletme
planlarını da paylaşıyor
2 yorum
Mozilla Foundation Security Advisory 2026-13
Bu gerçekten inanılmaz.
Bu, sıkı test vakalarının ne kadar önemli olduğunu bir kez daha hatırlatan bir örnek gibi görünüyor.
Hacker News yorumları
Bir açık kaynak projesinde güvenliği sürdürmekten sorumluysanız, Claude Code ile bir güvenlik denetimi istemeyi öneririm
Firefox gibi büyük ölçekli projelerde zor olabilir, ancak çoğu proje için token maliyeti yaklaşık 3 dolar seviyesinde
Saldırganların bu tür bir denetimi zaten yapmış olma ihtimali yüksek olduğundan, bunu kendiniz yapmamak artık sorumlu bir tutum değil
Zulip’in ana kod tabanını denetlerken modele her bulguyu kendi kendine gözden geçirmesini istedim; bu süreçte çoğu yanlış pozitif (false positive) elendi
Sonrasında kalan sorunlar için kod yorumları ekleyip güvenlik modelinin amacını netleştirince, yeniden denetimde bunlar da neredeyse tamamen ortadan kalktı
“Bir haftalık işi birkaç saniyede yap” demek gerçekte mümkün değil
Sonuçlar ikna edici görünebilir ama gerçeği yansıtmayabilir
AI’yi bir stajyer gibi ele alırsanız hayal kırıklığı yaşamazsınız — koca bir programın güvenlik denetimini bir stajyere bırakır mıydınız?
Bazı durumlarda çok iyi çalışıyor, bazılarında ise tamamen işe yaramıyor
Farkın sonunda context engineering ve test harness kalitesine dayandığı görünüyor
Bu örnek de ilginçti ama daha somut açıklamalar olmasını isterdim
Ben de yakın zamanda bir projeyi açık kaynak olarak yayımladım ve bir Reddit kullanıcısı Claude ile tam bir güvenlik denetimi çalıştırıp 15 güvenlik açığı buldu
FTS injection, LIKE wildcard injection, API kimlik doğrulama eksikliği, gizlilik koruması eksikliği gibi gözden kaçırdığım çok nokta vardı
Şaşırtıcı olan, sonuçların çok sistematik olmasıydı — ciddiyet sınıflandırması, dosya yolları ve satır numaraları, hatta dokümantasyonla gerçek kod arasındaki tutarsızlıkların işaretlenmesi dahil
Özellikle “spesifikasyon ile gerçeklik arasındaki fark” analizi en faydalı kısımdı
LLM güvenlik denetiminin asıl değeri yeni bir zero-day bulmaktan çok, insanların üşenip atladığı tekrarlı ve ayrıntılı kontrolleri üstlenmesinde yatıyor
Firefox gibi tarayıcı güvenlik açıklarının karmaşıklığını anlayan çok fazla kişi yok
Basit bir UAF’ı wasm shellcode ile zincirleyip ileri taşımak bile günler sürebiliyor
AI siber yetenek yarışı şu an için hâlâ sakin, ama bu yıl içinde değişecek gibi görünüyor
Ben de Anthropic gibi Claude’a bir VM ve doğrulayıcı verip exploit üretmesini istedim; kctf-eval ortamında oldukça iyi çalıştı
Yine de modelin gerçekte neyi “anladığı”, yoksa sadece ödül sinyaline göre taklit mi ettiği hâlâ belirsiz
Mozilla’nın güvenlik duyurusunu güncellemiş olması ilginç
Tek bir sürümde 22 açığı kimin bulduğunu merak ediyordum, şimdi ortaya çıkmış oldu
Sadece dosya düşürme düzeyindeyse büyük tehdit sayılmaz, ama oturum verisi hırsızlığı gibi şeyler çok daha ilginç
Hataların somut içeriğinden söz edilmemesi tuhaf
Bunun basit bir edge case mi yoksa gerçekten anlamlı bir sorun mu olduğunu bilmek isterdim
LLM’ler tanıdık başarısızlık örüntülerini iyi yakalıyor ama bu her zaman önemli oldukları anlamına gelmiyor
Ben güvenlik uzmanı değilim ama sırf “LLM buldu” diye önemsiz sayılacak şeyler gibi görünmüyor
AI ajanlarıyla elde ettiğim sonuçlar karışıktı
Test kapsamını genişletme, fuzz test kurulumu, statik analiz araçlarını yapılandırma gibi işlerde faydalı oldular
Ancak gerçekte bir güvenlik sınırı olmadığı hâlde “çok güvenli” diye kesin hüküm verdikleri de oldu
Yerel hataları iyi buluyorlar ama birden fazla özelliğin etkileşimiyle oluşan bileşik açıkları neredeyse hiç yakalayamıyorlar
Sonuç olarak modelin güvenlik iddiaları her zaman doğrulanmalı
Bu yaklaşımın değeri, doğrulanabilir test case’ler üretmesinde yatıyor
Bu, basit bir analiz raporundan çok daha verimli
Eskiden “sadece yerel hataları iyi buluyor” demek doğruydu ama agentic SDK sayesinde durum değişti
Zaten kapsam yüksekse geriye kalan alanlar doğası gereği zor bölgelerdir
Özellikle iş mantığı açıklarını bile yakaladıkları oldu
Yerel hatalar göze çarpar, ama eksik güvenlik sınırları ilk bakışta yeterli görünebilir
Anthropic’in Firefox’u seçme nedeni açık
Çünkü hem yaygın biçimde dağıtılan açık kaynak bir proje hem de güvenlik incelemesinin yoğun olduğu bir proje
Chromium Google’ın Gemini’sini kullanıyor, Safari ise kapalı geliştirme kültürü nedeniyle iş birliğine uygun değil
Anthropic yazısına göre Claude’un yazdığı exploit sadece test ortamında çalıştı
Çünkü gerçek tarayıcının sandbox özelliği kaldırılmış durumdaydı
Bu nedenle Firefox’un çok katmanlı savunması (defense in depth) bu tür saldırıları hafifletmiş olurdu
Chrome da benzer bir politika izliyor
İlgili belgeler Security Severity Ratings sayfasında görülebilir
Sandbox’tan kaçış da mümkün olduğundan tüm hatalar düzeltilmeli
Saldırganlar bu tür kısmi zero-day açıklarını biriktirip birlikte kullanabilir
Bu düzeltme, böyle bir riski azaltması bakımından açık bir güvenlik iyileştirmesi başarısı
Ben de geceleri AI ajanlarını çalıştırıp test yazdırıyorum; Claude’a formal verification denetmesi için de görev verdiğim oldu
Görünüşe göre Anthropic de benzer bir yaklaşım kullanmış
Bundan sonra property test ve fuzz test otomasyonu için ek prompt’lar eklemeyi planlıyorum
Üzerinde çalıştığım problemlerin o kadar ağır bir yönteme ihtiyaç duymadığını düşünüyorum ama belki de bu yanlış bir değerlendirmedir
Bir gün Google’ın OSS-Fuzz sistemi gibi, açık kaynağın çekirdek projeleri için otomatik güvenlik denetim sistemleri çıkacak gibi geliyor
Anthropic zaten OSS bakımcılarına Claude erişimini ücretsiz veriyor
LLM’ler yüzünden bug bounty programlarının asılsız raporlarla dolup taşması gibi bir sorun doğdu, ama son modeller artık gerçek açıkları ayırt edecek seviyeye ulaşıyor
Ücretsiz ya da ucuz modellerle değerlendirme yaparsanız kalitenin düşük görünmesi kaçınılmaz
Bunun yerine gelişmiş LLM’lerle çalışan bir güvenlik denetim programı yürütülürse kalite güvence altına alınabilir
Bug bounty sistemini yaşatmak için katılım ücreti ya da LLM tabanlı doğrulama gibi yöntemler de düşünülebilir
İlgili bağlantı
Örneğin bir VM açılıp ajanın yeniden üretim testi yapması gibi