8 puan yazan GN⁺ 2026-03-07 | 2 yorum | WhatsApp'ta paylaş
  • Claude Opus 4.6, Mozilla ile iş birliği içinde Firefox'ta 22 güvenlik açığı buldu; bunların 14'ü yüksek risk seviyesinde sınıflandırıldı
  • Yapay zeka modelinin, karmaşık yazılımlardaki zero-day açıkları hızla tespit edebildiğini gösterdi; düzeltmeler Firefox 148.0 sürümüne yansıtıldı
  • Claude, JavaScript motoru dahil kod alanlarında binlerce dosyayı analiz ederek 112 rapor sundu; Mozilla bunları temel alarak düzeltmeler yaptı
  • Yapay zekanın açıkları tespit etme becerisi yüksek olsa da, gerçek exploit (saldırı kodu) yazma becerisinin sınırlı olduğu doğrulandı
  • Anthropic, yapay zeka tabanlı güvenlik araştırması iş birliği modelini ortaya koyarken, açık kaynak ekosistemiyle iş birliği üzerinden savunmacı odaklı güvenlik güçlendirmesi çağrısı yaptı

Mozilla ile iş birliğine genel bakış

  • Claude Opus 4.6, 2 haftalık analiz sonunda 22 Firefox açığı buldu; Mozilla bunların 14'ünü yüksek riskli olarak sınıflandırdı
    • Bu sayı, 2025'te Firefox'ta düzeltilen yüksek riskli açıkların yaklaşık %20'sine karşılık geliyor
    • Düzeltmeler Firefox 148.0 sürümüne dahil edilerek yüz milyonlarca kullanıcıya dağıtıldı
  • Mozilla, Anthropic'in raporlarını doğrularken hata raporu kriterlerini ve süreçlerini paylaştı, böylece iş birlikçi bir doğrulama sistemi kuruldu
  • Bu iş birliği, yapay zeka tabanlı güvenlik araştırmacıları ile bakımcılar arasındaki iş birliği modeli için bir örnek olarak sunuluyor

Yapay zeka modeliyle açık tespit süreci

  • Anthropic, CyberGym benchmark'ını aşan daha gerçekçi testler için Firefox CVE veri kümesi oluşturdu
    • Firefox, karmaşık ve güvenliği yüksek bir açık kaynak proje olduğundan yapay zekanın tespit yeteneğini doğrulamak için uygun bir hedef oldu
  • Claude, geçmiş CVE'leri yeniden ürettikten sonra en güncel sürümde yeni açıkları tespit etmeye çalıştı
    • İlk 20 dakika içinde bir Use After Free bellek açığı buldu ve bağımsız doğrulamanın ardından bunu Mozilla'ya bildirdi
  • Ardından Claude, 6.000'den fazla C++ dosyasını analiz ederek 112 benzersiz rapor sundu
    • Sorunların çoğu Firefox 148'de düzeltildi; bir kısmı ise gelecek sürümlerde çözülecek

Açık exploit deneyi

  • Claude'un güvenlik yeteneğinin üst sınırını değerlendirmek için, bulunan açıkları gerçek saldırı koduna dönüştürüp dönüştüremediği test edildi
    • Yüzlerce test ve yaklaşık 4.000 dolar API maliyeti harcandı
    • Sonuç olarak yalnızca 2 exploit gerçekten başarıya ulaştı; tespit becerisine kıyasla saldırı üretme becerisi düşük kaldı
  • Başarılı exploit'ler yalnızca test ortamında çalıştı; gerçek tarayıcıdaki sandbox güvenlik özellikleri kaldırılmış durumdaydı
    • Firefox'un çok katmanlı savunma yapısı bu tür saldırıları hafifletebilir
  • Anthropic, bu deney üzerinden yapay zekanın saldırı araçlarını otomatik üretme olasılığına dikkat çekti

Yapay zeka tabanlı güvenlik araştırmaları için iyi uygulamalar

  • Anthropic, patching agent araştırmasıyla LLM'lerin hata düzeltme ve doğrulama yapabileceği yöntemler geliştirdi
    • Task verifier adlı yardımcı araç kullanılarak yapay zekanın çıktıları gerçek zamanlı doğrulandı
    • Açığın ortadan kaldırılıp kaldırılmadığı ve program işlevinin korunup korunmadığı otomatik olarak test edildi
  • Mozilla'nın güvenilir bulduğu raporların temel bileşenleri şu üç başlıktı
    • En küçük yeniden üretim test vakası
    • Ayrıntılı Proof-of-Concept
    • Aday patch kodu
  • Araştırmacılara, LLM tabanlı açık raporlarında doğrulanabilirlik ve yeniden üretilebilirlik kanıtlarını birlikte sunmaları tavsiye ediliyor

Gelecek görünümü ve güvenliği güçlendirme ihtiyacı

  • Claude Opus 4.6, Firefox dışında Linux çekirdeği gibi önemli projelerde de açıklar buldu
  • Bugün yapay zekanın tespit ve düzeltme yetenekleri, exploit üretme yeteneklerinden daha güçlü; bu da savunmacılar için avantajlı bir durum oluşturuyor
  • Ancak modellerin gelişim hızı düşünüldüğünde, saldırı yeteneği farkının hızla kapanma ihtimali bulunuyor
  • Anthropic, Claude Code Security aracılığıyla açık tespiti ve patching yeteneklerini araştırmacılar ile bakımcılara sunuyor
  • Geliştiricilere, güvenliği güçlendirmek için kritik zaman penceresini değerlendirme çağrısı yaparken,
    • Açık arama iş birlikleri
    • Hata raporu sınıflandırma araçları geliştirme
    • Otomatik patch önerisi yeteneklerini genişletme
      planlarını da paylaşıyor

2 yorum

 
mammal 2026-03-07

Mozilla Foundation Security Advisory 2026-13

Bu gerçekten inanılmaz.

Bu, sıkı test vakalarının ne kadar önemli olduğunu bir kez daha hatırlatan bir örnek gibi görünüyor.

 
GN⁺ 2026-03-07
Hacker News yorumları
  • Bir açık kaynak projesinde güvenliği sürdürmekten sorumluysanız, Claude Code ile bir güvenlik denetimi istemeyi öneririm
    Firefox gibi büyük ölçekli projelerde zor olabilir, ancak çoğu proje için token maliyeti yaklaşık 3 dolar seviyesinde
    Saldırganların bu tür bir denetimi zaten yapmış olma ihtimali yüksek olduğundan, bunu kendiniz yapmamak artık sorumlu bir tutum değil
    Zulip’in ana kod tabanını denetlerken modele her bulguyu kendi kendine gözden geçirmesini istedim; bu süreçte çoğu yanlış pozitif (false positive) elendi
    Sonrasında kalan sorunlar için kod yorumları ekleyip güvenlik modelinin amacını netleştirince, yeniden denetimde bunlar da neredeyse tamamen ortadan kalktı

    • AI’yi bu şekilde kullanmayı önermem
      “Bir haftalık işi birkaç saniyede yap” demek gerçekte mümkün değil
      Sonuçlar ikna edici görünebilir ama gerçeği yansıtmayabilir
      AI’yi bir stajyer gibi ele alırsanız hayal kırıklığı yaşamazsınız — koca bir programın güvenlik denetimini bir stajyere bırakır mıydınız?
    • AI güvenlik denetimi için en iyi pratikleri derleyen uzun bir yazı olup olmadığını merak ediyorum
      Bazı durumlarda çok iyi çalışıyor, bazılarında ise tamamen işe yaramıyor
      Farkın sonunda context engineering ve test harness kalitesine dayandığı görünüyor
      Bu örnek de ilginçti ama daha somut açıklamalar olmasını isterdim
  • Ben de yakın zamanda bir projeyi açık kaynak olarak yayımladım ve bir Reddit kullanıcısı Claude ile tam bir güvenlik denetimi çalıştırıp 15 güvenlik açığı buldu
    FTS injection, LIKE wildcard injection, API kimlik doğrulama eksikliği, gizlilik koruması eksikliği gibi gözden kaçırdığım çok nokta vardı
    Şaşırtıcı olan, sonuçların çok sistematik olmasıydı — ciddiyet sınıflandırması, dosya yolları ve satır numaraları, hatta dokümantasyonla gerçek kod arasındaki tutarsızlıkların işaretlenmesi dahil
    Özellikle “spesifikasyon ile gerçeklik arasındaki fark” analizi en faydalı kısımdı
    LLM güvenlik denetiminin asıl değeri yeni bir zero-day bulmaktan çok, insanların üşenip atladığı tekrarlı ve ayrıntılı kontrolleri üstlenmesinde yatıyor

  • Firefox gibi tarayıcı güvenlik açıklarının karmaşıklığını anlayan çok fazla kişi yok
    Basit bir UAF’ı wasm shellcode ile zincirleyip ileri taşımak bile günler sürebiliyor
    AI siber yetenek yarışı şu an için hâlâ sakin, ama bu yıl içinde değişecek gibi görünüyor
    Ben de Anthropic gibi Claude’a bir VM ve doğrulayıcı verip exploit üretmesini istedim; kctf-eval ortamında oldukça iyi çalıştı
    Yine de modelin gerçekte neyi “anladığı”, yoksa sadece ödül sinyaline göre taklit mi ettiği hâlâ belirsiz

  • Mozilla’nın güvenlik duyurusunu güncellemiş olması ilginç
    Tek bir sürümde 22 açığı kimin bulduğunu merak ediyordum, şimdi ortaya çıkmış oldu

    • “Use After Free” ifadesi tekrar tekrar geçiyor ama bu açıkların pratikte neye yol açabileceğine dair somut açıklama az
      Sadece dosya düşürme düzeyindeyse büyük tehdit sayılmaz, ama oturum verisi hırsızlığı gibi şeyler çok daha ilginç
    • Tanıdık birçok isim görünüyor
  • Hataların somut içeriğinden söz edilmemesi tuhaf
    Bunun basit bir edge case mi yoksa gerçekten anlamlı bir sorun mu olduğunu bilmek isterdim
    LLM’ler tanıdık başarısızlık örüntülerini iyi yakalıyor ama bu her zaman önemli oldukları anlamına gelmiyor

    • Hata listesini Anthropic’in orijinal yazısında ve Mozilla’nın güvenlik duyurusunda görebilirsiniz
    • Claude’un bulduğu bazı hatalar oldukça ciddi düzeydeydi
      Ben güvenlik uzmanı değilim ama sırf “LLM buldu” diye önemsiz sayılacak şeyler gibi görünmüyor
    • Bulunan hatalardan birine dair ayrıntılı bir analiz yazısı var
    • Somut açıklama olmayınca pazarlama amaçlı bir yazı gibi görünüyor
  • AI ajanlarıyla elde ettiğim sonuçlar karışıktı
    Test kapsamını genişletme, fuzz test kurulumu, statik analiz araçlarını yapılandırma gibi işlerde faydalı oldular
    Ancak gerçekte bir güvenlik sınırı olmadığı hâlde “çok güvenli” diye kesin hüküm verdikleri de oldu
    Yerel hataları iyi buluyorlar ama birden fazla özelliğin etkileşimiyle oluşan bileşik açıkları neredeyse hiç yakalayamıyorlar
    Sonuç olarak modelin güvenlik iddiaları her zaman doğrulanmalı

    • [Mozilla çalışanı] LLM’lerin sık sık yanlış çıktığına katılıyorum
      Bu yaklaşımın değeri, doğrulanabilir test case’ler üretmesinde yatıyor
      Bu, basit bir analiz raporundan çok daha verimli
      Eskiden “sadece yerel hataları iyi buluyor” demek doğruydu ama agentic SDK sayesinde durum değişti
    • Kapsam boşluklarını AI’ye tamamlattığınızda çok sayıda anlamsız test üretiliyor
      Zaten kapsam yüksekse geriye kalan alanlar doğası gereği zor bölgelerdir
    • Geleneksel statik analiz de örüntü eşleme temelliydi ama son dönemdeki AI tabanlı statik analiz araçları çok daha iyi sonuç veriyor
      Özellikle iş mantığı açıklarını bile yakaladıkları oldu
    • Aslında bu sınırlamalar gerçek geliştiriciler için de geçerli
      Yerel hatalar göze çarpar, ama eksik güvenlik sınırları ilk bakışta yeterli görünebilir
    • Anthropic’in red team’e özel Claude sürümünü kullananlarla normal kullanıcıların erişim düzeyi aynı değil
  • Anthropic’in Firefox’u seçme nedeni açık
    Çünkü hem yaygın biçimde dağıtılan açık kaynak bir proje hem de güvenlik incelemesinin yoğun olduğu bir proje
    Chromium Google’ın Gemini’sini kullanıyor, Safari ise kapalı geliştirme kültürü nedeniyle iş birliğine uygun değil

    • Firefox, Chromium kadar karmaşık ama kaynakları çok daha sınırlı bir proje, bu yüzden deney için uygun
    • Safari’de black-box saldırı gerekeceğinden bu tür bir yaklaşım zor olurdu
  • Anthropic yazısına göre Claude’un yazdığı exploit sadece test ortamında çalıştı
    Çünkü gerçek tarayıcının sandbox özelliği kaldırılmış durumdaydı
    Bu nedenle Firefox’un çok katmanlı savunması (defense in depth) bu tür saldırıları hafifletmiş olurdu

    • [Anthropic çalışanı, eski Mozilla] Firefox, sandbox içindeki açıkları da bağımsız güvenlik sorunu olarak değerlendiriyor
      Chrome da benzer bir politika izliyor
      İlgili belgeler Security Severity Ratings sayfasında görülebilir
    • Sandbox var diye açıkları görmezden gelmek uygun olmaz
      Sandbox’tan kaçış da mümkün olduğundan tüm hatalar düzeltilmeli
    • Sandbox engelliyor olsa bile açığı düzeltmek önemlidir
      Saldırganlar bu tür kısmi zero-day açıklarını biriktirip birlikte kullanabilir
      Bu düzeltme, böyle bir riski azaltması bakımından açık bir güvenlik iyileştirmesi başarısı
  • Ben de geceleri AI ajanlarını çalıştırıp test yazdırıyorum; Claude’a formal verification denetmesi için de görev verdiğim oldu
    Görünüşe göre Anthropic de benzer bir yaklaşım kullanmış
    Bundan sonra property test ve fuzz test otomasyonu için ek prompt’lar eklemeyi planlıyorum

    • Hafif formal verification uygulanan gerçek örnekler olup olmadığını merak ediyorum
      Üzerinde çalıştığım problemlerin o kadar ağır bir yönteme ihtiyaç duymadığını düşünüyorum ama belki de bu yanlış bir değerlendirmedir
  • Bir gün Google’ın OSS-Fuzz sistemi gibi, açık kaynağın çekirdek projeleri için otomatik güvenlik denetim sistemleri çıkacak gibi geliyor
    Anthropic zaten OSS bakımcılarına Claude erişimini ücretsiz veriyor
    LLM’ler yüzünden bug bounty programlarının asılsız raporlarla dolup taşması gibi bir sorun doğdu, ama son modeller artık gerçek açıkları ayırt edecek seviyeye ulaşıyor
    Ücretsiz ya da ucuz modellerle değerlendirme yaparsanız kalitenin düşük görünmesi kaçınılmaz
    Bunun yerine gelişmiş LLM’lerle çalışan bir güvenlik denetim programı yürütülürse kalite güvence altına alınabilir
    Bug bounty sistemini yaşatmak için katılım ücreti ya da LLM tabanlı doğrulama gibi yöntemler de düşünülebilir

    • Google zaten Big Sleep adlı AI tabanlı bir güvenlik projesi yürütüyor ve çeşitli açık kaynak projelerine açık raporluyor
      İlgili bağlantı
    • Hata raporlarını otomatik doğrulayan bir sistem olsa iyi olurdu
      Örneğin bir VM açılıp ajanın yeniden üretim testi yapması gibi
    • Anthropic’in ücretsiz erişimi 6 ayda bir otomatik yenileme modeliyle sunduğunu hatırlıyorum