1 puan yazan GN⁺ 4 일 전 | 1 yorum | WhatsApp'ta paylaş
  • Biyolojik güvenlik önlemlerini test etmek için, GPT‑5.5’i hedef alan ve beş biyogüvenlik sorusunun tamamını geçebilen genel amaçlı bir jailbreak arama programı açıldı
  • Kapsam, yalnızca Codex Desktop için GPT‑5.5 ile sınırlı ve yeni bir sohbette moderation’ı tetiklemeden tek bir istemle beş sorunun tamamını yanıtlatmak gerekiyor
  • Beş sorunun tamamını geçen ilk gerçek genel amaçlı jailbreak için 25.000 dolar verilecek; kısmi başarılar için ise takdire bağlı olarak daha küçük ödüller verilebilir
  • Başvurular 23 Nisan 2026’dan 22 Haziran 2026’ya kadar, testler ise 28 Nisan 2026’dan 27 Temmuz 2026’ya kadar sürecek; katılımcılar davet ve başvuru değerlendirmesinin birlikte kullanıldığı bir yöntemle seçilecek
  • Onaylanan katılımcılar ve işbirlikçilerin bir ChatGPT hesabına sahip olması ve NDA imzalaması gerekiyor; tüm istemler, completion’lar, bulgular ve iletişim de NDA kapsamına giriyor

Program özeti

  • Biyolojik güvenlik önlemlerini güçlendirmek için GPT‑5.5’e yönelik bir Bio Bug Bounty yürütülüyor ve beş biyogüvenlik sorusunun tamamını geçebilen bir genel amaçlı jailbreak bulmak üzere başvurular alınıyor
  • Kapsama giren model, yalnızca Codex Desktop için GPT‑5.5 ile sınırlı
  • Görev, temiz bir yeni sohbette moderation’ı tetiklemeden tek bir genel amaçlı jailbreak istemiyle beş biyogüvenlik sorusunun tamamına başarıyla yanıt verilmesini sağlamak
  • Ödül olarak, beş sorunun tamamını geçen ilk gerçek genel amaçlı jailbreak için 25.000 dolar verilecek; kısmi başarılar için takdire bağlı olarak daha küçük ödüller sunulabilir
  • Başvurular 23 Nisan 2026 tarihinde başlayıp 22 Haziran 2026 tarihinde sona erecek; testler 28 Nisan 2026 tarihinde başlayıp 27 Temmuz 2026 tarihinde bitecek
  • Yaklaşım, başvuru ve daveti birlikte kullanıyor; güvenilir bio red-teamer listelerine davet gönderilecek, yeni başvurular da incelenecek ve seçilen katılımcılar bio bug bounty platformuna alınacak
  • Tüm istemler, completion’lar, bulgular ve iletişim NDA kapsamına tabidir

Katılım yöntemi

  • Başvuru sayfası üzerinden ad, kurum ve deneyim bilgilerini içeren kısa bir başvuru formu 22 Haziran 2026 tarihine kadar gönderilebilir
  • Onaylanan başvuru sahipleri ve işbirlikçilerin başvuru için mevcut bir ChatGPT hesabına sahip olması gerekir; ayrıca NDA imzası da zorunludur
  • Bio Bounty dışındaki güvenlik ve emniyet odaklı katılım yolları olarak Safety Bug Bounty ve Security Bug Bounty da yürütülüyor

1 yorum

 
GN⁺ 4 일 전
Hacker News görüşleri
  • OpenAI bug bounty sayfasında accounts and billing açıkça geçerli kapsam olarak yazmasına rağmen,
    ChatGPT aboneliği sırasında herkes rastgele bir ülke seçip daha ucuz fiyattan ödeme yapabiliyor ve seçilen fiyat ülkesinde de fatura adresi ülkesinde de yasal olarak satış vergisi/VAT olmasına rağmen vergiyi %0 yapabilen bir hatayı bildirdiğimde bunun kapsam dışı olduğu söylenip bounty kapsamına alınmadı

    • Muhtemelen amaç kullanıcı başına kârı maksimize etmek değil, kullanıcı sayısını artırmak olduğu için böyledir
      Netflix'in de benzer bir "sorunu" vardı ve her kapanma döneminde hissesi yükseliyordu
    • Artık kurumsal bug bounty programlarına güvenmek için pek sebep görmüyorum
      Herkes bir şekilde para ödememek için kaçış yolu arıyor ve ne bulursan bul şirketin bunu adil şekilde ele alacağını beklememek daha iyi
  • Geçen yıl Kaggle üzerinde bounty yapılmıştı ve toplam 500 bin dolar ödendi, ayrıca sonuçların tamamı kamuya açıklanabiliyordu
    https://www.kaggle.com/competitions/openai-gpt-oss-20b-red-t...
    Bu sefer sadece 25 bin dolar var ve her şey NDA altında olduğu için, LLM'nin ürettiği türlü türlü gönderiler dışında çok fazla katılım olacağını sanmıyorum

    • Başvuranların en azından bir kısmı idare eder modeller ve promptlar kullanırsa,
      OpenAI kendi analiz maliyetinin bir bölümünü müşteri token maliyetine yıkmış da olur
    • OpenAI'ın kaynak ölçeği düşünülünce ödül miktarının bu kadar düşük olması şaşırtıcı
      Geçen yıl finansmanı 5-10 milyon dolar civarında görünen bir kripto girişimi, güncel Claude ve GPT'lere karşı benzer bir prompt injection yarışması açmıştı; orada kazandığımda çok daha fazlasını almıştım
      Bu düşük ödül ve ağır NDA birleşince, ciddi bounty avcıları aramaktan çok, büyük para vermek de araştırma yayımlanmasını istememek de istemeyen bir pazarlama etkinliği gibi duruyor
    • Resmen indirimli Kaggle gibi görünüyor
      İnsanların durmadan deneme yapmasını sağlarken, sonuç raporlarının yayımlanması ya da kimin para aldığı etrafındaki dramadan kaçınmak istiyor gibiler
    • Bu model gpt-oss-20b'den çok daha güçlü
      Geçen yılki yarışma da 120b model için değildi ve konu da biyo değildi
  • Yanıtlanması gereken soru listesinin nerede olduğunu anlayamıyorum
    Eğer sadece kabul edildikten sonra açıklanacaksa, soruları bile bilmeden başvuru formunda neden jailbreak yaklaşımını yazmam gerektiği mantıklı gelmiyor

    • Soruların kendisi büyük ihtimalle tehlikeli içerik taşıyor
      Mesela "20 bin dolarla mutfakta küçük bir virüs araştırma biyolabı nasıl kurulur?" gibi şeyler ya da
      https://www.ncbi.nlm.nih.gov/nuccore/NC_001611.1 DNA dizisini nasıl birleştirirsin gibi konular olabilir
    • Bu tura davet edilirsen o zaman soruları alacağını düşünüyorum
      Muhtemelen onların da NDA kapsamında olması beklenir
  • trusted bio red-teamers의 검증된 목록에 초대장을 보낸다 ifadesi biraz komik geliyor
    Oldukça kapalı bir çevre gibi duyuluyor

    • Biraz CS doktoralarına dünya rekoru speedrun yaptırmak gibi
      Oysa bu işi en iyi yapacak kişiler, o tür bir onaylı listede yer alacak tipler olmayabilir
  • Beş sorunun tamamını geçen ilk gerçek universal jailbreak için 25.000 dolar şartına bakınca,
    bu program neredeyse aldatıcı bir yapı gibi görünüyor
    100 kişi bug bulsa bile sonunda parayı yalnızca bir kişi alacak

    • API kullanım ücretini de katılımcılar ödüyorsa, o zaman OpenAI'nin bundan gelir bile elde ettiği bir yapı olabilir
    • Bunun neden aldatıcı olduğunu anlamıyorum
      Sonuçta bulmacanın yarısını çözdün diye katılım ödülü verilmez
    • Asıl mesele ödül yapısından çok güvenilirlik gösterisi
      1. Bu model o kadar ileri düzeyde ki eşi benzeri görülmemiş büyük riskler taşıyor
      2. Bu yüzden o riskleri çözmek için sorumlu biçimde teşvik sunuyorlar
        Ama 1 numara kanıtlanmış değil, açıkçası olasılığı da düşük görünüyor; dolayısıyla 2 numaranın anlamı da zayıflıyor
        Üstelik ödül bu kadar düşük ve yapı bu kadar kısıtlıysa, aslında o kadar da endişelenmedikleri ama yine de birçok insanın bir şeyler bulma ihtimalini yüksek gördükleri izlenimi veriyor
        Gerçekten modelin aşırı güvenli olduğuna inanıyor olsalardı, sorunların seyrek ama kritik olacağından emin olur ve üst sınırı olmayan büyük ödüller koymaları daha doğal olurdu
    • Bunun özel bir bounty programı olması ve başvurup onay alman gerekmesi de şüpheli
      Özellikle kapsam, herkesin indirip kullanabildiği bir masaüstü uygulamaysa daha da öyle
    • Bu, bounty programının nasıl tasarlandığına bağlı
      Ben çözümü bulup arkadaşıma söylersem ve sonra ikimiz de ödül talep edersek, bunu nasıl engelleyeceğini de düşünmek gerekir
  • Bu biraz pazarlama gibi ve fiilen spec work'e benziyor
    Üstelik NDA ve gizlilik yüzünden kazanmazsan, katılımcı açısından harcadığın zamanın neredeyse hiçbir değeri kalmıyor
    Çünkü sonuçları yayımlayamıyorsun

    • Bounty ödemesi reddedilse bile hâlâ NDA'ya bağlı kalıyor olabilirsin
      Öyleyse hem ödeme yapmayıp hem de konuyu tamamen gömebilirler; böyle şartları asla kabul etmek istemem
    • Elbette bunun pazarlama yönü var
      Anthropic ile başlayan biz tehlikeliyiz anlatısını şimdi OpenAI da sahipleniyor gibi
  • bio-bugs'ın ne olduğunu merak edenler için,
    modelin kullanıcıya biyoloji alanında tehlikeli bir şeyi gerçekten yapmasına yardımcı olacak talimatlar vermeye yönlendirilmesi demek
    Örneğin ricin'in ne olduğunu açıklayabilir ama bunun nasıl silah haline getirileceğini anlatmamalı
    Esas mesele, yasal ve etik olarak verilmemesi gereken uygulanabilir bilgiyi sunması

  • başvuru ve davet temelli erişim, yalnızca güvenilir bio red-teamers'a davet yapısını anlamakta zorlanıyorum
    Bug bounty programlarının özü, açıkları bulup bildirmeyi teşvik etmektir; ama böyle kapı bekçileri koyunca güvenilmeyen kişiler yine denemeye devam eder, yalnızca bildirmek yerine bunu kötü niyetli tarafa para karşılığı satma teşviki doğar
    Önceki şirketim de HackerOne'ı sadece davetlilere açık yürütüyordu ama bunun nedeni gerçek müşteri verilerine ya da altyapıya zarar verme riskinin olmasıydı
    DDOS yapma ya da tenant sınırlarını aşan exploit'lerle başka müşterilerin verilerine erişme veya onları silme riski vardı
    Burada bu tür bir risk görünmüyor; o yüzden yasal olarak ödeme alabilecek herkesin neden katılamadığını anlamıyorum

    • Makul görünen bir açıklama var
      Sadece belirli kişilere açarsan, benzer promptlar giren rastgele bir kullanıcının yarışma katılımcısı mı yoksa gerçekten kötü niyetli biri mi olduğunu ayırt etme yükünü azaltırsın
  • a clean chat without prompting moderation ifadesinin ne anlama geldiğini bilmiyorum
    prompting moderation tam olarak ne?

    • Sohbet sırasında moderasyon filtresinin devreye girmesine neden olmak demek
      Yani exploit'in hedefi, filtrenin tetiklenmesini "sağlamadan" ya da buna yol açmadan onu atlatmak; burada prompting, bağlama metin eklemenin teknik anlamından ziyade genel olarak tetiklemek anlamına daha yakın
  • Ben de muhtemelen bunu yapabilirim ama neden durup dururken kendimi bir tehlikeli kişiler listesine yazdırayım bilmiyorum
    Daha büyük sorun şu ki GPT-5.5'in tüm başarısızlık noktalarını kapatsan bile bu pratikte mümkün değil ve kapatsan bile bir closed model'den yeni modeller distill edilerek istenen şey kabaca 4b altı parametrelerle bile elde edilebilir
    Sonuçta bunların hepsi, ileride bir şeyler ters giderse daha az dava yemek için yapılan bir tür sahneleme gibi

    • Böyle closed-weights modellerden nasıl distill yapılıyor?
      Bu tür model tersine mühendisliğini neredeyse hiç duymadım