2 puan yazan GN⁺ 2025-01-20 | 1 yorum | WhatsApp'ta paylaş
  • Kısa süre önce OpenAI, yeni modeli o3'ü tanıtırken matematik alanında çığır açan performans elde ettiğini duyurdu
  • Özellikle önceki modellerin %2 başarabildiği FrontierMath benchmark'ında %25'e ulaşması büyük ilgi gördü
  • Duyurunun ardından, bu benchmark'ın oluşturulma süreciyle ilgili şeffaflığın yetersiz olduğu yönünde eleştiriler geldi
  • Buradan gelecekteki yapay zeka benchmark'ları, değerlendirme ve güvenlik tartışmaları için dersler çıkarılabilir

Olayın özeti

  • 2024 Kasım ayından önce Epoch AI, matematik değerlendirmesi için FrontierMath benchmark'ını oluşturmaya başladı
  • Dışarıdan matematikçilere sorular hazırlattı ve yaklaşık 300 ila 1000 dolar ödeme yaptı
  • O sırada finansmanı kimin sağladığı ve soruları ile çözümleri kimin görebildiği net değildi
  • 7 Kasım 2024'te Epoch AI, makalenin ilk sürümünü arXiv'de yayımladı; burada finansman kaynağından hiç söz edilmedi
  • 20 Aralık 2024'te OpenAI, o3 modelini tanıttı ve FrontierMath'ta %25 elde ettiğini açıkladı
  • Aynı gün Epoch AI makalesinin v5 sürümü arXiv'de güncellendi; burada OpenAI'nin projeyi tamamen finanse ettiği ve zor soruların çoğuna ve çözümlerine erişebildiği açıklandı

Ek ayrıntılar

  • Aralık güncellemesinin hemen ardından da bu konuda kaygılar vardı; son dönemde daha fazla ilgili bilgi ortaya çıktı
  • FrontierMath zorluk seviyesini (a) olimpiyat düzeyi (%25), (b) orta zorluk (%50), (c) uzmanların birkaç haftaya ihtiyaç duyduğu düzey (%25) olarak ayırıyor
  • o3'ün %25 elde ettiğine dair duyuruda, ağırlıklı olarak hangi zorluk seviyesindeki soruları çözdüğünün açıklanmamış olması yanlış anlamalara yol açabilir
  • OpenAI tüm sorulara ve çözümlere erişmiş olsa da, sözlü bir anlaşmaya göre bu veri kümesini doğrudan eğitimde kullanmadığı tahmin ediliyor
  • Ancak içeride modelin tam olarak hangi yöntemlerle eğitildiğini kimsenin kesin biçimde bilmesinin zor olduğu da belirtiliyor

Bunun başka neden sorun olduğu

  • FrontierMath sorularına sahip olmak ya da erişebilmek, model performansını artırmaya dolaylı olarak yardımcı olabilir
  • Özellikle yayımlanmamış zor sorular üzerinden model doğrulama veya arama tekniklerinin daha rafine hale getirilebileceği yönünde kaygılar dile getiriliyor
  • %25 başarısının gerçekten zor problem çözme yeteneği anlamına mı geldiği, yoksa daha çok kolay soruların çözülmesinden mi kaynaklandığı belirsiz

Açık eğitim olmadan da yeteneği artırabilen veri kümesi

  • o3'ün iç yapısı iyi açıklanmış değil; ancak bazı başka araştırmalar “çıkarım aşamasında ölçeği büyütme” yaklaşımını benimsiyor
  • MCMC tabanlı Chain-of-thought değerlendirmesini otomatik öğrenmek ya da ara adımlara ödül modeli (PRM) ekleyerek aramayı güçlendirmek gibi çalışmalar tanıtılıyor
  • FrontierMath gibi zor benchmark'lar bu tür ödül modeli doğrulamaları için faydalı olabilir
  • Yani doğrudan eğitime katılmasa bile, modelin arama stratejilerini veya doğrulama tekniklerini ayarlamak için kullanılma ihtimali var
  • Amaç bağımsız ve adil değerlendirme ise, yalnızca bir kez değerlendirme yapmak ve başka amaçlarla kullanmamak daha uygun olur görüşü dile getiriliyor

Yapay zeka güvenliği kaygıları

  • Epoch AI, yapay zekanın gelişim eğilimlerini takip eden ve güvenlik üzerine düşünen bir kuruluş olarak biliniyor
  • FrontierMath'a soru sağlayan matematikçiler arasında, bunun yapay zeka yeteneklerini artırmak için kullanılacağını bilselerdi katkı vermeyecek kişiler de olmuş olabilir
  • Sonuçta OpenAI'nin, istemeyen kişilerden dolaylı biçimde soru temin ederek modeli doğrulayıp geliştirmiş olduğu eleştirisi yapılıyor
  • Bu tür bir şeffaflık eksikliği, yapay zeka güvenliği ve araştırma etiği açısından kaygı doğuruyor

AI Safety Researcher olan meemi'nin yorumu

  • FrontierMath, OpenAI'den fon aldı
  • Bu bilginin 20 Aralık'tan önce dışarıya şeffaf biçimde açıklanmadığı eleştirisi var
  • arXiv'e yüklenen ilk sürümlerde (v1–v4) OpenAI desteğine dair hiçbir ifade yoktu; ancak 20 Aralık sonrasında yayımlanan sürümde buna ilk kez değinildiği belirtiliyor
  • Epoch AI'nin OpenAI ile nasıl bir anlaşma yaptığı net bilinmiyor; ancak o3 duyurusu (20 Aralık) öncesine kadar finansman bilgisinin gizli tutulmuş olabileceği öne sürülüyor
  • Matematik sorusu hazırlayan matematikçilere OpenAI finansmanının varlığının aktif biçimde iletilmediği söyleniyor
  • Sözleşmeli katılımcılar NDA imzaladı ve soruları ile çözümleri e-posta veya Overleaf gibi araçlarla paylaşmaları engellenerek sıkı güvenlik uygulandı
  • Ancak bu kişilere OpenAI finansmanı veya verinin kullanım ihtimali konusunda net bilgi verilmediği eleştirisi var
  • Hatta bazı yazarların bile finansmanın OpenAI'den geldiğini bilmiyor olabileceği iddia ediliyor
  • Görünüşe göre çoğu kişi ve sözleşmeli katılımcı, “bu benchmark'ın soru ve cevapları tamamen gizli kalacak ve yalnızca Epoch tarafından kullanılacak” anlayışına sahipti
  • Şu anda Epoch AI ya da OpenAI, OpenAI'nin sorulara veya çözümlere eriştiğini açıkça duyurmuyor; ancak pratikte OpenAI'nin bunları kullandığına dair söylentiler bulunuyor
  • Bu veri kümesinin eğitim amacıyla kullanılmasını engelleyen açık bir anlaşma olup olmadığı da belirsiz olarak aktarılıyor
  • Sonuç olarak, finansman ve verinin olası kullanımı konusunda açık bilgilendirme yapılması ve soruları hazırlayan sözleşmeli çalışanlara yeterli bilgi verilmesi gerektiğini savunan eleştirel bir bakış mevcut

Epoch AI'dan Tamay'ın yorumu

  • Epoch AI'dan Tamay, şeffaflık sorununu doğrudan kabul etti
    • OpenAI'nin dahil olduğunun, o3 çıkışından önce açıklanmasını engelleyen sözleşme koşulları vardı
    • Ardından şeffaflığın yetersiz kaldığını kabul ederek, katkı verenlere daha erken bilgi verilmesi gerektiğini söyledi
    • Finansman kaynağı ve veri erişim yetkileri konusunda açık iletişim kurulamamış olmasını kendi hataları olarak kabul etti
  • Gelecekteki iş birliklerinde şeffaflığı iyileştirme sözü
    • Bundan sonra katkı verenlerin en baştan finansman kaynağını, veri erişimini ve kullanım amacını açık biçimde bilebilmesi için çalışacaklarını belirtti
    • Bazı matematikçilere bir laboratuvardan fon alındığı söylenmiş olsa da bunun sistematik biçimde iletilmediğini ifade etti
    • Belirli laboratuvarın adını, yani OpenAI'yi, açıklamadan ilerlemiş olmalarının sorun olduğunu düşündüğünü söyledi
    • En baştan bu iş birliğini açıklayabilmek için daha güçlü müzakere etmeleri gerektiğini belirtti
  • o3 çıkış zamanına kadar açıklamanın kısıtlı olması sorunu
    • Sözleşmesel yükümlülükler nedeniyle OpenAI ile ortaklığın o3'ün çıkışına kadar açıklanamadığı bir durum söz konusuydu
    • Soruları hazırlayan matematikçilerin, çalışmalarının kime aktarılabileceğini bilme hakkı vardı
    • Sözleşme nedeniyle katkı verenlere bunu düzgün anlatamamış olmaktan pişmanlık duyduğunu ifade etti
  • Veri erişimi ve eğitimde kullanım ihtimali
    • OpenAI, FrontierMath sorularının ve çözümlerinin önemli bir bölümüne erişebiliyor
    • Ancak bunların eğitim amacıyla kullanılmayacağına dair sözlü bir anlaşma olduğunu söyledi
    • OpenAI çalışanları FrontierMath'tan kamuya açık biçimde “strongly held out set” olarak söz etti
    • Ayrıca bağımsız doğrulama için OpenAI'nin erişemediği ayrı bir holdout set bulunduğu belirtildi
    • Bununla aşırı model eğitimi veya overfitting'in önlenmesi ve nesnel performans ölçümünün korunması amaçlanıyor
  • FrontierMath'ın ilk amacı
    • FrontierMath baştan itibaren değerlendirme amaçlı tasarlanıp duyurulmuş bir projeydi
    • OpenAI'nin de gerçek bir test setinin korunması kararını desteklediği ifade edildi
    • Hem akademinin hem de araştırma laboratuvarlarının gerçekten kirlenmemiş, yani eğitimde kullanılmamış test setlerine sahip olmasının önemli olduğu vurgulandı
  • [Düzeltme] OpenAI'nin veri erişim kapsamı
    • Yanlış anlamayı azaltmak için, OpenAI'nin bağımsız doğrulama için ayrılmış nihai holdout set'e erişimi olmadığı özellikle belirtildi

1 yorum

 
GN⁺ 2025-01-20
Hacker News yorumu
  • Sözlü bir anlaşmayla model eğitiminde kullanılmayacağına dair bir taahhüt verilmiş olsa bile, bu tür anlaşmaların sık sık ihlal edilebildiğine dikkat çekiliyor

    • OpenAI'nin benchmark verilerine erişebilmiş olmasına rağmen, bunların eğitimde kullanılmayacağına dair yalnızca sözlü bir mutabakat yapılmış olmasına şüpheyle yaklaşılıyor
  • Epoch'un kurucu ortaklarından biri, OpenAI'nin FrontierMath problemlerine ve çözümlerine erişebildiğini kabul etti ancak sözlü bir anlaşmayla bunların eğitimde kullanılmamasının kararlaştırıldığını belirtti

    • Sözlü anlaşmaların güvenilirliği sorgulanıyor; ayrıca OpenAI'nin teknik olarak anlaşmaya uysa bile benchmark'ta haksız avantaj elde edebileceği pek çok yol olduğu vurgulanıyor
  • OpenAI'nin pazarlamasına olduğu gibi inananlara yönelik eleştiri

    • Sora demosunda elle düzenleme yapılmış olmasına rağmen bunun belirtilmemesi örnek gösteriliyor
  • Epoch AI'dan Tamay, OpenAI'nin katılımı konusunda yeterince şeffaf olamadıklarını kabul ediyor

    • Sözleşme nedeniyle bilgi açıklamanın kısıtlandığını ve benchmark'a katkı sağlayanlara daha erken şeffaflık sunabilmek için daha sert müzakere etmeleri gerektiğini düşündüğünü söylüyor
  • OpenAI'nin benchmark sonuçlarının güvenilirliğini yitirdiği ve diğer yapay zeka şirketlerinin FrontierMath üzerinde önemli sonuçlar elde etme fırsatına sahip olduğu belirtiliyor

  • LLM'lerin ya da yapay zekanın gerçekten zeki olup olmadığını anlamak için, soruların eğitim setinde yer almadığının kanıtlanması gerektiği savunuluyor

    • Soruların veya yanıtların eğitim setinde bulunmadığı bilinmiyorsa, yapay zekanın zeki olduğu iddia edilmemesi gerektiği söyleniyor
  • Benchmark'ı kasıtlı olarak manipüle etmeye gerek olmasa bile, aynı testin tekrar tekrar uygulanmasının aşırı uyum ya da p-hacking'e yol açabileceğine dikkat çekiliyor

    • Küçük değişikliklerin gerçek bir iyileşme mi yoksa gürültü mü olduğunu anlamanın zor olabileceği, araştırmacıların ise gürültüye dayanarak bir optimizasyon keşfettiklerine inanabileceği anlatılıyor
  • OpenAI'nin kamuoyunu yanıltmasından duyulan rahatsızlık dile getiriliyor

    • CEO'nun davranışlarının FrontierMath ve Epoch AI'nin itibarını zedeleyeceği belirtiliyor
  • Yapay zeka şirketlerinin giderek daha fazla kendi değerlendirmelerini oluşturmasının beklendiği, kamuya açık benchmark'ların tükendiği ve daha fazla frontier benchmark'a yatırım yapılması gerektiği vurgulanıyor

  • Yapay zeka şirketlerinin sunduğu değerlendirme sonuçlarının güvenilir olmadığı öne sürülüyor