- Kısa süre önce OpenAI, yeni modeli o3'ü tanıtırken matematik alanında çığır açan performans elde ettiğini duyurdu
- Özellikle önceki modellerin %2 başarabildiği FrontierMath benchmark'ında %25'e ulaşması büyük ilgi gördü
- Duyurunun ardından, bu benchmark'ın oluşturulma süreciyle ilgili şeffaflığın yetersiz olduğu yönünde eleştiriler geldi
- Buradan gelecekteki yapay zeka benchmark'ları, değerlendirme ve güvenlik tartışmaları için dersler çıkarılabilir
Olayın özeti
- 2024 Kasım ayından önce Epoch AI, matematik değerlendirmesi için FrontierMath benchmark'ını oluşturmaya başladı
- Dışarıdan matematikçilere sorular hazırlattı ve yaklaşık 300 ila 1000 dolar ödeme yaptı
- O sırada finansmanı kimin sağladığı ve soruları ile çözümleri kimin görebildiği net değildi
- 7 Kasım 2024'te Epoch AI, makalenin ilk sürümünü arXiv'de yayımladı; burada finansman kaynağından hiç söz edilmedi
- 20 Aralık 2024'te OpenAI, o3 modelini tanıttı ve FrontierMath'ta %25 elde ettiğini açıkladı
- Aynı gün Epoch AI makalesinin v5 sürümü arXiv'de güncellendi; burada OpenAI'nin projeyi tamamen finanse ettiği ve zor soruların çoğuna ve çözümlerine erişebildiği açıklandı
Ek ayrıntılar
- Aralık güncellemesinin hemen ardından da bu konuda kaygılar vardı; son dönemde daha fazla ilgili bilgi ortaya çıktı
- FrontierMath zorluk seviyesini (a) olimpiyat düzeyi (%25), (b) orta zorluk (%50), (c) uzmanların birkaç haftaya ihtiyaç duyduğu düzey (%25) olarak ayırıyor
- o3'ün %25 elde ettiğine dair duyuruda, ağırlıklı olarak hangi zorluk seviyesindeki soruları çözdüğünün açıklanmamış olması yanlış anlamalara yol açabilir
- OpenAI tüm sorulara ve çözümlere erişmiş olsa da, sözlü bir anlaşmaya göre bu veri kümesini doğrudan eğitimde kullanmadığı tahmin ediliyor
- Ancak içeride modelin tam olarak hangi yöntemlerle eğitildiğini kimsenin kesin biçimde bilmesinin zor olduğu da belirtiliyor
Bunun başka neden sorun olduğu
- FrontierMath sorularına sahip olmak ya da erişebilmek, model performansını artırmaya dolaylı olarak yardımcı olabilir
- Özellikle yayımlanmamış zor sorular üzerinden model doğrulama veya arama tekniklerinin daha rafine hale getirilebileceği yönünde kaygılar dile getiriliyor
- %25 başarısının gerçekten zor problem çözme yeteneği anlamına mı geldiği, yoksa daha çok kolay soruların çözülmesinden mi kaynaklandığı belirsiz
Açık eğitim olmadan da yeteneği artırabilen veri kümesi
- o3'ün iç yapısı iyi açıklanmış değil; ancak bazı başka araştırmalar “çıkarım aşamasında ölçeği büyütme” yaklaşımını benimsiyor
- MCMC tabanlı Chain-of-thought değerlendirmesini otomatik öğrenmek ya da ara adımlara ödül modeli (PRM) ekleyerek aramayı güçlendirmek gibi çalışmalar tanıtılıyor
- FrontierMath gibi zor benchmark'lar bu tür ödül modeli doğrulamaları için faydalı olabilir
- Yani doğrudan eğitime katılmasa bile, modelin arama stratejilerini veya doğrulama tekniklerini ayarlamak için kullanılma ihtimali var
- Amaç bağımsız ve adil değerlendirme ise, yalnızca bir kez değerlendirme yapmak ve başka amaçlarla kullanmamak daha uygun olur görüşü dile getiriliyor
Yapay zeka güvenliği kaygıları
- Epoch AI, yapay zekanın gelişim eğilimlerini takip eden ve güvenlik üzerine düşünen bir kuruluş olarak biliniyor
- FrontierMath'a soru sağlayan matematikçiler arasında, bunun yapay zeka yeteneklerini artırmak için kullanılacağını bilselerdi katkı vermeyecek kişiler de olmuş olabilir
- Sonuçta OpenAI'nin, istemeyen kişilerden dolaylı biçimde soru temin ederek modeli doğrulayıp geliştirmiş olduğu eleştirisi yapılıyor
- Bu tür bir şeffaflık eksikliği, yapay zeka güvenliği ve araştırma etiği açısından kaygı doğuruyor
AI Safety Researcher olan meemi'nin yorumu
- FrontierMath, OpenAI'den fon aldı
- Bu bilginin 20 Aralık'tan önce dışarıya şeffaf biçimde açıklanmadığı eleştirisi var
- arXiv'e yüklenen ilk sürümlerde (v1–v4) OpenAI desteğine dair hiçbir ifade yoktu; ancak 20 Aralık sonrasında yayımlanan sürümde buna ilk kez değinildiği belirtiliyor
- Epoch AI'nin OpenAI ile nasıl bir anlaşma yaptığı net bilinmiyor; ancak o3 duyurusu (20 Aralık) öncesine kadar finansman bilgisinin gizli tutulmuş olabileceği öne sürülüyor
- Matematik sorusu hazırlayan matematikçilere OpenAI finansmanının varlığının aktif biçimde iletilmediği söyleniyor
- Sözleşmeli katılımcılar NDA imzaladı ve soruları ile çözümleri e-posta veya Overleaf gibi araçlarla paylaşmaları engellenerek sıkı güvenlik uygulandı
- Ancak bu kişilere OpenAI finansmanı veya verinin kullanım ihtimali konusunda net bilgi verilmediği eleştirisi var
- Hatta bazı yazarların bile finansmanın OpenAI'den geldiğini bilmiyor olabileceği iddia ediliyor
- Görünüşe göre çoğu kişi ve sözleşmeli katılımcı, “bu benchmark'ın soru ve cevapları tamamen gizli kalacak ve yalnızca Epoch tarafından kullanılacak” anlayışına sahipti
- Şu anda Epoch AI ya da OpenAI, OpenAI'nin sorulara veya çözümlere eriştiğini açıkça duyurmuyor; ancak pratikte OpenAI'nin bunları kullandığına dair söylentiler bulunuyor
- Bu veri kümesinin eğitim amacıyla kullanılmasını engelleyen açık bir anlaşma olup olmadığı da belirsiz olarak aktarılıyor
- Sonuç olarak, finansman ve verinin olası kullanımı konusunda açık bilgilendirme yapılması ve soruları hazırlayan sözleşmeli çalışanlara yeterli bilgi verilmesi gerektiğini savunan eleştirel bir bakış mevcut
Epoch AI'dan Tamay'ın yorumu
- Epoch AI'dan Tamay, şeffaflık sorununu doğrudan kabul etti
- OpenAI'nin dahil olduğunun, o3 çıkışından önce açıklanmasını engelleyen sözleşme koşulları vardı
- Ardından şeffaflığın yetersiz kaldığını kabul ederek, katkı verenlere daha erken bilgi verilmesi gerektiğini söyledi
- Finansman kaynağı ve veri erişim yetkileri konusunda açık iletişim kurulamamış olmasını kendi hataları olarak kabul etti
- Gelecekteki iş birliklerinde şeffaflığı iyileştirme sözü
- Bundan sonra katkı verenlerin en baştan finansman kaynağını, veri erişimini ve kullanım amacını açık biçimde bilebilmesi için çalışacaklarını belirtti
- Bazı matematikçilere bir laboratuvardan fon alındığı söylenmiş olsa da bunun sistematik biçimde iletilmediğini ifade etti
- Belirli laboratuvarın adını, yani OpenAI'yi, açıklamadan ilerlemiş olmalarının sorun olduğunu düşündüğünü söyledi
- En baştan bu iş birliğini açıklayabilmek için daha güçlü müzakere etmeleri gerektiğini belirtti
- o3 çıkış zamanına kadar açıklamanın kısıtlı olması sorunu
- Sözleşmesel yükümlülükler nedeniyle OpenAI ile ortaklığın o3'ün çıkışına kadar açıklanamadığı bir durum söz konusuydu
- Soruları hazırlayan matematikçilerin, çalışmalarının kime aktarılabileceğini bilme hakkı vardı
- Sözleşme nedeniyle katkı verenlere bunu düzgün anlatamamış olmaktan pişmanlık duyduğunu ifade etti
- Veri erişimi ve eğitimde kullanım ihtimali
- OpenAI, FrontierMath sorularının ve çözümlerinin önemli bir bölümüne erişebiliyor
- Ancak bunların eğitim amacıyla kullanılmayacağına dair sözlü bir anlaşma olduğunu söyledi
- OpenAI çalışanları FrontierMath'tan kamuya açık biçimde “strongly held out set” olarak söz etti
- Ayrıca bağımsız doğrulama için OpenAI'nin erişemediği ayrı bir holdout set bulunduğu belirtildi
- Bununla aşırı model eğitimi veya overfitting'in önlenmesi ve nesnel performans ölçümünün korunması amaçlanıyor
- FrontierMath'ın ilk amacı
- FrontierMath baştan itibaren değerlendirme amaçlı tasarlanıp duyurulmuş bir projeydi
- OpenAI'nin de gerçek bir test setinin korunması kararını desteklediği ifade edildi
- Hem akademinin hem de araştırma laboratuvarlarının gerçekten kirlenmemiş, yani eğitimde kullanılmamış test setlerine sahip olmasının önemli olduğu vurgulandı
- [Düzeltme] OpenAI'nin veri erişim kapsamı
- Yanlış anlamayı azaltmak için, OpenAI'nin bağımsız doğrulama için ayrılmış nihai holdout set'e erişimi olmadığı özellikle belirtildi
1 yorum
Hacker News yorumu
Sözlü bir anlaşmayla model eğitiminde kullanılmayacağına dair bir taahhüt verilmiş olsa bile, bu tür anlaşmaların sık sık ihlal edilebildiğine dikkat çekiliyor
Epoch'un kurucu ortaklarından biri, OpenAI'nin FrontierMath problemlerine ve çözümlerine erişebildiğini kabul etti ancak sözlü bir anlaşmayla bunların eğitimde kullanılmamasının kararlaştırıldığını belirtti
OpenAI'nin pazarlamasına olduğu gibi inananlara yönelik eleştiri
Epoch AI'dan Tamay, OpenAI'nin katılımı konusunda yeterince şeffaf olamadıklarını kabul ediyor
OpenAI'nin benchmark sonuçlarının güvenilirliğini yitirdiği ve diğer yapay zeka şirketlerinin FrontierMath üzerinde önemli sonuçlar elde etme fırsatına sahip olduğu belirtiliyor
LLM'lerin ya da yapay zekanın gerçekten zeki olup olmadığını anlamak için, soruların eğitim setinde yer almadığının kanıtlanması gerektiği savunuluyor
Benchmark'ı kasıtlı olarak manipüle etmeye gerek olmasa bile, aynı testin tekrar tekrar uygulanmasının aşırı uyum ya da p-hacking'e yol açabileceğine dikkat çekiliyor
OpenAI'nin kamuoyunu yanıltmasından duyulan rahatsızlık dile getiriliyor
Yapay zeka şirketlerinin giderek daha fazla kendi değerlendirmelerini oluşturmasının beklendiği, kamuya açık benchmark'ların tükendiği ve daha fazla frontier benchmark'a yatırım yapılması gerektiği vurgulanıyor
Yapay zeka şirketlerinin sunduğu değerlendirme sonuçlarının güvenilir olmadığı öne sürülüyor