OpenAI destekli FrontierMath projesi

(lesswrong.com)

2 puan yazan GN⁺ 2025-01-20 | 1 yorum | WhatsApp'ta paylaş

Kısa süre önce OpenAI, yeni modeli o3'ü tanıtırken matematik alanında çığır açan performans elde ettiğini duyurdu
Özellikle önceki modellerin %2 başarabildiği FrontierMath benchmark'ında %25'e ulaşması büyük ilgi gördü
Duyurunun ardından, bu benchmark'ın oluşturulma süreciyle ilgili şeffaflığın yetersiz olduğu yönünde eleştiriler geldi
Buradan gelecekteki yapay zeka benchmark'ları, değerlendirme ve güvenlik tartışmaları için dersler çıkarılabilir

Olayın özeti

2024 Kasım ayından önce Epoch AI, matematik değerlendirmesi için FrontierMath benchmark'ını oluşturmaya başladı
Dışarıdan matematikçilere sorular hazırlattı ve yaklaşık 300 ila 1000 dolar ödeme yaptı
O sırada finansmanı kimin sağladığı ve soruları ile çözümleri kimin görebildiği net değildi
7 Kasım 2024'te Epoch AI, makalenin ilk sürümünü arXiv'de yayımladı; burada finansman kaynağından hiç söz edilmedi
20 Aralık 2024'te OpenAI, o3 modelini tanıttı ve FrontierMath'ta %25 elde ettiğini açıkladı
Aynı gün Epoch AI makalesinin v5 sürümü arXiv'de güncellendi; burada OpenAI'nin projeyi tamamen finanse ettiği ve zor soruların çoğuna ve çözümlerine erişebildiği açıklandı

Ek ayrıntılar

Aralık güncellemesinin hemen ardından da bu konuda kaygılar vardı; son dönemde daha fazla ilgili bilgi ortaya çıktı
FrontierMath zorluk seviyesini (a) olimpiyat düzeyi (%25), (b) orta zorluk (%50), (c) uzmanların birkaç haftaya ihtiyaç duyduğu düzey (%25) olarak ayırıyor
o3'ün %25 elde ettiğine dair duyuruda, ağırlıklı olarak hangi zorluk seviyesindeki soruları çözdüğünün açıklanmamış olması yanlış anlamalara yol açabilir
OpenAI tüm sorulara ve çözümlere erişmiş olsa da, sözlü bir anlaşmaya göre bu veri kümesini doğrudan eğitimde kullanmadığı tahmin ediliyor
Ancak içeride modelin tam olarak hangi yöntemlerle eğitildiğini kimsenin kesin biçimde bilmesinin zor olduğu da belirtiliyor

Bunun başka neden sorun olduğu

FrontierMath sorularına sahip olmak ya da erişebilmek, model performansını artırmaya dolaylı olarak yardımcı olabilir
Özellikle yayımlanmamış zor sorular üzerinden model doğrulama veya arama tekniklerinin daha rafine hale getirilebileceği yönünde kaygılar dile getiriliyor
%25 başarısının gerçekten zor problem çözme yeteneği anlamına mı geldiği, yoksa daha çok kolay soruların çözülmesinden mi kaynaklandığı belirsiz

Açık eğitim olmadan da yeteneği artırabilen veri kümesi

o3'ün iç yapısı iyi açıklanmış değil; ancak bazı başka araştırmalar “çıkarım aşamasında ölçeği büyütme” yaklaşımını benimsiyor
MCMC tabanlı Chain-of-thought değerlendirmesini otomatik öğrenmek ya da ara adımlara ödül modeli (PRM) ekleyerek aramayı güçlendirmek gibi çalışmalar tanıtılıyor
FrontierMath gibi zor benchmark'lar bu tür ödül modeli doğrulamaları için faydalı olabilir
Yani doğrudan eğitime katılmasa bile, modelin arama stratejilerini veya doğrulama tekniklerini ayarlamak için kullanılma ihtimali var
Amaç bağımsız ve adil değerlendirme ise, yalnızca bir kez değerlendirme yapmak ve başka amaçlarla kullanmamak daha uygun olur görüşü dile getiriliyor

Yapay zeka güvenliği kaygıları

Epoch AI, yapay zekanın gelişim eğilimlerini takip eden ve güvenlik üzerine düşünen bir kuruluş olarak biliniyor
FrontierMath'a soru sağlayan matematikçiler arasında, bunun yapay zeka yeteneklerini artırmak için kullanılacağını bilselerdi katkı vermeyecek kişiler de olmuş olabilir
Sonuçta OpenAI'nin, istemeyen kişilerden dolaylı biçimde soru temin ederek modeli doğrulayıp geliştirmiş olduğu eleştirisi yapılıyor
Bu tür bir şeffaflık eksikliği, yapay zeka güvenliği ve araştırma etiği açısından kaygı doğuruyor

AI Safety Researcher olan meemi'nin yorumu

FrontierMath, OpenAI'den fon aldı
Bu bilginin 20 Aralık'tan önce dışarıya şeffaf biçimde açıklanmadığı eleştirisi var
arXiv'e yüklenen ilk sürümlerde (v1–v4) OpenAI desteğine dair hiçbir ifade yoktu; ancak 20 Aralık sonrasında yayımlanan sürümde buna ilk kez değinildiği belirtiliyor
Epoch AI'nin OpenAI ile nasıl bir anlaşma yaptığı net bilinmiyor; ancak o3 duyurusu (20 Aralık) öncesine kadar finansman bilgisinin gizli tutulmuş olabileceği öne sürülüyor
Matematik sorusu hazırlayan matematikçilere OpenAI finansmanının varlığının aktif biçimde iletilmediği söyleniyor
Sözleşmeli katılımcılar NDA imzaladı ve soruları ile çözümleri e-posta veya Overleaf gibi araçlarla paylaşmaları engellenerek sıkı güvenlik uygulandı
Ancak bu kişilere OpenAI finansmanı veya verinin kullanım ihtimali konusunda net bilgi verilmediği eleştirisi var
Hatta bazı yazarların bile finansmanın OpenAI'den geldiğini bilmiyor olabileceği iddia ediliyor
Görünüşe göre çoğu kişi ve sözleşmeli katılımcı, “bu benchmark'ın soru ve cevapları tamamen gizli kalacak ve yalnızca Epoch tarafından kullanılacak” anlayışına sahipti
Şu anda Epoch AI ya da OpenAI, OpenAI'nin sorulara veya çözümlere eriştiğini açıkça duyurmuyor; ancak pratikte OpenAI'nin bunları kullandığına dair söylentiler bulunuyor
Bu veri kümesinin eğitim amacıyla kullanılmasını engelleyen açık bir anlaşma olup olmadığı da belirsiz olarak aktarılıyor
Sonuç olarak, finansman ve verinin olası kullanımı konusunda açık bilgilendirme yapılması ve soruları hazırlayan sözleşmeli çalışanlara yeterli bilgi verilmesi gerektiğini savunan eleştirel bir bakış mevcut

Epoch AI'dan Tamay'ın yorumu

Epoch AI'dan Tamay, şeffaflık sorununu doğrudan kabul etti
- OpenAI'nin dahil olduğunun, o3 çıkışından önce açıklanmasını engelleyen sözleşme koşulları vardı
- Ardından şeffaflığın yetersiz kaldığını kabul ederek, katkı verenlere daha erken bilgi verilmesi gerektiğini söyledi
- Finansman kaynağı ve veri erişim yetkileri konusunda açık iletişim kurulamamış olmasını kendi hataları olarak kabul etti
Gelecekteki iş birliklerinde şeffaflığı iyileştirme sözü
- Bundan sonra katkı verenlerin en baştan finansman kaynağını, veri erişimini ve kullanım amacını açık biçimde bilebilmesi için çalışacaklarını belirtti
- Bazı matematikçilere bir laboratuvardan fon alındığı söylenmiş olsa da bunun sistematik biçimde iletilmediğini ifade etti
- Belirli laboratuvarın adını, yani OpenAI'yi, açıklamadan ilerlemiş olmalarının sorun olduğunu düşündüğünü söyledi
- En baştan bu iş birliğini açıklayabilmek için daha güçlü müzakere etmeleri gerektiğini belirtti
o3 çıkış zamanına kadar açıklamanın kısıtlı olması sorunu
- Sözleşmesel yükümlülükler nedeniyle OpenAI ile ortaklığın o3'ün çıkışına kadar açıklanamadığı bir durum söz konusuydu
- Soruları hazırlayan matematikçilerin, çalışmalarının kime aktarılabileceğini bilme hakkı vardı
- Sözleşme nedeniyle katkı verenlere bunu düzgün anlatamamış olmaktan pişmanlık duyduğunu ifade etti
Veri erişimi ve eğitimde kullanım ihtimali
- OpenAI, FrontierMath sorularının ve çözümlerinin önemli bir bölümüne erişebiliyor
- Ancak bunların eğitim amacıyla kullanılmayacağına dair sözlü bir anlaşma olduğunu söyledi
- OpenAI çalışanları FrontierMath'tan kamuya açık biçimde “strongly held out set” olarak söz etti
- Ayrıca bağımsız doğrulama için OpenAI'nin erişemediği ayrı bir holdout set bulunduğu belirtildi
- Bununla aşırı model eğitimi veya overfitting'in önlenmesi ve nesnel performans ölçümünün korunması amaçlanıyor
FrontierMath'ın ilk amacı
- FrontierMath baştan itibaren değerlendirme amaçlı tasarlanıp duyurulmuş bir projeydi
- OpenAI'nin de gerçek bir test setinin korunması kararını desteklediği ifade edildi
- Hem akademinin hem de araştırma laboratuvarlarının gerçekten kirlenmemiş, yani eğitimde kullanılmamış test setlerine sahip olmasının önemli olduğu vurgulandı
[Düzeltme] OpenAI'nin veri erişim kapsamı
- Yanlış anlamayı azaltmak için, OpenAI'nin bağımsız doğrulama için ayrılmış nihai holdout set'e erişimi olmadığı özellikle belirtildi

1 yorum

GN⁺ 2025-01-20

Hacker News yorumu

Sözlü bir anlaşmayla model eğitiminde kullanılmayacağına dair bir taahhüt verilmiş olsa bile, bu tür anlaşmaların sık sık ihlal edilebildiğine dikkat çekiliyor
- OpenAI'nin benchmark verilerine erişebilmiş olmasına rağmen, bunların eğitimde kullanılmayacağına dair yalnızca sözlü bir mutabakat yapılmış olmasına şüpheyle yaklaşılıyor
Epoch'un kurucu ortaklarından biri, OpenAI'nin FrontierMath problemlerine ve çözümlerine erişebildiğini kabul etti ancak sözlü bir anlaşmayla bunların eğitimde kullanılmamasının kararlaştırıldığını belirtti
- Sözlü anlaşmaların güvenilirliği sorgulanıyor; ayrıca OpenAI'nin teknik olarak anlaşmaya uysa bile benchmark'ta haksız avantaj elde edebileceği pek çok yol olduğu vurgulanıyor
OpenAI'nin pazarlamasına olduğu gibi inananlara yönelik eleştiri
- Sora demosunda elle düzenleme yapılmış olmasına rağmen bunun belirtilmemesi örnek gösteriliyor
Epoch AI'dan Tamay, OpenAI'nin katılımı konusunda yeterince şeffaf olamadıklarını kabul ediyor
- Sözleşme nedeniyle bilgi açıklamanın kısıtlandığını ve benchmark'a katkı sağlayanlara daha erken şeffaflık sunabilmek için daha sert müzakere etmeleri gerektiğini düşündüğünü söylüyor
OpenAI'nin benchmark sonuçlarının güvenilirliğini yitirdiği ve diğer yapay zeka şirketlerinin FrontierMath üzerinde önemli sonuçlar elde etme fırsatına sahip olduğu belirtiliyor
LLM'lerin ya da yapay zekanın gerçekten zeki olup olmadığını anlamak için, soruların eğitim setinde yer almadığının kanıtlanması gerektiği savunuluyor
- Soruların veya yanıtların eğitim setinde bulunmadığı bilinmiyorsa, yapay zekanın zeki olduğu iddia edilmemesi gerektiği söyleniyor
Benchmark'ı kasıtlı olarak manipüle etmeye gerek olmasa bile, aynı testin tekrar tekrar uygulanmasının aşırı uyum ya da p-hacking'e yol açabileceğine dikkat çekiliyor
- Küçük değişikliklerin gerçek bir iyileşme mi yoksa gürültü mü olduğunu anlamanın zor olabileceği, araştırmacıların ise gürültüye dayanarak bir optimizasyon keşfettiklerine inanabileceği anlatılıyor
OpenAI'nin kamuoyunu yanıltmasından duyulan rahatsızlık dile getiriliyor
- CEO'nun davranışlarının FrontierMath ve Epoch AI'nin itibarını zedeleyeceği belirtiliyor
Yapay zeka şirketlerinin giderek daha fazla kendi değerlendirmelerini oluşturmasının beklendiği, kamuya açık benchmark'ların tükendiği ve daha fazla frontier benchmark'a yatırım yapılması gerektiği vurgulanıyor
Yapay zeka şirketlerinin sunduğu değerlendirme sonuçlarının güvenilir olmadığı öne sürülüyor

OpenAI destekli FrontierMath projesi

Olayın özeti

Ek ayrıntılar

Bunun başka neden sorun olduğu

Açık eğitim olmadan da yeteneği artırabilen veri kümesi

Yapay zeka güvenliği kaygıları

AI Safety Researcher olan meemi'nin yorumu

Epoch AI'dan Tamay'ın yorumu

İlgili okumalar

1 yorum

Hacker News yorumu