- Karmaşık akıl yürütme gerçekleştirecek şekilde pekiştirmeli öğrenmeyle eğitilmiş yeni büyük dil modeli OpenAI o1 duyuruldu
- o1, kullanıcıya yanıt vermeden önce uzun bir iç düşünce zinciri (
chain of thought) oluşturabiliyor
- o1, rekabetçi programlama problemlerinde (Codeforces) 89. persentilde, Amerikan Matematik Olimpiyatı elemesi (AIME) sınavında ABD'deki ilk 500 öğrenci seviyesinde ve fizik, biyoloji, kimya sorularından oluşan GPQA benchmark'ında insan doktora seviyesindeki doğruluğu aşan performans gösterdi
- Mevcut modeller kadar kolay kullanılabilir hâle getirme çalışmaları sürüyor olsa da, bu modelin ilk sürümü olan OpenAI o1-preview, ChatGPT'de ve güvenilir API kullanıcıları için hemen kullanıma açıldı
Değerlendirme
- o1, GPT-4o'ya kıyasla akıl yürütme odaklı işlerin çoğunda çok daha üstün performans gösteriyor
- 2024 AIME sınavında GPT-4o soruların ortalama yalnızca %12'sini (1.8/15) çözerken, o1 tek örnekle ortalama %74'e (11.1/15), 64 örnek arasında uzlaşıyla %83'e (12.5/15) ve 1000 örneği öğrenilmiş bir puanlama fonksiyonuyla yeniden sıralayarak %93'e (13.9/15) ulaştı
- GPQA Diamond'da o1, kimya, fizik ve biyoloji uzmanlığını ölçen insan uzmanların performansını aşarak bu benchmark'ta bunu başaran ilk model oldu
- o1, görsel algı yeteneği etkinleştirildiğinde MMMU'da %78.2 elde ederek insan uzmanlarla rekabet edebilen ilk model oldu
- MMLU'nun 57 alt kategorisinin 54'ünde GPT-4o'dan daha iyi performans gösterdi
Düşünce zinciri (chain of thought)
- İnsanların zor sorulara cevap vermeden önce uzun süre düşünebilmesi gibi, o1 de problemi çözmeye çalışırken düşünce zinciri kullanıyor
- Pekiştirmeli öğrenme sayesinde o1, düşünce zincirini geliştirmeyi ve kullanma stratejilerini iyileştirmeyi öğrendi
- Hataları fark etmeyi ve düzeltmeyi öğrendi
- Zor adımları daha basit adımlara ayırmayı öğrendi
- Mevcut yaklaşım işe yaramadığında farklı bir yaklaşım denemeyi öğrendi
Kodlama
- Programlama becerilerini daha da geliştirecek şekilde eğitilerek, 2024 Uluslararası Bilişim Olimpiyatı'nda (IOI) 213 puan alan ve 49. persentilde yer alan bir model eğitildi
- Bu model, 2024 IOI'ye insan katılımcılarla aynı koşullarda katıldı
- 6 zorlu algoritma problemini çözmek için 10 saat verildi ve her problem için 50 gönderim hakkı tanındı
- 10.000 gönderime izin verildiğinde model performansı önemli ölçüde artıyor
- Test zamanı seçim stratejisi olmadan bile 362.14 puan alarak altın madalya eşiğini aştı
- Codeforces tarafından düzenlenen rekabetçi programlama yarışmaları simüle edilerek modelin kodlama becerisi doğrulandı
- GPT-4o, insan yarışmacıların 11. persentiline karşılık gelen 808 ELO puanına ulaştı
- Bu model, GPT-4o ve o1-preview'i açık farkla geride bırakarak 1807 ELO puanına ulaştı ve yarışmacıların %93'ünden daha iyi performans gösterdi
Güvenlik
- Düşünce zinciriyle akıl yürütme, hizalama ve güvenlik için yeni fırsatlar sunuyor
- Model davranışına ilişkin politikaları akıl yürüten modelin düşünce zincirine entegre etmenin, insani değer ve ilkeleri sağlam biçimde öğretmenin etkili bir yolu olduğu bulundu
- Modele güvenlik kuralları ve duruma uygun şekilde nasıl akıl yürüteceği öğretildiğinde, akıl yürütme yeteneğinin modelin sağlamlığına doğrudan katkı sağladığına dair kanıt bulundu
- Modelin meşru biçimde düşündüğünü gözlemleyebilmek ve modelin güvenlik kuralları hakkında akıl yürütmesinin dağılım dışı senaryolarda daha dayanıklı olması nedeniyle, düşünce zinciri kullanımının güvenlik ve hizalama açısından önemli ilerleme sağladığına inanılıyor
- Dağıtımdan önce güvenlik testleri ve red team çalışmaları yapılarak iyileştirmeler vurgulandı
- Düşünce zinciriyle akıl yürütmenin tüm değerlendirmelerde yetenek artışına katkı sağladığı görüldü
Sonuç
- o1, yapay zeka akıl yürütmesinde son teknoloji seviyesini önemli ölçüde ileri taşıyor
- Yinelemeli olarak bu modelin daha gelişmiş sürümlerini yayımlama planı var
- o1 ve onu takip edecek modellerin bilim, kodlama, matematik ve ilgili alanlarda yapay zeka için birçok yeni kullanım senaryosunun önünü açması bekleniyor
- Kullanıcıların ve API geliştiricilerinin o1'in günlük işleri nasıl iyileştirebileceğini keşfetmesi bekleniyor
GN⁺ görüşü
- OpenAI o1, karmaşık problem çözme ve akıl yürütme yeteneği çok güçlü bir model olarak insan seviyesinin ötesine geçen performans sergiliyor. Özellikle matematik, bilim ve programlama alanlarında uzman seviyesinde beceriler sunduğu için ilgili alanlardaki araştırma ve uygulamalara büyük katkı sağlayabilir
- Modelin düşünce sürecini gözlemlemeyi ve anlamayı mümkün kılan düşünce zinciri (
Chain of Thought) yaklaşımını kullanması etkileyici. Bu, modelin davranışını anlamak ve kontrol etmek açısından büyük fayda sağlayabilir. Ancak üretilen düşünce sürecinin kullanıcıya doğrudan gösterilmemesi tartışmalı bulunabilir
- Güvenliği artırmak için politika kurallarının düşünce sürecine entegre edilmesi de dikkat çekici. Ancak bunun henüz kusursuz görünmediği için sürekli izleme ve iyileştirme gerektirdiği anlaşılıyor
- o1 çok güçlü bir model olsa da kusursuz değil. Önyargı veya etik sorunlar gibi yapay zeka modellerinin genel sınırlamaları hâlâ mevcut. Teknik ilerlemeyle birlikte bu sınırlamaları aşmaya yönelik sürekli çaba gerekecek
1 yorum
Hacker News görüşleri
Birinci görüş
İkinci görüş
Üçüncü görüş
Dördüncü görüş
Beşinci görüş
Altıncı görüş
Yedinci görüş
Sekizinci görüş
uharfinin neden1/4olarak göründüğü sorulduğunda, encoding sorununu doğru şekilde açıklıyorDokuzuncu görüş
Onuncu görüş