3 puan yazan GN⁺ 2024-09-13 | 1 yorum | WhatsApp'ta paylaş
  • Karmaşık akıl yürütme gerçekleştirecek şekilde pekiştirmeli öğrenmeyle eğitilmiş yeni büyük dil modeli OpenAI o1 duyuruldu
  • o1, kullanıcıya yanıt vermeden önce uzun bir iç düşünce zinciri (chain of thought) oluşturabiliyor
  • o1, rekabetçi programlama problemlerinde (Codeforces) 89. persentilde, Amerikan Matematik Olimpiyatı elemesi (AIME) sınavında ABD'deki ilk 500 öğrenci seviyesinde ve fizik, biyoloji, kimya sorularından oluşan GPQA benchmark'ında insan doktora seviyesindeki doğruluğu aşan performans gösterdi
  • Mevcut modeller kadar kolay kullanılabilir hâle getirme çalışmaları sürüyor olsa da, bu modelin ilk sürümü olan OpenAI o1-preview, ChatGPT'de ve güvenilir API kullanıcıları için hemen kullanıma açıldı

Değerlendirme

  • o1, GPT-4o'ya kıyasla akıl yürütme odaklı işlerin çoğunda çok daha üstün performans gösteriyor
    • 2024 AIME sınavında GPT-4o soruların ortalama yalnızca %12'sini (1.8/15) çözerken, o1 tek örnekle ortalama %74'e (11.1/15), 64 örnek arasında uzlaşıyla %83'e (12.5/15) ve 1000 örneği öğrenilmiş bir puanlama fonksiyonuyla yeniden sıralayarak %93'e (13.9/15) ulaştı
    • GPQA Diamond'da o1, kimya, fizik ve biyoloji uzmanlığını ölçen insan uzmanların performansını aşarak bu benchmark'ta bunu başaran ilk model oldu
    • o1, görsel algı yeteneği etkinleştirildiğinde MMMU'da %78.2 elde ederek insan uzmanlarla rekabet edebilen ilk model oldu
    • MMLU'nun 57 alt kategorisinin 54'ünde GPT-4o'dan daha iyi performans gösterdi

Düşünce zinciri (chain of thought)

  • İnsanların zor sorulara cevap vermeden önce uzun süre düşünebilmesi gibi, o1 de problemi çözmeye çalışırken düşünce zinciri kullanıyor
  • Pekiştirmeli öğrenme sayesinde o1, düşünce zincirini geliştirmeyi ve kullanma stratejilerini iyileştirmeyi öğrendi
    • Hataları fark etmeyi ve düzeltmeyi öğrendi
    • Zor adımları daha basit adımlara ayırmayı öğrendi
    • Mevcut yaklaşım işe yaramadığında farklı bir yaklaşım denemeyi öğrendi

Kodlama

  • Programlama becerilerini daha da geliştirecek şekilde eğitilerek, 2024 Uluslararası Bilişim Olimpiyatı'nda (IOI) 213 puan alan ve 49. persentilde yer alan bir model eğitildi
    • Bu model, 2024 IOI'ye insan katılımcılarla aynı koşullarda katıldı
    • 6 zorlu algoritma problemini çözmek için 10 saat verildi ve her problem için 50 gönderim hakkı tanındı
  • 10.000 gönderime izin verildiğinde model performansı önemli ölçüde artıyor
    • Test zamanı seçim stratejisi olmadan bile 362.14 puan alarak altın madalya eşiğini aştı
  • Codeforces tarafından düzenlenen rekabetçi programlama yarışmaları simüle edilerek modelin kodlama becerisi doğrulandı
    • GPT-4o, insan yarışmacıların 11. persentiline karşılık gelen 808 ELO puanına ulaştı
    • Bu model, GPT-4o ve o1-preview'i açık farkla geride bırakarak 1807 ELO puanına ulaştı ve yarışmacıların %93'ünden daha iyi performans gösterdi

Güvenlik

  • Düşünce zinciriyle akıl yürütme, hizalama ve güvenlik için yeni fırsatlar sunuyor
    • Model davranışına ilişkin politikaları akıl yürüten modelin düşünce zincirine entegre etmenin, insani değer ve ilkeleri sağlam biçimde öğretmenin etkili bir yolu olduğu bulundu
    • Modele güvenlik kuralları ve duruma uygun şekilde nasıl akıl yürüteceği öğretildiğinde, akıl yürütme yeteneğinin modelin sağlamlığına doğrudan katkı sağladığına dair kanıt bulundu
  • Modelin meşru biçimde düşündüğünü gözlemleyebilmek ve modelin güvenlik kuralları hakkında akıl yürütmesinin dağılım dışı senaryolarda daha dayanıklı olması nedeniyle, düşünce zinciri kullanımının güvenlik ve hizalama açısından önemli ilerleme sağladığına inanılıyor
  • Dağıtımdan önce güvenlik testleri ve red team çalışmaları yapılarak iyileştirmeler vurgulandı
    • Düşünce zinciriyle akıl yürütmenin tüm değerlendirmelerde yetenek artışına katkı sağladığı görüldü

Sonuç

  • o1, yapay zeka akıl yürütmesinde son teknoloji seviyesini önemli ölçüde ileri taşıyor
  • Yinelemeli olarak bu modelin daha gelişmiş sürümlerini yayımlama planı var
  • o1 ve onu takip edecek modellerin bilim, kodlama, matematik ve ilgili alanlarda yapay zeka için birçok yeni kullanım senaryosunun önünü açması bekleniyor
  • Kullanıcıların ve API geliştiricilerinin o1'in günlük işleri nasıl iyileştirebileceğini keşfetmesi bekleniyor

GN⁺ görüşü

  • OpenAI o1, karmaşık problem çözme ve akıl yürütme yeteneği çok güçlü bir model olarak insan seviyesinin ötesine geçen performans sergiliyor. Özellikle matematik, bilim ve programlama alanlarında uzman seviyesinde beceriler sunduğu için ilgili alanlardaki araştırma ve uygulamalara büyük katkı sağlayabilir
  • Modelin düşünce sürecini gözlemlemeyi ve anlamayı mümkün kılan düşünce zinciri (Chain of Thought) yaklaşımını kullanması etkileyici. Bu, modelin davranışını anlamak ve kontrol etmek açısından büyük fayda sağlayabilir. Ancak üretilen düşünce sürecinin kullanıcıya doğrudan gösterilmemesi tartışmalı bulunabilir
  • Güvenliği artırmak için politika kurallarının düşünce sürecine entegre edilmesi de dikkat çekici. Ancak bunun henüz kusursuz görünmediği için sürekli izleme ve iyileştirme gerektirdiği anlaşılıyor
  • o1 çok güçlü bir model olsa da kusursuz değil. Önyargı veya etik sorunlar gibi yapay zeka modellerinin genel sınırlamaları hâlâ mevcut. Teknik ilerlemeyle birlikte bu sınırlamaları aşmaya yönelik sürekli çaba gerekecek

1 yorum

 
GN⁺ 2024-09-13
Hacker News görüşleri
  • Birinci görüş

    • Belgede yer alan pratik bilgilerin özeti
      • Erişim için seviye 5 kademesinde olmak, toplamda $1,000 ödeme yapmış olmak ve ilk başarılı ödemenin üzerinden en az 30 gün geçmiş olması gerekiyor
      • Fiyatlandırma, 1 milyon girdi tokenı başına $15, 1 milyon çıktı tokenı başına $60
      • Context window 128k token, azami çıktı 32,768 token
      • Azami çıktı tokenı iki kat olan bir mini sürüm de var; fiyatı 1 milyon girdi tokenı başına $3, 1 milyon çıktı tokenı başına $12
      • Blog yazısında bahsedilen uzman kodlama sürümü kullanılamıyor
      • Gizli chain of thought reasoning'in ücretli çıktı tokenları olarak faturalandırılıp faturalandırılmadığı belirsiz
  • İkinci görüş

    • İlk iki doğruluk grafiğinde somut etiketler olmadığı için şüpheci yaklaşıyor
      • %80 doğruluk sonucunun ne kadar sürede elde edildiği bilinmiyor
      • Yazının başındaki grafiklerle kodlama bölümündeki 10 saatlik problem çözmenin bağlantılı olup olmadığı belirsiz
      • Veri çok olsa da ilk iki grafikteki veriler opak olduğu için güven vermiyor
  • Üçüncü görüş

    • "Güvenlik" örneği saçma bulunuyor
      • OpenAI, LLM'in striknin sentezi için ayrıntılı talimatlar vermesinin kabul edilemez olduğunu söylerken, daha önce üretilmiş "güvenli olmayan" talimatları yayımlıyor
      • LLM'in bilgi paylaşması konusunda aşırı bir güvenlik takıntısı var
  • Dördüncü görüş

    • Model performansı chain of thought tarafından belirleniyor, ancak rekabet avantajı gibi nedenlerle kullanıcılara sunulmuyor
      • GPT4'ün çıkışından sonra, GPT4 çıktılarıyla OpenAI dışı modelleri fine-tune etmek yaygın hale geldi
      • OpenAI'nin chain of thought yanıtlarını vermemesinin nedeni, sonuçların yeniden üretilmesini zorlaştırmak
  • Beşinci görüş

    • GPT-4 modelini kullanarak bir mutfak fanının ikili Bluetooth protokolünü tersine mühendislikle çözmeye yardımcı oldu
      • o1-preview ve o1-mini modelleri kalıpları anlayıp decode ediyor
      • GPT4o modeli öncekiyle aynı sonuçları veriyor
      • Şaşırtıcı bir ilerleme
  • Altıncı görüş

    • chain-of-thought prompting ile pekiştirmeli öğrenme üzerinden chain of thought stratejisi öğrenme arasındaki farkı anlamayan çok fazla yorum var
      • Pekiştirmeli öğrenme sayesinde o1, chain of thought'unu keskinleştirip stratejisini geliştiriyor
  • Yedinci görüş

    • Cipher örneğindeki Chain of Thought'u okumak ilginç bulunuyor
      • Mantığı yavaş yavaş yazmak ve onun üzerine akıl yürütmek, mantıksal düşünmeyi geliştiriyor
  • Sekizinci görüş

    • o1, Hollanda'daki bir TV programının altyazı sorununu anlamada iyi çalışıyor
      • Altyazılardaki umlaut'lu u harfinin neden 1/4 olarak göründüğü sorulduğunda, encoding sorununu doğru şekilde açıklıyor
  • Dokuzuncu görüş

    • ROT şifreli metnini çözmede hayal kırıklığı yaratan sonuçlar alıyor
      • Birçok adım yanlış ya da takip edilemez durumda
      • chain of thought motorundan fayda sağlayan örüntüyü bulmak zor
  • Onuncu görüş

    • Teknik başarı büyük olsa da, LLM'ler hâlâ halüsinasyona açık olduğu için aracın faydası konusunda endişe var
      • Uzman olmayan kullanıcıların yanlış yanıtlara güvenme riski bulunuyor
      • Örneğin, veritabanı join sırası optimizasyon algoritmasını değerlendirirken yanlış bilgi veriyor