6 puan yazan GN⁺ 2024-09-14 | 2 yorum | WhatsApp'ta paylaş
  • OpenAI, yeni önizleme modeli o1-preview ile o1-mini’yi (mini sürüm önizleme değil) yayınladı; önceki kod adı 'strawberry' idi

Chain-of-Thought yöntemiyle eğitildi

  • OpenAI, bu modellerin yanıt vermeden önce daha fazla süre "düşünecek" şekilde tasarlandığını açıklıyor
  • Bu yeni modeller, "adım adım düşünme" prompting kalıbının uzmanlaşmış bir genişlemesi olarak görülebilir
  • OpenAI’nin "Learning to Reason with LLMs" yazısı, yeni modellerin pekiştirmeli öğrenme yoluyla düşünce zincirini geliştirip stratejilerini daha rafine hale getirmeyi öğrendiğini açıklıyor
  • Bu da modelin, backtracking ve bir sonraki token tahmininin ötesinde "düşünme" gerektiren karmaşık prompt’ları daha iyi ele alabileceği anlamına geliyor

API belgelerindeki düşük seviye ayrıntılar

  • Görsel girdi, function calling ve tutarlı biçimde hızlı yanıt süresi gerektiren uygulamalar için GPT-4o ve GPT-4o mini modelleri uygun bir seçenek olmaya devam edecek
  • Derin muhakeme gerektiren ve daha uzun yanıt sürelerini tolere edebilen uygulamalar geliştiriyorsanız, o1 modeli harika bir seçenek olabilir
  • Yeni o1-preview ve o1-mini modellerine API erişimi şu anda yalnızca seviye 5 hesaplarla sınırlı
  • Sistem prompt’u desteği yok; model mevcut chat completions API’ını kullanıyor ancak yalnızca user ve assistant mesajları gönderilebiliyor
  • Streaming desteği, araç kullanımı, batch çağrıları ve görsel girdi de yok
  • İsteğin işlenmesi, sorunu çözmek için gereken muhakeme miktarına bağlı olarak birkaç saniyeden birkaç dakikaya kadar sürebilir

Gizli muhakeme token’ları

  • API yanıtında görünmeyen ama yine de faturalandırılan ve çıktı token’ı olarak sayılan "muhakeme token’ları" tanıtıldı
  • Yeni modeller için yararlı prompt’larda OpenAI, bu token’lar için yaklaşık 25.000’lik bir bütçe ayrılmasını öneriyor
  • Çıktı token sınırı, o1-preview için 32.768’e ve o1-mini için 65.536’ya çıkarıldı
  • API belgelerindeki son ipucu: retrieval-augmented generation (RAG) ile ek bağlam sağlarken, modelin yanıtı gereksiz yere aşırı karmaşık hale getirmesini önlemek için yalnızca en ilgili bilgileri dahil edin

Gizli muhakeme token’ları

  • Muhakeme token’ları API’de görünmüyor; faturalandırılıyorlar ama gerçekte ne olduklarını göremiyorsunuz
  • OpenAI bunun için iki ana neden açıklıyor:
    1. Güvenlik ve politikalara uyum - ara adımlarda politika ihlali içeren bilgilerin yer alabileceği durumları önlemek için
    2. Rekabet avantajı - başka modellerin OpenAI’nin yatırım yaptığı muhakeme çalışmasından öğrenmesini engellemek için
  • Bu politika kararı memnuniyetsizlik yaratıyor; yorumlanabilirlik ve şeffaflık önemliyken, prompt değerlendirmesinin temel ayrıntılarının gizlenmesi bir geri adım gibi hissettiriyor

Örnekler

  • OpenAI, ilk örnekler olarak Bash script üretimi, crossword çözme ve kimyasal çözeltilerin pH hesaplamasını sunuyor
  • Bu örnekler, modelin ChatGPT arayüzü sürümünün düşünce zincirine dair ayrıntıları gösterdiğini, ancak ham muhakeme token’larını göstermediğini ortaya koyuyor
  • OpenAI’nin, veri doğrulama ve rutin üretiminde muhakemenin nasıl kullanılacağını gösteren iki yeni cookbook’u var
  • Twitter’da, GPT-4o’da başarısız olup o1-preview’da çalışan prompt örnekleri olup olmadığını soruyor
    • "How many words are in your response to this prompt?" "There are seven words in this sentence."

    • Explain this joke: “Two cows are standing in a field, one cow asks the other: “what do you think about the mad cow disease that’s going around?”. The other one says: “who cares, I’m a helicopter!”

  • OpenAI araştırmacısı Jason Wei, AIME ve GPQA sonuçlarının çok güçlü olduğunu ancak bunun her zaman kullanıcıların hissedeceği iyileşmelere doğrudan çevrilmeyebileceğini belirtiyor

Tüm bunların yeniliği

  • Topluluğun bu modellerin ne zaman ve nerede kullanılacağına dair en iyi uygulamaları netleştirmesi zaman alacak
  • Ben yine de çoğunlukla GPT-4o’yu (ve Claude 3.5 Sonnet’i) kullanacağımı düşünüyorum, ancak bu yeni model türüyle birlikte LLM’leri kullanarak ne tür görevlerin çözülebileceğine dair zihinsel çerçevemizi kolektif olarak genişlettiğimizi görmek gerçekten heyecan verici olacak
  • Diğer yapay zeka laboratuvarlarının da, bu tarz Chain-of-Thought muhakemeyi uygulamak üzere özel olarak eğitilmiş kendi model sürümleriyle bu sonuçların bir kısmını yeniden üretmeye başlaması bekleniyor

GN⁺ görüşü

  • Chain-of-Thought yöntemiyle eğitilmiş modeller, karmaşık problem çözümünde mevcut modellerin sınırlarını aşmaya yardımcı olabilir. Özellikle adım adım muhakeme ve backtracking gerektiren görevlerde performans artışı beklenebilir
  • Ancak muhakeme token’larının API’de gizlenmesi, modelin yorumlanabilirliği ve şeffaflığı açısından kaygı verici. Kullanıcı açısından modelin muhakeme sürecini anlamak ve doğrulamak zorlaşabilir
  • Şu aşamada bu modellerin hangi görevler için en uygun olduğu ve mevcut modellere kıyasla ne gibi artı ve eksi yönler taşıdığı net değil. Topluluğun çeşitli kullanım senaryoları ve en iyi uygulamaları ortaya çıkarması gerekiyor gibi görünüyor
  • Anthropic’in Claude’u veya Cohere’in modelleri gibi diğer yapay zeka şirketlerinin de benzer Chain-of-Thought eğitim yaklaşımını benimsemesi mümkün. Muhakeme modeli pazarındaki rekabetin daha da kızışması bekleniyor
  • Genel olarak OpenAI’nin bu duyurusu, LLM’lerin muhakeme yeteneğini geliştirmeye yönelik yeni bir yaklaşım sunması açısından önemli. Ancak gizli muhakeme token’ları gibi bazı kaygı verici noktalar da var; bu nedenle gelecekte iyileştirme ve ek düzenlemeler gerekebilir

2 yorum

 
naneg93 2024-09-14

Bir yazım hatası var :)

"Chai-of-Thought yöntemiyle eğitildi" → "Chain-of-Thought yöntemiyle eğitildi"

 
GN⁺ 2024-09-14
Hacker News görüşü
  • o1-preview modelinin sorunları

    • Var olmayan kütüphane ve fonksiyonları halüsinasyon görüyor
    • Web'de kolayca bulunmayan gerçekler hakkında yanlış bilgi veriyor
    • Modelin ürettiği bilginin doğruluğunu değerlendirecek bir yöntem yok
  • OpenAI araştırmacısı Jason Wei'den alıntı

    • AIME ve GPQA'da güçlü performans gösterdi, ancak kullanıcılar bunu hissedemiyor
    • Daha zor prompt'lar bulmak gerektiği görüşünü sorguluyor
  • Rust kodu refaktör etme denemesi

    • o1-mini hatasız kod sağlayamıyor
    • o1-preview derlenen ve testlerin çoğunu geçen kod sağlıyor
    • Rust kütüphanesinde enum'u kaldırıp yalnızca U8 veri tipini kullanacak şekilde değiştirmeyi deniyor
  • İki temel unsur

    • İyi chain-of-thought prompt'larını okuyup üretmek üzere eğitilmiş bir LLM
    • Modeli yinelemeli olarak yeniden prompt eden çalışma zamanı kodu
    • OpenAI bu farkı net biçimde açıklamıyor
  • Karmaşık prompt değerlendirmesinin zorluğu

    • Prompt değerlendirme süreci gizli olduğu için debug etmek zor
    • Kullanıcı açısından önemli olan yalnızca sonuç, süreç değil
  • o1'in kalite ve maliyet sorunu

    • Kalitede büyük bir artış yok, ancak maliyet ve gecikme üzerinde büyük olumsuz etkisi var
  • GPT-4o ile o1-preview karşılaştırması

    • GPT-4o en iyi tic-tac-toe stratejisini sunamıyor
    • o1-preview en iyi stratejiyi sunuyor, ancak standart dışı grid'lerde başarısız oluyor
  • Temel matematik problemlerini çözmedeki zorluk

    • Üç sayıyı toplayıp bölerek aynı sonucu elde etme problemini çözme denemesi
    • Mevcut modeller temel okul problemlerini bile çözmekte zorlanıyor
  • Hukuk sorusu testi

    • GPT-4o hemen doğru yanıtı veriyor
    • o1-preview yanlış yanıt veriyor ve birden fazla takip sorusu gerekiyor
  • Markdown içerik işleme sorunu

    • Markdown içeriğine sembolik mantık ifadeleri ve ispat örnekleri eklendiğinde hizmet şartları ihlali sayılıyor