OpenAI’nin o1’i: chain-of-thought modeli hakkında notlar
(simonwillison.net)- OpenAI, yeni önizleme modeli o1-preview ile o1-mini’yi (mini sürüm önizleme değil) yayınladı; önceki kod adı 'strawberry' idi
Chain-of-Thought yöntemiyle eğitildi
- OpenAI, bu modellerin yanıt vermeden önce daha fazla süre "düşünecek" şekilde tasarlandığını açıklıyor
- Bu yeni modeller, "adım adım düşünme" prompting kalıbının uzmanlaşmış bir genişlemesi olarak görülebilir
- OpenAI’nin "Learning to Reason with LLMs" yazısı, yeni modellerin pekiştirmeli öğrenme yoluyla düşünce zincirini geliştirip stratejilerini daha rafine hale getirmeyi öğrendiğini açıklıyor
- Bu da modelin, backtracking ve bir sonraki token tahmininin ötesinde "düşünme" gerektiren karmaşık prompt’ları daha iyi ele alabileceği anlamına geliyor
API belgelerindeki düşük seviye ayrıntılar
- Görsel girdi, function calling ve tutarlı biçimde hızlı yanıt süresi gerektiren uygulamalar için GPT-4o ve GPT-4o mini modelleri uygun bir seçenek olmaya devam edecek
- Derin muhakeme gerektiren ve daha uzun yanıt sürelerini tolere edebilen uygulamalar geliştiriyorsanız, o1 modeli harika bir seçenek olabilir
- Yeni
o1-previewveo1-minimodellerine API erişimi şu anda yalnızca seviye 5 hesaplarla sınırlı - Sistem prompt’u desteği yok; model mevcut chat completions API’ını kullanıyor ancak yalnızca
userveassistantmesajları gönderilebiliyor - Streaming desteği, araç kullanımı, batch çağrıları ve görsel girdi de yok
- İsteğin işlenmesi, sorunu çözmek için gereken muhakeme miktarına bağlı olarak birkaç saniyeden birkaç dakikaya kadar sürebilir
Gizli muhakeme token’ları
- API yanıtında görünmeyen ama yine de faturalandırılan ve çıktı token’ı olarak sayılan "muhakeme token’ları" tanıtıldı
- Yeni modeller için yararlı prompt’larda OpenAI, bu token’lar için yaklaşık 25.000’lik bir bütçe ayrılmasını öneriyor
- Çıktı token sınırı,
o1-previewiçin 32.768’e veo1-miniiçin 65.536’ya çıkarıldı - API belgelerindeki son ipucu: retrieval-augmented generation (RAG) ile ek bağlam sağlarken, modelin yanıtı gereksiz yere aşırı karmaşık hale getirmesini önlemek için yalnızca en ilgili bilgileri dahil edin
Gizli muhakeme token’ları
- Muhakeme token’ları API’de görünmüyor; faturalandırılıyorlar ama gerçekte ne olduklarını göremiyorsunuz
- OpenAI bunun için iki ana neden açıklıyor:
- Güvenlik ve politikalara uyum - ara adımlarda politika ihlali içeren bilgilerin yer alabileceği durumları önlemek için
- Rekabet avantajı - başka modellerin OpenAI’nin yatırım yaptığı muhakeme çalışmasından öğrenmesini engellemek için
- Bu politika kararı memnuniyetsizlik yaratıyor; yorumlanabilirlik ve şeffaflık önemliyken, prompt değerlendirmesinin temel ayrıntılarının gizlenmesi bir geri adım gibi hissettiriyor
Örnekler
- OpenAI, ilk örnekler olarak Bash script üretimi, crossword çözme ve kimyasal çözeltilerin pH hesaplamasını sunuyor
- Bu örnekler, modelin ChatGPT arayüzü sürümünün düşünce zincirine dair ayrıntıları gösterdiğini, ancak ham muhakeme token’larını göstermediğini ortaya koyuyor
- OpenAI’nin, veri doğrulama ve rutin üretiminde muhakemenin nasıl kullanılacağını gösteren iki yeni cookbook’u var
- Twitter’da, GPT-4o’da başarısız olup
o1-preview’da çalışan prompt örnekleri olup olmadığını soruyor-
"How many words are in your response to this prompt?" "There are seven words in this sentence."
-
Explain this joke: “Two cows are standing in a field, one cow asks the other: “what do you think about the mad cow disease that’s going around?”. The other one says: “who cares, I’m a helicopter!”
-
- OpenAI araştırmacısı Jason Wei, AIME ve GPQA sonuçlarının çok güçlü olduğunu ancak bunun her zaman kullanıcıların hissedeceği iyileşmelere doğrudan çevrilmeyebileceğini belirtiyor
Tüm bunların yeniliği
- Topluluğun bu modellerin ne zaman ve nerede kullanılacağına dair en iyi uygulamaları netleştirmesi zaman alacak
- Ben yine de çoğunlukla GPT-4o’yu (ve Claude 3.5 Sonnet’i) kullanacağımı düşünüyorum, ancak bu yeni model türüyle birlikte LLM’leri kullanarak ne tür görevlerin çözülebileceğine dair zihinsel çerçevemizi kolektif olarak genişlettiğimizi görmek gerçekten heyecan verici olacak
- Diğer yapay zeka laboratuvarlarının da, bu tarz Chain-of-Thought muhakemeyi uygulamak üzere özel olarak eğitilmiş kendi model sürümleriyle bu sonuçların bir kısmını yeniden üretmeye başlaması bekleniyor
GN⁺ görüşü
- Chain-of-Thought yöntemiyle eğitilmiş modeller, karmaşık problem çözümünde mevcut modellerin sınırlarını aşmaya yardımcı olabilir. Özellikle adım adım muhakeme ve backtracking gerektiren görevlerde performans artışı beklenebilir
- Ancak muhakeme token’larının API’de gizlenmesi, modelin yorumlanabilirliği ve şeffaflığı açısından kaygı verici. Kullanıcı açısından modelin muhakeme sürecini anlamak ve doğrulamak zorlaşabilir
- Şu aşamada bu modellerin hangi görevler için en uygun olduğu ve mevcut modellere kıyasla ne gibi artı ve eksi yönler taşıdığı net değil. Topluluğun çeşitli kullanım senaryoları ve en iyi uygulamaları ortaya çıkarması gerekiyor gibi görünüyor
- Anthropic’in Claude’u veya Cohere’in modelleri gibi diğer yapay zeka şirketlerinin de benzer Chain-of-Thought eğitim yaklaşımını benimsemesi mümkün. Muhakeme modeli pazarındaki rekabetin daha da kızışması bekleniyor
- Genel olarak OpenAI’nin bu duyurusu, LLM’lerin muhakeme yeteneğini geliştirmeye yönelik yeni bir yaklaşım sunması açısından önemli. Ancak gizli muhakeme token’ları gibi bazı kaygı verici noktalar da var; bu nedenle gelecekte iyileştirme ve ek düzenlemeler gerekebilir
2 yorum
Bir yazım hatası var :)
"Chai-of-Thought yöntemiyle eğitildi" → "Chain-of-Thought yöntemiyle eğitildi"
Hacker News görüşü
o1-preview modelinin sorunları
OpenAI araştırmacısı Jason Wei'den alıntı
Rust kodu refaktör etme denemesi
İki temel unsur
Karmaşık prompt değerlendirmesinin zorluğu
o1'in kalite ve maliyet sorunu
GPT-4o ile o1-preview karşılaştırması
Temel matematik problemlerini çözmedeki zorluk
Hukuk sorusu testi
Markdown içerik işleme sorunu