OpenAI’nin o1’i: chain-of-thought modeli hakkında notlar

(simonwillison.net)

6 puan yazan GN⁺ 2024-09-14 | 2 yorum | WhatsApp'ta paylaş

OpenAI, yeni önizleme modeli o1-preview ile o1-mini’yi (mini sürüm önizleme değil) yayınladı; önceki kod adı 'strawberry' idi

Chain-of-Thought yöntemiyle eğitildi

OpenAI, bu modellerin yanıt vermeden önce daha fazla süre "düşünecek" şekilde tasarlandığını açıklıyor
Bu yeni modeller, "adım adım düşünme" prompting kalıbının uzmanlaşmış bir genişlemesi olarak görülebilir
OpenAI’nin "Learning to Reason with LLMs" yazısı, yeni modellerin pekiştirmeli öğrenme yoluyla düşünce zincirini geliştirip stratejilerini daha rafine hale getirmeyi öğrendiğini açıklıyor
Bu da modelin, backtracking ve bir sonraki token tahmininin ötesinde "düşünme" gerektiren karmaşık prompt’ları daha iyi ele alabileceği anlamına geliyor

API belgelerindeki düşük seviye ayrıntılar

Görsel girdi, function calling ve tutarlı biçimde hızlı yanıt süresi gerektiren uygulamalar için GPT-4o ve GPT-4o mini modelleri uygun bir seçenek olmaya devam edecek
Derin muhakeme gerektiren ve daha uzun yanıt sürelerini tolere edebilen uygulamalar geliştiriyorsanız, o1 modeli harika bir seçenek olabilir
Yeni o1-preview ve o1-mini modellerine API erişimi şu anda yalnızca seviye 5 hesaplarla sınırlı
Sistem prompt’u desteği yok; model mevcut chat completions API’ını kullanıyor ancak yalnızca user ve assistant mesajları gönderilebiliyor
Streaming desteği, araç kullanımı, batch çağrıları ve görsel girdi de yok
İsteğin işlenmesi, sorunu çözmek için gereken muhakeme miktarına bağlı olarak birkaç saniyeden birkaç dakikaya kadar sürebilir

Gizli muhakeme token’ları

API yanıtında görünmeyen ama yine de faturalandırılan ve çıktı token’ı olarak sayılan "muhakeme token’ları" tanıtıldı
Yeni modeller için yararlı prompt’larda OpenAI, bu token’lar için yaklaşık 25.000’lik bir bütçe ayrılmasını öneriyor
Çıktı token sınırı, o1-preview için 32.768’e ve o1-mini için 65.536’ya çıkarıldı
API belgelerindeki son ipucu: retrieval-augmented generation (RAG) ile ek bağlam sağlarken, modelin yanıtı gereksiz yere aşırı karmaşık hale getirmesini önlemek için yalnızca en ilgili bilgileri dahil edin

Gizli muhakeme token’ları

Muhakeme token’ları API’de görünmüyor; faturalandırılıyorlar ama gerçekte ne olduklarını göremiyorsunuz
OpenAI bunun için iki ana neden açıklıyor:
1. Güvenlik ve politikalara uyum - ara adımlarda politika ihlali içeren bilgilerin yer alabileceği durumları önlemek için
2. Rekabet avantajı - başka modellerin OpenAI’nin yatırım yaptığı muhakeme çalışmasından öğrenmesini engellemek için
Reklam
Bu politika kararı memnuniyetsizlik yaratıyor; yorumlanabilirlik ve şeffaflık önemliyken, prompt değerlendirmesinin temel ayrıntılarının gizlenmesi bir geri adım gibi hissettiriyor

Örnekler

OpenAI, ilk örnekler olarak Bash script üretimi, crossword çözme ve kimyasal çözeltilerin pH hesaplamasını sunuyor
Bu örnekler, modelin ChatGPT arayüzü sürümünün düşünce zincirine dair ayrıntıları gösterdiğini, ancak ham muhakeme token’larını göstermediğini ortaya koyuyor
OpenAI’nin, veri doğrulama ve rutin üretiminde muhakemenin nasıl kullanılacağını gösteren iki yeni cookbook’u var
Twitter’da, GPT-4o’da başarısız olup o1-preview’da çalışan prompt örnekleri olup olmadığını soruyor
- "How many words are in your response to this prompt?" "There are seven words in this sentence."
- Explain this joke: “Two cows are standing in a field, one cow asks the other: “what do you think about the mad cow disease that’s going around?”. The other one says: “who cares, I’m a helicopter!”
  Reklam
OpenAI araştırmacısı Jason Wei, AIME ve GPQA sonuçlarının çok güçlü olduğunu ancak bunun her zaman kullanıcıların hissedeceği iyileşmelere doğrudan çevrilmeyebileceğini belirtiyor

Tüm bunların yeniliği

Topluluğun bu modellerin ne zaman ve nerede kullanılacağına dair en iyi uygulamaları netleştirmesi zaman alacak
Ben yine de çoğunlukla GPT-4o’yu (ve Claude 3.5 Sonnet’i) kullanacağımı düşünüyorum, ancak bu yeni model türüyle birlikte LLM’leri kullanarak ne tür görevlerin çözülebileceğine dair zihinsel çerçevemizi kolektif olarak genişlettiğimizi görmek gerçekten heyecan verici olacak
Diğer yapay zeka laboratuvarlarının da, bu tarz Chain-of-Thought muhakemeyi uygulamak üzere özel olarak eğitilmiş kendi model sürümleriyle bu sonuçların bir kısmını yeniden üretmeye başlaması bekleniyor

GN⁺ görüşü

Chain-of-Thought yöntemiyle eğitilmiş modeller, karmaşık problem çözümünde mevcut modellerin sınırlarını aşmaya yardımcı olabilir. Özellikle adım adım muhakeme ve backtracking gerektiren görevlerde performans artışı beklenebilir
Ancak muhakeme token’larının API’de gizlenmesi, modelin yorumlanabilirliği ve şeffaflığı açısından kaygı verici. Kullanıcı açısından modelin muhakeme sürecini anlamak ve doğrulamak zorlaşabilir
Şu aşamada bu modellerin hangi görevler için en uygun olduğu ve mevcut modellere kıyasla ne gibi artı ve eksi yönler taşıdığı net değil. Topluluğun çeşitli kullanım senaryoları ve en iyi uygulamaları ortaya çıkarması gerekiyor gibi görünüyor
Anthropic’in Claude’u veya Cohere’in modelleri gibi diğer yapay zeka şirketlerinin de benzer Chain-of-Thought eğitim yaklaşımını benimsemesi mümkün. Muhakeme modeli pazarındaki rekabetin daha da kızışması bekleniyor
Genel olarak OpenAI’nin bu duyurusu, LLM’lerin muhakeme yeteneğini geliştirmeye yönelik yeni bir yaklaşım sunması açısından önemli. Ancak gizli muhakeme token’ları gibi bazı kaygı verici noktalar da var; bu nedenle gelecekte iyileştirme ve ek düzenlemeler gerekebilir

2 yorum

naneg93 2024-09-14

Bir yazım hatası var :)

"Chai-of-Thought yöntemiyle eğitildi" → "Chain-of-Thought yöntemiyle eğitildi"

GN⁺ 2024-09-14

Hacker News görüşü

o1-preview modelinin sorunları
- Var olmayan kütüphane ve fonksiyonları halüsinasyon görüyor
- Web'de kolayca bulunmayan gerçekler hakkında yanlış bilgi veriyor
- Modelin ürettiği bilginin doğruluğunu değerlendirecek bir yöntem yok
OpenAI araştırmacısı Jason Wei'den alıntı
- AIME ve GPQA'da güçlü performans gösterdi, ancak kullanıcılar bunu hissedemiyor
- Daha zor prompt'lar bulmak gerektiği görüşünü sorguluyor
Rust kodu refaktör etme denemesi
- o1-mini hatasız kod sağlayamıyor
- o1-preview derlenen ve testlerin çoğunu geçen kod sağlıyor
- Rust kütüphanesinde enum'u kaldırıp yalnızca U8 veri tipini kullanacak şekilde değiştirmeyi deniyor
İki temel unsur
- İyi chain-of-thought prompt'larını okuyup üretmek üzere eğitilmiş bir LLM
- Modeli yinelemeli olarak yeniden prompt eden çalışma zamanı kodu
- OpenAI bu farkı net biçimde açıklamıyor
Karmaşık prompt değerlendirmesinin zorluğu
- Prompt değerlendirme süreci gizli olduğu için debug etmek zor
- Kullanıcı açısından önemli olan yalnızca sonuç, süreç değil
o1'in kalite ve maliyet sorunu
- Kalitede büyük bir artış yok, ancak maliyet ve gecikme üzerinde büyük olumsuz etkisi var
GPT-4o ile o1-preview karşılaştırması
- GPT-4o en iyi tic-tac-toe stratejisini sunamıyor
- o1-preview en iyi stratejiyi sunuyor, ancak standart dışı grid'lerde başarısız oluyor
Temel matematik problemlerini çözmedeki zorluk
- Üç sayıyı toplayıp bölerek aynı sonucu elde etme problemini çözme denemesi
- Mevcut modeller temel okul problemlerini bile çözmekte zorlanıyor
Hukuk sorusu testi
- GPT-4o hemen doğru yanıtı veriyor
- o1-preview yanlış yanıt veriyor ve birden fazla takip sorusu gerekiyor
Markdown içerik işleme sorunu
- Markdown içeriğine sembolik mantık ifadeleri ve ispat örnekleri eklendiğinde hizmet şartları ihlali sayılıyor

OpenAI’nin o1’i: chain-of-thought modeli hakkında notlar

Chain-of-Thought yöntemiyle eğitildi

API belgelerindeki düşük seviye ayrıntılar

Gizli muhakeme token’ları

Gizli muhakeme token’ları

Örnekler

Tüm bunların yeniliği

GN⁺ görüşü

İlgili okumalar

2 yorum

Hacker News görüşü