LLM ile akıl yürütmeyi öğrenmek

(openai.com)

3 puan yazan GN⁺ 2024-09-13 | 1 yorum | WhatsApp'ta paylaş

Verilen şifre çözme örneği, oyfjdnisdr rtqwainr acxz mynzbhhx dizisinin nasıl “Think step by step” olduğuna dair kuralı bulup, yeni cümleye aynı akıl yürütme prosedürünü uygulama problemidir
Temel ipucu, şifreli metindeki her kelimenin açık metne göre tam olarak 2 kat uzunlukta olmasıdır; şifreli metni ikişer harf halinde gruplayıp tek harfe dönüştürmek gerekir
Her harf çifti a=1 ile z=26 arasındaki sayılara çevrilir, ardından ortalama değeri alınır ve bu değer karşılık gelen açık metin harfini verir
Örneğin oy, (15+25)/2=20 olduğu için T olur; aynı şekilde fj, dn, is, dr de h, i, n, k olarak çözülür
Hedef şifreli metne uygulandığında nihai cümle “THERE ARE THREE RS IN STRAWBERRY” olur; kuralı bulmak ve doğrulamak birlikte gerekir

Şifreli metin ile açık metin arasındaki ipucu

Girdi örneği oyfjdnisdr rtqwainr acxz mynzbhhx -> Think step by step şeklindedir
Amaç, bu örneğe dayanarak oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz dizisini çözmektir
Önce harf sayıları karşılaştırıldığında, şifreli metindeki kelimelerin açık metindeki kelimelerden her zaman 2 kat daha uzun olduğu görülür
- oyfjdnisdr 10 harftir ve Think 5 harftir
- rtqwainr 8 harftir ve step 4 harftir
- acxz 4 harftir ve by 2 harftir
- mynzbhhx 8 harftir ve step 4 harftir

İkişer harfli çiftleri tek harfe çevirme kuralı

Uzunluk ilişkisi nedeniyle, şifreli metni ikişer harf halinde gruplama doğal bir aday hâline gelir
İlk kelime oyfjdnisdr şu şekilde ayrılır
- oy
- fj
- dn
- is
- dr
Bu çiftler açık metindeki Think harfleriyle sırayla eşleşir
- oy -> T
- fj -> h
- dn -> i
- is -> n
- dr -> k

Ortalama değerle doğrulanan dönüşüm

Harfler a=1, b=2, ..., z=26 olarak çevrilir; ardından her çiftin ortalama değeri alınır ve açık metin harfi elde edilir
İlk kelimenin dönüşümü kuralla uyumludur
- oy: o=15, y=25, ortalama 20 → T
- fj: f=6, j=10, ortalama 8 → h
- dn: d=4, n=14, ortalama 9 → i
- is: i=9, s=19, ortalama 14 → n
- dr: d=4, r=18, ortalama 11 → k
Aynı yöntemle rtqwainr, acxz, mynzbhhx da sırasıyla step, by, step olarak çözülür

Hedef şifreli metnin çözümü

Hedef şifreli metin de kelime kelime ayrılır, ardından her kelime ikili harf gruplarıyla çözülür
oyekaijzdf
- oy, ek, ai, jz, df
- Ortalama dönüşüm sonucu THERE
aaptcg
- aa, pt, cg
- Ortalama dönüşüm sonucu ARE
suaokybhai
- su, ao, ky, bh, ai
- Ortalama dönüşüm sonucu THREE
ouow
- ou, ow
- Ortalama dönüşüm sonucu RS
aqht
- aq, ht
- Ortalama dönüşüm sonucu IN
mynznvaatzacdfoulxxz
- my, nz, nv, aa, tz, ac, df, ou, lx, xz
- Ortalama dönüşüm sonucu STRAWBERRY

Nihai çözülmüş cümle

Tüm çözümün sonucu “THERE ARE THREE RS IN STRAWBERRY” olur
RS, R harflerini ifade eder; cümlenin tamamı STRAWBERRY içinde üç tane R olduğu anlamına gelir

1 yorum

GN⁺ 2024-09-13

Hacker News yorumları

Belgeleri karıştırınca, bu modele erişmek için tier 5 olmak gerektiği; toplamda $1.000’dan fazla ödeme yapılmış olması ve ilk başarılı ödemeden sonra en az 30 gün geçmiş olması gerektiği görülüyor
Fiyatlandırma, 1 milyon giriş token’ı başına $15, 1 milyon çıkış token’ı başına $60; bağlam penceresi 128k token, maksimum çıkış ise 32.768 token
mini sürümde maksimum çıkış iki kat, 65.536 token; fiyatı da 1 milyon giriş token’ı başına $3, 1 milyon çıkış token’ı başına $12
Blogda sözü edilen kodlamaya özel sürüm henüz kullanılabilir bir biçimde görünmüyor
Gizli düşünce zincirinin (reasoning) ücretli çıkış token’ı olarak faturalandırılıp faturalandırılmadığı net değil; blogdaki örnek açıldığında oldukça uzun görünüyor, eğer tamamı ücretlendiriliyorsa maliyet hızla büyüyebilir
https://platform.openai.com/docs/models/o1
https://openai.com/api/pricing/
https://platform.openai.com/docs/guides/rate-limits/usage-ti...
- API erişimi için tier 5 gerekiyor; örneğin ChatGPT Plus kullanıcıları da o1 modeline erişebiliyor
- OpenAI API’den bir e-posta aldım; usage tier 5 kapsamındaki güvenilir bir geliştirici olarak o1 betasına başlayabileceğim ve o1-preview ile o1-mini adlı iki modeli kullanabileceğim belirtiliyordu
  Her iki modelde de beta döneminde 20 RPM sınırı var; o1-mini’nin o1-preview’a göre %80 daha ucuz, daha hızlı ve kodlama görevlerinde rekabetçi olduğu söyleniyor
- Akıl yürütme token’ları gerçekten de çıkış token’ı olarak faturalandırılıyor
  API’de görünmüyorlar, ancak belgelerde modelin bağlam penceresinde yer kapladıkları ve çıkış token’ı olarak ücretlendirildikleri yazıyor
  https://platform.openai.com/docs/guides/reasoning
- Bazı sorgular dakikalar sürüyor. Saniyede 40 token, düşünce zinciri için çok yavaş
  OpenAI’ın saniyede 1k token’a ulaşabilen Groq benzeri düşük gecikmeli teknolojilere yatırım yapmasını isterdim
- Sonuçta bu daha çok hizmet olarak düşünce zinciri gibi mi acaba
  Modelin kendisinden ziyade, arkada birden çok model isteğini birbirine bağlayan bir hizmet gibi görünüyor
Şüpheci olmamın nedenlerinden biri, ilk iki doğruluk grafiğinde somut eksen etiketlerinin olmaması. Sadece log ölçek deniyor; ne kadar zaman aldığına dair kabaca bile bir fikir verilmiyor
%80 doğruluk sonucunun 10 saniyelik mi, 10 dakikalık mı, 10 saatlik mi, yoksa 10 günlük mü hesaplama gerektirdiğini eldeki verilerle anlamak mümkün değil
Kodlama bölümünde “6 zor algoritma problemini çözmek için 10 saat” deniyor, ama bunun yazının başındaki grafiklerle bağlantılı olup olmadığı da belirsiz
Yazıda çok sayıda sayı ve olgu olması iyi, fakat baştaki grafik verilerini bulanık bırakma tercihi güven vermiyor. İyi görünen verileri seçip, aleyhte olanları saklıyorlarmış gibi okunuyor
- Temel yanıt ortada. Üstel bir maliyet fonksiyonu üzerinde çalıştıkları için çok uzun sürdü ve daha fazla arama yapacak pay kalmadı
  Kanıtlanmış maksimum doğruluk ne kadar yüksek olursa rapor o kadar etkileyici olur; o halde neden orada durmuş olsunlar? Gerçek zamanı ya da maliyet için bir vekil metriği neden çıkarmış olsunlar? Devam etmek gerçekçi değildi; zaman ve maliyet zaten tepkileri olumsuz etkileyebilecek kadar büyümüştü gibi görünüyor
- Token fiyatlarının 100 kat ucuzlamasını kutluyorduk; şimdi 100 kat daha fazla token kullanan yeni bir sistem çıktı
- Zor alanlarda yanıt kalitesi ile hesaplama miktarı arasında doğrusal olmayan bir ilişki olma ihtimali yüksek
  Sabit ücretli fiyatlandırma modellerine alıştık, ancak AGI düzeyi modellerde daha zor ve önemli sorgular için daha fazla ödemek gerekebilir. Bu tür içsel karmaşıklıktan kaçınmak zor
  Elbette zamanla makul ölçüde daha iyi ve daha ucuz olacaktır. Şimdilik bu seviyede mekanik düşünmenin mümkün olmasına sevinilebilir bence
- Tartışmaya pek gerek yok. Yakında doğrudan deneyip kendi işinizde nasıl olduğunu görebileceksiniz
  Buna karşılık Gemini Ultra son birkaç aydır “en iyi ama var olmayan Google modeli” olmasına rağmen, beklentiler rahatça ileriye taşınıyor
- OpenAI gibi bir şirketten şeffaflık ve açıklık beklemek de cesurca
  Okunabilir, güvenilir grafikler mi istiyordunuz? Öyle bir şey yok; çıkarken görmeyeceğiniz düşünce zinciri token’larının ücretini ödemeniz isteniyor
Yazının ortasındaki düşünce zinciri widget’ında yer alan “güvenlik” örneği gerçekten saçma
OpenAI’ın “Bir LLM’in striknin sentezi hakkında ayrıntılı talimat vermesi kabul edilemez; eski çıktı böyleydi ama biz bu şekilde yumuşatılmış içeriği tercih ediyoruz” demesi gibi
“Güvenlik” takıntısının neden yalnızca LLM’lere yapıştırıldığını anlamıyorum. Geleneksel araçlarla yaymak sorun değil de, LLM paylaşınca kesinlikle olmamalı mı?
- “Güvenlik” ile ilgili ama birbirinden farklı iki biçim var
  Biri, bazı modern entelektüellerin paylaştığı zararlı sansür dürtüsü. Yalnızca kendilerinin dünyadaki fikirleri güvenle ele alıp neyin doğru olduğuna karar verebileceğine inanıyorlar; halkın yanlış düşüncelere kapılmaması için bilgi ve ifadelerin sansürlenmesi gerektiğini hissediyorlar. Bu kötü bir şey ve buna direnmek gerekir
  Diğeri ise potansiyel olarak tehlikeli çıktıların bir yapay zeka modelinin otoregresif düşünme sürecinin içine girmesini engellemeye yönelik ihtiyatlı dürtü. Bağımsız hareket edebilen düşünen makineler yapacaksak, “sorunun kaynağına verilecek bir zehir sentezleyerek çözelim” gibi fikirlerin kötü fikirler olarak işaretlenmesini ve bunlara göre hareket edilmemesini öğretmek iyi olur. İnsan toplumu da çocuklara doğruyu ve yanlışı öğreterek zaten böyle işliyor
- Birinin striknin sentezlemek için bir LLM’in adım adım talimatlarına ihtiyacı varsa, gerçekte striknin sentezi yapacak laboratuvar becerilerine sahip olmayan biridir
  LLM’in böyle bir soruyu reddedip reddetmemesi, gerçek dünyadaki striknin zehirlenmesi riskini artırmaz
  Ancak gazeteciler ve düzenleyici kurumlar, yüzeyde tehlikeli görünen talimatların gerçekte neredeyse hiç risk taşımadığını anlamayabilir. Gerçek kimyagerlerin “5 yaşındaki birine anlatır gibi” sentez talimatlarına ihtiyacı yoktur; eleştirmenler de benzer risk bilgilerini kamuoyu mücadelesinde şirket aleyhine kullanabileceği için, bu tür istemleri reddetmek itibar riskini azaltırken profesyonel araştırmacılara büyük zarar vermez
  Yine de en yeni ve en güçlü modellerin zararsız bileşikler için yeni sentez yöntemleri konusunda saçma sapan şeyler önerdiğini gördüm. Profesyonel kimyagerler LLM’leri fikir üretici veya makale arama aracı olarak kullanmalı; reddetmeden ürettikleri içeriğe aynen güvenmemeli
  https://en.wikipedia.org/wiki/Strychnine_total_synthesis
- Tahminimce burada sözü edilen “güvenlik” iyileştirmesi, kelimenin ima ettiğinden daha genel bir yetenek gibi görünüyor. Yani O1, sohbet sırasında jailbreak girişimlerine kanmadan istemdeki güvenlik talimatlarını daha iyi izliyor
  OpenAI açısından bu muhtemelen ağırlıklı olarak siyasi sınırlarla ilgili talimatlar olacaktır, ama daha somut olarak faydalı kullanım örneklerine de genellenebilir
  Örneğin bir otomobil bayisi web sitesindeki chatbot’u ikna edip arabayı gülünç derecede düşük bir fiyata teklif ettirdikleri bir vaka vardı. O1, “kullanıcıya belirli bir fiyat için bağlayıcı teklif verme” gibi talimatlara daha sıkı uyabilir ve aynı tür hilelere daha az düşebilir
  Ham modeli kullanırken bilgisayarın benim söylediğim şeyi yapması gerektiği tarafına güçlü biçimde meylediyorum; ama onu bir sohbet arayüzüne sarıp uzman olmayanlara soru-cevap makinesi gibi gösterdiğinizde geçerli kaygılar doğuyor. Bomba yapımı meselesi de sadece “insanlar bu bilgiye erişmemeli” değil; halüsinasyonla karışmış bir bağlamda bilgi almanın tehlikeli olması. %90 doğru bir bomba yapım tarifi, kullanıcı için doğru tariften çok daha tehlikelidir
- Makine öğrenimi şirketleri yasama ve kültürel tepkileri önceden öngörmek zorunda
  Makine öğrenimi yasal faaliyetleri güçlendirdiği gibi suç faaliyetlerini de güçlendirecek; sosyal medya figürleri ve geleneksel medya da bunu mutlaka sansasyonel biçimde paketlemeye çalışacak
  Telegram’ın terör ve çocuk istismarından sorumluymuş gibi sunulmasına benziyor
- “Güvenlik”, Sam Altman’ın seçtiği bir pazarlama tekniği
  “GPT-2 yayımlanmak için fazla tehlikeli olabilir” dediğinde gazeteciler ve medya bunu sevdi; muazzam bir ücretsiz tanıtım oldu ve şirket havalı göründü
  Güvenliği sürekli vurgulamak, LLM’lerin diğer metin tahmin algoritmalarından temelde farklı ve neredeyse AGI olduğu izlenimini de güçlendiriyor. Başka bir deyişle, bu onun cüzdanına iyi geliyor
Model performansını yönlendiren şey düşünce zinciri, ama rekabet avantajı dahil çeşitli nedenlerle kullanıcılara düşünce zinciri yanıtlarını sunmayacaklarını söylüyorlar
GPT-4’ün çıkışından sonra, OpenAI dışı modelleri GPT-4 çıktılarıyla ince ayarlamak çok yaygınlaştı. OpenAI’ın bu modelin düşünce zinciri yanıtlarıyla ince ayar yapılırsa sonuçların daha hızlı kopyalanabileceğinden endişe etmesi makul görünüyor
Sonuçta herkesi bunu zor yoldan yeniden üretmeye zorluyorlar. Açık ağırlıklı modeller için üzücü bir haber, ama anlaşılabilir bir karar
- Şimdiye kadarki açık kaynak/açık ağırlıklı modeller, OpenAI’da özel bir sihirli sos olmadığını gösterdi. Meta’dan veya başka yerlerden yakında bu seviyedeki akıl yürütmeye yaklaşan modeller çıkacağını düşünüyorum. Üst düzey araştırmacıların bir kısmının ayrıldığını da hesaba katmak gerek
  Kabaca bakınca düşünce zinciri, her adımda denge kuran uzun düşünce zincirlerinin bir dizisi ve olumsuz bir sonuç çıkınca biraz geri dönme yönteminin eklenmiş hali gibi görünüyor. Bir labirent çözmeye benziyor
- Üzücü bir durum. LLM hata yaptığında düşünce zincirini okuyup bunun giriş hatası mı, talimat hatası mı, yoksa sadece saçmalama mı olduğunu anlamak çok faydalı
- Düşünce zinciri artık OpenAI’ın ana hizalama yöntemi haline geldi. Bu bilgiyi açığa çıkarırlarsa bu avantaj kaybolur
  Bu bakış açısına katılmıyorum, ama karar alma sürecinde diğer modellere faydalı eğitim bilgisi sızdırma meselesinden daha büyük ağırlık taşıyacaktır
- Üretilen düşünce zinciri token’ları kayda değer miktardaysa, maliyet adaleti açısından bunları gizlemek de tuhaf
  Kâr uğruna token şişirmediklerine nasıl güvenebiliriz?
- Gerçek düşünce zinciri yerine en azından bir özet gösterseler iyi olur
  Gerçek token’ları sızdırmadan sürecin ana hatlarını anlayabilir, mümkünse nerede yanlış gittiğini de görebiliriz
Buradaki pek çok kişi basit düşünce zinciri istemlemesiyle bu iş arasındaki farkı kaçırıyor gibi. Burada pekiştirmeli öğrenme ile iyi düşünce zinciri stratejileri öğreniliyor
“Pekiştirmeli öğrenme aracılığıyla o1, düşünce zincirini iyileştirir ve kullanma stratejilerini rafine eder” deniyor
Örnekteki düşünce zincirlerine bakınca, modelin çözmeye çalıştığı probleme göre farklı stratejiler kullandığını görebilirsiniz
- “Genel” düşünce zinciri deneyleriyle nasıl karşılaştırıldığını merak ediyorum. Örneğin gpt4o sonuçlarının zero-shot olup olmadığını, yoksa çözümü adım adım açıklamasının istenip istenmediğini bilmek isterdim
- Temelde genişletilmiş bir Tree of Thoughts (Düşünce Ağacı) gibi
- Google’ın AlphaGo’yu bugüne kadar gördüğümüz en iyi Go oyununu oynayacak şekilde eğitme yöntemini hatırlatıyor. Bu, onun genelleştirilmiş hali gibi de görünüyor
Verilen şifre örneğinin düşünce zincirini okuyunca epey şaşırtıyor. Örneğe gidip “Show Chain of Thought”a basmanız yeterli
Bir insanın kafasında şifreyi çözerken geçebileceği tüm düşünce adımlarını kelimesi kelimesine yazıyor. “Hmm” gibi işe yaramaz şeyler bile dahil
Yavaşlayıp kullanılan mantığı yazdıktan sonra onun üzerinden akıl yürütünce mantık becerisi gelişiyormuş gibi görünüyor. Okulda öğrenme şeklimize benziyor
- Gerçekten öyle. Düşünce zinciri başlı başına, ChatGPT ilk çıktığındaki kadar etkileyici geliyor
  Artık “sadece” otomatik tamamlama değil; fikirlerle, çıkmaz sokaklarla ve arıtmalarla dolu gerçek adım adım akıl yürütme gibi görünüyor. Nihayetinde hâlâ otomatik tamamlamayla çalışıyor olsa bile
  Sonra insan akıl yürütmesi de benzer mi diye merak ediyorsunuz. Belki yalnızca “düşünce adımları”nın temel kalıplarını izliyoruz ve sonuçta bu, “İngilizce dilbilgisi adımları”ndan pek de farklı değildir
  LLM’lerin ilk düşündüğümüzden çok daha güçlü olduğu ve meselenin, onları “düşünmeye zorlamak” gibi doğru yapılandırmalarla bağlamanın yolunu bulmak olabileceği hissine kapılıyorum
- “hmmm”, “perfect!” gibi şeyleri görünce, insanların oluşturduğu eğitim verisinin nasıl bir şey olduğunu kolayca hayal edebiliyorum. Karmaşık bir problemi çözerken kelimenin tam anlamıyla kafalarından geçenleri yüksek sesle söylemeleri istenmiş olmalı
- Average:18/2=9, 9 corresponds to 'i', But 'i' is 9, so that seems off by 1 gibi kısımlara bakınca hâlâ sayı sayma konusunda eskisi gibi zayıf görünüyor
- Bu tür düşünce zinciri izlerini gerçekten alabileceğinizin garantisi yok ama matematik olimpiyatlarına çalışan biri için çok faydalı olabileceğini düşünüyorum
  Sonuçta tüm akıl yürütmeyi gerçekten sunması gerekiyor ve dönüştürücünün kendisi genellikle o kadar da akıllı olmadığından, ortalama zekâya sahip bir insanın da pratikle bu tür izleri yeniden üretebileceğini düşünüyorum
- “STRAWBERRY’de üç R var” kısmı komik
Şaşırtıcı bir ilerleme. Nisan ayında standart GPT-4 modelini ChatGPT üzerinden kullanarak mutfak aspiratörünün ikili Bluetooth protokolünü tersine mühendislikle çözmeye ve Home Assistant’a entegre etmeye çalışmıştım
Bir rubber duck gibi yardımcı oldu ama belirli bir modda fanın kalan çalışma süresini ileten örüntüyü çıkaramadı. İlk istem burada [0]
Aynı istemi o1-preview ve o1-mini’ye verdiğimde ikisi de örüntüyü doğru anladı ve çözdü; ayrıca Nisan’da benim bulduğumdan biraz farklı bir yöntem kullandılar. Kodumun modelin tersine mühendislikle çıkardığıyla eşdeğer olup olmadığını sorduğumda, ince ve kapsamlı bir değerlendirmeden sonra eşdeğer olduğu sonucuna vardı [1]
Aynı istemi gpt4o’ya verirseniz Nisan’daki GPT-4 (ChatGPT) modeliyle aynı sonuç çıkıyor. Gerçekten şaşırtıcı bir gelişme
[0]: https://pastebin.com/XZixQEM6
[1]: https://i.postimg.cc/VN1d2vRb/SCR-20240912-sdko.png
- Bu arada Save ChatGPT as PDF adlı bir Chrome eklentisi var [1]
  ChatGPT for Business aboneliğinde şirket politikası gereği dışa aktarma yasaklanmış olabileceği için kullanmam ama kişisel kullanım için epey pratik
  https://chromewebstore.google.com/detail/save-chatgpt-as-pdf...
- Etkileyici. o1-preview’u nasıl kullandığını merak ediyorum. ChatGPT ücretli kullanıcısıyım ama chatgpt.com model seçicisinde yalnızca 4o, 4o-mini ve 4 görünüyor. o1 listede mi görünüyor, yoksa başka bir yerde mi merak ediyorum
- ChatGPT arayüzünün sağ üstünde büyük bir “Share” düğmesi yok mu? Yoksa başka bir ön uç mu kullanıyorsun
- Etkileyici. ChatGPT-4’ün başarısız olup o1’in başardığı iki değiştirilmiş mantık bulmacası denedim
  Eğitim verisinde orijinal bulmaca örnekleri çok fazla olduğu için 4 doğru cevaplayamadı, ama o1 buna takılmadı
  https://chatgpt.com/share/66e35c37-60c4-8009-8cf9-8fe61f57d3...
  https://chatgpt.com/share/66e35f0e-6c98-8009-a128-e9ac677480...
- GPT-4o ve o1-preview’dan hızlıca $100 kazandıracak bir Python betiği yazmasını istedim; o1 oldukça ilginç bir sonuç verdi
  https://x.com/soheil/status/1834320893331587353
Bir insanın kâğıt üzerinde çözebileceği düzeyde bir ROT şifreli metin çözmeyi kısaca denedim; çıktı epey hayal kırıklığı yarattı
Harf frekansı hesaplama, yaygın kelimeleri belirleme gibi “çalışıyormuş gibi” duran birçok adım vardı ama birkaç adım yanlıştı ya da sonradan kontrol edilmemişti. Sonunda kendi cevabını doğruladığını iddia ederken, önceki adım koşullarını bile sağlamayan yanlış bir çözüm verdi
Yapay zekayı birkaç hatayla yargılamaya çalışmıyorum ve şifreler bir miktar karşıt bir görev sayılır. Ama akıl yürütmenin hiçbir yönü, daha önce gördüğüm düşünce zinciri demolarından daha gelişmiş ya da tutarlı görünmedi. Sonuçta ana dayanak makale; oradan bu modelin amaçlanan türdeki görevlerde güvenilir olduğu sonucuna nasıl varacağımızı bilemiyorum
Ayrı olarak, düşünce zinciri çıktısı araç kullanımını arzulattırıyor. Çünkü LLM’ler çoğu zaman algoritma çıktısının kendisini taklit etmek zorunda kalıyor. Böyle ticari bir düşünce zinciri çözümünde, harf sayma gibi şeyler için %100 güvenilir standart fonksiyon kütüphaneleri kullanılabilmeli gibi geliyor
- o1 modelini kullandığından ve gpt4o olmadığından emin misin merak ediyorum. o1 kullanıyorum ve döndürme şifrelerini sürekli iyi çözüyor
- Pekiştirmeli öğrenme olduğu için, eğitim amacıyla oluşturulmuş görevlerde çok iyi olur ama diğer görevlerde daha az iyi olacaktır
  Etkileyici ama pekiştirmeli öğrenmenin sorunu geleceğe dair bilgi gerektirmesidir
- Merakımdan soruyorum, aynı şeyi Claude ile de deneyebilir misin? Claude her tür ROT konusunda GPT’ye kıyasla çok iyi performans gösterdi
Oldukça büyük bir teknik başarı ve bu alanda böyle ilerlemeler görmek heyecan verici
Ancak bu araç da tüm LLM’ler gibi hâlâ halüsinasyona açık olduğu için, ne kadar kullanışlı olduğu konusunda ciddi kaygılarım var. Tam olarak kimin için bir araç bu?
Çıktıyı eleştirel biçimde değerlendirecek kadar uzmansanız, muhtemelen doğrudan kendiniz akıl yürütmeniz de benzer sonuç verir. Çıktıyı değerlendirme beceriniz yoksa tamamen yanlış bir yanıta dayanma riski var
Örneğin bir veritabanı join sırası optimizasyon algoritmasını değerlendirmesini istedim; akıl yürütmenin başlarında kendinden emin biçimde “join maliyeti genelde simetriktir” diye yanlış bir şey söyledi ve sonraki adımlarda bu varsayımı yansıtarak iç veri yapısını yönlü grafik yerine yönsüz grafik olarak “basitleştirmemi” söyledi
Veritabanı optimizasyonuna aşinaysanız bunun çok yanlış olduğunu anlarsınız. Ama akıl yürütmenin geri kalan akışı tutarlı ve ikna ediciydi
Model, benim hemen yanlış olduğunu fark edemeyeceğim bir olguya kendinden emin biçimde dayanırsa beni yanlış yöne sürüklemesinden endişe ediyorum
- Şimdiye kadar bu tür araçlardan aldığım fayda, yeterli zamanım olsa kesinlikle kendi başıma bulabileceğim şeyler için çok iyi bir başvuru kaynağı ya da yardımcı olmalarına daha yakın
  Belirli bir sözdizimi hatasını düzeltmenin en iyi yolunu bulmak, bir sınıfı ve açıkça gerekli temel fonksiyonları kurmak, matematik problemi çözerken nerede yoldan çıktığımı bulmak gibi işler
  Bu araçlar “artık kod testi ve incelemesine de gerek yok, toplumda matematikçilere de gerek yok, doğrulama kaynaklarına da gerek yok” düzeyinde değil. Bu AGI’nin hedefi olabilir, ama bir aracın kullanışlılığını değerlendirme ölçütü olarak almıyorum
  Aracın değeri kusursuz olup olmadığından çok, onunla ne başarabileceğinizde. Nadiren yazım hatası içeren bir kitap olsa bile sözlük, yazım için yararlı bir başvuru kaynağı olabilir; C++’ın tamamını doğru anlamayan ve çok sayıda kodlama hatası yapan bir iş arkadaşı bile koda dair yararlı içgörüler verebilir. Önemli olan, gereken doğruluk seviyesine ulaşmamda ne kadar yardımcı olduğu ve benim onu nasıl kullandığım; tek başına doğrulukla belirlenmez
- Düşünmek enerji harcar. Hem de epey
  İnsanlar bu açıdan LLM’lerden çok daha verimlidir, ama bisiklet de yarış arabasından çok daha verimlidir. Model gülünç derecede hatalı olduğunda bile, yalnızca akıl yürütmenin yönü bile bazen düşünmemi yararlı biçimde hızlandırabiliyor
Kodlama için denemek isteyen varsa, az önce o1’i https://double.bot’a ekledim
Performansı gerçekten iyi. gpt-4o veya Sonnet başarısız oldukça not ettiğim kişisel bir problem setim var; o1 şu ana kadar hepsini çözdü
Ancak gerçekten epey yavaş
Düşünce zincirinin gizli olması da ilginç. OpenAI modeli iyileştirdiğinde açık modellerin bunu hemen damıtıp alamadığı ilk örnek gibi görünüyor. Son dönemde çıkarım zamanı hesaplamayla ilgili zaten çok sayıda makale çıktığı için, açık kaynak tarafının teknik açıdan ne kadar hızlı yetişeceği de ilginç olacak [1,2]
Şu anda sunulan o1-preview’in ağaç araması yapıp yapmadığı, yoksa eğitim dağılımındaki daha iyi ve ayrıntılı izlerden damıtılmış bir düşünce zincirini tek seferde üretmekle mi çalıştığı net değil
1
2
- Şu anda Double’ı deniyorum
  o1, bir JavaScript dosyasını TypeScript’e dönüştürme işinde Llama 3.1 405B, GitHub Copilot ve Claude 3.5’ten çok daha iyi performans gösterdi. Aynı işlevselliği korurken kodu da biraz sadeleştirdi. Çok etkileyici
  Yaklaşık 160 satırlık dosyayı refactor etti, ancak yaklaşık 420 satırlık dosyada “düşünüyor” balonu sonsuza kadar çıkıp duruyor. o1’in yanıt süresi uzadıkça bir yerlerde timeout oluyor olabilir

LLM ile akıl yürütmeyi öğrenmek

Şifreli metin ile açık metin arasındaki ipucu

İkişer harfli çiftleri tek harfe çevirme kuralı

Ortalama değerle doğrulanan dönüşüm

Hedef şifreli metnin çözümü

Nihai çözülmüş cümle

İlgili okumalar

1 yorum

Hacker News yorumları