Düşünce zinciri muhakemesi sinir ağlarının hesaplama yapmasına nasıl yardımcı oluyor

(quantamagazine.org)

2 puan yazan GN⁺ 2024-03-24 | 1 yorum | WhatsApp'ta paylaş

Büyük dil modelleri, uzun aritmetik işlemler gibi birden çok adım gerektiren problemlerde doğrudan yanıt vermeleri istendiğinde sık sık başarısız olur; ancak adım adım çözüm üretmeleri sağlandığında daha önce zor olan problemleri de çözebilirler
2022'de Google araştırmacılarının ortaya koyduğu chain-of-thought prompting, ara adımları çıktı olarak vermeyi sağlayan basit bir yöntem olarak yaygınlaştı; ancak neden etkili olduğu hâlâ analiz ediliyor
Araştırmacılar, Transformer'ın yeteneklerini ve sınırlarını hesaplama karmaşıklığı kuramı ile incelerken, paralel işlemeye optimize edilmiş yapının anında yanıt vermesi gerektiğinde hesaplama gücünü sınırlayabildiğini gösteriyor
Merrill ve Sabharwal'ın kuramsal çalışmasına göre, ara adım sayısı giriş boyutuyla orantılı olarak artmaya başladığında chain of thought pratikte fayda sağlıyor; birçok problem ise bundan da fazla adım gerektiriyor
Bu sonuçlar, gerçek modellerin eğitim sırasında bu çözümü mutlaka öğrendiği anlamına gelmese de, Transformer'ın sınırlarını abartmadan yeni sinir ağı mimarilerini karşılaştırmak için bir çerçeve sunuyor

Adım adım çözüm neden model performansını değiştiriyor?

İnsanlar, 20 basamaklı sayıların toplamı gibi problemleri tek hamlede çözmeye çalışmaz; bunun yerine birler basamağından sola doğru ilerleyerek hesabı biriktirir
Büyük dil modelleri de birkaç adımlık aritmetik problemleri çözebilir, ancak büyük sayıların toplamı gibi çok sayıda adım gerektiren görevlerde sık sık başarısız olur
2022'de Google araştırmacıları, modele adım adım çözüm üretmesini istemenin, daha önce zor görünen problemleri çözmesini sağlayabildiğini gösterdi
Bu yöntem chain-of-thought prompting olarak adlandırıldı ve hızla yayıldı; ancak neden işe yaradığı araştırmacılar tarafından hâlâ inceleniyor

Transformer'ı güçlü kılan şey ve yapısal kısıtları

Büyük dil modelleri, sözcükleri sayı dizileri olarak temsil edip işleyen yapay sinir ağlarına dayanır
- Eğitimden önce parametreler rastgele değerlerle başlar
- Model, internetten alınan büyük metin yığınları üzerinde bir sonraki sözcüğü tahmin eder ve gerçek metinle arasındaki farkı azaltacak şekilde parametrelerini ayarlar
Google araştırmacılarının 2017'de tanıttığı Transformer, dil modeli araştırmalarını büyük ölçüde genişletti
- Transformer'dan önceki sinir ağları en fazla yüz milyonlarca parametreye sahipti
- Günümüzde en büyük Transformer tabanlı modeller 1 trilyondan fazla parametreye sahip
Transformer'ın temel bileşeni attention head'dir
- Girdi metninin tamamını hızlıca tarar ve bir sonraki sözcüğün tahmininde faydalı olacak sözcükler arası bağlantıları bulur
- Ardından feedforward network büyük hesaplamayı yürütür
Birden çok attention head ve feedforward network katmanından oluşan yapı, eğitim sırasında her sözcük için hesaplamaların aynı anda yapılmasını sağlar
- Bu paralellik sayesinde eğitim, büyük veri kümelerine ve çok sayıda işlemciye dağıtılabilir
- David Chiang, büyük veri kümelerinden yararlanmak için modelin de büyük olması gerektiğini ve paralelleştirme olmadan eğitimin pratik olmayacağını söylüyor
Eğitim tamamlandıktan sonra normal kullanımda Transformer her seferinde bir sözcük üretir ve bu çıktıyı yeniden girdiye ekleyerek bir sonraki sözcüğü oluşturur
- Yapı hâlâ paralel işlemeye optimize edildiğinden, araştırmacılar bu paralelliğin hesaplama gücü açısından bir bedel doğurup doğurmadığını incelemeye başladı

Karmaşıklık kuramı açısından Transformer'ın hesaplama gücü

Sinir ağlarının eğitim sürecini doğrudan analiz etmek zor olduğu için, bazı araştırmacılar parametrelerin istenen değerlere ayarlanabildiğini varsayarak Transformer'ın özsel hesaplama gücünü inceliyor
Bu yaklaşım, Transformer'ı belirli türde programlanabilir bir bilgisayar gibi ele alıyor
- Hangi fonksiyonları hesaplayabildiğini
- Hangi tür problemleri çözebildiğini soruyor
2019'da Pablo Barceló ve ortak araştırmacıları, sabit sayıda parametreye sahip idealleştirilmiş bir Transformer'ın uygun ayarlar ve yinelemeli çıktı-yeniden-girdi süreciyle Turing machine kadar güçlü olabileceğini kanıtladı
Bu sonuç önemli bir başlangıç noktasıydı, ancak gerçek Transformer'ların gücünü olduğundan fazla gösterebilecek gerçekçi olmayan varsayımlara dayanıyordu
Sonrasında araştırmacılar daha gerçekçi kuramsal çerçeveler geliştirmeye başladı

Anında yanıt vermek zorunda olan Transformer'ın sınırları

William Merrill ve Ashish Sabharwal, Transformer'ın paralel yapısının yarattığı sınırları devre karmaşıklığı (circuit complexity) ile analiz etti
İkili, Transformer'ın çıktısını yeniden girdiye veremediği ve ilk çıktının doğrudan nihai yanıt olmak zorunda olduğu durumu ele aldı
Bu kuramsal çerçevede Transformer, belirli bir karmaşıklık sınıfının dışındaki hesaplama problemlerini çözemiyor
- Görece basit bir örnek olarak, doğrusal denklem çözümü gibi birçok matematik problemi bu sınıfın dışında kabul ediliyor
Paralellik eğitimi mümkün kılan bir avantaj olsa da, anında yanıt gerektiren durumlarda bir maliyete dönüşüyor
- Merrill, Transformer'ın girdi verilip hemen cevap beklenen biçimde kullanıldığında oldukça zayıf olduğunu söylüyor

Chain of thought bu sınırı nasıl aşıyor?

Merrill ve Sabharwal'ın sonuçları, Transformer'ın çıktısını yeniden kullanabildiğinde ne kadar güçlendiği sorusunu gündeme getirdi
Gerçek dil modellerindeki chain-of-thought reasoning, prompt ifadesinden etkileniyor; ancak model adım adım çözüm verdiğinde ilkesel olarak ara sonuçlar bir sonraki Transformer geçişinde yeniden kullanılabiliyor
Peking University araştırma ekibi, Mayıs 2023 tarihli makalesinde Merrill ve Sabharwal'ın çerçevesinde normal bir Transformer için imkânsız olması gereken bazı matematik problemlerini ele aldı
- Ara adımlara izin verildiğinde Transformer'ın bu problemleri çözebildiğini gösterdi
Ekim 2023'te Merrill ve Sabharwal, chain of thought'un hesaplama gücünü daha ayrıntılı inceleyen bir kuramsal çalışma yayımladı
- Transformer'ın nihai cevabı vermeden önce kullanabileceği ara adım sayısına göre ek hesaplama gücünün nasıl değiştiğini nicel olarak ortaya koydu
İki basamaklı sayıların toplamı örneğinde olduğu gibi, giriş büyüdükçe gereken ara adım sayısının da arttığı problemler vardır
- 20 basamaklı iki sayıyı toplamanın en basit yolu, 10 basamaklı iki sayıyı toplamaktan iki kat fazla ara toplama adımı gerektirir

Ara adımlar faydalı ama bedava değil

Merrill ve Sabharwal, ara adım sayısı çok az olduğunda Transformer'ın elde ettiği kazancın da büyük olmadığını analiz etti
Chain of thought, ara adım sayısı giriş boyutuyla orantılı olarak arttığında anlamlı bir etki gösteriyor
Birçok problemde ara adım sayısının giriş boyutundan çok daha hızlı büyümesi gerekiyor
Bu nedenle chain of thought her derde deva bir çözüm değil
- İlkesel olarak daha zor problemleri çözmeyi mümkün kılabilir
- Ancak bunun için kayda değer bir hesaplama çabası gerekir
Merrill, tek adımlı Transformer'ın sınırlarını aşmanın farklı yollarıyla ilgilendiğini ve chain of thought'un en ekonomik yöntem olmayabileceğini söylüyor

Gerçek modellere uygularken dikkat edilmesi gerekenler

Kuramsal analizin gerçek dil modelleri hakkında söyleyebilecekleri sınırlıdır
Transformer'ın ilkesel olarak belirli bir problemi çözebildiğinin kanıtlanması, gerçek bir dil modelinin eğitim sırasında bu çözümü mutlaka öğrendiği anlamına gelmez
Transformer'ın sınırlarına ilişkin sonuçlar da güçlü bir ölçüt varsayar
- Bu, hiçbir Transformer'ın belirli bir problemi her durumda kusursuz biçimde çözemeyeceği anlamına gelir
- Daniel Hsu, bazı özel durumların yine de iyi ele alınabileceğini söylüyor
Bu tür analizler, Transformer'ın yerini alabilecek farklı sinir ağı mimarilerini karşılaştırmak için bir çerçeve sunuyor
- Karmaşıklık kuramı analizinde bir ağ daha güçlü görünüyorsa, bunun gerçek dünyada da daha iyi olabileceğine dair bir dayanak oluşturabilir
Dil modellerinin çok çeşitli gerçek uygulamalarda kullanıldığı bir dönemde, modellerin iyi yapamadığı çok sayıda iş olduğunu kabul etmek gerekiyor

1 yorum

GN⁺ 2024-03-24

Hacker News yorumları

Düşünce zincirinin (chain-of-thought) mantık/matematikteki sıkı zincirle benzetilmemesi gerektiğini düşünüyorum.
Modelin adım adım akıl yürütmesi çıktıya o düzeyde bir kesinlik kazandırmıyor; zincirin gücü yalnızca ilgili bağlamın gücü kadar, bu yüzden insanların yaptığı matematik/mantıktan çok daha zayıf.
Bu alandaki modellerle her gün çalışan ama onları bizzat geliştirmeyen biri olarak, temel matematikte öğretilen zorunlu bağlantıları görmüyorum ve modelin, belli bir yaşın üzerindeki bir insanın düşmeyeceği biçimlerde sık sık başarısız olduğunu görüyorum.
Sonuçta bu daha çok ilgili bağlamı bulma işi; güçlü ama insanın mantıksal akıl yürütmesinden farklı. İnsanlar çok az kavramdan yola çıkıp bir sandalyede oturarak, yalnızca saf akıl yürütmeyle uzaktaki çürütülemez sonuçlara ulaşabilirken model daha çok bağlamlar arasında zıplıyor.
- LLM, gizil uzayda sıralı Monte Carlo örneklemesi yapmaya daha yakınsa, düşünce zincirindeki “düşünce” kısmı SMC örneklemesinde gereken ısınma evresine daha çok benziyor.
  Bayesçi istatistiği ciddi biçimde yapmış olanlar, örnekleyicinin verimli şekilde örnek çekebilmesi için kısa bir ısınmaya ihtiyaç duyduğunu bilir. Düşünce zincirinde de modelin doğru cevabı örnekleyeceği doğru komşuluğa girmeden önce kısa bir süre dolaşması gibi benzer bir şey oluyor gibi görünüyor.
- İnsanların “1, 2, öyleyse 3” diye düşündüğü akıl yürütmelerin önemli bir kısmının LLM’nin yaptığından çok farklı olmadığını ve gerçekte ondan daha zeki de olmadığını düşünüyorum.
  Pek çok kişi kuşkulu inançları üzerine yeterince düşündüğünü sanır ama aslında düşünmemiştir. Bağlamı kullanarak bir sonraki düşünceyi/kelimeyi tahmin eder ve çoğu zaman en baştan sahip olduğu sonuca ulaşır.
  Çürütülemez sonuç dediğimizde, gerçekte önce sezgisel olarak kurgulanmış, ardından tanımların yeterince net olup olmadığı, akıl yürütmedeki sıçramaların haklı olup olmadığı gibi konuları güçlü biçimde doğrulayan bir süreç eklendiğini düşünüyorum.
  Bu yüzden gerçekten görmek istediğim şey, LLM’ye belirsiz İngilizce cümleleri daha biçimsel bir akıl yürütme motoruna sokulabilecek biçime dönüştürmeyi öğretmenin yolu.
  Örneğin “İngiltere’nin içine kaç futbol sahası sığar?” diye LLM’ye doğrudan sormaktansa, get_size_football_field() ve get_size_England() fonksiyonlarının metrekare cinsinden değer verdiğini varsayıp bunu hesaplayan Python kodu yazmasını istemek çoğu zaman daha iyi.
- “İnsanlar çok az kavramdan yola çıkıp saf akıl yürütmeyle uzaktaki çürütülemez sonuçlara ulaşabilir” yeteneği bende yok.
  Ben yaklaşık 10 satır Go kodunu geçince akıl yürütemiyorum; hobi olarak birçok kez bulmaca çözerken bu benim için netleşti.
- İnsan akıl yürütmesinin yapısının düşünce zinciriyle neredeyse aynı olduğunu düşünüyorum.
  Bir işitsel döngümüz var; karmaşık bir sorunla karşılaştığımızda “artık XYZ’yi biliyorum, sırada ne var…” gibi bir mantrayı tekrarlarız ve iyi bir sonraki adım aklımıza gelince onu bağlama ekleriz.
  Sadece geçiş fonksiyonu şu an için insan tarafında çok daha iyi.
- LLM’lerde düşünce zinciri eninde sonunda belleği güçlendirmeye yardımcı oluyor gibi görünüyor.
  Çünkü akıl yürütmeyi bağlamın içine yazıp daha sonra ona daha kolay başvurmayı sağlıyor; elbette bu yalnızca bir tahmin.
Karpathy’den duymuş olabileceğim basitleştirilmiş açıklamaya göre, Transformer modeli yalnızca token üretirken (decode ederken) hesaplama yapar.
Bu yüzden düşünce zinciri kullanıp daha fazla token üretmek, modele “düşünmek” için daha fazla zaman kazandırır. Elbette bu açıklama tüm nüansları kapsamaz.
- Başka bir açıklama da mümkün. LLM özünde “A B”yi, yani B’nin A’dan sonra gelmesinin makul olup olmadığını öğrenir.
  Kısa tamamlamalarda A B1, A B2 gibi makul olasılıklar uzayı çok daha büyüktür. İnce bir soruya kısa cevap vermesini isterseniz düşünceli bir cevap, görünüşte doğru bir cevap, ikna edici saçmalık vb. hepsi mümkündür.
  Buna karşılık akıl yürütmesini açıklamaya zorladığınızda makul tamamlama uzayı daralır. İkna edici bir saçmalıkla başlayıp dürüstçe sonuna kadar götürürseniz sonunda geri dönmeniz gerektiği sonucuna varabilirsiniz.
  Bu, dürüst birinin zararlı inancını çürütürken o inancın sonuçlarını doğrudan açığa çıkarmanın ve düşünmeden iyi görünen şeylerin etkisini birlikte takip etmenin neden iyi işe yaradığını andırıyor.
  Makul tamamlama uzayını daraltan unsurlarla prompt’u doldurmanın etkili prompt mühendisliği olmasının nedeni de benzer.
- Özbağlanımlı Transformer mimarisinde görev ne kadar zor olursa olsun token başına maliyet sabittir.
  En karmaşık akıl yürütme sorusunu sorsanız da bir sonraki token’ı üretmek için gereken hesaplama miktarı en basit evet/hayır sorusuyla aynıdır; bu mimari bir kısıttır.
  LLM’nin hesaplama için kullanacağı “karalama” verileri üretmesini sağlayıp ilgili bilgilere dikkat etmesini sağlamak, bu sabit maliyet sınırını aşmanın bir yoludur. Görev zorlaştıkça daha fazla karalamaya ihtiyaç olur; böylece gelecekteki token’lar için gereken ilgili bağlam daha çok kalır.
- Başta ben de öyle düşünüyordum ama gerçekte bunun doğru olmadığını düşünüyorum. Attention’da kullanılan maskeler yüzünden dizgenin sonuna padding eklense bile dizge üzerinde yapılan işlem miktarı aynı kalır.
  Bunun yerine LLM’nin çalışma belleğinin aktivasyon değerleriyle sınırlı olduğunu ve bunun bir darboğaz olabileceğini fark ettim. Model, ara sonuçları çıktıya yazıp yeniden okuyarak çalışma belleğini genişletebilir.
  Örneğin “bir sayı düşün ama söyleme” derseniz o sayıyı saklayacak bir yer yoktur. Bant dışında geçici depolama alanı yoktur. Ama “adım adım düşün” derseniz ara sonuçları, yani düşünceleri banda kaydeder; böylece düşünmek için ek depolama alanı oluşur.
- GPT3.5-Turbo ile ürün geliştirirken yaşadıklarıma göre, modelin tek seferde işleyebileceği talimat karmaşıklığının bir üst sınırı var.
  “Hesaplama eklemek” yönü de var ama esas nokta, modeli karar verirken sınırlı bir kapsama odaklanacak şekilde süreci yapılandırmak.
  Fiilen birbirinin üzerine kurulan kararların ağaç yapısını oluşturmuş oluyorsunuz. Ara token’lar üretildiğinde model, zaten katlanıp küçülmüş bir karar kümesine dikkat edebiliyor.
  Ancak modelin beklediği yanlış sonuç nedeniyle ara adımların yanlı hale geldiği öngörüsel davranışlar da yaratıyor; bu yüzden pratikte biraz daha karmaşık.
- Kodlama için kullandığım modelin sistem prompt’una stack’i ve ana bağımlılıkları koyup soru sordum veya sohbet ettim; çok yardımcı oldu ya da en azından öyle hissettirdi.
“Hesaplamaya ilişkin biçimsel çalışmanın 1936’da Turing’in Turing makinesiyle başladığı” açıklaması daha geriye götürülmeli
1920’lerde Moses Schönfinkel’in kombinatoryal mantığı https://en.wikipedia.org/wiki/Moses_Sch%C3%B6nfinkel ve 1930’ların başında Alonzo Church’ün lambda hesabı https://encyclopediaofmath.org/wiki/Lambda-calculus var
Ancak bu modeller hesaplama karmaşıklığı teorisinin temeli olarak daha az uygun
- Daha geniş bakarsak Pearce ve Frege, Boole, Pascal, Leibniz üzerinden Aristotle’a kadar gidilebilir
  Aristotle, yapılandırılmış düşünceyi biçimselleştirmeye çalışan ilk kişiye yakın sayılabilir
  Turing’in hesaplama aygıtı, insan matematikçinin biçimsel kurallara göre sembolleri manipüle ederek problemleri hesaplamayla çözme biçimini biçimselleştirmişti; aynı deneyimi ve bunun ne kadar kolay makineleştirilebileceğini düşünen uzun bir silsileyi izliyordu
  Aritmetik için bunu fiilen ilk hayata geçiren Pascal oldu
- Schönfinkel’in çalışması dahil bu konu ilginizi çekiyorsa https://youtu.be/h0OkptwfX4g öneririm
LLM tartışmasının iki modu, yani “bilinci var!” ve “etkileyici bir veri kümesine sahip bir sonraki token tahmincisinden ibaret”, bence büyük ölçüde iki farklı gruptan geliyor
Önce LLM’leri tanıyıp sonra makine öğrenmesinin temellerini öğrenenler ile, önce makine öğrenmesi temellerini öğrenip ardından bugünün LLM’leriyle karşılaşanlar
Ben ikinci taraftayım; ancak temellere dair önyargıların büyük resmi görmeye sınır koyma riski de gerçekten var, bu yüzden tartışmanın kendisini olumlu karşılıyorum
Düşünce zinciri konusunda, özgün makaledeki sonuçların önemli bir kısmının sonraki denemelerde iyi yeniden üretilemediğini biliyorum. Bunun her gün değişen modellerin bir özelliği mi yoksa daha derin bir nedeni mi var, bilmiyorum
- İçgüdüsel olarak daha eski bilgileri de bilen insanlara güvenmek istiyorum
  Ama bir zamanlar tez danışmanıma, makine öğrenmesi alanındakilerin eski makine öğrenmesi ve yapay zeka çalışmalarını pek bilmiyor gibi göründüğünden yakınmıştım; 30 yılı aşkın araştırma deneyimi olan danışmanım, kendisi doktora öğrencisiyken de bu tür şikayetlerin zaten var olduğunu söylemişti
  Yapay zekada Pitts ve McCulloch’tan sayarsak yaklaşık 80 yıllık, Turing’den saysak da çok uzun bir çalışma birikimi var; başkalarının yaptıklarını takip ederken kendi konuna da derinlemesine inmek çok zor
  Örneğin bir pekiştirmeli öğrenme kitabını açtığınızda, planlamayla (planning) neredeyse aynı problemi, durum ve eylem uzayı gibi çok benzer varsayımlarla ele aldığını görürsünüz; sanki planlama diye bir alan yokmuş gibi görünebilir
  Bu arada, onlar gerçekten de sonraki token tahmincileri :P
- Şu anda “organik beyin de etkileyici yardımcı sezgisel sistemlere sahip bir sonraki token tahmincisinden ibaret” tarafına kayıyorum
  Transformer’ın bu kadar zayıf bir yaklaşım ve tamamen durumsuz olmasına rağmen böylesine etkileyici sonuçlar üretebildiğini görünce, burada özel bir sır varmış gibi gelmiyor
Bunun bariz olduğunu düşünmüştüm. LLM’lerde insanlar gibi iç ses ya da zihinsel imge yok; bu yüzden yanıtlamadan önce problemi kafasının içinde baştan sona düşünemez
Dolayısıyla gerçek çıktı alanını bir tür not defteri gibi kullanırsa, yanıtı vermeden önce daha geniş bir akıl yürütme alanını kapsayabilir; bu da insanların yaptığına benzer
Belirli bir soruyu “adım adım düşün” istemiyle sorduğunuzda, nihai yanıtta işe yaramayan geçici düşünceleri de çıktıladığını görebilirsiniz. Bu, hemen cevaplayamadığımız bir problemi çözerken yaptığımız şeyin aynısı
İnsanlar da geçici ve ara düşüncelerini ve yanıtlarını kağıt kalemle yazar. LLM’lerde böyle bir araç yok, ama çıktıyı benzer şekilde kullanabilirler
Bazı Düşünce Ağacı (Tree of Thoughts) istemleri LLM’nin iki tür çıktı üretmesini sağlar. Biri “iç sesle düşünme”, diğeri ise insana gösterilecek çıktıdır
Metot çağırma yeteneği ya da “Google’da arama” vermek de, kullanıcıya gösterilecek yanıtı oluşturmadan önce düşünme ve akıl yürütme yapmanın bir yolu olarak görülebilir
Model düşünemez. Yalnızca girdi bağlamını kullanarak çıktıyı tahmin eder
Bu yüzden yinelemeli olarak çözülmesi gereken bir problem varsa ara adımları bağlama kaydetmek gerekir. Aksi halde o adımların gidecek yeri olmaz
- “Girdiyi kullanarak çıktıyı tahmin eder” sözünden “düşünemez” sonucu çıkmaz
  Girdiyle çıktıyı tahmin etmenin neden düşünemeyeceği inancına yol açtığını anlamıyorum. Düşünme denen şeyin tamamı böyle olabilir; bunu bilmiyoruz
Basit bir nedenle 11 + 31 = 24 sonucunun makul görünmesini düşünebiliriz
Yanıt bir sayı ve iki basamaklı olması da iki basamaklı girdileri toplarken oldukça makul. 24 ayrıca matematik problemlerinde sık görülen bir yanıttır ve çok sayıda böleni vardır. Hatta 1+3 ve 1+1 toplandığında çıkan sayıları da içerir
Ama “Çözümü göster. 11 + 31’de onlar basamaklarını toplarsak 10 + 30 = 40, birler basamaklarını toplarsak 1 + 1 = 2 olur; 40 ile 2’yi birleştirince 24 eder” cümlesinin son kısmı pek makul değil
Ya da “10 + 30 = 20, 1 + 1 = 4, 20 ile 4’ü birleştirince 24 eder” de aynı şekilde
Problemi parçalara ayırınca, hızlı yanlış cevaptan daha düşük olasılıklı bölgelerden geçmek gerekir
Ancak hesaplama karmaşıklığına dayalı argüman daha güçlü. Yukarıdaki açıklama basit durumlar için yeterli bir yanıltıcı açıklama olabileceğinden, hesaplama karmaşıklığının önemli olduğunu ileri sürmeden önce bunun dışlanması gerekebilir
Karmaşıklık argümanı sezgisel olarak da doğal. LLM’yi, her saat çevriminde o ana kadarki girdi üzerinde sabit zamanlı bir ileri yayılım yapıp bir token çıktılavan bir bilgisayar olarak görürsek, daha fazla çevrim verirseniz daha fazla hesaplama yapabilir
Durum da kullanabilir. Bir çevrimden diğerine durum aktarma mekanizması çok sınırlı olsa bile bu mümkündür
Bu, tek katmanlı perceptron’un XOR hesaplayamaması şeklindeki eski problemin bir uzantısına da benzer. Burada “çevrim”, bir katmandan sonraki katmana geçiştir
Elbette bu, ayrıntıların apaçık olduğu anlamına gelmez. Birden çok saat tikinin kullanılabilmesi, tek bir tikte ne kadar yapılabileceğini açıklamaz
Düşünce zinciri mucizesiyle ilgili olabilecek ve daha basit bir açıklama sunabilecek bir tweet var
“Adım adım düşünelim!” ifadesini aradığınızda, sonuçlar arasında http://geteasysolution.com gibi siteler çıkıyor; bu sitelerde matematik için çok sayıda adım adım çözüm var. Bunun epey yaygın olması düşündürücü
https://twitter.com/yanaiela/status/1765077404043952516
- Bu açıklama, belirli bir ifadenin neden işe yaradığını gerekçelendiriyor; ancak düşünce zincirinin nasıl çalıştığına dair genel açıklamayla çelişmiyor
  O ifade modeli, düşünce zinciri örneklerinin çok olduğu web sitelerinin kavramsal uzayına yönlendirebilir; ama düşünce zinciri gerçekten düşünmeye yardımcı olmasaydı, çıktının daha iyi olmasına yol açmazdı
Bunun zaten apaçık olduğunu düşünüyordum. Her şey bağlam farkındalığı meselesi
İyileştirmek istiyorsanız, prompt’a tek bir terim ekleyerek daha fazla değerlendirme alanı açabilirsiniz. Bağlam penceresinin sonuna gelinmediğini varsayarsak, her yeni kelime daha fazla bağlama sahip yeni bir vektörü “serbest bırakır” ve dil modeli bunu değerlendirmeye katar
İnsan beyninin çalışma biçimine benziyor gibi görünmesiyle arasındaki benzerlik o kadar belirgin ki, dil modellerini daha iyi kullanmak için bunu bir benzetme olarak kullanmamak asıl mantıksız olurdu
Bir LLM’i manipüle etme biçimiyle insan beynini manipüle etme biçimi, yani doğru kelimeleri kullanarak aynı sonucu elde edebiliyorsak, neden arada bir fark olduğuna inanmamız gerektiğini bilmiyorum
Bunlar, 3B modelleri kullanıp araştırdıkça zamanla öğrenilebilecek şeyler. Birçok kişi bundan kaçınıyor gibi görünüyor ama “eski” orca mini 3B gibi bazı modeller çok güçlü ve ben hâlâ kullanıyorum
Gereken şey daha iyi prompt’lar; bu yaklaşım da çok iyi çalışıyor
En büyük engel, bu küçük modellerin genellikle küçük olan bağlam penceresi; ancak küçük RoPE genişletmeleri, metin özetleme, bağlam kelimeleri ekleme, prompt’ta kelimelerin harflerini atlama gibi yöntemlerle kaliteyi fazla feda etmeden bunun etrafından dolaşılabilir
Dil modelinin sonuçlarını iyileştirmek istiyorsanız mentalist, dolandırıcı, sihirbaz, sosyal mühendis olmanız gerekiyor. Garip geliyor ama işe yarıyor
- Bu açıklama, düşünce zincirinin açık olmayan sınırlarını ele almıyor
  Merrill ve Sabharwal, düşünce zincirinin ancak ara adım sayısı girdi boyutuyla orantılı olarak arttığında gerçekten yardımcı olmaya başladığını; birçok problemde ise ara adım sayısının bundan çok daha fazla artması gerektiğini kanıtladı
  Bu benim deneyimimle de örtüşüyor. GPT-4, adım adım çözüm istendiğinde yalnızca “basit” problemleri parçalayabiliyor. Özellikle gerçek adımların kendisinin de daha fazla parçalanması gereken O(n²) karmaşıklığında, işi adımlara ayırıyor ama alt işleri yeniden alt adımlara bölmede güvenilir şekilde başarısız oluyor. O alt iş, düşünce zinciri prompt’uyla çözülebilir olsa bile
  Düşünce zinciri prompt’u, LLM’in cevabı körlemesine tahmin etmesini engellediği için basit O(n) hesaplamalarda işe yarıyor; ancak bence hem teorik hem de deneysel olarak herhangi bir O(n²) problemi O(n) adet O(n) alt probleme bölme yeteneğine sahip değil. İnsanların bundan çok daha zeki olduğunu söylemeye bile gerek yok; fareler de öyle
- İlginç; daha fazla bilgi edinebileceğim ayrıntılar veya kaynaklar var mı? Tek bir gerçek örnek bile yardımcı olurdu
Düşünce zinciri bana “bir şekilde idare ederek ilerlemeyi (muddling through)” hatırlatıyor ve zekânın yaklaşıklaştırılmasına dair doğru yaklaşım olduğu yönündeki sezgimle hemen örtüşüyor
https://studio.ribbonfarm.com/p/massed-muddler-intelligence#...

Düşünce zinciri muhakemesi sinir ağlarının hesaplama yapmasına nasıl yardımcı oluyor

Adım adım çözüm neden model performansını değiştiriyor?

Transformer'ı güçlü kılan şey ve yapısal kısıtları

Karmaşıklık kuramı açısından Transformer'ın hesaplama gücü

Anında yanıt vermek zorunda olan Transformer'ın sınırları

Chain of thought bu sınırı nasıl aşıyor?

Ara adımlar faydalı ama bedava değil

Gerçek modellere uygularken dikkat edilmesi gerekenler

İlgili okumalar

1 yorum

Hacker News yorumları