LLM'lerin Asla Yapamayacağı Şeyler

(strangeloopcanon.com)

36 puan yazan GN⁺ 2024-04-28 | 1 yorum | WhatsApp'ta paylaş

[ LLM'lerin Sınırları ]

LLM'lerin hedef sapması ve düşük güvenilirliği hakkında; ya da LLM'ler neden Conway's Game of Life'ı yapamıyor
Son birkaç yılda LLM'ler çözemeyeceği düşünülen problemleri etkileyici biçimde çözmüş olsa da, hâlâ basit görünen sorulara neden yanıt veremediği net değil
Son birkaç haftadır LLM'lerin başarısızlık modlarını anlamaya çalışıyorum. Tuhaf bir konu ama ilgi çekici olduğunu düşünüyorum. Yapay zekanın başarısızlıkları, başarılarından daha çok şey öğretiyor
Temelde, LLM'lerin sonunda üstleneceği birçok iş için tek tek değerlendirme gerekeceği noktasından yola çıktım; ancak odak noktam, akıl yürütme yeteneklerinin sınırlarını anlayıp öğrenme kabiliyetlerine güvenmenin bir yolunu bulmaktı
LLM'lerin akıl yürütme yeteneğini değerlendirmek zor
- Akıl yürütme yeteneğini eğitim verisinden ayırmak zor
- Tekrarlı biçimde akıl yürütüp sorulara cevap verebilme becerisini test etmenin bir yolunu bulmak istiyorum
Tatmin edici bir ölçütü karşılayan en basit sürümle başladım
- 3x3, 4x4, 5x5 boyutlarında kelime ızgaraları art arda oluşturup oluşturamadıkları
- Değerlendirmesi kolay hazırlanmalı, kolay ölçülmeli ama uygulanması zor olmalı
En güncel tüm büyük dil modelleri (Opus, GPT-4 dahil) bu görevde başarısız oluyor
- Bu modeller ekonomi, kuantum mekaniği gibi zor soruları yanıtlayabiliyor; kod yazabiliyor, resim, müzik ve video üretebiliyor, tüm uygulamalar oluşturabiliyor, hatta yüksek seviyede satranç bile oynayabiliyor
- Ama sudoku çözemiyor

Reversal Curse

LLM'lerde, model "A, B'dir" biçiminde öğrenirse bunu ters yönde "B, A'dır" şeklinde genelleyememesi anlamına gelen Reversal Curse bulunur
- Örneğin model "Valentina Tereshkova uzaya çıkan ilk kadındır" bilgisini öğrenirse, "Uzaya çıkan ilk kadın kimdir?" sorusuna otomatik olarak cevap veremez
- Dahası, doğru cevabın ("Valentina Tereshkova") olasılığı rastgele bir isimden daha yüksek değildir
Model, insanlar arasındaki ilişkileri anlayacak şekilde iyi genelleme yapamıyor
En üst düzey modeller bile hâlâ bu sorunu yaşıyor

Sorun eğitim verisi dağılımında olabilir mi?

Sorunun eğitim verisi dağılımındaki tuhaflıktan kaynaklanıp kaynaklanmadığını merak ettim. Yeterince örnek göstermemiş gibi göründüğümüz için deterministik bir şey denedim
Transformer'ı Cellular Automata tahmini yapacak şekilde eğiterek test ettim
Çeviriyle ilgili bir sorun yok gibi görünüyor ama yine de başarısız oluyor!
En az iki farklı sorun var
1. Eğitim verisinde bilgi olmadığı ve bunu yapacak şekilde eğitilmedikleri için LLM'lerin yapamadığı problemler
2. LLM'lerin yapıları gereği yapamadığı problemler
Gördüğümüz hemen her şey, 1. problemden çok 2. problemi hatırlatıyor

LLM'lerin bunu temelden yapamamasının nedeni

Modelde hedef sapması (goal drift) sorunu olduğunu düşünüyorum; çünkü model birer birer token üretmeye zorlandığı için, prompt içi bağlamın ötesine genelleyemiyor ve dikkatini nereye vermesi gerektiğini bilmiyor
- Prompt injection'ın çalışmasının nedeni de bu. Çünkü dikkat mekanizmasını bozuyor ( _### Instruction: ...` gibi bir şey söyleyerek modeli jailbreak etmek )
Gerek LLM'lerde gerek insanlarda bağlam, kıt bir kaynaktır
Özetle,
1. LLM'ler hesaplamayı taklit eden olasılıksal modellerdir ve bazen bunu şaşırtıcı derecede yakından taklit ederler
2. Daha büyük modeller eğitildikçe, verideki daha fazla örtük ilişkiyi öğrenirler ve bu da daha iyi akıl yürütmeye yardımcı olur
- Öğrenilen ilişkiler her zaman bizim fikirlerimizle temiz biçimde eşleşmez
1. Akıl yürütme her zaman tek geçişlidir
- LLM'ler, eğitim verisinde ilgili süreç ayrıntılı biçimde açıklanmadıkça duramaz, dünya durumunu toplayamaz, akıl yürütemez, önceki cevaplarını tekrar gözden geçiremez veya gelecekteki cevapları öngöremez
- Önceki prompt'lar ve yanıtlar dahil edilse bile bir sonraki akıl yürütme yine baştan, tek geçiş olarak başlar
1. Bu, akıl yürütmenin güvenilirliğini düşüren bir tür kaçınılmaz 'hedef kayması' problemi yaratır
- Prompt injection'ın çalışmasının nedeni de budur (çünkü dikkat mekanizmasını bozar)
- Bu 'hedef kayması', ajanların ya da tekrar tekrar sıralı biçimde yürütülen görevlerin güvenilir olmayacağı anlamına gelir
- Dikkat seçici ya da dinamik olmadığı için neye odaklanması gerektiğini 'unutur'
1. LLM'ler bağlamı dinamik olarak sıfırlayamaz
- Turing makinesi bandı bellek olarak kullanırken, transformer ara hesaplamaları izlemek için iç durumu (self-attention ile yönetilen) kullanır
- Bu da, transformer'ların iyi yapamadığı birçok hesaplama türü olduğu anlamına gelir
1. Bu durum kısmen chain of thought ya da çıktıyı inceleyip düzeltmek için başka LLM'ler kullanmak gibi yöntemlerle çözülebilir
- Özünde, akıl yürütmeyi yeniden doğru yola sokmanın yollarını bulmak
- Yeterince akıllı prompt'lar ve adım adım yinelemelerle LLM'ler eğitim verisinde bulunan neredeyse her şeyi ortaya çıkarabilir
- Modeller geliştikçe her bir akıl yürütme de gelişecek, güvenilirlik artacak ve daha iyi ajanlar mümkün olacaktır
1. Yeterince emek verilirse, birbirine bağlı GPT sistemleri, çoklu iç yinelemeler, sürekli hata kontrolü ve düzeltme, dışsallaştırılmış bellek gibi işlevsel bileşenlere sahip sistemler ortaya çıkacaktır
- Ancak bu, birçok alanda AGI'ye yaklaşmak için kaba kuvvetle ilerletilse bile eğitim verisinin ötesine gerçekten genelleme yapabileceği anlamına gelmez
- Yine de bu hâlâ mucizevi bir şeydir

[ Deney - GPT neden Wordle öğrenemiyor ]

LLM'ler Wordle oynayamıyor
- Sudoku ya da kelime ızgaraları (bulmacanın en basit biçimi) için de aynı durum geçerli
Bu şaşırtıcı, çünkü bu problemler zor problemler değil
- İlkokul öğrencileri bile deneyebilir, ama en iyi LLM'ler bile bunları yapamıyor
İlk varsayım eğitim verisinin yetersiz olması olurdu
- Ama burada durum bu değil
- Çünkü kurallar açıkça verinin içinde
- Wordle, mevcut LLM eğitim veri kümelerinde zorunlu olarak eksik kalmış bir şey değil
Bir başka varsayım da bunun tokenization sorunu olduğu
- Ama bu da doğru değil
- Birden fazla deneme hakkı verip önceki cevapları da sunarak yineleme alanı tanınsa bile, doğru çözümü bulmakta yine zorlanıyorlar
- Harflerin arasına boşluk koymak da pek işe yaramıyor
Önceki cevaplar, bağlam ve soru yeniden verilse bile, çoğu zaman [3,4] hücresindeki bir şeyi düzenlemek yerine tüm cevap dizisini baştan başlatıyor
Bunun yerine, doğası gereği her adım farklı düzeylerde yinelemeli hesaplama gerektiriyor gibi görünüyor; bu da hiçbir modelin yapamayacağı bir şey gibi duruyor
- Bir bakıma bu anlaşılır, çünkü otoregresif modeller aynı anda yalnızca tek bir ileri geçiş yapabiliyor
  - Mevcut token deposunu ve çıktıyı bir tür karalama tahtası olarak kullanıp düşünmeye devam edebilirler, ama izlerini çok çabuk kaybediyorlar
Buradaki sonuç şu: Her adım hem bellek hem de hesaplama gerektirdiğinde, bu şey transformer'ların şu anda sahip olduğu katman sayısı ve attention head'leri içinde çözülebilir görünmüyor
- Trilyonlarca token ile eğitilmiş GPT-4 gibi çok büyük modellerde bile durum böyle
İronik biçimde, dikkatlerini nereye yoğunlaştırmaları gerektiğini belirleyemiyorlar
- Çünkü attention'ın şu an uygulanma biçimi statik ve dizinin tüm parçalarını aynı anda işliyor
- Daha seçici olup bağlamı dinamik olarak sıfırlayarak alternatifler denemek yerine, çeşitli sezgisel yöntemler kullanmak mümkün değil
Bunun nedeni, bugün ölçülen attention'ın bizim yaptığımız gibi gerçekten çok katmanlı, çok izlekli bir analiz olmaması
- Ya da örtük olarak öyle olabilir, ama ürettiği olasılıksal değerlendirme bu bağlamı tekil problemlere aktarmıyor

[ Deney - LLM'lere Cellular Automata öğretmek ]

Eğitim sırasında istenen sonucu elde edene kadar sonsuz veri üretilebildiği için, temel bilgilerin öğretilebileceğini düşündüm
Tahmin yapmayı denemek için oyuncak bir transformer yapmayı planladım
Solda CA, sağda ise Transformer çıktısı var; bunların ayırt edilip edilemeyeceğine bakılması istendi
Sonucu tahmin etmeyi öğretemedim ve nedenini de bulamadım
Oyuncak bir modeldi ama denediğim çeşitli denklemleri öğrenecek kadar çalışıyordu ve bir miktar genelleme de yapıyordu
Grid boyutunu küçülttüm, hiperparametre optimizasyonu yaptım ama yine de olmadı
Fiziksel yerleşim hakkında daha fazla bilgi gerektiğini düşünüp CNN katmanları ekledim ve positional embedding'in X ve Y eksenlerini açıkça ele almasını sağladım. Yine de olmadı
Umutsuzluğa kapılmış halde, bari tek bir basit denklemi öğretmeyi denedim
İlk başta hiç çalışmadı ama başlangıç/bitiş token'ları ekleyince bir anda çalışmaya başladı. Transformer garip bir şey
Boyut tam kusursuz değildi ama neredeyse öğreniyordu. Üstelik neredeyse hiç head veya katman yoktu ve max_iter 1000'di
Fikir açıktı: birden fazla durumu öğrenmesi ve geçmişi koruması gerekiyordu, bu yüzden bu işlevi bir şekilde eklemeliydim. Bunun için decoder'ı, çıktıdan sonra başka girdiler de alacak şekilde değiştirdim. Bu da ya başka bir RNN katmanı eklemek ya da daha önce hangi adımlardan geçildiğine dair bir bellek sağlamakla aynı şeydi
Ama yine de olmadı. Cellular automata'ya geri dönüp en temel şeylerden başladığımda bile çalışmadı. Üstelik 1 boyutluydu ve gerçekten çok kolay kurallar da vardı. Turing-complete 110'un yanı sıra 0 gibi kurallar da
Bir dizi problemde doğru cevabı üretmeyi öğrenmiş olması, temel kuralı öğrendiği anlamına mı gelir? Yoksa o kuralın bir benzerini öğrenip, verilen dağılım içinde sonucu taklit edebilir hale mi gelmiştir? Üstelik yanlış biçimde hata yapmaya çok açık bir halde
Aynı sorun yalnızca oyuncak modellerde ya da GPT-3.5'te değil, GPT-4, Claude, Gemini gibi daha büyük LLM'lerde de görülüyor. En azından sohbet modunda
fine-tuning yapılsa da özel eğitim verilse de, LLM'ler Conway's Game of Life'ı oynayamıyor gibi görünüyor
Bunu biri çözebilirse son derece ilginç olurdu. En azından neden böyle bir sorun olduğunu açıklayabilse bile

[ Bu sorun şimdiye kadar nasıl çözüldü ]

Bu sistem tasarlanırken, kendi zekâmızı ne kadar çok yansıtırsak, nihai çıktı da gerekli dönüşümü o kadar iyi taklit edebilir
Tek tek bulmacaları öğretip akıl yürütmenin aktarılmasını umabiliriz ama gerçekten genelleme öğrenip öğrenmediğini nasıl anlayacağız? Yakın zamana kadar toplama ve çarpma bile bu modeller için zordu
Victor Taelin, "GPT asla A::B problemini çözemez" diyor. Bu, transformer tabanlı modellerin eğitim kümesinin dışındaki yeni problemleri gerçekten öğrenemediğine veya uzun süreli akıl yürütme yapamadığına dair bir örnekti
- Ona göre "güçlü GPT, temelde ağırlıklarının içinde bir devre tasarımcısı evrimleştirmiştir" ve "ancak attention'ın hesaplama modeli olarak katılığı nedeniyle böyle evrimleşmiş devreler yeterince esnek olamaz"
- "AGI onun içinde büyümeye çalışıyor ama dayatılan hesaplama ve iletişim kısıtları yüzünden bunu yapamıyor gibi görünüyor. İnsan beyninin sürekli sinaptik plastisite yaşadığını unutmayın. Çok daha küçük ölçekte eğitilse bile AGI'ye yol açma ihtimali daha yüksek, daha esnek mimariler vardır. Ama henüz onların ne olduğunu bilmiyoruz."
Bu problem için 10 bin dolarlık bir ödül koydu ve sorun bir gün içinde çözüldü.

[ LLM'ler gerçekten ne kadar öğrenebilir? ]

LLM'lerin öğrenme kapasitesine dair soru işaretleri

LLM'ler, basit tekrar etkileşimleri veya kısıt seçimi gibi çocuk oyunlarında bile sık sık başarısız oluyor
Buna karşın LLM'ler zor matematik problemlerini, rekabetçi ekonomi akıl yürütmesini, Fermi tahminlerini, hatta açıkça öğretilmedikleri dillerde yazılmış fizik problemlerini bile çözebiliyor
LLM'lerin yanıtları, prompt verme biçimine büyük ölçüde bağlı
LLM'ler güçlü bir sezgi gösteriyor ama sınırlı bir zekâya sahip
Akıl yürütme adımları arttıkça LLM'ler hedefi kavramakta ve odaklanmakta zorlanıyor

Dış bellek eklenen sinir ağlarında performans artışı

RNN türü bağlantılar eklemek bir miktar fark yaratıyor ama problemi tamamen çözmeye yetmiyor
Sinir ağına dış bellek eklemek, çeşitli düzensiz örüntülerin öğrenilmesini sağlayabiliyor
Yalnızca yapılandırılmış bellek (stack veya memory tape) eklenen ağlar, context-free ve context-sensitive görevlerde başarılı biçimde genelleme yapabiliyor

Chain-of-thought prompting ve scratchpad'in sınırları

Chain-of-thought prompting, scratchpad kullanımı, ara düşünceleri kâğıda yazmak gibi yöntemlerin tümü, hedef kaymasını azaltmaya yönelik düşünme süreçleri örnekleridir
Ancak bu yöntemler hâlâ original sin tarafından engelleniyor
Önceki girdiye bağlı çıktılar, özellikle her adımda hesaplama gerektiren durumlarda, mevcut transformer tabanlı modeller için fazla karmaşık ve fazla uzun kalıyor

Autoregression'ın laneti

Modelin ölçeği büyüdükçe uzun chain-of-thought süreçlerinde daha iyi performans gösteriyor ama akıl yürütme zincirinin rastgele bir noktasında, diğer yeteneklerle ilgisiz görünen hataları ısrarla yapmaya devam ediyor
Aynı görev birkaç adımda çözülebilse bile, adım sayısı uzadıkça hata yapma olasılığı artıyor
GPT-4, GPT-3.5'e kıyasla daha az halüsinasyon ve hata yapıyor
Wordle'da başarısız olan GPT-4 veya Opus gibi büyük modeller inşa etmek gerçekten doğru cevap mı?

Bilişin doğasına dair sorular

İlkokul öğrencilerinin kolayca çözebildiği ama trilyonlarca token ve milyarlarca dolar harcanmış sofistike modellerin çözemediği problem türleri varsa, bu bizim bilişimizin doğası hakkında ne söylüyor?
AGI'deki G (genelleme) kısmı en zor bölüm ve bu, dağılımın ötesine kolayca genellenebilecek bir şey değil
Elimizdeki şey, Babel Kütüphanesi'nin bir bölümüne daha yakın; yalnızca önceden yazılmış kitapları değil, o kitapların arasındaki boşluklarda bulunan bilgiyi de okuyabiliyor

İnsanlar ile LLM'lerin eğitim verisi arasındaki fark

İnsanlar yaşamları boyunca 30 bin ila 50 bin kitap okuyabilir ama çoğu insan bunun %1'ini bile okuyamaz (en fazla 1GB veri)
Buna karşılık LLM'ler internetteki her şeyi ve daha fazlasını özümsemiş, tüm alanlar ve disiplinler boyunca yüz milyarlarca kelime üzerinde eğitilmiştir (GPT-3, 45TB veriyle eğitildi)
Birisi 2 milyon kitap okusaydı nasıl görünürdü ya da basit bir örüntü tanıyıcı 2 milyon kitap okusaydı neler yapabilirdi; bunların cevabı kolay değil
LLM'ler eğitim verisindeki örüntüleri ve örtük kuralları öğreniyor ama bunları açık hale getirmek kolay değil
Eğer LLM'nin örüntü eşleştirmeyle ilgili denklemleri bilmesinin bir yolu yoksa, nasıl genelleme yapacağını da öğrenemez; bu yüzden Reversal Curse hâlâ varlığını sürdürüyor

[ LLM'ler bağlamı sıfırlayamaz ]

LLM'lerin bir varlık, bir nöron ya da neokorteksin bir parçası gibi olduğu benzetmesi belirli açılardan faydalı olsa da, LLM'lerde gördüğümüz davranışı tam olarak yakalamıyor
Örüntü öğrenebilen modellerin ilginç yanı, veri kümesinde açıkça yer almamış olabilecek örüntüleri de öğrenmeleridir
LLM'ler dili öğrenirken verinin içinde gömülü çeşitli bağlantıları yakalayıp von Neumann ile Charles Dickens'ı ilişkilendirebiliyor ve bizim yapmış olabileceğimiz kadar gerçekçi taklitler üretebiliyor

Veri kümesi karmaşıklığı ve model boyutunun sınırları

Veri kümesinin insanlığın tüm karmaşıklığını kodladığını varsaysak bile, küçük bir veri kümesinin içinde dahi var olan bu tür örüntülerin sayısı model boyutunu hızla aşacaktır
Bu neredeyse matematiksel bir zorunluluktur
Cellular automata probleminde, LLM'nin yöntemi gerçekten öğrenip öğrenmediği ve ne kadar güvenilir olduğu belirsizdir
LLM'lerin hataları, neyi bilmediklerinin başarılarından daha iyi bir göstergesidir

Öğrenmeyi öğrenen LLM'lerin sınırları

Daha büyük sinir ağları yalnızca veriden öğrenmekle kalmaz, öğrenmeyi de öğrenir
LLM'lerin birkaç örnek verildiğinde eğitim kümesinde görmediği problemleri çözebilmesinin nedeni budur
Ancak LLM'lerin kullandığı yöntem yeterince genellenebilir görünmüyor; özellikle de nelere dikkat etmesi gerektiğini öğrenme açısından
Öğrenmeyi öğrenmek, biz insanlar için de tekil ve küresel bir algoritma değil
Bazı şeylerde daha iyi çalışır, bazılarında daha kötü
Farklı problem türlerinde farklı biçimlerde çalışır
Ve bütün bunların aynı sayıda parametreyle yazılması gerekir; dolayısıyla bu ağırlıklar üzerinden yapılabilecek hesaplama, yalnızca Muppet'lar hakkında cevap vermekle kalmamalı, aynı zamanda mevcut teoriyi yıkacak bir sonraki büyük fizik keşfi hakkında da konuşabilmelidir

Etkileşimli sembol dizilerinin karmaşıklığı

Bir sembol dizisinde bir sembolün varlığı veya konumu, sonraki sembolün bilgi içeriğini etkileyecek şekilde etkileşime girerse, veri kümesinin toplam Shannon entropisi yalnızca tek tek sembollere bakılarak öngörülenden daha yüksek olabilir
Bu, Conway'in Yaşam Oyunu gibi duruma bağlı şeyleri gerçekten zorlaştırır
Bu aynı zamanda, Yaşam Oyunu veri kümesi üzerinde ince ayar yapılmış olmasına rağmen GPT'nin aslında kalıpları öğrenemiyor gibi görünmesinin de nedenidir
Bunun yerine GPT, sorulara yanıt verecek kadarını öğrenir (bir tür Goodhart yasası)

LLM'leri basit testlerle tanımlamanın zorluğu

LLM'ler için çalıştırılabilecek basit bir testle bunlardan birini tanımlamaya yönelik üst düzey bir soru sormak aptalcadır
Çünkü bunlardan birini tanımlamak, muhtemelen yarım yüzyıldan fazla bilimsel araştırmanın genel çerçevesini fiilen tanımlamak anlamına gelir

[ Daha fazla ajana ihtiyaç var ]

Mevcut teoriye benzer şekilde, LLM modeline daha fazla özyineleme eklemek doğal olarak daha iyi olacaktır
Ancak bunu, yalnızca özgün hedefi ve şimdiye kadarki yolu akılda tutabildiği ölçüde, adım adım daha karmaşık planlama problemlerini çözmek için yapabilecektir
LLM'lerin neden güvenilir olmadıkları hâlâ belirsizdir
GPT-4, GPT-3.5'e kıyasla daha güvenilirdir; ancak bunun yalnızca eğitimde daha becerikli hale gelmesinden mi yoksa ölçek büyüdükçe güvenilirliğin artıp halüsinasyonların azalmasından mı kaynaklandığı bilinmiyor

Ajanlar: güçlü bir kullanım alanı

Ajanlar, yani bizim adımıza bütün bir işi yerine getirebilen otonom varlıklar, LLM'lerin hayal edilen kullanım alanıdır
Gerçekten de birçok iş için daha fazla ajana ihtiyaç vardır
Bazı işlerde biraz daha iyi çalışırlarsa, yeterli sayıda ajanla her işte daha iyi çalışırlar mı? Olası, ancak şu an için pek öyle görünmüyor
Cognition Labs'in Devin'i gibi seçeneklerde bunun ne kadar güçlü olabileceğine dair bir fikir gördük (gerçek kullanım örneği sunumu)

Önümüzdeki birkaç yılda işlerin önemli bir bölümüne ölçeklenme olasılığı

Bu davranışlar önümüzdeki birkaç yılda işlerin önemli bir bölümüne ölçeklenebilir mi? Muhtemelen evet
Her işe ayrı ayrı yaklaşmak gerekecektir ve bu, kolayca ölçeklenmeyen uzmanlaşmış modeller anlamına gelir (her şeye hükmeden tek bir model değil)
Açık kaynak sürümler, temel unsurların bir kısmını şimdiden gösteriyor
- Bilginin temel modele hangi sırayla ve ne miktarda ulaştığını dikkatle incelemek ve daha önce gördüğümüz gibi sınırlarını hesaba katarak gelişebilecekleri bir ortam yaratmak

GPT'nin sınırları ve çözümü

GPT'nin Yaşam Oyunu gibi problemleri kendi başına ya da adımları düşünmeye çalışırken bile çözememesi önemli değil
Önemli olan, GPT'nin bunu çözmek için bir program yazabilmesidir
Yani GPT'yi, her program için program yazmanın mantıklı olduğu durumları tanıyacak şekilde eğitebilirsek AGI'ye yaklaşabiliriz (benim görüşüm)

Model kapasitesinin sınırları ve görsel-dil kipleri arasındaki rekabet ilişkisi

En azından küçük modellerde, öğrenilen içerik konusunda ağırlıklar arasında bir rekabet vardır
DeepSeek makalesinde gördüğüm en iyi yorum:
- DeepSeek-VL-7B, matematikte (GSM8K) bir miktar düşüş gösteriyor
- Bu, görsel ve dil kipleri arasında uyumu teşvik etmeye yönelik çabalara rağmen, ikisi arasında hâlâ bir rekabet ilişkisi bulunduğunu düşündürüyor
- Bu, sınırlı model kapasitesinden (7B) kaynaklanıyor olabilir ve daha büyük modeller bu sorunu önemli ölçüde hafifletebilir

[ Sonuç ]

Önceki örneklerden çıkarılan dersler
- LLM'lerin (Large Language Model) şu an için çözemediği belirli türde problemler vardır
  - Özellikle önceki duruma bağlı olan ya da gelecekteki durumu tahmin etmeyi gerektiren, yani daha uzun akıl yürütme adımları isteyen problemler buna girer
  - Wordle oynamak veya CA (Cellular Automata) tahmini yapmak buna örnektir
- Daha büyük LLM'ler kullanıldığında, probleme ilişkin adım adım bilgi ve izlenecek çok sayıda örnek verilerek belli ölçüde akıl yürütme öğretilebilir
  - Ancak bu, aslında problemi soyutlama ve cevabı düşünme biçimini prompt'un içine yerleştirmek anlamına gelir
- Bu durum şu yollarla iyileştirilebilir
  1. Daha iyi prompting
  2. Ara adımlarda bellek, hesaplama ve araçlara erişimin artırılması
  - Ancak bu, insanlarla ilişkilendirdiğimiz genellenebilir bilinç düzeyine ulaşmayacaktır
  - LLM'e girilen tüm bilgiler, uygun bir prompt verildiğinde muhtemelen ortaya çıkarılabilir
- Bu nedenle modeli doğru kullanmanın çok büyük bir kısmı, yapılacak işe göre uygun prompt'lar oluşturmaktır
  - Bu, dış guardrail'lerle birlikte modelin uygun şekilde yanıt vermesi için, hesaplama problemlerine ilişkin doğru ve yanlış cevaplardan oluşan uzun dizilerin dikkatle kurgulanmasını gerektirebilir
- 'Attention', Goal Drift etkisine açık olduğundan, ciddi bir dış scaffolding olmadan güvenilir hale getirilmesi çok zordur
  - LLM'lerin yaptığı hatalar, başarılarından çok daha faydalı bilgi sağlar
AGI'ye (Artificial General Intelligence) ulaşmak ve yeterli düzeyde genelleme elde etmek için temel mimari iyileştirmeler gereklidir
- Mevcut modellerin ölçeğini büyütmek ve Jamba gibi yeni mimariler eklemek onları daha verimli, hızlı ve kararlı hale getirebilir; ancak genelleme eksikliği veya 'Goal Drift' gibi temel sorunları çözmez
Özelleşmiş ajanlar ekleyip "prompt engineering" yapmak ve 17 GPT'nin birbirleriyle konuşmasını sağlamak tek başına yeterli değildir
- Ancak yeterince geçici çözüm kullanılırsa, ilgilendiğimiz alanlarda sonuçlar ayırt edilemez hale gelebilir
Yapay zekanın ilk dönemlerinde satranç motorları ilk ortaya çıktığında, sınırlı işlem gücüne ve neredeyse işe yaramaz arama ya da değerlendirme yeteneklerine sahipti
- Bu yüzden hard-coded açılışlar veya oyun sonları, daha iyi arama için iterative deepening ve alpha-beta pruning gibi geçici çözümlere dayanmak zorundaydılar
- Sonunda kademeli iyileştirmelerle bunun üstesinden gelindi; LLM'lerde de benzer bir süreç yaşanıyor
Yazarın tercih ettiği fikir, güvenilirlik biraz arttığında, birbirine bağlı kendi alt ajanlarına sahip farklı uzman ajanları yönlendirebilen, çeşitli seviyelerde hiyerarşik bir yapıda birden fazla planlama ajanı kullanmaktır
Akıl yürütme ve yineleme için modüller ekleyebilir, kalıcı ve rastgele erişimli bellek ekleyebilir, hatta fiziksel dünyaya dair anlayış kazandırabiliriz
- Bu noktada, hayvanlarda gördüğümüze benzer şekilde LLM'lerde bir bilinç yaklaşımı elde edebileceğimiz düşünülebilir; ama gerçekten öyle mi?
- Sonuç, dağılım dışına çıkıldığında ihtiyaç duyduğumuz şeyi taklit eden son derece ikna edici bir istatistiksel model de olabilir
Yazarın LLM'yi bir Fuzzy Processor olarak adlandırmasının ve "LLM olmak nasıl bir şeydir" gibi soruların sonunda döngüsel bir tartışmaya varmasının nedeni budur
Bu, bugün elimizde olan şeyin mucizevi olmadığına dair bir işaret olarak alınmamalıdır
- Bitter Lesson'ın AGI'ye kadar bütünüyle dışa vurulmayacağını düşünmek, elimizdeki mevcut sonuçların etkileyici olmadığı anlamına gelmez
Yazar, LLM'lerin gördükleri veriden "öğrendiğine" emindir
- Bunlar ne basit bir sıkıştırıcıdır ne de bir papağan
- Eğitim veri setinin veya prompt'un farklı bölümlerindeki nüanslı verileri bağlayıp akıllı yanıtlar üretebilirler
Thomas Nagel muhtemelen LLM olmanın nasıl bir şey olduğu sorusunu sorardı
- Memeli olarak yarasalar bize LLM'lerden daha yakındır; yine de onların iç dünyası bize bulanık geliyorsa, yeni modellerin iç işleyişini anlama ihtimalimiz ne kadar yüksek olabilir?
- Ya da tersine, LLM'lerde tüm ağırlıkları ve devreleri serbestçe inceleyebildiğimiz için, kullandığımız bu modeller hakkında ne düzeyde içgörü elde edebiliriz?
Yazarın resmen bu görüşü benimsemeye hazır olmasının nedeni budur
- Yeterince ölçeklenmiş istatistik, eğitim verisinin dağılımı içinde zekâdan ayırt edilemez
- Her şey için yeterli değildir, her şeyi yapacak kadar da yeterli değildir, ama bir serap da değildir
- Bu yüzden başarıdan çok, testlerde yapılan hatalar teşhis açısından çok daha faydalıdır
Eğer LLM her şeyi yapabilen bir makineyse, sonunda çoğu işi yapabilmesi gerekir
- Bunu çok sayıda uyarı ve zorlamayla yapabilir
- Bach ya da von Neumann düzeyinde bir dehaya ilham vermeyebilir, ama daha sıradan olsa da önemi daha az olmayan yenilik ve keşifler mümkündür
- Ve bunu bilinç ya da ahlaki kişilik gerektirmeden yapabilir
- Eğer Kuhn'un sözünü ettiği paradigma içi sıçramalar otomatikleştirilebilir veya hızlandırılabilirse, paradigmalar arasında daha serbest sıçramalar da mümkün hale gelebilir

1 yorum

GN⁺ 2024-04-28

Hacker News görüşü

Özet:

Mevcut LLM'lerde (büyük dil modelleri), Wordle ya da Rule 110 gibi hücresel otomatların tahmini gibi insanlar için kolay ama LLM'ler için zor olan (hatta belki imkansız olan) problemler bulunuyor. Bunun nedeni henüz tam olarak açıklanmış değil.
Prompt'a örnekler ve adım adım talimatlar vermek, LLM'nin kendi başına "akıl yürütme adımlarını" bulması değil; kullanıcının bunları LLM'ye vermesidir. Elimizde akıllı görünen ama temel sınırlara çarpıyor gibi duran bir "akıl yürütme makinesi" var.
Mevcut Attention mekanizmasını kullanan daha büyük modeller ve daha iyi prompting ile AGI'ye ulaşılıp ulaşılamayacağı belirsiz. Attention çok katı görünürken insan beyni sürekli sinaptik plastisite yaşıyor. AGI'yi mümkün kılacak daha esnek bir mimari olabilir, ancak bunu henüz bilmiyoruz.
Şu anda hesaplama problemleri için doğru ve yanlış cevapları dikkatle kurgulamak, modeli uygun şekilde yanıt vermesi için önceden hazırlamak ve çok sayıda harici guardrail uygulamak gibi nedenlerle mevcut yapay zeka modellerini kullanmak için uzun prompt'ları dikkatlice oluşturmak gerekiyor.
Attention, "hedef sapması" sorunu yaşıyor gibi göründüğünden tüm dış destekler olmadan güvenilirlik sağlamak zor.
LLM'lerin sınırlarını teorik olarak nicelleştirmek için, şu anda yapamadıkları şeylere dair ampirik kanıt listesine değil teorik sonuçlara dayanmak gerekir. İlgili literatürde "expressibility" terimini arayabilirsiniz.
Sayı yazım kuralları gibi basit kurallar bile birçok örnekte başarısız oluyor ve prompt'u nasıl kurarsanız kurun çoğu zaman düzgün çalışmıyor. Şaşırtıcı ama hâlâ çok sayıda kısıt var.
"İlginç bir gerçekten bahset ama ilginç olduğunu söyleme" talimatını doğru düzgün takip edememek gibi, belirli bir davranışı yapmaması söylendiğinde bunu başarmakta zayıf kalıyor. Hatta bir şeyi yapmaması söylendiğinde onu yapma olasılığı daha da artıyor.
LLM'lerin "akıl yürüttüğünü" varsaysak bile, dünya hakkında değil; belgelerde yer alan gerçekler, varlıklar ve nedensel ilişkiler bağlamında halüsinasyonlarla başa çıkan Agentic AI inşa ediyoruz. Ayrıca çok büyük token mesafelerinde çapraz akıl yürütmeyle de uğraşıyoruz.
İnsanlar arasındaki ilişkiler, kinler ve ittifaklar gibi ikinci dereceden karmaşıklıkları iyi yönetme ihtiyacının daha yüksek düzeyde zekaya yol açtığı düşünülüyor.
Wordle/Sudoku gibi bazı "asla yapamayacağı" şeyler, yalnızca metin temsillerinin bir artifaktı olabilir; başka bir domaine dönüştürüldüğünde aynı Transformer mimarisiyle bile başarı oranı çok daha yüksek olabilir.
Her alan için özel bir AGI üretmek gerekmiyor; problemleri parçalara ayırıp uzman araçlara dağıtabilecek, ardından bunları yeniden birleştirerek cevap üretebilecek kadar iyi akıl yürüten ajanlar ile bir model/araç kataloğu yeterli olabilir.

LLM'lerin Asla Yapamayacağı Şeyler

[ LLM'lerin Sınırları ]

Reversal Curse

Sorun eğitim verisi dağılımında olabilir mi?

LLM'lerin bunu temelden yapamamasının nedeni

[ Deney - GPT neden Wordle öğrenemiyor ]

[ Deney - LLM'lere Cellular Automata öğretmek ]

[ Bu sorun şimdiye kadar nasıl çözüldü ]

[ LLM'ler gerçekten ne kadar öğrenebilir? ]

LLM'lerin öğrenme kapasitesine dair soru işaretleri

Dış bellek eklenen sinir ağlarında performans artışı

Chain-of-thought prompting ve scratchpad'in sınırları

Autoregression'ın laneti

Bilişin doğasına dair sorular

İnsanlar ile LLM'lerin eğitim verisi arasındaki fark

[ LLM'ler bağlamı sıfırlayamaz ]

Veri kümesi karmaşıklığı ve model boyutunun sınırları

Öğrenmeyi öğrenen LLM'lerin sınırları

Etkileşimli sembol dizilerinin karmaşıklığı

LLM'leri basit testlerle tanımlamanın zorluğu

[ Daha fazla ajana ihtiyaç var ]

Ajanlar: güçlü bir kullanım alanı

Önümüzdeki birkaç yılda işlerin önemli bir bölümüne ölçeklenme olasılığı

GPT'nin sınırları ve çözümü

Model kapasitesinin sınırları ve görsel-dil kipleri arasındaki rekabet ilişkisi

[ Sonuç ]

İlgili okumalar

1 yorum

Hacker News görüşü