- Apple'ın Düşünme Yanılsaması: Akıl yürütme LLM'lerinin sınırlarını anlamak makalesi, yapay zekada ölçekleme hipotezine dair soru işaretleri doğurarak büyük yankı uyandırdı
- Buna karşı öne çıkan 7 itiraz ortaya atıldı; ancak bu yazının yazarı Gary Marcus (NYU fahri profesörü), bunların hiçbirini ikna edici bulmuyor
- "İnsanlar da hata yapar", "çıktı uzunluğu sınırı", "makalenin yazarı stajyer" gibi argümanlar çoğunlukla konuyu saptırıyor ve özden kaçıyor; temel kırılganlığı gidermeye yetmiyor
- "Kod kullanarak çözmek" gibi bazı noktalar anlamlı olsa da, bunun yalnızca nöro-sembolik yapay zekaya duyulan ihtiyacı daha da görünür kıldığı sonucuna varılıyor
- SalesForce'un yakın tarihli araştırması da gerçek iş senaryolarında LLM'lerin karmaşık çok turlu akıl yürütme performansının yalnızca %35 olduğunu göstererek Apple makalesindeki kaygılarla örtüşüyor
Apple'ın akıl yürütme makalesine 7 itiraz ve bunların sınırları
Giriş
- Apple'ın Illusion of Thinking: Akıl yürütme LLM'lerinin sınırlarını anlamak makalesi, büyük dil modellerinin akıl yürütme ve algoritma yürütme sınırlarını ortaya koyarak sektör, medya ve akademide büyük ilgi gördü
- Yazar Gary Marcus'un özetlediği makale inceleme yazısını 150 binden fazla kişi okudu
- The Guardian ilgili yazıya atıf yapan bir köşe yazısı yayımladı; ACM ve Fransızca versiyonların da çıkması, küresel ilgiyi gösteriyor
- Buna karşı GenAI savunucuları makaleye eleştirel tepki verip çeşitli itirazlar öne sürdü; ancak bunların hiçbiri temel bir karşı argüman oluşturmuyor
1. “İnsanlar da karmaşık problemler ve bellek gereksinimleri karşısında zorlanır”
- İnsanlar da zorlanır iddiası doğru olsa da, bilgisayar ve yapay zekanın en başta geliştirilme nedeni insanların yapamadığı hesaplama ve tekrarlı işleri doğru biçimde yürütmekti
- Örneğin Tower of Hanoi bulmacasında geleneksel sembolik AI sistemleri hatasız çalışabiliyor
- Eğer AGI olacaksa, insan benzeri hatalar kategorisinde kalmak yerine daha ileri performans göstermesi gerekir; aksi hâlde bu bir sınır olarak görülebilir
- Apple makalesinin özü, LLM'lerin karmaşıklık arttıkça ve öğrenme dağılımından uzaklaştıkça doğru algoritmik yürütmeye güven vermediğini göstermesidir
- “İnsanlar da hata yapar” söylemi, konuyu saptırmaktan ibaret
2. “LRM, çıktı token sayısı sınırı nedeniyle çözemiyor”
- LRM'lerde (büyük akıl yürütme modelleri) çıktı uzunluğu sınırı var; ancak bazı örneklerde (ör. 8 diskli Hanoi, 255 adım) çıktı hâlâ yeterince üretilebilir aralıkta
- İyi tasarlanmış sembolik AI bu tür sorunlardan etkilenmez; AGI için de aynısı beklenir
- Token sınırı bir çözüm değil, bir bug'dır
- Temel algoritmaları bile güvenilir biçimde çalıştıramıyorsa, gerçek dünya problemleri (askerî strateji, biyoloji vb.) çok daha zor olacaktır
3. “Makalenin yazarı stajyer”
- Bu, ad hominem (kişiye saldırı) türünde bir argümandır; konuyla ilgisizdir ve bilimsel pratiği hiçe sayan bir hatadır
- Gerçekte yazar umut vadeden bir Ph.D. öğrencisi ve makalede toplam 6 isim var (4'ü Ph.D. sahibi; Samy Bengio gibi tanınmış araştırmacılar da dahil)
- Belirleyici olan, yazarın statüsü değil makalenin niteliğidir
4. “Daha büyük model olursa daha iyi yapabilir”
- Bazı daha büyük modellerde iyileşme görüldüğü bildiriliyor; ancak hangi büyüklüğün yeterli olacağını öngörmek mümkün değil
- Aynı mimarideki LRM'lerde bile 6 diskte başarı, 8 diskte başarısızlık gibi tutarsız sonuçlar çıkabiliyor
- Model güvenilirliği ve öngörülebilirlik eksik; her problem için önceden doğrulama gerekiyor → bu da AGI'den uzak olduklarını gösteriyor
5. “Kod yazarsa problemi çözebilir”
- Bazı LLM'ler kod yazarak problemi çözebiliyor; ancak bu, nöro-sembolik AI yaklaşımının gücünü gösteriyor
- Gerçek anlamda bir AGI/AI, kod olmadan da kavramsal anlayış temelinde akıl yürütebilmeli ve geri izleme yapabilmelidir
- Nasıl sınavlar öğrencinin kavramsal anlayışını ölçüyorsa, LLM'lerin de gerçek kavramsal anlayış gerektiren durumlarda başarılı olması gerekir
6. “Deney sadece 4 örnekten oluşuyor ve Hanoi problemi de kusursuz değil”
- Makaledeki 4 örneğin hepsi kusursuz olmayabilir; ancak bunlar çok sayıda önceki araştırmayla uyumlu ve benzer başarısızlık örnekleri rapor edilmeye devam ediyor
- NYU'dan Tal Linzen gibi isimler de bu bağlamdaki sınırları ek olarak kanıtlıyor
7. “Bu zaten herkesin bildiği bir şey”
- Pek çok araştırmacı uzun süredir LLM'lerin genelleme kırılganlığının farkındaydı
- Ancak bu makaleyle birlikte konunun kamusal ve endüstriyel bağlamda yoğun ilgi toplaması dikkat çekici
- Bugüne dek abartılmış AGI olasılığına sektörün ciddi biçimde dikkat kesilip tartışmaya başlaması önemli bir dönüm noktası
- Araştırmacılar arasında aynı anda hem “yanlış” hem de “zaten bilinen bir gerçek” denmesi, çelişkili bir tepkiye işaret ediyor
Sonuç
- Bu itirazların hiçbiri içinde belirleyici biçimde ikna edici olan çok az şey var
- Apple makalesi, ölçek büyütmenin AGI için çözüm olmadığına dair net bir sinyali yeniden veriyor
- Mevcut LLM teknolojisinde güvenilirlik, genelleme ve kavramsal akıl yürütme alanlarında açık sınırlar görülüyor
- Nitekim Sam Altman gibi önemli figürlerin de mevcut durumu ciddiye aldığı bir hava oluşuyor
SalesForce makalesi ve ek yakınsayan kanıtlar
Holistic Assessment of LLM Agents Across Diverse Business Scenarios and Interactions
- SalesForce'un son makalesi, gerçek iş senaryolarına (müşteri satışı, hizmet, B2B/B2C vb.) dayalı bir LLM değerlendirme benchmark'ı yayımladı
- Tek turlu (tek soru-yanıt) ölçütte başarı oranı %58, çok turlu (ardışık soru-cevap) ölçütte ise başarı oranı keskin biçimde %35'e düşüyor
- Özellikle workflow yürütmede %83'ün üzerinde başarı görülürken, çoklu akıl yürütme ve durum geçişlerinde sınırlar ortaya çıkıyor
- Gizlilik farkındalığı (Confidentiality awareness) ise neredeyse yok; prompt ile iyileştirilebilse de bu kez performans düşüşü eşlik ediyor
- Gerçek kurumsal ortamların karmaşıklık ve gerçekçilik gereksinimlerine kıyasla LLM sınırları açık, çok turlu akıl yürütme, gizlilik ve farklı iş becerilerinin birlikte ele alınması gerekiyor
Özet
- Hem Apple makalesi hem de SalesForce makalesi, mevcut nesil LLM'lerin gerçek karmaşık akıl yürütme, çok turlu diyalog ve algoritma yürütme gibi alanlarda ciddi sınırlar taşıdığını gösteriyor
- AGI'ye yaklaşmak için yalnızca ölçeklemeyi değil, nöro-sembolik entegrasyonu ve yapısal iyileştirmeleri aşan bir yaklaşım gerekiyor
- Sektör ve araştırmacıların bu sınırları artık ciddi biçimde tartışmaya başlaması başlı başına önemli
2 yorum
Altman, denemesinde "10 yıl sonra belki de yüksek enerjili fiziği çözdüğümüz yıldan bir sonraki yıl uzay kolonileştirmesine başlamaya geçebiliriz" diye yazdı. Ayrıca, beyin-bilgisayar arayüzleri aracılığıyla yapay zekaya doğrudan "bağlanmaya" çalışan insanların hayatlarının köklü biçimde değiştiğini göreceğini ekledi.
Bu tür söylemler, toplumumuzun her alanında yapay zeka benimsenmesini hızlandırıyor. Yapay zeka şu anda DOGE (Başbakanlık Ofisi) tarafından hükümeti yeniden şekillendirmek için kullanılıyor, ordu tarafından onu daha ölümcül hale getirmek için değerlendiriliyor ve çoğu zaman bilinmeyen sonuçlar doğurarak çocuklarımızın eğitimini üstleniyor.
Yani, yapay zekanın en büyük risklerinden biri, onun yeteneklerini abartmamız, yapay zekanın "fırsatçı şantaj" gibi antisosyal eğilimler gösterdiği ortaya çıkmış olmasına rağmen ona gerekenden fazla güvenmemiz ve akılcı olmayacak ölçüde ona bağımlı hale gelmemizdir. Bunu yaparak, en kritik anlarda yapay zekanın başarısız olma ihtimaline karşı kendimizi savunmasız bırakıyoruz.
"Yapay zekayı kullanarak çeşitli fikirler üretebilirsiniz, ancak yine de ciddi ölçüde denetim gerekir" diyor Ortiz. "Örneğin vergi beyannamesi hazırlamak için ChatGPT yerine TurboTax benzeri bir araç kullanmak daha iyidir."
WSJ'deki Why Superintelligent AI Isn't Taking Over Anytime Soon başlıklı makaleden alıntılanmıştır
Hacker News görüşü
İnsanların karmaşık problemler ve bellek yükü karşısında zorlandığı doğru, ancak meselenin bundan ibaret olmadığı ileri sürülüyor. Makinelerin insanlardan daha üstün sonuçlar vermesinin beklendiği vurgulanıyor. Eğer insanların da bu tür hataları yaptığını kabul edip aynı zamanda “düşünme yetisi” tanımında bu becerinin gerekli olduğu konusunda ısrar edersek, sonunda insan düşüncesinin de bir yanılsama olduğu sonucuna varmış oluruz düşüncesi paylaşılıyor
Ben de buna katılıyorum ama AGI ile ilgili kısım bana göre hatalı. Ortalama bir insanla aynı düzeyde tüm görevleri yapabilen AI’ın zaten AGI tanımı olduğu görüşündeyim
Her iki tarafın argümanları da bana çok berrak gelmiyor. Niteliksel sorulara yalnızca niceliksel cevaplar veriliyormuş gibi geliyor
Apple’ın makalesi ve Gary Marcus eleştirisine dair iyi bir analiz yazısı olarak değerlendiriliyor. Daha ayrıntılı tartışma için LessWrong’daki ilgili yazı öneriliyor
Gerçekten merak ettiğim bir nokta var: Gary Marcus’un görüşleri hâlâ geçerli mi emin değilim. Eleştirileri bilimsel olmaktan çok felsefi eğilimli geliyor ve pratikte ne ürettiğini ya da mantığının nasıl doğrulandığını görmek zor diye düşünüyorum
lesswrong.com konusunda ise, belli bir kişinin (ör. Yud) fikirlerini takip eden bir topluluk olduğu için çok güvenmediğini belirten bir görüş var
LLM’lerin geçmişte öğrendiği benzer çözümler olduğunda 'çıkarım yapıyormuş' gibi görünen sonuçlar üretebildiği, ama tamamen yeni problemler karşısında dağıldığı yönünde bir içgörü paylaşılıyor. Bunun sıkı anlamda muhakeme olmadığı ama pratikte oldukça faydalı bir düzey sunduğu söyleniyor. Çözümleri tekrar tekrar çıkarabilme yeteneğinin de, tıpkı tekrar tekrar doğrulama bilgisi sunmak gibi, epey işe yaradığı düşünülüyor. Marcus’un teknik olarak doğru noktalara değindiği ama açıklamadan çok duygusal bir tona kaydığı belirtiliyor
Benzer çözümleri tekrarlama gerçekten bu kadar iyi çalışıyorsa etkileyici olurdu, ama pratikte bu araçlar çoğu zaman aynı çözümü bile tutarlı biçimde tekrar üretemiyor; hatta inandırıcı görünen şeyleri anlık olarak uydurdukları için (halüsinasyon), bir insanın ayrıca dikkatle doğrulaması gerekmesi büyük bir sorun olarak aktarılıyor
Sadece bu kadarı bile düzgün çalışsa devrim olurdu, ama hâlâ biraz hayal gibi kalıyor. Yakın zamanda Gemini’nin çok temel bir ders kitabı probleminde bile sağ ile solu karıştıran bir yanıt verdiği deneyimi aktarılıyor
“LLM sadece papağandır” türü tekrar eden iddialardan bıktığını söyleyen bir görüş var. Kendi deneyimine göre LLM’ler, eğitim verisinde bulunmayan tamamen yeni problemleri de muhakeme edip çözebiliyor. Bunun için çok çeşitli durumları test ettiğini ve ilgili birçok örnek gördüğünü söylüyor. Diğer yorumlara topluca cevap olarak, önce “muhakeme” ve “yeni problem çözme” tanımlarının netleştirilmesi gerektiğini belirtiyor. Kendi görüşüne göre muhakeme bir kategoridir ve genel zekâ ile aynı şey değildir. LLM’lerin zor problemleri her zaman çözememesi, muhakemenin bütünüyle imkânsız olduğu anlamına gelmez. Ona göre LLM’lerin muhakeme yeteneği genel olarak zayıf olsa da, hiç muhakeme edemedikleri ve yeni problemleri hiç çözemeyecekleri iddiasına katılmıyor.
in-context learning,zero-shotüzerine çok sayıda çalışma varout-of-context reasoningüzerine de çok sayıda çalışma mevcut (örn. arxiv makalesi) Ek karşı argümanlar olarak,zero-shotgörevlerde daha iyi performans gösteriyor; bunun da muhakeme yeteneğindeki gelişimle ilişkili olduğu düşünülüyorBuna karşılık bunun muhakemenin tam tersi olduğu görüşü de var. AI savunucularının, LLM’ler sanki akıllıymış ya da muhakeme ediyormuş gibi konuştuğu; oysa gerçekte yaratıcı ya da zeki muhakeme yapamadıkları söyleniyor. Gerçek muhakeme, daha önce hiç görülmemiş bir problem için yenilikçi bir çözümü kendi başına bulabilme yeteneğidir. LLM’lerin ise yalnızca verideki çözüm kalıplarını olasılıksal olarak çıkardığı, gerçek bir çözümü tahmin etme ya da çıkarım yapma yeteneğine hiç sahip olmadığı düşünülüyor
Birçok itiraz ve karşı itirazın aslında zayıf olduğu ya da neredeyse tamamen 5. madde altında toplanabileceği belirtiliyor. Yazının özünün, LLM’lerin kod yazıp yazamadığı veya mantıksal sistemler kullanıp kullanamadığı olduğu söyleniyor. Araçlara erişim olmadığında boş muhakeme (halüsinasyon/yanlış cevap) ortaya çıkmasının gerçekten muhakeme yokluğu anlamına gelip gelmediği ve asıl beklentinin, zeki bir insan gibi “yapabileceklerinin sınırını kabul eden” bir AI olup olmadığı soruluyor
Gerçek deney sonuçlarına bakıldığında modelin 100 adıma kadar çıktı üretip ardından “bundan sonrası çok uzun, çözüm yöntemini açıklayayım” dediği; ancak bu tür yanıtların da yanlış sayıldığı belirtiliyor. İlgili bağlantı olarak modelin gerçek yanıt örneği veriliyor. Örneğin problem fazla karmaşıklaştığında, “[tüm tekil deneme biçimlerini açıklamak zor, onun yerine çözüm yaklaşımını anlatacağım]” şeklinde cevap veriyor; belirli bir modelin (Sonnet) ise 7’nin ötesinde doğrudan adım adım muhakemeyi bırakıp genel algoritmayı ya da yaklaşımı anlattığı söyleniyor
“Çocukların bile kolay çözdüğü bulmaca” iddiasına karşı, 8 diskli Hanoi Kulesi’ni hiçbir şey yazmadan sadece zihinden çözmenin gerçekten zor olduğunu itiraf eden bir yorum var. İnsan ile AI karşılaştırmasında gerçekten eşdeğer bir kıyas yapılıp yapılmadığı sorgulanıyor
Bu tür yazıların memnuniyet verici olmasının sebebi olarak, AI etrafındaki aşırı abartı havasını biraz soğutmaya ihtiyaç duyulması gösteriliyor. Yeni AI araçlarını gerçek hayatta ciddi biçimde kullanmayı düşünüyorsak, heyecanı bir an kenara bırakıp bu teknolojinin gerçek sınırlarına ve ne olduğuna soğukkanlı bakmak gerektiği söyleniyor. Etkileyici ve birçok alanda pratik olsa da, kontrolsüz biçimde körüklenen bu patlamanın sonunda doğrudan ya da dolaylı olarak sadece para kazanmaya çalışan çıkar gruplarına yaradığından söz ediliyor
Gary Marcus’un “gerçekçi uyarı” yapan biri olmaktan çok, AI ana akımına karşı çıkarak kendi tanınırlığını büyüten biri olduğu değerlendirmesi yapılıyor. Bu yazının mantıklı görünse de, geçmişte LLM’lere “nakavt darbesi” dediği makalelerle kıyaslandığında tonunun değiştiği belirtiliyor. Yazıları tek tek bakıldığında makul görünse de, birkaç tanesi birlikte okununca belirgin bir eğilim sezildiği söyleniyor
Gerçekte AI’a yatırım yapanlar arasında bile, aşırı hype’ın pump-and-dump ya da eğitim/danışmanlık satarak para kazananlara yaradığını; gerçekten yenilik üretmek isteyenlerin ise yakında bir AI winter ile karşılaşma ihtimalinin daha yüksek olduğu görüşü dile getiriliyor
LLM’lere karşı içgüdüsel bir temkin taşıdığını söyleyen bir yorum var. Şimdiye kadar kendisine yazdırdığı kodların çoğunun kalitesiz olduğu, bu yüzden şu anda pek sevmediği ve sık kullanmadığı belirtiliyor. Yine de zamanla oldukça faydalı bir araca dönüşeceği düşünülüyor. Buna rağmen Marcus’un bu tartışmada yeri olmadığını düşündüğünü de ekliyor. Onun açıklamalarının yapıcı tartışmadan çok verimsiz abartılar ürettiği ve aşırı anti-AI kesime gereksiz malzeme verdiği söyleniyor. Hatta “respectability laundering: ondan alıntı yapınca eleştiri otomatik olarak meşru görünür hâle geliyor” diye nitelendiriliyor
Eleştiriyi, makine öğrenmesinde
test/train splitin ne olduğunu bilen birinden duymak istediğini söyleyen bir görüş var. Güncel ML pratiğinden bu kadar kopuk birinin AI yetenekleri üzerine konuşmasının, aslında AI korkusunun çok simgesel bir örneği olduğu düşünülüyorBunun pratikte ne kadar faydalı olduğu da sorgulanıyor. Bir yılı aşkın süredir “bilgi işinde 10 kat verimlilik” gibi iddialar duyulduğu, ama gerçekten bu ölçekte dönüşmüş somut çıktıların nerede olduğu soruluyor. Yeni ofis ürün aileleri mi çıktı? Mobil uygulamalar kitlesel olarak mı üretildi? Kitap pazarı mı dönüştü? Sonunda Ghibli memeleri ya da
RETURNSgibi akımlar dışında gerçekten elle tutulur ürünler var mı diye kuşku dile getiriliyorAsıl makaleyi merak edenler için orijinal bağlantı paylaşılıyor
Matematik sınavında türev ve integral sorusu sormanın amacının, öğrencinin yalnızca hesap sonucunu bulması değil kavramsal anlayışını ölçmek olduğu belirtiliyor. Apple ekibinin de Hanoi probleminde LLM’in kavramsal anlayışa sahip olup olmadığını test ettiği söyleniyor. LLM’lerin doğru kodu “indirebildiği”, ancak yeni problemler ya da dinamik ortamlarda kavramsal anlayış olmadan yapılan bu kod indirmenin sınırlı kaldığı savunuluyor. Buna karşılık LLM’lerin gerçekte kod indirmediği, doğrudan “yazabildiği” belirtiliyor. Bir sınavda öğrencinin genel amaçlı bir türev/integral programını kendi yazması, hatta daha yüksek düzeyde kavramsal anlayışın göstergesi sayılabilir deniyor
Salesforce makalesindeki "ajanların neredeyse sıfıra yakın düzeyde sır saklama becerisi gösterdiği" alıntısının önemli bulunduğu belirtiliyor
İnsanlar uçak yaptığında “kuş değil”, denizaltı yaptığında “balık değil” denmişti ama ilerleme yine de sürdü örneği veriliyor. Asıl meselenin bu aracın potansiyelini erken öğrenip kullanmak mı, yoksa geride kalmak mı olduğu söyleniyor. Bir tavsiye olarak da, aynı kişinin bitmek bilmeyen olumsuz yorumlarını takip etmektense “öğrenen bir tutum”un geleceğe uyum sağlamada çok daha faydalı olacağı mesajı veriliyor