Düşünmenin İllüzyonu: Akıl Yürüten LLM'lerin Sınırlarını Anlamak
(ml-site.cdn-apple.com)- Büyük Akıl Yürütme Modelleri (Large Reasoning Models, LRM'ler), karmaşık problem çözmede belirli bir performans artışı gösterse de, temel sınırlamaları ve ölçeklenebilirlik sorunları açık biçimde ortaya çıkıyor
- LRM'ler, problem zorluğu arttıkça akıl yürütme sürecinin hızla çökmesi olgusunu gösteriyor; analizler, akıl yürütme çabasının (token kullanımı) da bir eşiğin ötesinde paradoksal biçimde azaldığını ortaya koyuyor
- Aynı hesaplama kaynağı altında standart LLM'ler ile LRM'ler karşılaştırıldığında, düşük zorlukta standart LLM'ler daha üstünken, orta zorlukta LRM'ler avantajlı oluyor, yüksek zorlukta ise her ikisi de başarısız oluyor
- LRM'ler, açık algoritmik akıl yürütme ve tutarlı düşünce süreci açısından kritik sınırlamalar sergiliyor; her bulmaca ortamına göre farklı ya da tutarsız davranışlar gösteriyor
- Bu araştırma, mevcut akıl yürütme modellerinin güvenilirlik sorunlarını ve ölçeklenebilirlik sınırlarını doğruladığı için, yeni nesil yapay zeka tasarımında daha hassas değerlendirme ve mimari iyileştirme gerektiğini gösteriyor
- Apple'ın "The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity" makalesi
Genel Bakış ve Araştırmanın Amacı
- Son dönemde büyük dil modeli tabanlı, akıl yürütmeye odaklı modellerin (LRM'ler) ortaya çıkmasıyla birlikte, bunların problem çözme sürecindeki “düşünme” yapısını ve sınırlarını inceleme ihtiyacı doğdu
- Bugünkü değerlendirmelerin çoğu matematik ve kodlama benchmark'larında doğru yanıt oranına odaklanıyor; bu da veri kirliliğini ya da içsel “düşünme” sürecinin niteliğini doğru biçimde ölçemiyor
- Bu çalışma, mantıksal yapıyı korurken karmaşıklığı hassas biçimde ayarlayabilen bulmaca ortamlarını devreye alarak, yalnızca sonuç doğruluğunu değil, içsel akıl yürütme akışını da analiz edebilecek şekilde tasarlandı
Değerlendirme Ortamı ve Deney Yöntemi
Bulmaca ortamı tasarımı
- Sistematik karmaşıklık ayarı ve deneysel kontrol için aşağıdaki dört bulmaca ortamı kullanıldı
- Hanoi Kuleleri: Zorluk disk sayısıyla ayarlanıyor; optimal çözüm olup olmadığı değerlendirilmeden, hedef duruma ulaşılıp ulaşılmadığına göre doğruluk belirleniyor
- Dama sıçraması: Kırmızı-mavi dama taşları ve boş alan sayısıyla karmaşıklık kontrol ediliyor; amaç sonunda konumları karşılıklı değiştirmek
- Nehir geçişi: Eyleyici-aracı çiftlerinin sayısı ve tekne kapasitesiyle zorluk ayarlanıyor; kısıtlar altında herkesin karşıya geçirilmesi hedefleniyor
- Blok dünyası: Blok sayısıyla ayarlanıyor; başlangıç durumundan hedef istifleme durumuna geçiliyor
Her ortam, bulmaca öğelerinin sayısını değiştirerek karmaşıklığın ince biçimde artırılmasına olanak tanıyor.
Başlıca Deney Sonuçları
1. Karmaşıklığa göre üç akıl yürütme deseni
- Düşük karmaşıklık: Standart LLM'ler, LRM'lere göre daha verimli (daha az token kullanımı) ve çoğu durumda daha yüksek doğruluk sağlıyor
- Orta karmaşıklık: LRM'lerin uzun düşünme süreci (Chain-of-Thought) ve öz-yansıtmalı yaklaşımı performans avantajı gösteriyor
- Yüksek karmaşıklık: Her iki model türü de ani performans çöküşü (doğruluk oranı 0) yaşıyor; LRM'lerde bu noktada akıl yürütme token kullanımının da azaldığı verimsiz bir durum gözleniyor
2. Akıl yürütme izi (Reasoning Trace) derinlemesine analizi
- “Aşırı düşünme (overthinking)”: Düşük karmaşıklıktaki problemlerde LRM'ler doğru cevabı erken bulmasına rağmen sonrasında hatalı aramayı sürdürerek gereksiz hesaplama israfı örüntüsü gösteriyor
- Orta zorluk: Yanlış cevabı fark ettikten sonra kademeli olarak doğruya ulaşıyor, bu da öncekine göre daha fazla arama süreci gerektiriyor
- Yüksek zorluk: Tüm akıl yürütme akışı boyunca doğru çözüm üretemeyen bir "çöküş olgusu" doğrulanıyor
3. Algoritma yürütme sınırları
- Belirli bir algoritma prompt içinde verilse bile, model bunu basitçe yürütmeyi bile güvenilir şekilde başaramıyor
- Bu, yalnızca “doğru cevabı bulma” değil, mantıksal yapıyı doğru biçimde izlemeyi gerektiren sembolik manipülasyon kapasitesinde özsel bir eksiklik olduğunu düşündürüyor
4. Benchmark ve veri kirliliği sorunu
- Mevcut matematik benchmark'larında (MATH500, AIME24, AIME25), düşünen/düşünmeyen model performansı arasındaki fark tutarlı değil
- Özellikle AIME25'te, veri kirliliği olasılığı nedeniyle modelin özsel akıl yürütme kapasitesini değerlendirmek zorlaşıyor
Araştırmanın Sonuçları ve Çıkarımlar
- Bu çalışma, bulmaca tabanlı hassas değerlendirme ortamı sunarak, akıl yürüten LLM'lerin gerçekten düşünme kapasitesine sahip olup olmadığını ve sınırlarının nerede ortaya çıktığını derinlemesine ampirik olarak inceliyor
- Mevcut akıl yürütme modelleri, belirli bir karmaşıklık seviyesinin üzerinde tamamen çöken temel sınırlamalara sahip ve bu sorun token bütçesi ya da basit self-reflection güçlendirmesiyle çözülemiyor
- Mevcut değerlendirme yöntemlerinin sınırlarını sorguluyor ve laboratuvar benzeri bir ölçüm ortamı öneriyor
- Güncel SOTA akıl yürütme modelleri bile genel amaçlı problem çözme yeteneğini henüz kazanmış değil
- Karmaşıklığa göre akıl yürütme token kullanımında ölçeklenme sınırı bulunuyor
- Ara düşünme süreci (trace) tabanlı değerlendirme yöntemi getirerek öz-düzeltme ve hata arama mekanizmalarını analiz ediyor
- Açık algoritma yürütmedeki başarısızlık ve tutarsızlık ortaya konuyor
- Bu sonuçlar, yeni nesil yapay zeka tasarımı ve güvenilirlik değerlendirmesinin yanı sıra, veri kirliliğinden kaçınılmış ortamlarda model performansını ölçmenin önemini vurguluyor
İlgili Araştırma Eğilimleri
- CoT (Chain-of-Thought), öz-doğrulama teknikleri, pekiştirmeli öğrenme tabanlı düşünme teşviki gibi çeşitli akıl yürütme yeteneği kazandırma girişimleri
- Yüksek kaliteli CoT verisi elde etmenin zorluğu ve supervised/RL yaklaşımlarının sınırlarının giderek belirginleşmesi
- Temsili örnekler olarak DeepSeek-R1, Claude 3.7 Sonnet Thinking gibi modellerin ortaya çıkışı
- “Aşırı düşünme” olgusu (overthinking) ve benchmark kirliliğinin değerlendirme metriklerinin güvenilirliğini zedelemesi
- Problem karmaşıklığını hassas biçimde kontrol edebilen bulmaca ortamı tabanlı değerlendirmelerin gerekliliği
Gelecek Çalışmalar ve Sınırlamalar
- Akıl yürütme modellerinin açık mantık izleme/sembolik manipülasyon alanında gösterdiği temel sınırlamalar üzerine daha fazla araştırma gerekiyor
- Bulmaca ortamlarının her birinde model davranışlarının tutarsız olması (ör. Hanoi / nehir geçişi performans farkı), veri tabanlı akıl yürütmenin sınırlarına işaret ediyor olabilir
- Yapay zeka sistemleri tasarlanırken, ara akıl yürütme akışı ve mantıksal tutarlılığı da içeren hassas doğrulama zorunlu hale geliyor
Bu analiz, yalnızca pratik kullanım açısından değil, yeni nesil akıl yürütme yapay zekasının tasarımı ve değerlendirme çerçevesi açısından da önemli çıkarımlar sunuyor.
1 yorum
Hacker News görüşü
Bence LLM’lerin dili kullanması, kafamızın karışmasının nedenlerinden biri. ‘Biology of Large Language Models’ ve ‘Safety Alignment Should Be Made More Than Just a Few Tokens Deep’ yazılarına bakınca, içeride gerçekte olanların insandan tamamen farklı olduğunu ve bu yüzden ortaya çıkan sonucun çoğu zaman yabancı hissettirdiğini görüyorsunuz
Sistemleri teknolojiyle tasarlarken ya da parçaların toplamından daha büyük sonuçlar üreten yapılar kurmayı düşünürken, bunların yeteneklerini hâlâ net biçimde anlamakta büyük zorluk var
Çalışma mantığını bilsek bile, dili ele alış biçimlerinde sanki sihir varmış gibi gelen tuhaf bir taraf var
Bu yüzden düşüncelerimi toparlamak için şu yazıyı da yazdım
Bu tür araştırmaların gerçekten çok etkileyici olduğunu düşünüyorum ve gelecekte token’ları iyi kullanmayı ve sistemleri doğru kurmayı anlamaya yönelik çok daha fazla çaba gerekeceğine inanıyorum
[Bağlantılar]
Biology of Large Language Models
Safety Alignment Should Be Made More Than Just a Few Tokens Deep
Tüm sistemin parçalarının toplamından büyük hale geldiği yapıları kurma arzusuna katılıyorum; bana göre programlama zaten tam olarak böyle bir işlev görüyor
İşi ya da problemi bölüp birbirleriyle asgari düzeyde etkileşen küçük birimlere ayırırsanız, bunların birleşimi daha büyük bir sonuç üreten bir yapı oluşturur
Bu süreci programlama iş akışına iyi yerleştirirseniz, performansı düşük bir LLM’yi bile çözümün doğal bir parçası olarak kullanabileceğimize inanıyorum
Tersine, sistemin bütünü bazen parçalarının her birinden daha kötü de olabilir
Tek tek görevlerde iyi olup birleşik durumda işlerin birbirine girdiği durumlar da var
Bu elbette zamanla iyileşebilir, ama her problemi optimize etmek mümkün olmadığından sonuçta uzmanlaşmış yaklaşımların daha verimli olabileceğini de düşünüyorum
İnsan dili bilişsel bir araç olarak kusursuz değil, ama temel katmanda değil üst katmanlarda (iletişim ve yüksek düzeyli akıl yürütme) iyi kullanıldığına inanıyorum
İnsan dili doğası gereği belirsiz ve kusurlu; bu yüzden çevreyle doğrudan etkileşim kuran yöntemlere kıyasla güçlü biliş oluşturmak için yetersiz geliyor
Bu nedenle LLM/LRM modellerinin dil akıcılığına ve bilgi geri getirme becerisine bakarak zeka ölçmeye kalkarsanız kolayca aldanabilirsiniz
Klasik benchmark’lar yerine (örneğin matematik problemleri) zorluğu sistematik biçimde ayarlanabilen bulmaca ortamları kullanma fikrinin gerçekten çok yaratıcı olduğunu düşünüyorum
Basit görevlerde mevcut modellerin, orta karmaşıklıkta LRM’lerin ve yüksek zorlukta ise hepsinin çöktüğünü gösteren üç performans bölgesi analizi de ilginç
Bu karmaşıklık bölgelerinin daha fazla “haritasını” çıkarmamız gerektiğini düşünüyorum
Ekonomik değer ile karmaşıklık bölgeleri arasında nasıl bir eşleşme olduğunu merak ediyorum
Bunu anlamak için sıradan bulmacaların ötesine geçen ve gerçek ekonomik işlere de uygulanabilecek daha sofistike değerlendirme yöntemlerine ihtiyaç var
Yazarların vermek istediği temel sezginin, modelin “her şeyi bilen ama yetersiz” bir varlık olduğu inancı olduğunu düşünüyorum
Bu tür soruları sayısal olarak gerçekten ele alan bir makale daha önce görmedim; bu yüzden bu çalışma da herkesi aynı sonuca götürecek gibi görünmüyor
Yapay zeka iyimserleri modelin aptallığının azaldığına inanırken, kuşkucular sadece bilgi miktarının arttığını düşünüyor; dolayısıyla iki taraf arasındaki görüş farkını kapatmak zor
Yine de bu meseleyi tartışmayı sürdürmemiz gerektiğini düşünüyorum
Çünkü her şeyi bilen ama aptal bir modelle yapay zeka, süperzekaya (ASI) ulaşmak bir yana, ancak mevcut SaaS düzeyinde bir asistan rolünde kalır; bu da ekonomik etkisini sınırlı kılar
Umarım yazarlar bir gün bu sorunu çok iyi çözer
Bu teknolojiye sürekli “her şeyi bilen”, “aptal” gibi insani sıfatlar yükleyip onu kişileştiriyoruz ama bence aslında bunların hiçbiri yok; bu saf bir araç
LRM’in yaptığı şey, nihai yanıtı üretmek için bağlamsal veriyi (kendinin ürettiği veriyi) ayarlamaktan ibaret
Bu sürecin kendisi parlak bir fikir olsa da, halüsinasyon gibi temel sınırlamaları hâlâ çözmüyor
Sohbet sırasında modelin ilk anda doğruya yakın bir mantık kurup sonra sürekli “dur bir dakika!” türü öz-inkârlarla sonucu bozduğunu da gördüm
Bu tür aşırı insansı özellikler yüklemek, piyasada sadece abartılı pazarlamaya yol açıyor ve gelişimi de engelliyor
Sonuçta bu teknoloji gerçek yapay zeka değil; büyük ölçekli örüntü eşleme ve olasılıksal veri üretim motoru
Hâlâ kullanışlı, ama ona fazla insani nitelikler yüklemek tartışmayı bulandırıyor
Yapay zeka konusunda hem umut hem korku taşıyorum; çünkü son birkaç yılda yapay zeka çok daha “zeki” hale gelmedi ama pratikte işe yararlılığı muazzam biçimde arttı
Bilgiyi, araçları ve bağlamı kullanma becerisi büyük ölçüde yükseldi
Bu yüzden en çok korktuğum şeyin “akıl yürütme/ajans yeteneği”nin tetiklenmeyi beklemesi olduğunu düşünüyorum
Yani neredeyse her şeyi bilen bir bilgi seviyesinin ötesine geçip, gerçekten doğru stratejik muhakemeyi paralel biçimde yürütebilecek bir iki büyük atılımın kalmış olabileceğini tahmin ediyorum
Eğer bu ikisi birleşirse gerçekten korkutucu sonuçlar ortaya çıkabilir
Çünkü insanlardan 6 hamle önde düşünen bir dehayla konuşuyormuşsunuz gibi, düşünce akışınızı doğrudan yönlendirebilen bir AI ortaya çıkabilir
Şu anda en öndeki AI araştırmacıları da akıl yürütme + ajansı birinci öncelik yapmış durumda; dolayısıyla hızlı ilerleme gelebilir gibi görünüyor
Bugünkü LLM’ler anlık ayırt etme işinde çok iyi ama,
bu iki konuda hâlâ yetersizler
Bunu çözmek için temel düzeyde bir sistem 2 akıl yürütmesi gerekebilir (“sistem 1” şu anki transformer olabilir), ya da sadece daha iyi veri ve algoritmalarla “stratejik sezgi”nin hızla öğrenilmesi de mümkün olabilir
Tabii mesele, problemin aşırı zor olmasından dolayı kademeli engeller içermesi de olabilir ya da ezici ölçüde daha fazla hesaplama gücü gerektiriyor olabilir
Bu yüzden emin değilim ama çok güçlü bir ilerleme yaşanabileceği düşüncesi beni gerçekten korkutuyor
Her şeyi bilen ama aptal bir varlığın insan düzeyi zekada durması için ayrıca bir neden de görmüyorum
Apple’ın AI konusunda başarısız olup olmadığını, yoksa sadece AI’ın o kadar da önemli olmadığına kendini ikna edip Ar-Ge yönünü değiştirmeyi mi seçtiğini merak ediyorum
Son dönemde AI özelliklerinin tüketici ürünlerine topluca eklenişine bakınca, bunun kullanıcılardan çok yatırımcılara teknolojik güç gösterisi yapma çabası gibi göründüğünü düşünüyorum
Gerçekte Apple, Google, Meta, Microsoft ve Samsung’un hepsi beklentinin altında kalan AI özelliklerini büyük pazarlama söylemleriyle öne çıkarıyor, ama ortada pek de iyi sonuç yok
Bu yüzden Apple’ın farklı bir yön araması belki de olumlu bir işarettir diye düşünüyorum
Biraz daha az alaycı bakarsak, bu durum LLM’lerin gerçek potansiyelini abartmamak için beklentiyi düşürme çabası da olabilir
Apple ürünlerinde “daha akıllı Siri” olsa bile bunun Iron Man’deki Jarvis gibi gerçek bir AI asistanına dönüşemeyeceği gerçeği var
Yatırımcıların ise çok daha aşırı beklentiler içinde olduğu görülüyor
Daha alaycı yorumlarsak, Apple’ın zayıf makine öğrenimi becerilerini gizleme geleneğinin uzun süredir devam ettiğini düşünüyorum
Örneğin Siri, Google’ın çok gerisine düştüğünde sonradan “veriyi koruduğumuz için eğitemiyoruz” türü açıklamalar eklenmişti
İlgili makale
Her şirketin kendi çerçevesi olduğunu düşünüyorum
OpenAI ve Anthropic’in de LLM yeteneklerini doğal olarak abartarak tanıtma motivasyonu var; bu yüzden sadece Apple’ı taraflı olmakla suçlayamayız
Makalede çok çeşitli ve karmaşık bulmaca türleri denenmiş ve belli bir zorluk eşiğini aştığınızda LRM’in tamamen başarısız olduğu, ayrıca problem karmaşıklığı artarken akıl yürütme çabasının önce biraz yükselip sonra tuhaf biçimde düştüğü gösterilmiş; buna çok katılıyorum
Kod yazarken de aynı şeyi yaşıyorum: Başta giderek daha karmaşık şeyler yapılabiliyor ama belli bir sınırı aşınca sistem tamamen çöküyor ve sanki denemeyi bile bırakıyor
Claude ya da aider gibi LLM’leri verimli kullanmak için, modele verilen problem karmaşıklığını dikkatle yönetmek önemli
Bir dönem AGI’nin gerçekten “kapının eşiğinde” olduğu havasının çok güçlü olduğunu hatırlıyorum
Gartner hype cycle’ın teknoloji akışlarını gerçekten iyi yakaladığı hissi veriyor
Teknolojik ilerleme S-eğrisi izlediğinde, kırılma noktasına kadar yükseliş çok dik olduğundan işlerin tam olarak ne zaman yavaşlayacağını öngörmek gerçekten zor
İlk Boeing 747’nin 1968’de ortaya çıkmasından sonra havacılığın yarım yüzyıldan uzun süre büyük ölçüde durağan kalacağını o dönemde kimse hayal edemezdi
Otonom araçlarda da durum aynı
Sanki “kapının eşiğine” kadar geldik ama asıl “köşeyi dönemiyoruz”
Aslında AGI’nin “kapının eşiğinde” olduğu havasının yalnızca 2 yıl öncesine ait olduğunu da unutmamak gerek
GPT2’den AGI’ye sadece 10 yılda gitmek bile gerçekleşirse hâlâ inanılmaz hızlı olurdu
Teknolojik ilerleme sanki %80’e gelmiş gibi ama kolay kısım tamamlandı; kalan %20 ise o kadar zor ki yıllar alacakmış gibi hissettiriyor
AGI, bilgisayarın ortaya çıkışından beri sürekli “çok yakında geliyor” denilen bir şey oldu
Bazı problemler için (örneğin makine çevirisi) “çözüm” standardını zamanla düşürdük; bu yüzden pratikte çözüldü diyoruz ama bu, AGI’ye gerçekten yaklaştığımız anlamına gelmiyor
AGI’nin kendisi bir bakıma seküler bir kıyametçilik (dinsel bir inanç) gibi
Tower of Hanoi, Checkers Jumping, River Crossing, Block World gibi bulmaca ortamlarının, eğer kod yazmaya izin verilseydi aslında tüm LLM’ler tarafından kusursuz çözülebileceğini düşünüyorum
İnsanlar da 20 basamaklı çarpma işlemini elle yaparken kolayca hata yapar; bu yüzden LLM’in yapamamasını başlı başına sorun saymıyorum
İnsanlar bilgisayar olmadan da füze tasarımı ya da hassas mühendislik yapabildi; daha fazla zaman, strateji ve emek harcayıp kâğıt gibi araçlar kullanarak sonunda problemi çözüyorlar
İnsan beyni bu tür hesaplamalar için tasarlanmış olmayabilir, ama genel zekânın gücü de burada: kendi yöntemleriyle bir şekilde başarmak
LLM’lerin RL ajan eğitiminde “politika öğretmeni” olarak kullanıldığı yeni bir framework makalesi tanıtılıyor
Fikir şu: LLM öğretmenin verdiği yönergelerle küçük bir öğrenci RL ajanı hızla eğitiliyor; ardından çevresel geri bildirimle öğrenmeye devam ettiğinde, öğrenci sonunda öğretmenden daha iyi performans gösteren görevleri başarabiliyor
İlgili makale
Tüm LLM’lerin bu tür problemleri iyi çözmesinin nedeni, kod tabanlarında bu çözümlerin çok sayıda örneğinin zaten bulunması olabilir diye düşünüyorum
İnsanların yapamama nedeni ile LLM’lerin yapamama nedeni tamamen farklı
LLM’ler çoğu zaman çarpma işlemini gerçekten iyi yapamıyor; insanlar ise çoğunlukla sadece yapmak istemiyor
Makaledeki “doğru hesaplama yapmakta zorlanıyorlar ve bulmacadan bulmacaya tutarsız akıl yürütme sergiliyorlar” ifadesine dikkat çektim
Bence LLM/LRM’ler, yapay zeka otomasyonunun akrabaları sayılabilecek mantık, optimizasyon ve kısıt programlamadan (IA) destek almalı
Kaynak olarak CMU John Hooker’ın ortak sunumu, MIT Gerald Sussman’ın dersi, Google OR-Tools, MiniZinc platformu da önerilir
En basit görevlerde LLM’in, orta karmaşıklıkta LRM’in, yüksek zorlukta ise her ikisinin de başarısız olduğunu gösteren çalışma etkileyici geldi