Düşünmenin İllüzyonu: Akıl Yürüten LLM'lerin Sınırlarını Anlamak

(ml-site.cdn-apple.com)

21 puan yazan GN⁺ 2025-06-07 | 1 yorum | WhatsApp'ta paylaş

Büyük Akıl Yürütme Modelleri (Large Reasoning Models, LRM'ler), karmaşık problem çözmede belirli bir performans artışı gösterse de, temel sınırlamaları ve ölçeklenebilirlik sorunları açık biçimde ortaya çıkıyor
LRM'ler, problem zorluğu arttıkça akıl yürütme sürecinin hızla çökmesi olgusunu gösteriyor; analizler, akıl yürütme çabasının (token kullanımı) da bir eşiğin ötesinde paradoksal biçimde azaldığını ortaya koyuyor
Aynı hesaplama kaynağı altında standart LLM'ler ile LRM'ler karşılaştırıldığında, düşük zorlukta standart LLM'ler daha üstünken, orta zorlukta LRM'ler avantajlı oluyor, yüksek zorlukta ise her ikisi de başarısız oluyor
LRM'ler, açık algoritmik akıl yürütme ve tutarlı düşünce süreci açısından kritik sınırlamalar sergiliyor; her bulmaca ortamına göre farklı ya da tutarsız davranışlar gösteriyor
Bu araştırma, mevcut akıl yürütme modellerinin güvenilirlik sorunlarını ve ölçeklenebilirlik sınırlarını doğruladığı için, yeni nesil yapay zeka tasarımında daha hassas değerlendirme ve mimari iyileştirme gerektiğini gösteriyor
Apple'ın "The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity" makalesi

Genel Bakış ve Araştırmanın Amacı

Son dönemde büyük dil modeli tabanlı, akıl yürütmeye odaklı modellerin (LRM'ler) ortaya çıkmasıyla birlikte, bunların problem çözme sürecindeki “düşünme” yapısını ve sınırlarını inceleme ihtiyacı doğdu
Bugünkü değerlendirmelerin çoğu matematik ve kodlama benchmark'larında doğru yanıt oranına odaklanıyor; bu da veri kirliliğini ya da içsel “düşünme” sürecinin niteliğini doğru biçimde ölçemiyor
Bu çalışma, mantıksal yapıyı korurken karmaşıklığı hassas biçimde ayarlayabilen bulmaca ortamlarını devreye alarak, yalnızca sonuç doğruluğunu değil, içsel akıl yürütme akışını da analiz edebilecek şekilde tasarlandı

Değerlendirme Ortamı ve Deney Yöntemi

Bulmaca ortamı tasarımı

Sistematik karmaşıklık ayarı ve deneysel kontrol için aşağıdaki dört bulmaca ortamı kullanıldı
- Hanoi Kuleleri: Zorluk disk sayısıyla ayarlanıyor; optimal çözüm olup olmadığı değerlendirilmeden, hedef duruma ulaşılıp ulaşılmadığına göre doğruluk belirleniyor
- Dama sıçraması: Kırmızı-mavi dama taşları ve boş alan sayısıyla karmaşıklık kontrol ediliyor; amaç sonunda konumları karşılıklı değiştirmek
- Nehir geçişi: Eyleyici-aracı çiftlerinin sayısı ve tekne kapasitesiyle zorluk ayarlanıyor; kısıtlar altında herkesin karşıya geçirilmesi hedefleniyor
- Blok dünyası: Blok sayısıyla ayarlanıyor; başlangıç durumundan hedef istifleme durumuna geçiliyor

Her ortam, bulmaca öğelerinin sayısını değiştirerek karmaşıklığın ince biçimde artırılmasına olanak tanıyor.

Başlıca Deney Sonuçları

1. Karmaşıklığa göre üç akıl yürütme deseni

Düşük karmaşıklık: Standart LLM'ler, LRM'lere göre daha verimli (daha az token kullanımı) ve çoğu durumda daha yüksek doğruluk sağlıyor
Orta karmaşıklık: LRM'lerin uzun düşünme süreci (Chain-of-Thought) ve öz-yansıtmalı yaklaşımı performans avantajı gösteriyor
Yüksek karmaşıklık: Her iki model türü de ani performans çöküşü (doğruluk oranı 0) yaşıyor; LRM'lerde bu noktada akıl yürütme token kullanımının da azaldığı verimsiz bir durum gözleniyor

2. Akıl yürütme izi (Reasoning Trace) derinlemesine analizi

“Aşırı düşünme (overthinking)”: Düşük karmaşıklıktaki problemlerde LRM'ler doğru cevabı erken bulmasına rağmen sonrasında hatalı aramayı sürdürerek gereksiz hesaplama israfı örüntüsü gösteriyor
Orta zorluk: Yanlış cevabı fark ettikten sonra kademeli olarak doğruya ulaşıyor, bu da öncekine göre daha fazla arama süreci gerektiriyor
Yüksek zorluk: Tüm akıl yürütme akışı boyunca doğru çözüm üretemeyen bir "çöküş olgusu" doğrulanıyor

3. Algoritma yürütme sınırları

Belirli bir algoritma prompt içinde verilse bile, model bunu basitçe yürütmeyi bile güvenilir şekilde başaramıyor
Bu, yalnızca “doğru cevabı bulma” değil, mantıksal yapıyı doğru biçimde izlemeyi gerektiren sembolik manipülasyon kapasitesinde özsel bir eksiklik olduğunu düşündürüyor

4. Benchmark ve veri kirliliği sorunu

Mevcut matematik benchmark'larında (MATH500, AIME24, AIME25), düşünen/düşünmeyen model performansı arasındaki fark tutarlı değil
Özellikle AIME25'te, veri kirliliği olasılığı nedeniyle modelin özsel akıl yürütme kapasitesini değerlendirmek zorlaşıyor

Araştırmanın Sonuçları ve Çıkarımlar

Bu çalışma, bulmaca tabanlı hassas değerlendirme ortamı sunarak, akıl yürüten LLM'lerin gerçekten düşünme kapasitesine sahip olup olmadığını ve sınırlarının nerede ortaya çıktığını derinlemesine ampirik olarak inceliyor
Mevcut akıl yürütme modelleri, belirli bir karmaşıklık seviyesinin üzerinde tamamen çöken temel sınırlamalara sahip ve bu sorun token bütçesi ya da basit self-reflection güçlendirmesiyle çözülemiyor

Mevcut değerlendirme yöntemlerinin sınırlarını sorguluyor ve laboratuvar benzeri bir ölçüm ortamı öneriyor
Güncel SOTA akıl yürütme modelleri bile genel amaçlı problem çözme yeteneğini henüz kazanmış değil
Karmaşıklığa göre akıl yürütme token kullanımında ölçeklenme sınırı bulunuyor
Ara düşünme süreci (trace) tabanlı değerlendirme yöntemi getirerek öz-düzeltme ve hata arama mekanizmalarını analiz ediyor
Açık algoritma yürütmedeki başarısızlık ve tutarsızlık ortaya konuyor

Bu sonuçlar, yeni nesil yapay zeka tasarımı ve güvenilirlik değerlendirmesinin yanı sıra, veri kirliliğinden kaçınılmış ortamlarda model performansını ölçmenin önemini vurguluyor

İlgili Araştırma Eğilimleri

CoT (Chain-of-Thought), öz-doğrulama teknikleri, pekiştirmeli öğrenme tabanlı düşünme teşviki gibi çeşitli akıl yürütme yeteneği kazandırma girişimleri
Yüksek kaliteli CoT verisi elde etmenin zorluğu ve supervised/RL yaklaşımlarının sınırlarının giderek belirginleşmesi
Temsili örnekler olarak DeepSeek-R1, Claude 3.7 Sonnet Thinking gibi modellerin ortaya çıkışı
“Aşırı düşünme” olgusu (overthinking) ve benchmark kirliliğinin değerlendirme metriklerinin güvenilirliğini zedelemesi
Problem karmaşıklığını hassas biçimde kontrol edebilen bulmaca ortamı tabanlı değerlendirmelerin gerekliliği

Gelecek Çalışmalar ve Sınırlamalar

Akıl yürütme modellerinin açık mantık izleme/sembolik manipülasyon alanında gösterdiği temel sınırlamalar üzerine daha fazla araştırma gerekiyor
Bulmaca ortamlarının her birinde model davranışlarının tutarsız olması (ör. Hanoi / nehir geçişi performans farkı), veri tabanlı akıl yürütmenin sınırlarına işaret ediyor olabilir
Yapay zeka sistemleri tasarlanırken, ara akıl yürütme akışı ve mantıksal tutarlılığı da içeren hassas doğrulama zorunlu hale geliyor

Bu analiz, yalnızca pratik kullanım açısından değil, yeni nesil akıl yürütme yapay zekasının tasarımı ve değerlendirme çerçevesi açısından da önemli çıkarımlar sunuyor.

1 yorum

GN⁺ 2025-06-07

Hacker News görüşü

Bence LLM’lerin dili kullanması, kafamızın karışmasının nedenlerinden biri. ‘Biology of Large Language Models’ ve ‘Safety Alignment Should Be Made More Than Just a Few Tokens Deep’ yazılarına bakınca, içeride gerçekte olanların insandan tamamen farklı olduğunu ve bu yüzden ortaya çıkan sonucun çoğu zaman yabancı hissettirdiğini görüyorsunuz
Sistemleri teknolojiyle tasarlarken ya da parçaların toplamından daha büyük sonuçlar üreten yapılar kurmayı düşünürken, bunların yeteneklerini hâlâ net biçimde anlamakta büyük zorluk var
Çalışma mantığını bilsek bile, dili ele alış biçimlerinde sanki sihir varmış gibi gelen tuhaf bir taraf var
Bu yüzden düşüncelerimi toparlamak için şu yazıyı da yazdım
Bu tür araştırmaların gerçekten çok etkileyici olduğunu düşünüyorum ve gelecekte token’ları iyi kullanmayı ve sistemleri doğru kurmayı anlamaya yönelik çok daha fazla çaba gerekeceğine inanıyorum
[Bağlantılar]
- Biology of Large Language Models
- Safety Alignment Should Be Made More Than Just a Few Tokens Deep
- Tüm sistemin parçalarının toplamından büyük hale geldiği yapıları kurma arzusuna katılıyorum; bana göre programlama zaten tam olarak böyle bir işlev görüyor
  İşi ya da problemi bölüp birbirleriyle asgari düzeyde etkileşen küçük birimlere ayırırsanız, bunların birleşimi daha büyük bir sonuç üreten bir yapı oluşturur
  Bu süreci programlama iş akışına iyi yerleştirirseniz, performansı düşük bir LLM’yi bile çözümün doğal bir parçası olarak kullanabileceğimize inanıyorum
- Tersine, sistemin bütünü bazen parçalarının her birinden daha kötü de olabilir
  Tek tek görevlerde iyi olup birleşik durumda işlerin birbirine girdiği durumlar da var
  Bu elbette zamanla iyileşebilir, ama her problemi optimize etmek mümkün olmadığından sonuçta uzmanlaşmış yaklaşımların daha verimli olabileceğini de düşünüyorum
İnsan dili bilişsel bir araç olarak kusursuz değil, ama temel katmanda değil üst katmanlarda (iletişim ve yüksek düzeyli akıl yürütme) iyi kullanıldığına inanıyorum
İnsan dili doğası gereği belirsiz ve kusurlu; bu yüzden çevreyle doğrudan etkileşim kuran yöntemlere kıyasla güçlü biliş oluşturmak için yetersiz geliyor
Bu nedenle LLM/LRM modellerinin dil akıcılığına ve bilgi geri getirme becerisine bakarak zeka ölçmeye kalkarsanız kolayca aldanabilirsiniz
Klasik benchmark’lar yerine (örneğin matematik problemleri) zorluğu sistematik biçimde ayarlanabilen bulmaca ortamları kullanma fikrinin gerçekten çok yaratıcı olduğunu düşünüyorum
Basit görevlerde mevcut modellerin, orta karmaşıklıkta LRM’lerin ve yüksek zorlukta ise hepsinin çöktüğünü gösteren üç performans bölgesi analizi de ilginç
Bu karmaşıklık bölgelerinin daha fazla “haritasını” çıkarmamız gerektiğini düşünüyorum
Ekonomik değer ile karmaşıklık bölgeleri arasında nasıl bir eşleşme olduğunu merak ediyorum
Bunu anlamak için sıradan bulmacaların ötesine geçen ve gerçek ekonomik işlere de uygulanabilecek daha sofistike değerlendirme yöntemlerine ihtiyaç var
Yazarların vermek istediği temel sezginin, modelin “her şeyi bilen ama yetersiz” bir varlık olduğu inancı olduğunu düşünüyorum
Bu tür soruları sayısal olarak gerçekten ele alan bir makale daha önce görmedim; bu yüzden bu çalışma da herkesi aynı sonuca götürecek gibi görünmüyor
Yapay zeka iyimserleri modelin aptallığının azaldığına inanırken, kuşkucular sadece bilgi miktarının arttığını düşünüyor; dolayısıyla iki taraf arasındaki görüş farkını kapatmak zor
Yine de bu meseleyi tartışmayı sürdürmemiz gerektiğini düşünüyorum
Çünkü her şeyi bilen ama aptal bir modelle yapay zeka, süperzekaya (ASI) ulaşmak bir yana, ancak mevcut SaaS düzeyinde bir asistan rolünde kalır; bu da ekonomik etkisini sınırlı kılar
Umarım yazarlar bir gün bu sorunu çok iyi çözer
- Bu teknolojiye sürekli “her şeyi bilen”, “aptal” gibi insani sıfatlar yükleyip onu kişileştiriyoruz ama bence aslında bunların hiçbiri yok; bu saf bir araç
  LRM’in yaptığı şey, nihai yanıtı üretmek için bağlamsal veriyi (kendinin ürettiği veriyi) ayarlamaktan ibaret
  Bu sürecin kendisi parlak bir fikir olsa da, halüsinasyon gibi temel sınırlamaları hâlâ çözmüyor
  Sohbet sırasında modelin ilk anda doğruya yakın bir mantık kurup sonra sürekli “dur bir dakika!” türü öz-inkârlarla sonucu bozduğunu da gördüm
  Bu tür aşırı insansı özellikler yüklemek, piyasada sadece abartılı pazarlamaya yol açıyor ve gelişimi de engelliyor
  Sonuçta bu teknoloji gerçek yapay zeka değil; büyük ölçekli örüntü eşleme ve olasılıksal veri üretim motoru
  Hâlâ kullanışlı, ama ona fazla insani nitelikler yüklemek tartışmayı bulandırıyor
- Yapay zeka konusunda hem umut hem korku taşıyorum; çünkü son birkaç yılda yapay zeka çok daha “zeki” hale gelmedi ama pratikte işe yararlılığı muazzam biçimde arttı
  Bilgiyi, araçları ve bağlamı kullanma becerisi büyük ölçüde yükseldi
  Bu yüzden en çok korktuğum şeyin “akıl yürütme/ajans yeteneği”nin tetiklenmeyi beklemesi olduğunu düşünüyorum
  Yani neredeyse her şeyi bilen bir bilgi seviyesinin ötesine geçip, gerçekten doğru stratejik muhakemeyi paralel biçimde yürütebilecek bir iki büyük atılımın kalmış olabileceğini tahmin ediyorum
  Eğer bu ikisi birleşirse gerçekten korkutucu sonuçlar ortaya çıkabilir
  Çünkü insanlardan 6 hamle önde düşünen bir dehayla konuşuyormuşsunuz gibi, düşünce akışınızı doğrudan yönlendirebilen bir AI ortaya çıkabilir
  Şu anda en öndeki AI araştırmacıları da akıl yürütme + ajansı birinci öncelik yapmış durumda; dolayısıyla hızlı ilerleme gelebilir gibi görünüyor
  Bugünkü LLM’ler anlık ayırt etme işinde çok iyi ama,
  1. gerçekten uzun, adım adım akıl yürütme / strateji kurma
  2. akıl yürütmeye dayalı, çevik stratejik eylem (uzmanların sezgiyle tek seferde cevabı bulması düzeyinde)
    bu iki konuda hâlâ yetersizler
    Bunu çözmek için temel düzeyde bir sistem 2 akıl yürütmesi gerekebilir (“sistem 1” şu anki transformer olabilir), ya da sadece daha iyi veri ve algoritmalarla “stratejik sezgi”nin hızla öğrenilmesi de mümkün olabilir
    Tabii mesele, problemin aşırı zor olmasından dolayı kademeli engeller içermesi de olabilir ya da ezici ölçüde daha fazla hesaplama gücü gerektiriyor olabilir
    Bu yüzden emin değilim ama çok güçlü bir ilerleme yaşanabileceği düşüncesi beni gerçekten korkutuyor
- Her şeyi bilen ama aptal bir varlığın insan düzeyi zekada durması için ayrıca bir neden de görmüyorum
Apple’ın AI konusunda başarısız olup olmadığını, yoksa sadece AI’ın o kadar da önemli olmadığına kendini ikna edip Ar-Ge yönünü değiştirmeyi mi seçtiğini merak ediyorum
- Son dönemde AI özelliklerinin tüketici ürünlerine topluca eklenişine bakınca, bunun kullanıcılardan çok yatırımcılara teknolojik güç gösterisi yapma çabası gibi göründüğünü düşünüyorum
  Gerçekte Apple, Google, Meta, Microsoft ve Samsung’un hepsi beklentinin altında kalan AI özelliklerini büyük pazarlama söylemleriyle öne çıkarıyor, ama ortada pek de iyi sonuç yok
  Bu yüzden Apple’ın farklı bir yön araması belki de olumlu bir işarettir diye düşünüyorum
- Biraz daha az alaycı bakarsak, bu durum LLM’lerin gerçek potansiyelini abartmamak için beklentiyi düşürme çabası da olabilir
  Apple ürünlerinde “daha akıllı Siri” olsa bile bunun Iron Man’deki Jarvis gibi gerçek bir AI asistanına dönüşemeyeceği gerçeği var
  Yatırımcıların ise çok daha aşırı beklentiler içinde olduğu görülüyor
  Daha alaycı yorumlarsak, Apple’ın zayıf makine öğrenimi becerilerini gizleme geleneğinin uzun süredir devam ettiğini düşünüyorum
  Örneğin Siri, Google’ın çok gerisine düştüğünde sonradan “veriyi koruduğumuz için eğitemiyoruz” türü açıklamalar eklenmişti
  İlgili makale
- Her şirketin kendi çerçevesi olduğunu düşünüyorum
  OpenAI ve Anthropic’in de LLM yeteneklerini doğal olarak abartarak tanıtma motivasyonu var; bu yüzden sadece Apple’ı taraflı olmakla suçlayamayız
Makalede çok çeşitli ve karmaşık bulmaca türleri denenmiş ve belli bir zorluk eşiğini aştığınızda LRM’in tamamen başarısız olduğu, ayrıca problem karmaşıklığı artarken akıl yürütme çabasının önce biraz yükselip sonra tuhaf biçimde düştüğü gösterilmiş; buna çok katılıyorum
Kod yazarken de aynı şeyi yaşıyorum: Başta giderek daha karmaşık şeyler yapılabiliyor ama belli bir sınırı aşınca sistem tamamen çöküyor ve sanki denemeyi bile bırakıyor
Claude ya da aider gibi LLM’leri verimli kullanmak için, modele verilen problem karmaşıklığını dikkatle yönetmek önemli
Bir dönem AGI’nin gerçekten “kapının eşiğinde” olduğu havasının çok güçlü olduğunu hatırlıyorum
Gartner hype cycle’ın teknoloji akışlarını gerçekten iyi yakaladığı hissi veriyor
- Teknolojik ilerleme S-eğrisi izlediğinde, kırılma noktasına kadar yükseliş çok dik olduğundan işlerin tam olarak ne zaman yavaşlayacağını öngörmek gerçekten zor
  İlk Boeing 747’nin 1968’de ortaya çıkmasından sonra havacılığın yarım yüzyıldan uzun süre büyük ölçüde durağan kalacağını o dönemde kimse hayal edemezdi
- Otonom araçlarda da durum aynı
  Sanki “kapının eşiğine” kadar geldik ama asıl “köşeyi dönemiyoruz”
- Aslında AGI’nin “kapının eşiğinde” olduğu havasının yalnızca 2 yıl öncesine ait olduğunu da unutmamak gerek
  GPT2’den AGI’ye sadece 10 yılda gitmek bile gerçekleşirse hâlâ inanılmaz hızlı olurdu
- Teknolojik ilerleme sanki %80’e gelmiş gibi ama kolay kısım tamamlandı; kalan %20 ise o kadar zor ki yıllar alacakmış gibi hissettiriyor
- AGI, bilgisayarın ortaya çıkışından beri sürekli “çok yakında geliyor” denilen bir şey oldu
  Bazı problemler için (örneğin makine çevirisi) “çözüm” standardını zamanla düşürdük; bu yüzden pratikte çözüldü diyoruz ama bu, AGI’ye gerçekten yaklaştığımız anlamına gelmiyor
  AGI’nin kendisi bir bakıma seküler bir kıyametçilik (dinsel bir inanç) gibi
Tower of Hanoi, Checkers Jumping, River Crossing, Block World gibi bulmaca ortamlarının, eğer kod yazmaya izin verilseydi aslında tüm LLM’ler tarafından kusursuz çözülebileceğini düşünüyorum
İnsanlar da 20 basamaklı çarpma işlemini elle yaparken kolayca hata yapar; bu yüzden LLM’in yapamamasını başlı başına sorun saymıyorum
- İnsanlar bilgisayar olmadan da füze tasarımı ya da hassas mühendislik yapabildi; daha fazla zaman, strateji ve emek harcayıp kâğıt gibi araçlar kullanarak sonunda problemi çözüyorlar
  İnsan beyni bu tür hesaplamalar için tasarlanmış olmayabilir, ama genel zekânın gücü de burada: kendi yöntemleriyle bir şekilde başarmak
- LLM’lerin RL ajan eğitiminde “politika öğretmeni” olarak kullanıldığı yeni bir framework makalesi tanıtılıyor
  Fikir şu: LLM öğretmenin verdiği yönergelerle küçük bir öğrenci RL ajanı hızla eğitiliyor; ardından çevresel geri bildirimle öğrenmeye devam ettiğinde, öğrenci sonunda öğretmenden daha iyi performans gösteren görevleri başarabiliyor
  İlgili makale
- Tüm LLM’lerin bu tür problemleri iyi çözmesinin nedeni, kod tabanlarında bu çözümlerin çok sayıda örneğinin zaten bulunması olabilir diye düşünüyorum
- İnsanların yapamama nedeni ile LLM’lerin yapamama nedeni tamamen farklı
  LLM’ler çoğu zaman çarpma işlemini gerçekten iyi yapamıyor; insanlar ise çoğunlukla sadece yapmak istemiyor
Makaledeki “doğru hesaplama yapmakta zorlanıyorlar ve bulmacadan bulmacaya tutarsız akıl yürütme sergiliyorlar” ifadesine dikkat çektim
Bence LLM/LRM’ler, yapay zeka otomasyonunun akrabaları sayılabilecek mantık, optimizasyon ve kısıt programlamadan (IA) destek almalı
Kaynak olarak CMU John Hooker’ın ortak sunumu, MIT Gerald Sussman’ın dersi, Google OR-Tools, MiniZinc platformu da önerilir
En basit görevlerde LLM’in, orta karmaşıklıkta LRM’in, yüksek zorlukta ise her ikisinin de başarısız olduğunu gösteren çalışma etkileyici geldi
- Biraz iğneleyici bir ton var ama bunu net ifade etmek zor gibi geliyor