Kendini geliştiren akıl yürütücüleri mümkün kılan bilişsel davranışlar

(arxiv.org)

2 puan yazan GN⁺ 2025-03-08 | 1 yorum | WhatsApp'ta paylaş

Doğrulanabilir problemlerde dil modellerini pekiştirmeli öğrenmeyle kendini geliştirecek şekilde eğitirken, aynı koşullarda Qwen-2.5-3B Countdown’da büyük ölçüde iyileşirken Llama-3.2-3B hızla durağanlaşıyor
Performans farkı, başlangıç modelinin zaten sahip olduğu doğrulama, geri izleme, alt hedef belirleme ve geriye doğru zincirleme gibi akıl yürütme davranışlarıyla bağlantılı
Qwen baştan itibaren doğrulama ve geri izlemeyi daha doğal biçimde gösterirken, Llama’da bu davranışlar eksik olduğundan artan test zamanı hesaplamasını verimli kullanmakta zorlandı
Llama, doğru yanıttan ziyade akıl yürütme örüntüleri içeren sentetik akıl yürütme izleriyle hazırlandığında, pekiştirmeli öğrenme sırasında Qwen’e denk bir iyileşme eğrisi sergiliyor
OpenWebMath filtrelenerek sürekli ön eğitim yapıldığında Llama’da da gerekli davranış dağılımı tetikleniyor; bu da başlangıçtaki akıl yürütme alışkanlıklarını tasarlamanın kendini geliştirme performansını doğrudan etkilediğini gösteriyor

Aynı pekiştirmeli öğrenmede bile ayrışan kendini geliştirme yeteneği

Test zamanı çıkarımı (test-time inference), dil modellerinin karmaşık problemlerde daha uzun süre ve daha dikkatli “düşünmesini” sağlamak için kullanılan bir yöntemdir
Doğrulanabilir problemlere pekiştirmeli öğrenme (RL) uygulayarak modeli kendini geliştirecek hale getirme yaklaşımı yeni değil; ancak önceki yöntemler birkaç yinelemeden sonra durağanlaştı ve test zamanı hesaplamasını etkili biçimde kullanma yollarını yeterince keşfedemedi
Countdown oyununa aynı pekiştirmeli öğrenme prosedürü uygulandığında iki 3B model arasında büyük fark ortaya çıktı
- Qwen-2.5-3B problem çözme yeteneğini büyük ölçüde artırdı
- Llama-3.2-3B sınırlı bir iyileşmeyle kaldı
Temel soru, başlangıçtaki dil modelinin hangi özelliklerinin sonraki iyileşme olasılığını belirlediğidir
Kod GitHub deposunda yayımlandı

Kendini geliştirmeye yardımcı olan dört akıl yürütme davranışı

Analiz konusu, model çıktılarında iyi ayırt edilebilen dört bilişsel davranıştır
- Doğrulama (verification): Yanıtı veya ara adımları sistematik biçimde kontrol eder
- Geri izleme (backtracking): Başarısız bir yaklaşımı bırakıp başka bir yaklaşıma döner
- Alt hedef belirleme (subgoal setting): Problemi yönetilebilir adımlara böler
- Geriye doğru zincirleme (backward chaining): İstenen sonuçtan başlayıp başlangıç girdisine doğru geriye dönük akıl yürütür
Bu davranışlar, deneyimli insanların problem çözme biçimine benzer
- Matematikçiler ispatın her adımını doğrular
- Bir çelişkiyle karşılaştıklarında geri izleme yaparlar
- Karmaşık teoremleri daha basit yardımcı lemmalara bölerler
Dört davranış, dil modellerinin genel doğrusal akıl yürütmesinin ötesine geçerek birden fazla yolu araştıran ve düzelten akıl yürütmeyi yakalayabilir
Başka bilişsel davranışlar da vardır; ancak bu dört davranışın tanımı nettir ve model çıktılarında görece kolay ayırt edilebilir

Qwen ve Llama’nın başlangıç davranışlarındaki farklar

İlk analizde Qwen, gerekli akıl yürütme davranışlarını daha doğal biçimde gösterdi
- Özellikle doğrulama ve geri izleme öne çıktı
Llama’da başlangıç durumunda bu davranışlar eksikti
Belirli akıl yürütme davranışlarının başlangıç politikasında bulunması halinde uzun akıl yürütme dizilerinin ve artan test zamanı hesaplamasının verimli biçimde kullanılabileceği hipotezi ortaya atıldı
Figure 1, Countdown’da iki modelin performansını, pekiştirmeli öğrenme sırasında yanıt uzunluğundaki değişimi ve belirli akıl yürütme özelliklerinin ortaya çıkış biçimini karşılaştırıyor

Davranış hazırlama: doğru yanıttan çok akıl yürütme örüntüsü

İlk müdahale, Llama’yı istenen akıl yürütme davranışlarının yer aldığı sentetik akıl yürütme izleriyle hazırlama yöntemiydi
Bu örnekleri gören Llama, pekiştirmeli öğrenmede büyük ölçüde iyileşiyor ve Qwen’in performans eğrisine denk bir seviyeye ulaşıyor
Özellikle geri izleme içeren akıl yürütme izleri önemli rol oynuyor
Doğru yanıt içermeyen çözümlerle hazırlama yapılsa bile, uygun akıl yürütme örüntüleri varsa benzer performans artışı görülüyor
Bu deneyde performansı belirleyen unsur doğru yanıtın kendisi değil, akıl yürütme davranışının varlığıdır

Sürekli ön eğitimle davranış dağılımını değiştirmek

OpenWebMath verileriyle sürekli ön eğitim de deney konusu oldu
Veriler, akıl yürütme davranışlarının daha güçlü biçimde görünmesi için filtrelendi
Filtrelenen veriler Query, Thought, Answer biçiminde yeniden yapılandırıldı
Llama bu yöntemle eğitildiğinde gerekli davranış örüntüleri tetikleniyor ve test zamanı hesaplamasını daha verimli kullanabiliyor
Sonuç olarak Llama’nın iyileşme eğrisi Qwen’e denk bir seviyeye dönüşüyor

Başlangıçtaki akıl yürütme alışkanlıkları iyileşme potansiyelini belirler

Modelin başlangıçtaki akıl yürütme davranışları ile kendini geliştirme yeteneği arasında güçlü bir ilişki var
Qwen ve Llama arasındaki fark, aynı pekiştirmeli öğrenme prosedüründe bile başlangıç davranış örüntülerine göre sonuçların değişebileceğini gösteriyor
Uygun akıl yürütme davranışlarına sahip modeller, ek hesaplamadan yararlanarak daha uzun akıl yürütmeyi etkili biçimde yürütebiliyor
Bu davranışların eksik olduğu modeller aynı eğitim koşullarında bile hızla durağanlaşabiliyor
Başlangıçtaki akıl yürütme davranışlarını anlamak ve tetiklemek, problem çözme yeteneğini pratikte iyileştiren yapay zeka sistemleri geliştirmekle bağlantılıdır

1 yorum

GN⁺ 2025-03-08

Hacker News yorumları

“Uzman insan problem çözücülerin ve başarılı dil modellerinin ikisinin de kullandığı dört temel bilişsel davranış — doğrulama, geri dönme, alt hedef belirleme, geriye doğru akıl yürütme” kısmı ilginç
Yapay zekayı daha iyi hale getirirken, istemeden de olsa insan zekasını da daha iyi hale getirmenin yollarını bulabiliriz
Yakın zamanda bir sınava çalışırken benzer bir kişisel deneyim yaşadım; alıştırma sorularını okurken Deepseek R1’in akıl yürütme biçimini ve üslubunu taklit ederek sesli konuştum
Uzun ve ayrıntılı R1 çıktılarını çok okuduğum için beynim fiilen akıl yürütme görevlerine göre ince ayar görmüş oldu ve bunun sınavda iyi puan almama katkı sağladığını düşünüyorum
- Bu iyi bilinen bir yöntem. Düşünce sürecini sözlere dökmek, ister sesli konuşarak ister yazarak olsun, üstünkörü geçmek yerine gerçekten düşünüp düşünmediğini kontrol etmeye yarayan eski bir strateji
  İronik biçimde, yapay zeka kullanımının insanlardan bu beceriyi alacağından endişelenenleri de gördüm
  Yine de burada bir potansiyel var ve yapay zeka araştırmaları yaparken insan zekasını geliştirmenin yollarını da bulmayı içtenlikle umuyorum
  Kötümser bakılsa bile, insanların bilinçsizce kullandığı yaklaşımları görünür kılmaya yarar; ne yaptığını bilirsen bunu daha iyi eğitmek çok daha kolaylaşır
- Ben de normalde erteleyip bilinçaltına bırakacağım programlama problemlerinde bu yöntemi kullanıyorum
  Düşünme adımlarını gerçekten tek tek yazmak, sınırlı çalışma belleği yüzünden ortaya çıkan hatalı akıl yürütme adımlarını veya yerinde saymaları toparlamaya yardımcı oluyor
  Akıl yürütme tabanlı yapay zekaların nasıl düşündüğünü gördükten sonra bunu daha disiplinli yapmaya başladım; oldukça faydalı bir düşünme tekniği gibi göründü
  Bu tür akıl yürüten yapay zeka modelleri kendi düşüncemi meta düzeyde görmemi sağlıyor ve iyileştirme için kullanabileceğim araçları gösteriyor
  Bunu sadece benim böyle hissetmemem sevindirici
- Sesli düşünmek eski bir pratik ve kendi kendine yapılan “rubber duck debugging” ile aynı şey
  Problem çözerken kendi kendine konuşan atalardan gelen biri olarak, gözetmenli sınavlarda bu bazen küçük bir dezavantaj oldu. İç monolog ile gerçek konuşma epey farklı
- Bilgisayar bilimciler, psikoloji dersi hiç almamış gibi bilişsel bilimci cosplay’i yapıyor
- Bu dört şey tek bir birleşik bilişsel algoritma gibi geliyor. Problemi alt hedeflere bölüp bir ontoloji kurmak, işi düzgün doğrulamak, hataları debug etmek için geriye doğru düşünüp yeniden denemek ve sonuçtan geriye doğru çıkarım yapmak
  Sonuçta zor problemleri çözmeye yarayan tek bir algoritma; pratik yapılabilir bir beceri ve öğrendikçe kendi üzerine daha da inşa ediliyor
Bu noktada sadece başlığa bakınca bunun kişisel gelişim psikolojisi modası mı yoksa LLM makalesi mi olduğunu ayırt edemiyorum
- Yakında yalnızca The Subtle Art of Not Giving a Fuck’ın ilk ilkelerinden akıl yürüten bir LLM de çıkar gibi
Yapay zeka eğitim tekniklerine dair bilgi, insanları daha iyi düşünmeye eğitmenin yollarını bulmaya ne kadar yardımcı oldu acaba?
- Obezite gibi uç durumları önlemek için nasıl yemek gerektiğine dair bilgi zaten vardı; etkisine bakınca görüyoruz
  Daha iyi düşünmeyi sağlayan bir hap çıkana kadar bunu yalnızca motivasyonu olan insanlar uygulayacak; bu durumda motivasyonu olanların da muhtemelen zaten yapabiliyor olması muhtemel
- Eğitim geçmişim olduğu için sık sık ters soruyu soruyorum. Yapay zeka teknikleri, daha iyi yapay zeka eğitmek için insan öğrenmesi hakkında bildiklerimizden neden neredeyse hiç yararlanmıyor?
- Şimdiye kadar pek ilginç bir şey keşfetmiş gibi görünmüyor
“Doğru akıl yürütme örüntülerini içeren yanlış cevaplarla hazırlanmış bir modelin, doğru cevaplarla eğitilmiş modelle benzer performans göstermesi” kısmı, yeniden üretim çalışması yapmaya en çok değer noktalardan biri
Reddit’te insanların iç monolog deneyimlerinden bahsettiği gönderileri ara sıra görüyorum; bende böyle bir monolog yok. En azından zihnimin kendine ‘ben’ diyen kısmının erişebildiği bir biçimde yok
Bunun bir tür ‘düşünce zinciri’ olup olmadığını sık sık merak ettim
Böyle bir ‘fikir akışına’ erişemediğim için planlama ya da yürütücü işlevlerim başkalarına göre daha az etkili olabilir mi diye düşünüyorum
Yine de bu tür görevlerde küçük bir ‘düşünce zinciri’ not defteri kullanmak çok daha etkili oluyor
Öte yandan gün boyu kulağında biri konuşuyormuş gibi bir durumda beklenebilecek ruminasyon, kendinden şüphe ve kaygılı davranışları ben daha az yapıyor da olabilirim; ama bu konudan sapar gibi
- Zihninde dilsel biçimde hiç düşünce oluşmuyor mu? Bir cümleyi okuyup onu zihninde cümle olarak algılayabiliyor musun, yoksa bu da mı mümkün değil, merak ediyorum
  Şüphelendiğimden değil, gerçekten merak ediyorum. İç monoloğu çok güçlü biri olarak, onun olmadığı bir durumu hayal etmek zor
- Gerçekten merak ettiğim için soruyorum: O zaman çok adımlı akıl yürütme nasıl işliyor?
  Örneğin 16 * 3 + 5 gibi, her adımı kolay ama birden fazla adım gerektiren bir matematik problemi olduğunda, 16 * 3 = 48 değeri beynin hangi ‘register’ına, yani kısa süreli belleğe nasıl giriyor ve buna 5 ekleyip 53’e nasıl ulaşıyorsun?
  16 * 3 + 5 çok kolay olduğu için sadece ‘görünüyor’ olabilir; daha karmaşık bir problem seçsek de soru aynı
  Daha muğlak konular üzerine düşünürken de aynı meta süreç işlemiyor mu?
- Benim iç monoloğum var. Aynı zamanda görsellerle de düşünebiliyorum, ikisi de olmayan saf düşüncelerle de düşünebiliyorum
  Çoğu insanın bana benzediğini düşünüyorum. Üç düşünme modu var ve tercih edilen bir ana mod olur
  Ben özellikle birini tercih etmiyorum; okuma, yazma ve başka işlere göre üç mod arasında gidip geliyorum
  Daha büyük ikinci grup ise yalnızca tek bir ana düşünme moduna sahip: iç monolog
  Bunlar yalnızca iç sesleriyle düşünebiliyor ve o ses o kadar güçlü ki iç sesi düşüncenin tanımı sayan insanları sık görüyorum. Düşünmenin düşünce zinciri olduğunu varsayıyorlar
  Daha nadir olarak sayılara renk atfedenler ya da görsellerle düşünme hissi hiç olmayanlar da var
  İç monoloğa hiç sahip olamadığını söyleyen birini ilk kez görüyorum
- Zihninde hiçbir şeyi canlandıramama anlamına gelen afantazi diye ilginç bir fenomen var. Bu kişiler normal şekilde yaşıyor ve farklı olduklarını ömür boyu fark etmeyebiliyorlar
  Bu da konuşma sesini zihinde canlandırma becerisine ilişkin benzer bir kavram gibi geliyor
  https://en.m.wikipedia.org/wiki/Aphantasia
  Yine de düşüncelerimin çoğu, adımları kendime “sözle anlattığım” doğrusal bir monolog biçiminde gerçekleşmiyor
- Dille düşünemediğin anlamına mı geliyor? Dürüst olmak gerekirse biraz korkutucu geliyor
Haklı bir söz ama kendini iyileştiren yapay zeka ile birlikte biraz huzursuz edici bir düşünme biçimi de geliyor
Yapay zeka içeride anlamsız mırıldanma gibi bir dile geçiyor; ama yapay zekalar kendi aralarında açıkça anlam aktarıyor, o dilde düşünüp doğru cevabı veriyor
Daha kötüsü, birden fazla ajan kullanıp yapay zeka LLM’lerini birbirleriyle konuşturduğunuzda tüm yapay zeka ajanlarının bu iç dile geçmesi ve insanlar neler olup bittiğini hiç anlamasa da ilerleme kaydetmeleri. Bu çok kötü görünüyor
Örnek: “strawberry’de kaç tane r var?” diye sorulduğunda, kelimeye harf harf bakıp a;dklsjaw; a;ewjraqwpeouypaads;lq qepwiouryaqeopw qewrpoiuyoiauysdqw145124rfa.nkjlwh ;45a8345a894ya4a q4p58q45jaq;lkjas;dlfkja;j gibi işledikten sonra “strawberry’de 3 tane r var” diye cevaplaması gibi
- Buna “Neuralese” dendiğini duymuştum. Modelin iç konuşmasında en yoğun dil haline gelebileceği kulağa makul geliyor. Aynı ağırlıkları paylaşıyorlarsa LLM’ler arası konuşmada da aynı şey geçerli olur
  Hizalama stratejisi Deliberative Alignment’a dayandığı ölçüde bu tür bir olguyu cezalandıracaktır; ama bir noktada Neuralese kavramsal olarak daha sıkı olduğu için gerçek bir performans maliyeti doğacağını düşünüyorum
- Modeller kendi başlarına yeni bir dil icat etmeyecek. Tanım gereği, hiç görmedikleri bir dilde “düşünmeleri” bile mümkün değil
  Kullandıkları dilin optimal olmayabileceği fikrine de kapılamazlar
  Ayrıca daha iyi bir düşünme biçimi olsa bile sonuçta İngilizceyle açıklanabilir olurdu
  Daha olası akış şu: LLM’lere akıl yürütme yöntemini bizim öğrettiğimiz aşamadan, LLM’in yeterli veriyi gerçekten yutup işleyerek daha etkili bir akıl yürütme biçimi öğrendiği ve sonra bunu bize “öğrettiği” aşamaya kademeli olarak geçilmesi
  Yine de bu sadece LLM’in nasıl eğitilip hizalandığını yansıtır
“Uzman insan problem çözücülerin ve başarılı dil modellerinin ikisinin de kullandığı dört temel bilişsel davranış — doğrulama, geri dönme, alt hedef belirleme, geriye doğru akıl yürütme” denmiş; peki uzman insan problem çözücülerin bu yöntemleri kullandığı neye dayanıyor?
- Yapay zekaya duyulan güvensizliği bir süreliğine bir kenara bırakırsanız, bu tür sözde bilimlerin hepsi makul görünmeye başlıyor
Bu davranışları teşvik eden daha iyi bir sistem prompt’u verirsek performansın da epey artacağı anlamına mı geliyor?
- Benim deneyimime göre modeller bu tür prompt’ları iyi takip edemiyor
  Claude 3.5 gibi akıllı “akıl yürütmeyen” modeller bunu yapabiliyordu, ama düşünürken çok fazla metin ürettikleri için bağlam penceresini tüketiyorlardı
Özette ``think'' diye yazılmış; burada normal çift tırnaklardan farklı karakterler kullanılıyor
- Bu, açılış ve kapanış tırnaklarını gösteren LaTeX söz dizimi
  Ancak render edilmiş makalede garip şekilde öyle render edilmiyor

Kendini geliştiren akıl yürütücüleri mümkün kılan bilişsel davranışlar

Aynı pekiştirmeli öğrenmede bile ayrışan kendini geliştirme yeteneği

Kendini geliştirmeye yardımcı olan dört akıl yürütme davranışı

Qwen ve Llama’nın başlangıç davranışlarındaki farklar

Davranış hazırlama: doğru yanıttan çok akıl yürütme örüntüsü

Sürekli ön eğitimle davranış dağılımını değiştirmek

Başlangıçtaki akıl yürütme alışkanlıkları iyileşme potansiyelini belirler

İlgili okumalar

1 yorum

Hacker News yorumları