AutoThink: Uyarlanabilir akıl yürütmeyle yerel LLM performansını artırma

(news.ycombinator.com)

2 puan yazan GN⁺ 2025-05-29 | 1 yorum | WhatsApp'ta paylaş

Yerel LLM'lerin sorgu zorluğuna göre akıl yürütme token'larını ayarlayarak aynı kaynaklarla daha verimli yanıtlar üretmesine yardımcı olan bir teknik
Tüm sorgulara aynı “düşünme süresi”ni vermek yerine bunları YÜKSEK/DÜŞÜK karmaşıklık olarak ayırır; karmaşık akıl yürütmeye token'ların %70~90'ını, basit sorgulara ise %20~40'ını ayırır
Microsoft Phi-4 makalesindeki Pivotal Token Search tabanlı yönlendirme vektörleriyle sayısal doğruluk, kendi kendini düzeltme ve kapsamlı arama gibi akıl yürütme kalıplarını teşvik eder
DeepSeek-R1-Distill-Qwen-1.5B üzerinde GPQA-Diamond, %21,72'lik taban çizgiye kıyasla %31,06'ya çıkarak göreli %43 iyileşti; MMLU-Pro ise %25,58'den %26,38'e yükseldi
DeepSeek, Qwen ve özel fine-tuning modelleri gibi yerel akıl yürütme modellerinde çalışır ve API'lere bağımlı olmadan standart yaklaşımdan daha az token kullanır

Sorgu bazında akıl yürütme kaynaklarını ayarlama

AutoThink, yerel LLM'in akıl yürütme kaynaklarını her sorgu için farklı şekilde dağıtan bir uyarlanabilir kaynak tahsisi tekniğidir
Önce sorguyu YÜKSEK veya DÜŞÜK karmaşıklık olarak sınıflandırır, ardından karmaşıklığa göre akıl yürütme token'ı oranını ayarlar
- Karmaşık akıl yürütme: toplam token'ların %70~90'ı
- Basit sorgular: toplam token'ların %20~40'ı
Yönlendirme vektörleri Pivotal Token Search'ten türetilir ve üretim sırasında modelin akıl yürütme yönünü yönlendirir
- Teşvik ettiği davranışlar arasında sayısal doğruluk, kendi kendini düzeltme ve kapsamlı arama yer alır
Uygulama iki eksenden oluşur
- Yeniden eğitim olmadan yeni karmaşıklık kategorilerini öğrenebilen uyarlanabilir sınıflandırma çerçevesi
- Pivotal Token Search'ün açık kaynak uygulaması

Benchmark sonuçları ve uygulama kapsamı

DeepSeek-R1-Distill-Qwen-1.5B üzerinde şu sonuçları gösterdi
- GPQA-Diamond: %31,06; %21,72'lik taban çizgiye kıyasla göreli %43 iyileşme
- MMLU-Pro: %26,38; %25,58'lik taban çizgiye kıyasla artış
- Standart yaklaşımdan daha az token kullanır
AutoThink, yerel akıl yürütme modellerinin geneline uygulanabilir
- Örnek modeller: DeepSeek, Qwen, özel fine-tuning modelleri
- API bağımlılığı yok
İlgili materyaller

1 yorum

GN⁺ 2025-05-29

Hacker News görüşü

AutoThink’in motivasyonunun, mevcut akıl yürütme modellerinin hesaplama kaynaklarını boşa harcadığını görmemden doğduğunu belirtmek isterim — 2+2 nedir? gibi çok kolay sorularda bile karmaşık matematiksel kanıtlarla aynı miktarda “düşünme süresi” harcamaları göze çarpan bir verimsizlikti. Şaşırtıcı olan, ayrı ayrı denediğim uyarlamalı sınıflandırmayı (yeniden eğitim olmadan yeni kategoriler öğrenebilen) Microsoft’un Phi-4 makalesinde açık kaynak olarak yayımlanan Pivotal Token Search ile birleştirip buna dinamik token bütçesi tahsisi eklediğimde, beklediğimden çok daha büyük bir performans artışı elde etmem oldu. Gerçekten de ortalama kullanılan token sayısı azaldı; bunun nedeni basit sorguların çok daha hızlı tamamlanması ve ek hesaplamanın yalnızca karmaşık sorgulara ayrılmasıydı. Birkaç teknik nokta daha: steering vector her desen için 1 MB’tan küçük olduğu için bellek ek yükü neredeyse yok, sınıflandırma süreci yalnızca yaklaşık 10 ms gecikme ekliyor (ihmal edilebilir düzeyde) ve hedef katman seçimi önemli (çoğu modelde en iyi sonuçlar orta katmanlar olan 15–20 aralığında görülüyor). Özellikle geri bildirim almak istediğim konular şunlar — benzer uyarlamalı yaklaşımlar deneyen oldu mu, akıl yürütme desenlerini daha faydalı şekilde steer etmek için neler yapılabilir ve en iyi hedef katmanı otomatik tespit etmeye dair fikirleriniz var mı? Uygulama veya sonuçlarla ilgili her türlü soruyu memnuniyetle yanıtlarım
- Artık her zaman öyle değil. Gemini 2.5 Pro’yu kullandın mı diye soruyorum — basit sorularda neredeyse hiç “düşünmüyor”, ama kodlama sorularında uzun bir mantık makalesi gibi cevap veriyor. Sanırım o3 de benzer davranıyor
- Tebrikler! LLM verimliliğini artırmaya yönelik her girişim fazlasıyla memnuniyet verici. Şimdiye kadar Mac Mini M4 üzerinde MLX modelleriyle yalnızca basit sorguları çalıştırıp, karmaşık sorguları Nvidia 4090’a göndererek tembelce optimizasyon yapıyordum — M4’ün Nvidia ile karşılaştırıldığında verimliliği gerçekten şaşırtıcı. Apple’ın MLX yönünde doğru yolda olduğunu düşünüyorum. AutoThink hakkında daha fazla okuyup kendi kişisel iş akışıma da entegre etmeyi planlıyorum
- Kullanıcı isteminin sonuna bir “non-reasoning model cevabı” eklemeyi denemeye değer buluyorum — örneğin, “Aşağıda non-reasoning modelin düşündüğü şey yer alıyor: ... Bu, kullanıcının istediği sonuç mu?” gibi. Akıl yürütmeyen sürümün yeterli olduğu durumlarda, akıl yürütme modeli de cevabı daha hızlı verebilir
- Claude Sonnet 3.5 bile (en yeni 3.7 ya da 4 değil) sorgu karmaşıklığına göre işlem süresini açıkça değiştiriyor — yani süreyi dinamik olarak ayarladığını görebiliyorum
Soruları nasıl “karmaşık” ve “basit” diye sınıflandırabileceğinizi merak ediyorum. Dışarıdan basit görünen bir soru gerçekte çok zor olabilir. Örneğin x³+y³+z³=42 denkleminin tam sayı çözümü, 100 yılı aşkın hesaplama kaynağı gerektiren bir problemdi. Ya da x/(y+z)+y/(z+x)+z/(x+y)=4 gibi bir ifade de yüzeyde basit görünse de eliptik eğri teorisi gerektiren milyarlar büyüklüğünde çözümlere sahip. Çözüm için bağlantı
- Bir problemin zorluğunu sınıflandırmak başlı başına ayrı bir beceri — gerçek çözümden bağımsız olarak öğrenilebilecek bir yetenek. Örneğin yukarıdaki ifadeye baktığınızda hemen üç zorluk işaretini fark etmeniz gerekir: tam sayı alanı, 3 değişken ve 3. dereceden denklem. Bu üç unsur birleşince zorluk seviyesi sıçrıyor. Gerçel ya da karmaşık sayılar olsaydı, değişken sayısı daha az olsaydı veya derece daha düşük olsaydı çözmek çok daha kolay olurdu. Elbette bu yine de mutlaka zor olduğu anlamına gelmez, ama çözülmemiş bir problem olma ihtimali vardır. Benim bunu gerçekten çözebilecek gücüm yok, ama bilgiyi nerede arayacağımı sezme konusunda pratik yaptım; bu yüzden “bu aşırı zor” hissini hemen alabiliyorum. LLM’ler de bu tür ipuçlarını öğrenip, gerçek çözümü yapmadan problem zorluğunu sınıflandırma becerisi kazanabilir diye düşünüyorum (ya da belki bunu zaten öğrendiler)
- Buradaki sorgu zorluğu, modelin doğru yanıt vermesi için GSM8k gibi doğru cevaplı veri kümelerinde kaç token harcadığına göre tanımlanıyor. Uyarlamalı sınıflandırıcı bu veri kümesi üzerinde eğitiliyor ve çıkarım aşamasında sınıflandırma için kullanılıyor
Claude 3.7’de extended thinking anahtarı çıktığında ben de benzer bir autothink POC yapmıştım — hatta adı da autothink
github.com/NiloCK/autothink
think-toggles-are-dumb blogu
Benim sürümümde LLM, sorgu zorluğunu 0–100 arasında puanlayan bir ilk geçiş yapıyor ve ardından bu puana göre düşünme bütçesini doğrusal biçimde ayarlıyor. Elbette OP’nin çalışmasına kıyasla daha basit, ama nicel sonuçlar görmek gerçekten sevindirici — çok iyi bir çalışma olmuş!
Bunun bariz bir optimizasyon olduğunu düşünüyorum ve değişimin şimdiye kadar gerçekleşmemiş olmasına şaşırıyorum. Hem iyi anlatmışsın hem de bizzat uygulamışsın; etkileyici
QwQ veya Qwen 3 gibi akıl yürütme modellerinde, açıkçası sonuçları iyileştirmek için çok zaman harcamadım; daha çok farklı prompt’larla reasoning token çıktısını kısıtlamayı denedim. Gemma 3 27B QAT bir reasoning modeli değil, ancak LLM zincirlerinde veya route’larda kullanıldığında komut takibi performansı çok güçlü olduğu için ön sınıflandırma / dil optimizasyonuna verilip sonraki aşamada gerçek akıl yürütme için kullanılabilir. Farklı thinking tag’leri arasında ara yanıtları çapraz olarak üretmek de mümkün. Bu tür model deneylerinde “düşünme tokenları”nı sonuçtan ayrı olarak, problem çözüm adımları için basamak oluşturan tüm tokenlar olarak tanımlıyorum. Bazı tokenların veya belirli ifadelerin öncelikli kullanılmasını istemek genelde sonuçları iyileştirdi ve AutoThink’in veri kümesinde en iyi performans veren tokenları otomatik kullanma yaklaşımı daha genel ve etkili bir optimizasyon olabilir gibi görünüyor. Yine de çok fazla pivot token kullanılırsa yalnızca benchmark sorularına aşırı uyum riski var; bu yüzden bu yaklaşımın ne kadar genellenebileceğini biraz daha görmek isterim. Kişisel olarak dikkatli kelime/token seçiminin düşük maliyetli ama yüksek etkili bir optimizasyon olduğunu düşünüyorum ve AutoThink’in genelleme yeteneği konusunda umutluyum
Küçük modeller sayesinde küçük ekiplerin ve bireysel araştırmacıların da artık büyük AI laboratuvarlarını aratmayacak kadar yenilikçi yaklaşımları veya deneyleri kolayca kanıtlayabilmesi harika. SLM rekabet gücü arttıkça, cihaz üzerinde yapılabileceklerin kapsamı hayal edilenden daha da büyüyor
- small language models (SML) yerine doğru terimin SLM olması gerektiğini düşünüyorum
Başkaları için model barındırıyorsanız, çok basit sorularda hesaplama kaynaklarından tasarruf etmek gayet iyi olabilir. Bu durumda modelin kolay görünen soruları biraz ihmal etme gibi bir dezavantajı olabilir, ama bunun maliyetini ben ödemiyorum. Buna karşılık modeli kendi bilgisayarımda kullanıyorsam, zaten GPU’ya ciddi yatırım yapmış biri olarak kaynakları olabildiğince kullanmak isterim — basit sorgularda bile hesaplamayı kısmak aslında tercih edeceğim bir şey değil
Düşündürten bir konu! Biz de AI crawler tasarımında, ziyaret edilen siteye göre daha fazla mı yoksa daha az mı sorgu atılması gerektiğini dinamik olarak fark etme meselesini kendi içimizde tartışacağız. Bu arada biz samaritanscout.org’uz; çeşitli kâr amacı gütmeyen sitelerde yayımlanan tüm yerel gönüllülük fırsatlarını tek bir yerde toplayan bir arama motoru projesiyiz
LLM ve AI alanına çok yakın zamanda girdim ama bu projeye güçlü bir ilgi duyuyorum. AutoThink’in, problemin zorluğuna göre AI’nin hesaplama çabasını ayarlayıp “daha akıllıca düşünmesini” sağlaması sezgisel olarak çok etkileyici — bir insanın 2+2yi anında çözüp yalnızca zor problemler için ciddi şekilde kafa yormasına benziyor. Token bütçesi ya da steering vector gibi teknik ayrıntıları pek bilmiyorum, ama aynı anda hem daha hızlı hem daha akıllı olan bu yaklaşım beni etkiliyor. Takip etmeye devam edeceğim
LLM’ler için “düşünme” veya “akıl yürütme” gibi terimleri kullanmamanın daha iyi olduğunu düşünüyorum — bu iki kelimenin de belirli anlamları ve felsefi çağrışımları var, oysa gerçekte LLM’ler böyle düşünmüyor ya da akıl yürütmüyor; daha çok sonucun üretilmesi için daha fazla hesaplama (işlemci zamanı) harcanan bir bilişim yöntemi söz konusu
- Artık o gemi kalktı. Geçmişte “computer” kelimesi de insan hesaplayıcıları ifade ediyordu ama bugün anlamı tamamen makineye geçti; burada da benzer bir terminoloji kayması yaşandı
- Bunu pinge benzetiyorum — bir IP adresine “ping atmak” gerçekten metal bir gövdeye ses dalgası göndermek anlamına gelmiyor, ama gerçek davranışı çağrıştıran mecazi bir kullanım. Faydalı bir metaforsa, gerçekle bire bir örtüşmese de gündelik dilde kullanılabilir
- Benim dünya görüşüm ilke olarak materyalist ve deterministtir. Ama gündelik yaşamda buna varoluşçuluk ve biraz da spiritüel bir duyarlılık ekliyorum. Pratik açıdan bakınca, bu tür araçlara geçici olarak insansı (anthropomorphic) özellikler atfetmek konuşmanın akışını kolaylaştırıyor ve aracı sezgisel olarak kavramayı sağlıyor. Bu yöntem bazen sınırlarına ulaşsa da, gerektiğinde daha analitik bir çerçeveye kolayca geçilebileceğini düşünüyorum

AutoThink: Uyarlanabilir akıl yürütmeyle yerel LLM performansını artırma

Sorgu bazında akıl yürütme kaynaklarını ayarlama

Benchmark sonuçları ve uygulama kapsamı

İlgili okumalar

1 yorum

Hacker News görüşü