2 puan yazan GN⁺ 2025-05-29 | 1 yorum | WhatsApp'ta paylaş
  • AutoThink, yerel ortamda çalışan büyük dil modeli (LLM) performansını uyarlamalı çıkarım teknolojisiyle artırabilir
  • Bu proje, GPU kaynaklarının sınırlı olduğu ortamlarda bile yüksek performanslı LLM kullanımını destekler
  • Mevcut LLM işletimine kıyasla hız ve yanıt kalitesi açısından avantaj sağlar
  • OpenAI API gibi bulut tabanlı LLM çözümlerine kıyasla gizlilik koruması ve maliyet tasarrufu sunar
  • Geliştiriciler ve yapay zeka araştırmacıları için kendi LLM dağıtımı ve deneyleri sırasında faydalıdır

AutoThink açık kaynak projesine giriş

AutoThink, yerel ortamda çalışan büyük dil modellerinin (LLM) performansını en üst düzeye çıkarmak için tasarlanmış bir uyarlamalı çıkarım çerçevesidir. Projenin başlıca özellikleri ve rekabet avantajları şunlardır.

AutoThink neden önemli

  • LLM geliştirme çözümlerinin çoğu, OpenAI API veya HuggingFace Spaces gibi harici bulut hizmetlerine bağımlıdır
  • Bulut LLM hizmetleri; kişisel verilerin açığa çıkması, maliyet yükü ve ağ bağımlılığı gibi sorunlar taşır
  • AutoThink, düşük donanımlı GPU'larda veya PC'lerde bile optimize edilmiş çıkarım yapısı sayesinde mümkün olan en iyi yanıt kalitesini elde etmeyi destekler
  • Uyarlamalı yapı, gerçek zamanlı olarak çalışma koşullarını ve problem zorluğunu analiz ederek en uygun çıkarım yolu ve stratejisini dinamik biçimde seçer

Başlıca özellikler ve faydalar

  • Çok aşamalı çıkarım: Girdi problemine göre birden fazla çıkarım adımını otomatik uygular, karmaşık sorularda da yanıt kalitesini artırır
  • Otomatik performans ayarı: Verilen donanım, süre ve zorluk gibi koşullara göre çıkarım sürecini ve kaynakları ayarlar
  • Hızlı deney: Yapay zeka araştırmacıları ve geliştiricilerin çeşitli altyapı ortamlarında LLM'leri hızlıca denemesine uygun şekilde tasarlanmıştır
  • Modüler tasarım: Çıkarım stratejileri ile LLM motorlarını ayırmayı destekler, farklı motorlarla kolay entegrasyon sağlar

Rakip projelere göre avantajları

  • Daha önce, bulut veya büyük ölçekli donanımı varsayan sabit çıkarım yapıları yaygındı
  • AutoThink; yerel ortama uygun hafif yapı, doğruluk ile hız dengesi ve uyarlamalı mimarisiyle öne çıkar
  • Kendi verilerinizi ve hassas bilgileri korumada son derece etkilidir

Kullanım örnekleri

  • Küçük girişimler ve araştırma kurumları gibi GPU kaynaklarının sınırlı olduğu ortamlarda kurum içi LLM kullanımı için etkilidir
  • Tekrarlayan deneylerde ve özellik geliştirme döngülerinde hızlı uygulama sağlar

Sonuç

AutoThink, hafif ve esnek bir çıkarım optimizasyon yapısı sunarak geliştiricilerle yapay zeka uzmanlarının kendi LLM modellerini yerelde etkili biçimde çalıştırmasına yardımcı olan yenilikçi bir açık kaynak projedir. Bulut tabanlı LLM çözümlerinin maliyet ve gizlilik sorunlarını aşar; farklı ortamlarda gerçek iş uygulamalarına uygunluğu artırabilecek pratik bir alternatiftir.

1 yorum

 
GN⁺ 2025-05-29
Hacker News görüşü
  • AutoThink’in motivasyonunun, mevcut akıl yürütme modellerinin hesaplama kaynaklarını boşa harcadığını görmemden doğduğunu belirtmek isterim — 2+2 nedir? gibi çok kolay sorularda bile karmaşık matematiksel kanıtlarla aynı miktarda “düşünme süresi” harcamaları göze çarpan bir verimsizlikti. Şaşırtıcı olan, ayrı ayrı denediğim uyarlamalı sınıflandırmayı (yeniden eğitim olmadan yeni kategoriler öğrenebilen) Microsoft’un Phi-4 makalesinde açık kaynak olarak yayımlanan Pivotal Token Search ile birleştirip buna dinamik token bütçesi tahsisi eklediğimde, beklediğimden çok daha büyük bir performans artışı elde etmem oldu. Gerçekten de ortalama kullanılan token sayısı azaldı; bunun nedeni basit sorguların çok daha hızlı tamamlanması ve ek hesaplamanın yalnızca karmaşık sorgulara ayrılmasıydı. Birkaç teknik nokta daha: steering vector her desen için 1 MB’tan küçük olduğu için bellek ek yükü neredeyse yok, sınıflandırma süreci yalnızca yaklaşık 10 ms gecikme ekliyor (ihmal edilebilir düzeyde) ve hedef katman seçimi önemli (çoğu modelde en iyi sonuçlar orta katmanlar olan 15–20 aralığında görülüyor). Özellikle geri bildirim almak istediğim konular şunlar — benzer uyarlamalı yaklaşımlar deneyen oldu mu, akıl yürütme desenlerini daha faydalı şekilde steer etmek için neler yapılabilir ve en iyi hedef katmanı otomatik tespit etmeye dair fikirleriniz var mı? Uygulama veya sonuçlarla ilgili her türlü soruyu memnuniyetle yanıtlarım

    • Artık her zaman öyle değil. Gemini 2.5 Pro’yu kullandın mı diye soruyorum — basit sorularda neredeyse hiç “düşünmüyor”, ama kodlama sorularında uzun bir mantık makalesi gibi cevap veriyor. Sanırım o3 de benzer davranıyor

    • Tebrikler! LLM verimliliğini artırmaya yönelik her girişim fazlasıyla memnuniyet verici. Şimdiye kadar Mac Mini M4 üzerinde MLX modelleriyle yalnızca basit sorguları çalıştırıp, karmaşık sorguları Nvidia 4090’a göndererek tembelce optimizasyon yapıyordum — M4’ün Nvidia ile karşılaştırıldığında verimliliği gerçekten şaşırtıcı. Apple’ın MLX yönünde doğru yolda olduğunu düşünüyorum. AutoThink hakkında daha fazla okuyup kendi kişisel iş akışıma da entegre etmeyi planlıyorum

    • Kullanıcı isteminin sonuna bir “non-reasoning model cevabı” eklemeyi denemeye değer buluyorum — örneğin, “Aşağıda non-reasoning modelin düşündüğü şey yer alıyor: ... Bu, kullanıcının istediği sonuç mu?” gibi. Akıl yürütmeyen sürümün yeterli olduğu durumlarda, akıl yürütme modeli de cevabı daha hızlı verebilir

    • Claude Sonnet 3.5 bile (en yeni 3.7 ya da 4 değil) sorgu karmaşıklığına göre işlem süresini açıkça değiştiriyor — yani süreyi dinamik olarak ayarladığını görebiliyorum

  • Soruları nasıl “karmaşık” ve “basit” diye sınıflandırabileceğinizi merak ediyorum. Dışarıdan basit görünen bir soru gerçekte çok zor olabilir. Örneğin x³+y³+z³=42 denkleminin tam sayı çözümü, 100 yılı aşkın hesaplama kaynağı gerektiren bir problemdi. Ya da x/(y+z)+y/(z+x)+z/(x+y)=4 gibi bir ifade de yüzeyde basit görünse de eliptik eğri teorisi gerektiren milyarlar büyüklüğünde çözümlere sahip. Çözüm için bağlantı

    • Bir problemin zorluğunu sınıflandırmak başlı başına ayrı bir beceri — gerçek çözümden bağımsız olarak öğrenilebilecek bir yetenek. Örneğin yukarıdaki ifadeye baktığınızda hemen üç zorluk işaretini fark etmeniz gerekir: tam sayı alanı, 3 değişken ve 3. dereceden denklem. Bu üç unsur birleşince zorluk seviyesi sıçrıyor. Gerçel ya da karmaşık sayılar olsaydı, değişken sayısı daha az olsaydı veya derece daha düşük olsaydı çözmek çok daha kolay olurdu. Elbette bu yine de mutlaka zor olduğu anlamına gelmez, ama çözülmemiş bir problem olma ihtimali vardır. Benim bunu gerçekten çözebilecek gücüm yok, ama bilgiyi nerede arayacağımı sezme konusunda pratik yaptım; bu yüzden “bu aşırı zor” hissini hemen alabiliyorum. LLM’ler de bu tür ipuçlarını öğrenip, gerçek çözümü yapmadan problem zorluğunu sınıflandırma becerisi kazanabilir diye düşünüyorum (ya da belki bunu zaten öğrendiler)

    • Buradaki sorgu zorluğu, modelin doğru yanıt vermesi için GSM8k gibi doğru cevaplı veri kümelerinde kaç token harcadığına göre tanımlanıyor. Uyarlamalı sınıflandırıcı bu veri kümesi üzerinde eğitiliyor ve çıkarım aşamasında sınıflandırma için kullanılıyor

  • Claude 3.7’de extended thinking anahtarı çıktığında ben de benzer bir autothink POC yapmıştım — hatta adı da autothink
    github.com/NiloCK/autothink
    think-toggles-are-dumb blogu
    Benim sürümümde LLM, sorgu zorluğunu 0–100 arasında puanlayan bir ilk geçiş yapıyor ve ardından bu puana göre düşünme bütçesini doğrusal biçimde ayarlıyor. Elbette OP’nin çalışmasına kıyasla daha basit, ama nicel sonuçlar görmek gerçekten sevindirici — çok iyi bir çalışma olmuş!

  • Bunun bariz bir optimizasyon olduğunu düşünüyorum ve değişimin şimdiye kadar gerçekleşmemiş olmasına şaşırıyorum. Hem iyi anlatmışsın hem de bizzat uygulamışsın; etkileyici

  • QwQ veya Qwen 3 gibi akıl yürütme modellerinde, açıkçası sonuçları iyileştirmek için çok zaman harcamadım; daha çok farklı prompt’larla reasoning token çıktısını kısıtlamayı denedim. Gemma 3 27B QAT bir reasoning modeli değil, ancak LLM zincirlerinde veya route’larda kullanıldığında komut takibi performansı çok güçlü olduğu için ön sınıflandırma / dil optimizasyonuna verilip sonraki aşamada gerçek akıl yürütme için kullanılabilir. Farklı thinking tag’leri arasında ara yanıtları çapraz olarak üretmek de mümkün. Bu tür model deneylerinde “düşünme tokenları”nı sonuçtan ayrı olarak, problem çözüm adımları için basamak oluşturan tüm tokenlar olarak tanımlıyorum. Bazı tokenların veya belirli ifadelerin öncelikli kullanılmasını istemek genelde sonuçları iyileştirdi ve AutoThink’in veri kümesinde en iyi performans veren tokenları otomatik kullanma yaklaşımı daha genel ve etkili bir optimizasyon olabilir gibi görünüyor. Yine de çok fazla pivot token kullanılırsa yalnızca benchmark sorularına aşırı uyum riski var; bu yüzden bu yaklaşımın ne kadar genellenebileceğini biraz daha görmek isterim. Kişisel olarak dikkatli kelime/token seçiminin düşük maliyetli ama yüksek etkili bir optimizasyon olduğunu düşünüyorum ve AutoThink’in genelleme yeteneği konusunda umutluyum

  • Küçük modeller sayesinde küçük ekiplerin ve bireysel araştırmacıların da artık büyük AI laboratuvarlarını aratmayacak kadar yenilikçi yaklaşımları veya deneyleri kolayca kanıtlayabilmesi harika. SLM rekabet gücü arttıkça, cihaz üzerinde yapılabileceklerin kapsamı hayal edilenden daha da büyüyor

    • small language models (SML) yerine doğru terimin SLM olması gerektiğini düşünüyorum
  • Başkaları için model barındırıyorsanız, çok basit sorularda hesaplama kaynaklarından tasarruf etmek gayet iyi olabilir. Bu durumda modelin kolay görünen soruları biraz ihmal etme gibi bir dezavantajı olabilir, ama bunun maliyetini ben ödemiyorum. Buna karşılık modeli kendi bilgisayarımda kullanıyorsam, zaten GPU’ya ciddi yatırım yapmış biri olarak kaynakları olabildiğince kullanmak isterim — basit sorgularda bile hesaplamayı kısmak aslında tercih edeceğim bir şey değil

  • Düşündürten bir konu! Biz de AI crawler tasarımında, ziyaret edilen siteye göre daha fazla mı yoksa daha az mı sorgu atılması gerektiğini dinamik olarak fark etme meselesini kendi içimizde tartışacağız. Bu arada biz samaritanscout.org’uz; çeşitli kâr amacı gütmeyen sitelerde yayımlanan tüm yerel gönüllülük fırsatlarını tek bir yerde toplayan bir arama motoru projesiyiz

  • LLM ve AI alanına çok yakın zamanda girdim ama bu projeye güçlü bir ilgi duyuyorum. AutoThink’in, problemin zorluğuna göre AI’nin hesaplama çabasını ayarlayıp “daha akıllıca düşünmesini” sağlaması sezgisel olarak çok etkileyici — bir insanın 2+2yi anında çözüp yalnızca zor problemler için ciddi şekilde kafa yormasına benziyor. Token bütçesi ya da steering vector gibi teknik ayrıntıları pek bilmiyorum, ama aynı anda hem daha hızlı hem daha akıllı olan bu yaklaşım beni etkiliyor. Takip etmeye devam edeceğim

  • LLM’ler için “düşünme” veya “akıl yürütme” gibi terimleri kullanmamanın daha iyi olduğunu düşünüyorum — bu iki kelimenin de belirli anlamları ve felsefi çağrışımları var, oysa gerçekte LLM’ler böyle düşünmüyor ya da akıl yürütmüyor; daha çok sonucun üretilmesi için daha fazla hesaplama (işlemci zamanı) harcanan bir bilişim yöntemi söz konusu

    • Artık o gemi kalktı. Geçmişte “computer” kelimesi de insan hesaplayıcıları ifade ediyordu ama bugün anlamı tamamen makineye geçti; burada da benzer bir terminoloji kayması yaşandı

    • Bunu pinge benzetiyorum — bir IP adresine “ping atmak” gerçekten metal bir gövdeye ses dalgası göndermek anlamına gelmiyor, ama gerçek davranışı çağrıştıran mecazi bir kullanım. Faydalı bir metaforsa, gerçekle bire bir örtüşmese de gündelik dilde kullanılabilir

    • Benim dünya görüşüm ilke olarak materyalist ve deterministtir. Ama gündelik yaşamda buna varoluşçuluk ve biraz da spiritüel bir duyarlılık ekliyorum. Pratik açıdan bakınca, bu tür araçlara geçici olarak insansı (anthropomorphic) özellikler atfetmek konuşmanın akışını kolaylaştırıyor ve aracı sezgisel olarak kavramayı sağlıyor. Bu yöntem bazen sınırlarına ulaşsa da, gerektiğinde daha analitik bir çerçeveye kolayca geçilebileceğini düşünüyorum