Needle - Gemini araç çağrısını damıtan 26 milyon parametreli model
(github.com/cactus-compute)- Needle, Gemini 3.1'in 26 milyon parametreli bir Simple Attention Network modeline damıtıldığı deneysel bir modeldir ve Mac/PC üzerinde yerel fine-tuning bile yapılabilir
- Amaç; telefon, saat ve gözlük gibi tüketici cihazlarında kullanılan küçük yapay zekayı yeniden tanımlamak olup, kişisel yapay zeka için tek seferlik araç çağrılarına odaklanır
- Prodüksiyonda Cactus üzerinde çalışır ve prefill 6000 toks/sec, decode 1200 hızına ulaşır
- Ağırlıklar Cactus-Compute/needle üzerinde tamamen açık olarak yayımlandı ve veri kümesi üretimi de birlikte paylaşıldı
- Ön eğitim, 16 TPU v6e üzerinde 200B token ile 27 saat sürdü; devam eğitimi ise tek seferlik fonksiyon çağrısı veri kümesinin 2B token'ı ile 45 dakika sürdü
- Tek seferlik fonksiyon çağrısında FunctionGemma-270m, Qwen-0.6B, Graninte-350m, LFM2.5-350m modellerinden daha iyi olduğu öne sürülüyor; ancak bu modeller daha geniş kapsam ve kapasiteye sahip olup konuşmalı kurulumlarda güçlüdür
- Küçük modellerin kullanımı zor olabileceğinden, sunulan web UI içinde kendi araçlarınızla test etmeniz ve bir düğmeye tıklayarak size özel fine-tuning akışını kullanmanız öneriliyor
needle playground,http://127.0.0.1:7860adresinde web UI'yi açar; ağırlıklar otomatik olarak indirilir ve test ile fine-tuning için kullanılabilir- Python kullanırken
SimpleAttentionNetwork,load_checkpoint,generate,get_tokenizerile sorgu ve araç şemasını vererekget_weathergibi bir araç çağrısı JSON çıktısı üretilebilir - CLI;
playground,finetune,run,train,pretrain,eval,tokenize,generate-data,tpukomutlarını sunarak çıkarım, eğitim, değerlendirme, veri üretimi ve TPU yönetimini kapsar - Model yapılandırması
d=512,8H/4KV,BPE=8192olup; 12 katmanlı encoder ve 8 katmanlı decoder, GQA+RoPE, cross attention, gated residual, tied linear ve shared embedding kullanır
1 yorum
Hacker News görüşleri
Araç kullanımı modelinin ayırt etme gücüne dair örnekler ya da veri olup olmadığını merak ediyorum
Örnek olarak “San Francisco'da hava nasıl” gibi bir şey kastediyorum ve sağlanan araç da
tools='[{"name":"get_weather","parameters":{"location":"string"}}]'gibi bir şey10 yıldan uzun süre önce SPARQL ve bilgi grafikleriyle bu tür problemleri çözebilen bir şey[1] yapmıştım
Asıl merak ettiğim şey belirsizlik çözümlemeyi ne kadar iyi yaptığı
“Yarın 10'da kahve içip buluşalım” gibi bir mesajla “bunu kaydet” gibi bir komut gönderildiğinde, yüzlerce olmasa da onlarca olası araç arasından “takvime ekle” eylemini seçebiliyor mu, bunu merak ediyorum
[1] https://github.com/nlothian/Acuitra/wiki/About
Prompt “patronuma geç kalacağımı haber vermem gerekiyor” idi ve sonuç
20mins [{"name":"set_timer","arguments":{"time_human":"20 minutes"}}]olduE-posta aracını kullanmadı; 2-3 farklı şekilde daha sordum ama benzerdi
Google'ın vereceği karşılık konusunda endişe duyulmuyor mu merak ediyorum
Google'ın damıtma girişimlerine karşı “öğrenci model performansını düşürebilen gerçek zamanlı proaktif savunmalar” uyguladığı söyleniyor
Eğer tespit edildiyse, kasıtlı olarak daha aptal ama ikna edici görünen bir Gemini varyantı yedirmiş de olabilirler: https://cloud.google.com/blog/topics/threat-intelligence/dis...
Yine de bu model küçük ve yalnızca araç kullanımına odaklı olduğundan, token tüketimi açısından tüm modeli damıtmaya çalışanlara yaklaşması bile pek olası görünmüyor
Doğal dille argümanların seçmeli olarak belirtilebildiği bir komut satırı programı gibi şeyler yapmak mümkün hâle gelebilir
Elbette “parse etme” işi için 14MB ve ek hesaplama eklenmesine karşı çıkacak çok kişi olacaktır; herkes bunu yapmaya başlarsa epey kötü de olabilir
Yine de artık bunun mümkün olması gerçekten ilginç
Programın kullanımını anlayacak şekilde ince ayar yapılmış bir modeli birlikte paketleyebilirsiniz
Örneğin
> toolcli what can you dokomututoolcli --help summaryçalıştırır,toolcli add tom to teamfutz groupisetoolcli --gadd teamfutz tomolurAma aynı görev hâlâ ortada duruyor
“needle playground” için bir canlı demo yayımlansa güzel olur
Boyutu küçük olduğu için küçük bir VPS üzerinde bir yerde çalıştırmanın maliyeti de oldukça düşük olur gibi görünüyor
Yine de bunu herkes yapabilir ve dizüstünde doğrudan çalıştırmak da kolay
VPS yolunu da deneyeceğim
“Arama işleri için FFN gerekmez” gözlemi ilginç
Bilgi bağlamın içindeyse, o görev için FFN ağırlıklarının gereksiz olduğu iddiasına yaklaşıyor
Bunun, birden fazla çağrı boyunca durumu takip etmesi gereken çok turlu araç çağrılarına da genellenip genellenmediğini, yoksa orada bozulup bozulmadığını merak ediyorum
Tek çağrı kolay durum
İlginç ve Claude Code'u ilk kullandığım dönemde gördüğüm gözlemlerle de örtüşüyor
Sonnet daha fazla bağlam toplamak için araçları hızlıca çağırma eğilimindeydi, Opus ise elindeki bağlamla sorunu çözmeye çalışıp daha uzun süre akıl yürütüyordu
Bu yüzden çok sayıda yinelenen fonksiyon ortaya çıkıyor ve geliştirme yavaşlıyordu, ama GPT-5.5 ve Opus 4.6 gibi yeni modellerde bunun azaldığı görülüyor
Benim vardığım sonuç, daha “aptal”, yani daha küçük bir modelin ajan yürütme kabuğu olarak daha iyi olabileceği ve en azından birçok problemde daha ucuz ve hızlı çalıştırılmasının pratik olduğudur
Gemini'nin özellikle uzun araç çağrısı dizilerinde çok iyi olduğunu düşünmüyorum
Gerçek Codex ya da Claude Code oturumlarındaki gibi, kullanıcı sorguları arasında uzun araç çağrısı zincirleri bulunan izleri damıtmak ilginç olabilir
Kişisel olarak, 32GB M2 MacBook Pro gibi bir cihazda rahatça çalışacak ve ana hedefi araç çağrısı pekiştirmeli öğrenmesi olan biraz daha büyük bir model görmek isterim
Kimi ve Qwen gibi açık ağırlıklı modeller yaklaşıyor, ama küçük cihazlara sığdırmak için gereken kuantizasyon performansı epey düşürüyor gibi görünüyor
Bugünlerde ajan framework modası aptalca; bence çoğu sadece LLM şirketlerinin gelirini artırmak için var
LLM'ler genel olarak sınırlı ölçüde faydalı, ama tek seferlik araç kullanımıyla birleşince çok daha kullanışlı ve güvenilir oluyor
Ben openrouter API üzerinde çok belirli görevler için kendi araç paketlerimi oluşturuyorum
Bir düğmeye basıyorsunuz ve LLM faydalı bir iş yapıyor; mesele düğmeye basıp LLM'nin 5 dakika boyunca araç çağrılarını döngüye sokarak her şeyi doğru sırada yapmasını ummak değil
Birden fazla araç çağrısı gerekiyorsa, bunları kod içinde deterministik olarak birbirine bağlıyorum
A'nın çıktısını doğrulayıp sonra B'ye ya da C'ye geçebildiğim için çok daha güvenilir oluyor; zaman ve token açısından da daha verimli
Ajan döngülerinin devasa bir aldatmaca olduğunu düşünüyorum
Neden bir şekilde “çalışır hâle getirmeye” uğraşmak zorunda olduğumuzu anlamıyorum
Google, MS, Meta, OpenAI ve diğerleri artık araçlarını üstü kapalı biçimde “Intelligence” diye adlandırmaya çalışıyor, üstelik “Artificial Intelligence” bile demiyorlar; öyleyse neden zeki değiller ve neden çalışmıyorlar
1 trilyon dolardan fazla yatırım yapıldı ama biz hâlâ bu saçmalık üreteçlerinin yarı geçerli çıktı vermesi için en iyi büyüleri ve ayarları düşünmek zorunda mıyız
Üstelik bazı teknoloji liderleri bizi kendi tuhaf “medeniyet” vizyonları içinde boyun eğdirmekle açıkça tehdit ederken
Daha iyi beyinlerimizi kullanacak başka yerler var; kendimizi büyülü bir kâhinin çaresiz yardımcısına indirgemeyelim diyorum
“Model dış bilgi kaynaklarına dayandığı sürece transformer ağında MLP'yi tamamen kaldırabilirsiniz” diyen Cactus deney sonucu ilginç
Tesadüfen bugün bir öğrencim de bunu doğrulayan araştırma sonucunu sundu
Qwen'de MLP çıkarıldığında model hâlâ girdiler üzerinde dönüşüm işlemleri yapabiliyordu, ama bilgisini kaybetti
M ile B arasındaki fark fazla belirsiz
0.026B yazılmasını öneriyorum
Günümüz LLM geliştiricileri milyarlık modellere daha alışkın olsa da bu gösterim hâlâ geçerli
Heyecan verici, harika iş
Gemma4 edge modellerinin ajan kullanımı için iyi olacağı vaat edilmişti, ama yaptığım tüm testlerde gerçekten hayal kırıklığı yarattı
En temel araç kullanımı senaryolarında bile başarısız oluyor
Needle için araç kullanımı benchmark'ları çalıştırıp çalıştırmadığınızı ya da planlayıp planlamadığınızı merak ediyorum
Varsa, sonuçları depoya eklerseniz güzel olur
Az önce alarm kurmayı ve alışveriş listesine bir şey eklemeyi denedim; Siri'den daha iyi yaptı