Needle - Gemini araç çağrısını damıtan 26 milyon parametreli model

(github.com/cactus-compute)

1 puan yazan GN⁺ 2 시간 전 | 1 yorum | WhatsApp'ta paylaş

Needle, Gemini 3.1'in 26 milyon parametreli bir Simple Attention Network modeline damıtıldığı deneysel bir modeldir ve Mac/PC üzerinde yerel fine-tuning bile yapılabilir
Amaç; telefon, saat ve gözlük gibi tüketici cihazlarında kullanılan küçük yapay zekayı yeniden tanımlamak olup, kişisel yapay zeka için tek seferlik araç çağrılarına odaklanır
Prodüksiyonda Cactus üzerinde çalışır ve prefill 6000 toks/sec, decode 1200 hızına ulaşır
Ağırlıklar Cactus-Compute/needle üzerinde tamamen açık olarak yayımlandı ve veri kümesi üretimi de birlikte paylaşıldı
Ön eğitim, 16 TPU v6e üzerinde 200B token ile 27 saat sürdü; devam eğitimi ise tek seferlik fonksiyon çağrısı veri kümesinin 2B token'ı ile 45 dakika sürdü
Tek seferlik fonksiyon çağrısında FunctionGemma-270m, Qwen-0.6B, Graninte-350m, LFM2.5-350m modellerinden daha iyi olduğu öne sürülüyor; ancak bu modeller daha geniş kapsam ve kapasiteye sahip olup konuşmalı kurulumlarda güçlüdür
Küçük modellerin kullanımı zor olabileceğinden, sunulan web UI içinde kendi araçlarınızla test etmeniz ve bir düğmeye tıklayarak size özel fine-tuning akışını kullanmanız öneriliyor
needle playground, http://127.0.0.1:7860 adresinde web UI'yi açar; ağırlıklar otomatik olarak indirilir ve test ile fine-tuning için kullanılabilir
Python kullanırken SimpleAttentionNetwork, load_checkpoint, generate, get_tokenizer ile sorgu ve araç şemasını vererek get_weather gibi bir araç çağrısı JSON çıktısı üretilebilir
CLI; playground, finetune, run, train, pretrain, eval, tokenize, generate-data, tpu komutlarını sunarak çıkarım, eğitim, değerlendirme, veri üretimi ve TPU yönetimini kapsar
Model yapılandırması d=512, 8H/4KV, BPE=8192 olup; 12 katmanlı encoder ve 8 katmanlı decoder, GQA+RoPE, cross attention, gated residual, tied linear ve shared embedding kullanır

1 yorum

GN⁺ 2 시간 전

Hacker News görüşleri

Araç kullanımı modelinin ayırt etme gücüne dair örnekler ya da veri olup olmadığını merak ediyorum
Örnek olarak “San Francisco'da hava nasıl” gibi bir şey kastediyorum ve sağlanan araç da tools='[{"name":"get_weather","parameters":{"location":"string"}}]' gibi bir şey
10 yıldan uzun süre önce SPARQL ve bilgi grafikleriyle bu tür problemleri çözebilen bir şey[1] yapmıştım
Asıl merak ettiğim şey belirsizlik çözümlemeyi ne kadar iyi yaptığı
“Yarın 10'da kahve içip buluşalım” gibi bir mesajla “bunu kaydet” gibi bir komut gönderildiğinde, yüzlerce olmasa da onlarca olası araç arasından “takvime ekle” eylemini seçebiliyor mu, bunu merak ediyorum
[1] https://github.com/nlothian/Acuitra/wiki/About
- Aşağıda bağlantısı verilen Hugging Face üzerinde test ettim, ama etkileyici değildi
  Prompt “patronuma geç kalacağımı haber vermem gerekiyor” idi ve sonuç 20mins [{"name":"set_timer","arguments":{"time_human":"20 minutes"}}] oldu
  E-posta aracını kullanmadı; 2-3 farklı şekilde daha sordum ama benzerdi
Google'ın vereceği karşılık konusunda endişe duyulmuyor mu merak ediyorum
Google'ın damıtma girişimlerine karşı “öğrenci model performansını düşürebilen gerçek zamanlı proaktif savunmalar” uyguladığı söyleniyor
Eğer tespit edildiyse, kasıtlı olarak daha aptal ama ikna edici görünen bir Gemini varyantı yedirmiş de olabilirler: https://cloud.google.com/blog/topics/threat-intelligence/dis...
Yine de bu model küçük ve yalnızca araç kullanımına odaklı olduğundan, token tüketimi açısından tüm modeli damıtmaya çalışanlara yaklaşması bile pek olası görünmüyor
- Gemma modelini yerelde çalıştırıp ondan damıtmak da mümkün; araç kullanabilen başka modeller de olur
- Eğitim verisi açısından bakınca biraz hırsızı soymak gibi de hissettiriyor
Doğal dille argümanların seçmeli olarak belirtilebildiği bir komut satırı programı gibi şeyler yapmak mümkün hâle gelebilir
Elbette “parse etme” işi için 14MB ve ek hesaplama eklenmesine karşı çıkacak çok kişi olacaktır; herkes bunu yapmaya başlarsa epey kötü de olabilir
Yine de artık bunun mümkün olması gerçekten ilginç
Programın kullanımını anlayacak şekilde ince ayar yapılmış bir modeli birlikte paketleyebilirsiniz
Örneğin > toolcli what can you do komutu toolcli --help summary çalıştırır, toolcli add tom to teamfutz group ise toolcli --gadd teamfutz tom olur
- Needle INT4 için eğitildi ve playground'da gördüğünüz şey de INT4, bu yüzden sadece 14MB
  Ama aynı görev hâlâ ortada duruyor
“needle playground” için bir canlı demo yayımlansa güzel olur
Boyutu küçük olduğu için küçük bir VPS üzerinde bir yerde çalıştırmanın maliyeti de oldukça düşük olur gibi görünüyor
- WebGPU ile de hızlı ve kolay bir şekilde yapılabilir gibi
- Sorun sadece ölçek kaldırma; hazır kullanılacak altyapı henüz tam oturmuş değil
  Yine de bunu herkes yapabilir ve dizüstünde doğrudan çalıştırmak da kolay
  VPS yolunu da deneyeceğim
- Bunu chonklm.com'a koymayı deneyeceğim
“Arama işleri için FFN gerekmez” gözlemi ilginç
Bilgi bağlamın içindeyse, o görev için FFN ağırlıklarının gereksiz olduğu iddiasına yaklaşıyor
Bunun, birden fazla çağrı boyunca durumu takip etmesi gereken çok turlu araç çağrılarına da genellenip genellenmediğini, yoksa orada bozulup bozulmadığını merak ediyorum
Tek çağrı kolay durum
İlginç ve Claude Code'u ilk kullandığım dönemde gördüğüm gözlemlerle de örtüşüyor
Sonnet daha fazla bağlam toplamak için araçları hızlıca çağırma eğilimindeydi, Opus ise elindeki bağlamla sorunu çözmeye çalışıp daha uzun süre akıl yürütüyordu
Bu yüzden çok sayıda yinelenen fonksiyon ortaya çıkıyor ve geliştirme yavaşlıyordu, ama GPT-5.5 ve Opus 4.6 gibi yeni modellerde bunun azaldığı görülüyor
Benim vardığım sonuç, daha “aptal”, yani daha küçük bir modelin ajan yürütme kabuğu olarak daha iyi olabileceği ve en azından birçok problemde daha ucuz ve hızlı çalıştırılmasının pratik olduğudur
Gemini'nin özellikle uzun araç çağrısı dizilerinde çok iyi olduğunu düşünmüyorum
Gerçek Codex ya da Claude Code oturumlarındaki gibi, kullanıcı sorguları arasında uzun araç çağrısı zincirleri bulunan izleri damıtmak ilginç olabilir
Kişisel olarak, 32GB M2 MacBook Pro gibi bir cihazda rahatça çalışacak ve ana hedefi araç çağrısı pekiştirmeli öğrenmesi olan biraz daha büyük bir model görmek isterim
Kimi ve Qwen gibi açık ağırlıklı modeller yaklaşıyor, ama küçük cihazlara sığdırmak için gereken kuantizasyon performansı epey düşürüyor gibi görünüyor
- Esas mesele LLM'yi tekrarlı döngü içinde çalıştırmamak
  Bugünlerde ajan framework modası aptalca; bence çoğu sadece LLM şirketlerinin gelirini artırmak için var
  LLM'ler genel olarak sınırlı ölçüde faydalı, ama tek seferlik araç kullanımıyla birleşince çok daha kullanışlı ve güvenilir oluyor
  Ben openrouter API üzerinde çok belirli görevler için kendi araç paketlerimi oluşturuyorum
  Bir düğmeye basıyorsunuz ve LLM faydalı bir iş yapıyor; mesele düğmeye basıp LLM'nin 5 dakika boyunca araç çağrılarını döngüye sokarak her şeyi doğru sırada yapmasını ummak değil
  Birden fazla araç çağrısı gerekiyorsa, bunları kod içinde deterministik olarak birbirine bağlıyorum
  A'nın çıktısını doğrulayıp sonra B'ye ya da C'ye geçebildiğim için çok daha güvenilir oluyor; zaman ve token açısından da daha verimli
  Ajan döngülerinin devasa bir aldatmaca olduğunu düşünüyorum
- Keşke büyük yapay zeka şirketleri kendi “araç”larındaki gedikleri kapatmak için benim zamanımı harcatmasaydı
  Neden bir şekilde “çalışır hâle getirmeye” uğraşmak zorunda olduğumuzu anlamıyorum
  Google, MS, Meta, OpenAI ve diğerleri artık araçlarını üstü kapalı biçimde “Intelligence” diye adlandırmaya çalışıyor, üstelik “Artificial Intelligence” bile demiyorlar; öyleyse neden zeki değiller ve neden çalışmıyorlar
  1 trilyon dolardan fazla yatırım yapıldı ama biz hâlâ bu saçmalık üreteçlerinin yarı geçerli çıktı vermesi için en iyi büyüleri ve ayarları düşünmek zorunda mıyız
  Üstelik bazı teknoloji liderleri bizi kendi tuhaf “medeniyet” vizyonları içinde boyun eğdirmekle açıkça tehdit ederken
  Daha iyi beyinlerimizi kullanacak başka yerler var; kendimizi büyülü bir kâhinin çaresiz yardımcısına indirgemeyelim diyorum
“Model dış bilgi kaynaklarına dayandığı sürece transformer ağında MLP'yi tamamen kaldırabilirsiniz” diyen Cactus deney sonucu ilginç
Tesadüfen bugün bir öğrencim de bunu doğrulayan araştırma sonucunu sundu
Qwen'de MLP çıkarıldığında model hâlâ girdiler üzerinde dönüşüm işlemleri yapabiliyordu, ama bilgisini kaybetti
M ile B arasındaki fark fazla belirsiz
0.026B yazılmasını öneriyorum
- “M” gösterimi en azından BERT ve T5/FLAN döneminden beri vardı
  Günümüz LLM geliştiricileri milyarlık modellere daha alışkın olsa da bu gösterim hâlâ geçerli
- Bu yazının birçok yorumu beni çok şaşırtmıştı; sayende bazılarının bunu 26B diye okuduğunu ve bu yüzden yorumların anlamsız geldiğini fark ettim
Heyecan verici, harika iş
Gemma4 edge modellerinin ajan kullanımı için iyi olacağı vaat edilmişti, ama yaptığım tüm testlerde gerçekten hayal kırıklığı yarattı
En temel araç kullanımı senaryolarında bile başarısız oluyor
Needle için araç kullanımı benchmark'ları çalıştırıp çalıştırmadığınızı ya da planlayıp planlamadığınızı merak ediyorum
Varsa, sonuçları depoya eklerseniz güzel olur
Az önce alarm kurmayı ve alışveriş listesine bir şey eklemeyi denedim; Siri'den daha iyi yaptı

Needle - Gemini araç çağrısını damıtan 26 milyon parametreli model

İlgili okumalar

1 yorum

Hacker News görüşleri