1 puan yazan GN⁺ 2 시간 전 | 1 yorum | WhatsApp'ta paylaş
  • Needle, Gemini 3.1'in 26 milyon parametreli bir Simple Attention Network modeline damıtıldığı deneysel bir modeldir ve Mac/PC üzerinde yerel fine-tuning bile yapılabilir
  • Amaç; telefon, saat ve gözlük gibi tüketici cihazlarında kullanılan küçük yapay zekayı yeniden tanımlamak olup, kişisel yapay zeka için tek seferlik araç çağrılarına odaklanır
  • Prodüksiyonda Cactus üzerinde çalışır ve prefill 6000 toks/sec, decode 1200 hızına ulaşır
  • Ağırlıklar Cactus-Compute/needle üzerinde tamamen açık olarak yayımlandı ve veri kümesi üretimi de birlikte paylaşıldı
  • Ön eğitim, 16 TPU v6e üzerinde 200B token ile 27 saat sürdü; devam eğitimi ise tek seferlik fonksiyon çağrısı veri kümesinin 2B token'ı ile 45 dakika sürdü
  • Tek seferlik fonksiyon çağrısında FunctionGemma-270m, Qwen-0.6B, Graninte-350m, LFM2.5-350m modellerinden daha iyi olduğu öne sürülüyor; ancak bu modeller daha geniş kapsam ve kapasiteye sahip olup konuşmalı kurulumlarda güçlüdür
  • Küçük modellerin kullanımı zor olabileceğinden, sunulan web UI içinde kendi araçlarınızla test etmeniz ve bir düğmeye tıklayarak size özel fine-tuning akışını kullanmanız öneriliyor
  • needle playground, http://127.0.0.1:7860 adresinde web UI'yi açar; ağırlıklar otomatik olarak indirilir ve test ile fine-tuning için kullanılabilir
  • Python kullanırken SimpleAttentionNetwork, load_checkpoint, generate, get_tokenizer ile sorgu ve araç şemasını vererek get_weather gibi bir araç çağrısı JSON çıktısı üretilebilir
  • CLI; playground, finetune, run, train, pretrain, eval, tokenize, generate-data, tpu komutlarını sunarak çıkarım, eğitim, değerlendirme, veri üretimi ve TPU yönetimini kapsar
  • Model yapılandırması d=512, 8H/4KV, BPE=8192 olup; 12 katmanlı encoder ve 8 katmanlı decoder, GQA+RoPE, cross attention, gated residual, tied linear ve shared embedding kullanır

1 yorum

 
GN⁺ 2 시간 전
Hacker News görüşleri
  • Araç kullanımı modelinin ayırt etme gücüne dair örnekler ya da veri olup olmadığını merak ediyorum
    Örnek olarak “San Francisco'da hava nasıl” gibi bir şey kastediyorum ve sağlanan araç da tools='[{"name":"get_weather","parameters":{"location":"string"}}]' gibi bir şey
    10 yıldan uzun süre önce SPARQL ve bilgi grafikleriyle bu tür problemleri çözebilen bir şey[1] yapmıştım
    Asıl merak ettiğim şey belirsizlik çözümlemeyi ne kadar iyi yaptığı
    “Yarın 10'da kahve içip buluşalım” gibi bir mesajla “bunu kaydet” gibi bir komut gönderildiğinde, yüzlerce olmasa da onlarca olası araç arasından “takvime ekle” eylemini seçebiliyor mu, bunu merak ediyorum
    [1] https://github.com/nlothian/Acuitra/wiki/About

    • Aşağıda bağlantısı verilen Hugging Face üzerinde test ettim, ama etkileyici değildi
      Prompt “patronuma geç kalacağımı haber vermem gerekiyor” idi ve sonuç 20mins [{"name":"set_timer","arguments":{"time_human":"20 minutes"}}] oldu
      E-posta aracını kullanmadı; 2-3 farklı şekilde daha sordum ama benzerdi
  • Google'ın vereceği karşılık konusunda endişe duyulmuyor mu merak ediyorum
    Google'ın damıtma girişimlerine karşı “öğrenci model performansını düşürebilen gerçek zamanlı proaktif savunmalar” uyguladığı söyleniyor
    Eğer tespit edildiyse, kasıtlı olarak daha aptal ama ikna edici görünen bir Gemini varyantı yedirmiş de olabilirler: https://cloud.google.com/blog/topics/threat-intelligence/dis...
    Yine de bu model küçük ve yalnızca araç kullanımına odaklı olduğundan, token tüketimi açısından tüm modeli damıtmaya çalışanlara yaklaşması bile pek olası görünmüyor

    • Gemma modelini yerelde çalıştırıp ondan damıtmak da mümkün; araç kullanabilen başka modeller de olur
    • Eğitim verisi açısından bakınca biraz hırsızı soymak gibi de hissettiriyor
  • Doğal dille argümanların seçmeli olarak belirtilebildiği bir komut satırı programı gibi şeyler yapmak mümkün hâle gelebilir
    Elbette “parse etme” işi için 14MB ve ek hesaplama eklenmesine karşı çıkacak çok kişi olacaktır; herkes bunu yapmaya başlarsa epey kötü de olabilir
    Yine de artık bunun mümkün olması gerçekten ilginç
    Programın kullanımını anlayacak şekilde ince ayar yapılmış bir modeli birlikte paketleyebilirsiniz
    Örneğin > toolcli what can you do komutu toolcli --help summary çalıştırır, toolcli add tom to teamfutz group ise toolcli --gadd teamfutz tom olur

    • Needle INT4 için eğitildi ve playground'da gördüğünüz şey de INT4, bu yüzden sadece 14MB
      Ama aynı görev hâlâ ortada duruyor
  • “needle playground” için bir canlı demo yayımlansa güzel olur
    Boyutu küçük olduğu için küçük bir VPS üzerinde bir yerde çalıştırmanın maliyeti de oldukça düşük olur gibi görünüyor

    • WebGPU ile de hızlı ve kolay bir şekilde yapılabilir gibi
    • Sorun sadece ölçek kaldırma; hazır kullanılacak altyapı henüz tam oturmuş değil
      Yine de bunu herkes yapabilir ve dizüstünde doğrudan çalıştırmak da kolay
      VPS yolunu da deneyeceğim
    • Bunu chonklm.com'a koymayı deneyeceğim
  • “Arama işleri için FFN gerekmez” gözlemi ilginç
    Bilgi bağlamın içindeyse, o görev için FFN ağırlıklarının gereksiz olduğu iddiasına yaklaşıyor
    Bunun, birden fazla çağrı boyunca durumu takip etmesi gereken çok turlu araç çağrılarına da genellenip genellenmediğini, yoksa orada bozulup bozulmadığını merak ediyorum
    Tek çağrı kolay durum

  • İlginç ve Claude Code'u ilk kullandığım dönemde gördüğüm gözlemlerle de örtüşüyor
    Sonnet daha fazla bağlam toplamak için araçları hızlıca çağırma eğilimindeydi, Opus ise elindeki bağlamla sorunu çözmeye çalışıp daha uzun süre akıl yürütüyordu
    Bu yüzden çok sayıda yinelenen fonksiyon ortaya çıkıyor ve geliştirme yavaşlıyordu, ama GPT-5.5 ve Opus 4.6 gibi yeni modellerde bunun azaldığı görülüyor
    Benim vardığım sonuç, daha “aptal”, yani daha küçük bir modelin ajan yürütme kabuğu olarak daha iyi olabileceği ve en azından birçok problemde daha ucuz ve hızlı çalıştırılmasının pratik olduğudur
    Gemini'nin özellikle uzun araç çağrısı dizilerinde çok iyi olduğunu düşünmüyorum
    Gerçek Codex ya da Claude Code oturumlarındaki gibi, kullanıcı sorguları arasında uzun araç çağrısı zincirleri bulunan izleri damıtmak ilginç olabilir
    Kişisel olarak, 32GB M2 MacBook Pro gibi bir cihazda rahatça çalışacak ve ana hedefi araç çağrısı pekiştirmeli öğrenmesi olan biraz daha büyük bir model görmek isterim
    Kimi ve Qwen gibi açık ağırlıklı modeller yaklaşıyor, ama küçük cihazlara sığdırmak için gereken kuantizasyon performansı epey düşürüyor gibi görünüyor

    • Esas mesele LLM'yi tekrarlı döngü içinde çalıştırmamak
      Bugünlerde ajan framework modası aptalca; bence çoğu sadece LLM şirketlerinin gelirini artırmak için var
      LLM'ler genel olarak sınırlı ölçüde faydalı, ama tek seferlik araç kullanımıyla birleşince çok daha kullanışlı ve güvenilir oluyor
      Ben openrouter API üzerinde çok belirli görevler için kendi araç paketlerimi oluşturuyorum
      Bir düğmeye basıyorsunuz ve LLM faydalı bir iş yapıyor; mesele düğmeye basıp LLM'nin 5 dakika boyunca araç çağrılarını döngüye sokarak her şeyi doğru sırada yapmasını ummak değil
      Birden fazla araç çağrısı gerekiyorsa, bunları kod içinde deterministik olarak birbirine bağlıyorum
      A'nın çıktısını doğrulayıp sonra B'ye ya da C'ye geçebildiğim için çok daha güvenilir oluyor; zaman ve token açısından da daha verimli
      Ajan döngülerinin devasa bir aldatmaca olduğunu düşünüyorum
    • Keşke büyük yapay zeka şirketleri kendi “araç”larındaki gedikleri kapatmak için benim zamanımı harcatmasaydı
      Neden bir şekilde “çalışır hâle getirmeye” uğraşmak zorunda olduğumuzu anlamıyorum
      Google, MS, Meta, OpenAI ve diğerleri artık araçlarını üstü kapalı biçimde “Intelligence” diye adlandırmaya çalışıyor, üstelik “Artificial Intelligence” bile demiyorlar; öyleyse neden zeki değiller ve neden çalışmıyorlar
      1 trilyon dolardan fazla yatırım yapıldı ama biz hâlâ bu saçmalık üreteçlerinin yarı geçerli çıktı vermesi için en iyi büyüleri ve ayarları düşünmek zorunda mıyız
      Üstelik bazı teknoloji liderleri bizi kendi tuhaf “medeniyet” vizyonları içinde boyun eğdirmekle açıkça tehdit ederken
      Daha iyi beyinlerimizi kullanacak başka yerler var; kendimizi büyülü bir kâhinin çaresiz yardımcısına indirgemeyelim diyorum
  • “Model dış bilgi kaynaklarına dayandığı sürece transformer ağında MLP'yi tamamen kaldırabilirsiniz” diyen Cactus deney sonucu ilginç
    Tesadüfen bugün bir öğrencim de bunu doğrulayan araştırma sonucunu sundu
    Qwen'de MLP çıkarıldığında model hâlâ girdiler üzerinde dönüşüm işlemleri yapabiliyordu, ama bilgisini kaybetti

  • M ile B arasındaki fark fazla belirsiz
    0.026B yazılmasını öneriyorum

    • “M” gösterimi en azından BERT ve T5/FLAN döneminden beri vardı
      Günümüz LLM geliştiricileri milyarlık modellere daha alışkın olsa da bu gösterim hâlâ geçerli
    • Bu yazının birçok yorumu beni çok şaşırtmıştı; sayende bazılarının bunu 26B diye okuduğunu ve bu yüzden yorumların anlamsız geldiğini fark ettim
  • Heyecan verici, harika iş
    Gemma4 edge modellerinin ajan kullanımı için iyi olacağı vaat edilmişti, ama yaptığım tüm testlerde gerçekten hayal kırıklığı yarattı
    En temel araç kullanımı senaryolarında bile başarısız oluyor
    Needle için araç kullanımı benchmark'ları çalıştırıp çalıştırmadığınızı ya da planlayıp planlamadığınızı merak ediyorum
    Varsa, sonuçları depoya eklerseniz güzel olur

  • Az önce alarm kurmayı ve alışveriş listesine bir şey eklemeyi denedim; Siri'den daha iyi yaptı