14 puan yazan GN⁺ 29 일 전 | 2 yorum | WhatsApp'ta paylaş
  • Caltech araştırmalarından doğan yapay zeka girişimi PrismML, 1-bit Bonsai 8B modelini tanıttı; mevcut 16 bit muadillerine kıyasla yaklaşık 14 kat daha küçük olan 1.15GB boyutuyla akıllı telefonlar ve edge cihazlarda pratik yapay zeka çıkarımını mümkün kılıyor
  • Tüm ağın (embedding, attention, MLP, LM head) istisnasız 1 bit ile kurulduğu gerçek uçtan uca 1 bit tasarım, önceki düşük bitli modellerde görülen komut takibi, çok adımlı akıl yürütme ve araç kullanımı kalitesi düşüşü sorunlarını aşıyor
  • Intelligence Density ölçütüne göre 1.06/GB değerine ulaşıyor; aynı parametre sınıfındaki en yakın rakip modele (Qwen3 8B, 0.10/GB) karşı yaklaşık 10.6 kat üstünlük sağlıyor
  • M4 Pro Mac'te 131 tok/s, RTX 4090'da 368 tok/s, iPhone 17 Pro Max'te yaklaşık 44 tok/s hızında çalışıyor; enerji verimliliği ise 16 bit modellere kıyasla yaklaşık 4~5 kat daha iyi
  • 1 bit'e özel donanım tasarlanırsa, tek haneli katlar düzeyinde ek performans ve verimlilik artışı mümkün olabilir; bu da cihaz üstü yapay zeka, robotik ve güvenlik odaklı kurumsal kullanım gibi yeni dağıtım kategorilerinin önünü açıyor

PrismML ve 1-bit Bonsai'nin ortaya çıkış zemini

  • Son 10 yılda yapay zekadaki ilerleme, modelleri daha da büyütme yönünde ilerledi (daha fazla parametre, GPU, güç, bellek ve maliyet)
  • Bunun sonucunda en güçlü zeka, büyük ölçekli kümeler ve özel altyapı içine hapsolmuş yapısal bir kısıta dönüştü
  • Oysa yapay zekaya ihtiyaç duyulan alan veri merkezleriyle sınırlı değil; akıllı telefonlar, dizüstü bilgisayarlar, araçlar, robotlar, güvenlik odaklı kurumsal ortamlar ve edge cihazlar gibi çok çeşitli yerleri kapsıyor
  • PrismML, Caltech araştırma ekibinden doğdu ve Khosla Ventures, Cerberus ve Google desteğiyle kuruldu
  • Temel optimizasyon metriği olarak Intelligence Density — model boyutu (GB) başına sunulabilen zeka miktarı — belirlendi

Gerçek bir 1 bit model tasarımı

  • 1-bit Bonsai 8B; embedding, attention katmanları, MLP katmanları ve LM head dahil her şeyi 1 bit ile uygular ve yüksek hassasiyetli bir kaçış yolu (escape hatch) olmadan tüm 8.2 milyar parametre boyunca tamamen 1 bit yapıyı korur
  • Önceki düşük bitli modellerde komut takibi, çok adımlı akıl yürütme ve araç kullanımının güvenilirliğinde büyük performans kaybı yaşanıyor, bu yüzden gerçek ürün temeli olarak kullanımları zor oluyordu
  • Bonsai, 1 bit modellerin dar bir ödün noktası değil, üretim seviyesinde tam bir sistem olabileceğini gösteriyor

Intelligence Density ölçümü

  • Intelligence Density, benchmark'lar genelindeki ortalama hata oranının negatif log değerinin model boyutuna bölünmesiyle tanımlanıyor
  • Bu ölçüt, basit benchmark ortalamasına göre daha gerçekçi bir zeka düzeyini yansıtıyor: zaten yüksek doğruluk seviyelerinde elde edilen ek iyileştirmelere daha yüksek değer atfediyor
  • 1-bit Bonsai 8B: 1.06/GB, Qwen3 8B: 0.10/GB — bu, yalnızca önde olmak değil, bambaşka bir ölçekte sonuç anlamına geliyor
  • Ham benchmark ortalamalarında da 1-bit Bonsai 8B, başlıca 8B sınıfı modellerle rekabetçi performansını korurken bellek ayak izi 1.15GB ile aynı sınıfa göre yaklaşık 12~14 kat daha küçük kalıyor

Boyut ve hız

  • 1.15GB boyutuyla iPhone 17 Pro üzerinde çalışabiliyor — mevcut 16 bit 8B modeller hiçbir iPhone'a sığmıyor
  • Cihaza göre çıkarım hızları:
    • M4 Pro Mac: 131 tok/s
    • RTX 4090: 368 tok/s
    • iPhone 17 Pro Max: yaklaşık 44 tok/s
  • 50 bileti özetleme ve yönlendirme işini simüle eden testte, 1-bit Bonsai 8B 50 işin tamamını işledi; aynı koşullardaki 16 bit 8B model ise yalnızca 6 tanesini işleyebildi
  • Uzun süreli ajan iş yüklerinde daha yüksek throughput ve daha düşük bellek kullanımı, ajanın fiilen üstlenebileceği iş miktarını da genişletiyor

Enerji verimliliği

  • 1-bit Bonsai 8B, 16 bit tam hassasiyetli modellere kıyasla yaklaşık 4~5 kat daha iyi enerji verimliliği sunuyor
    • M4 Pro: 0.074 mWh/tok
    • iPhone 17 Pro Max: 0.068 mWh/tok
  • Yapay zekanın temel bir altyapı katmanı haline gelebilmesi için enerji verimliliğinde radikal bir ilerleme şart

1 bit'e özel donanımın potansiyeli

  • Mevcut performans artışı büyük ölçüde 1 bit modellerin azaltılmış bellek ayak izinden kaynaklanıyor; çıkarım sırasında 1 bit ağırlık yapısını tamamen kullanmak ise henüz başarılmış değil
  • MLP gibi doğrusal katmanlarda 1 bit ağırlıklar, çarpma işlemlerinin toplama ile değiştirilmesini mümkün kılıyor
  • 1 bit çıkarıma özel donanım tasarlanırsa, performans ve enerji verimliliği ek olarak tek haneli katlar düzeyinde daha da iyileştirilebilir

Bonsai 4B ve 1.7B modelleri

  • 1-bit Bonsai 4B ve 1-bit Bonsai 1.7B adlı iki küçük model de birlikte yayımlandı
  • 20 ana instruct modelinin (1.2GB~16.4GB aralığı) karşılaştırıldığı zeka vs boyut saçılım grafiğinde, Bonsai ailesinin tamamı mevcut Pareto frontier'ı belirgin biçimde sola kaydırıyor
  • Önceki Pareto frontier; Qwen3 0.6B, 1.7B, 4B, 8B ve Ministral3 3B'den oluşuyordu, ancak Bonsai ailesi artık yeni frontier'ı tanımlıyor

Yoğunlaştırılmış zekanın mümkün kıldıkları

  • Model, cihaz üzerinde çalışabilecek kadar küçük, hızlı ve verimli hale geldiğinde yapay zeka ürün tasarım alanı anında değişiyor:
    • Daha iyi tepki süresi: cihaz üstü çıkarım sayesinde ağ gecikmesi olmadan çalışır
    • Daha güçlü gizlilik: hassas veriler cihazın dışına çıkmaz
    • Daha yüksek güvenilirlik: sürekli bulut bağlantısına bağımlılık azalır
    • Ekonomik uygulanabilirlik: sunucu tarafı dağıtımın maliyet nedeniyle mümkün olmadığı ortamlarda da yapay zeka kullanılabilir
  • Açılan yeni kategoriler: kalıcı cihaz üstü ajanlar, gerçek zamanlı robotik, güvenlik odaklı kurumsal copilot'lar, çevrimdışı zeka, bant genişliği/güç/mevzuat kısıtlı ortamlar için AI-native ürünler

Platform desteği ve yayımlanma biçimi

  • 1-bit Bonsai 8B, Apple cihazlarında (Mac, iPhone, iPad) MLX üzerinden ve NVIDIA GPU'larda llama.cpp CUDA üzerinden yerel çalışmayı destekliyor
  • Model ağırlıkları şu anda Apache 2.0 lisansı ile yayımlanmış durumda
  • Eğitim, değerlendirme ve benchmark sürecinin tüm teknik ayrıntıları resmi whitepaper içinde sunuluyor

2 yorum

 
runableapp 29 일 전

Faydalı bilgi.

 
GN⁺ 29 일 전
Hacker News görüşleri
  • 1.125 bit çerçevelemenin (1 bit ağırlık + her 128 grup için paylaşılan 16 bit ölçek) teknik olarak dürüst bir rakam olduğu vurgulanıyor
    “Ticari olarak uygulanabilir” ifadesinin çıkarım maliyeti açısından mı, yoksa fine-tuning temelli olarak mı mümkün olduğunu ayırmak gerekiyor
    Microsoft’un BitNet makalesindeki gibi en baştan 1 bit hedefiyle eğitilmiş bir modelse, bu basitçe quantize edilmiş modellerden tamamen farklı bir şey
    Özellikle genel amaçlı donanımda çıkarım verimliliği, INT4 quantization’dan çok daha cazip görünüyor
    Ancak benchmark’lar quantize edilmiş büyük modellerle karşılaştırılmış, bu yüzden asıl iddianın özü biraz geri planda kalmış
    Çok adımlı akıl yürütme gerektiren görevlerde de performansın korunup korunmadığını görmek isterdim

  • 1 bit + FP16 ölçek (her 128 bit için 1 adet) yapısının bu kadar iyi çalışması ilginç
    Cursor üzerinden web sayfası testleri üretmeyi denedim ve araç kullanma becerisi oldukça etkileyiciydi
    π Monte Carlo simülasyonunda mantık doğruydu ama arayüz üretimi başarısız oldu, bu yüzden biraz elle düzeltme gerekti
    Pelican görsel sonucu oldukça soyuttu
    Resmî demo olmadığı için yerel bir llama.cpp instance’ı açık bıraktım

    • Link sayesinde ben de doğrudan test ettim ve yanıt hızı çok yüksek
      R script’i, LaTeX formülü üretimi gibi çeşitli istekleri denedim; özellikle Euler formülü kusursuz üretildi
      Küçük bir 1 bit model olmasına rağmen bilgi yoğunluğu yüksek ve tepkileri hızlı
    • Sanat tarihi mezunu olarak “bisiklete binen pelikan” fikrine tamamen katılıyorum
    • ngrok linki aşırı yük yüzünden kapanınca Google Colab sürümünü paylaştı
    • Prism’in llama.cpp fork’unun gerekip gerekmediğini merak ediyorum
    • İlk dönem ChatGPT gibi, çoğu zaman doğru ama bazen saçmalıyor gibi hissettiriyor
      Bir “düşünme aşaması” eklenirse ya da arama tabanlı güçlendirme yapılırsa çok daha kullanışlı olabilir
  • Kendi yaptığım SQL debugging benchmark’ını çalıştırdım ve oldukça etkileyiciydi
    25 testin 8’ini geçti, 0’ında başarısız oldu, 17’sinde hata verdi; seviye olarak Qwen3.5-4B ile Nanbeige4.1-3B arasında
    Tüm testler 200 saniyede tamamlandı ve hız açısından Granite 7B 4bit’ten çok daha verimliydi
    Sonuçlara SQL benchmark sitesinden bakılabilir

    • Ben de @freakynit’in runpod’unu kullandım
      Kişisel olarak bir Pomodoro uygulaması yapma testi denedim; tamamlanma düzeyi düşük olsa da belirli alanlarda epey kullanışlıydı
      Yazma becerisi de beklenmedik şekilde iyi ve em-dash kullanımının az olması ilginç
      HTML üretiminde zayıf, ama 1 bit modeli Ngram-embedding ile birleştirmenin yeni olasılıklar açabileceğini düşünüyorum
      Kendi prototip kodunu da paylaştı
  • Güncellenmiş Locally AI uygulaması ile iPhone’da da çalıştırılabiliyor
    1.2GB boyutuna göre şaşırtıcı bir performans gösteriyor
    Pelikan SVG sonucu açısından yorumlar iyiydi ama görsel pek iyi değildi

    • Küçük modellerin saat dilimi dönüşümünde çok zayıf olduğunu fark ettim
      “Tayvan standart saatiyle sabah 9:30, ABD Pasifik saatinde kaç olur?” diye sordum ama hiçbir model doğru cevabı veremedi
    • Pelikana bisiklet eklenmesini özellikle mi istediğini, yoksa modelin bunu yaratıcı şekilde mi eklediğini merak ediyorum
  • 8GiB modeli RTX 3090 üzerinde 5 saat boyunca herkese açık biçimde çalıştırdı
    Sunucu linkini ve çalıştırma komutunu paylaştı
    5 paralel istek, yaklaşık 13K token sınırı, 4GiB VRAM kullanımı
    190t/s hızında çıktı üretecek kadar çok hızlıydı

    • KV cache’i hassasiyet kaybı olmadan korumanın daha iyi olduğunu tavsiye etti
    • Modelle konuşmak gerçekten keyifli
      Sohbet örneğinde “araba yıkamaya yürüyerek mi gideyim, arabayla mı?” diye sorulduğunda yaratıcı bir yanıt verdi
    • Spot instance kapandığı için sunucunun da kapandığını güncelledi
    • Hıza hayran kaldığını söyledi
    • Pastebin sonucunu da paylaşarak, zayıf modellerin böyle bir çıktı veremeyeceğini belirtti
  • GPU olmadığı için CPU’da çalıştırdım; eski bir dizüstünde 0.6t/s’den AVX2 eklendikten sonra 12t/s seviyesine çıktı
    Gayet iyi bir performans gibi hissettiriyor

    • AVX2 derlemesinde bile yavaş kaldığı ya da yalnızca anlamsız çıktı verdiği yönünde geri bildirimler vardı
      Bunun sebebi git checkout prism adımının atlanmasıymış; düzeltildikten sonra normal çalıştı
    • “not shabby” ifadesinin hafif kaldığına dair şaka yapıldı
  • Büyük modellerin geleceğinin float yerine bit düzeyinde olacağını düşünüyorum
    Float değerlerin çoğu dar bir aralıkta toplanıyor ve verimsiz; sonuçta her şey yine bit işlemleriyle uygulanıyor
    Ama sorun, GPU’ların ve teorik temelin reel sayı işlemlerine göre kurulmuş olması

    • Düşük bit genişliğinde çıkarım kolay, ama eğitim zor ve dengesiz
      Float formatlarının sürmesinin nedeni aslında GPU stack’iyle uyumlu olmaları
    • Bu makale eğitimi de ikili tabanlı olarak yapıyor
      “Boolean variation” kavramını tanıtıyor; türevi ikili biçimde tanımlayıp doğrudan backpropagation uyguluyor
  • Spiking neural network ile benzerliği ilginç
    Spike olup olmamasına göre 1 bit iletişim kuruyor ve analog membran potansiyeli kullanıyor
    5 bin Izhikevich nöronla dört ayaklı hareket kontrolü yaptım ve PPO’dan daha verimliydi
    1 bit verimliliği, LLM’lerin ötesine geçen bir kavram

  • “-log error / model size” oranı 1’e yakınsa bunun hata oranının %40 civarında olduğu anlamına mı geldiğini merak ediyorum
    Matematiksel olarak error/model size = 1/e sonucunu da ekledi

  • Bonsai 8B modeli 1.15GB olarak sunuyor; 27B ya da 35B modeller ne kadar büyük olur merak ediyorum
    Ölçekleme korunursa 100B model bile 64GB RAM içine sığabilir gibi görünüyor

    • Ama asıl sorun eğitim maliyeti
      Muhtemelen tam hassasiyetli model kadar pahalı olacaktır; aksi olsaydı muhtemelen çoktan belirtilirdi