1-bit Bonsai - Ticari olarak pratik ilk 1 bit LLM

(prismml.com)

14 puan yazan GN⁺ 29 일 전 | 2 yorum | WhatsApp'ta paylaş

Caltech araştırmalarından doğan yapay zeka girişimi PrismML, 1-bit Bonsai 8B modelini tanıttı; mevcut 16 bit muadillerine kıyasla yaklaşık 14 kat daha küçük olan 1.15GB boyutuyla akıllı telefonlar ve edge cihazlarda pratik yapay zeka çıkarımını mümkün kılıyor
Tüm ağın (embedding, attention, MLP, LM head) istisnasız 1 bit ile kurulduğu gerçek uçtan uca 1 bit tasarım, önceki düşük bitli modellerde görülen komut takibi, çok adımlı akıl yürütme ve araç kullanımı kalitesi düşüşü sorunlarını aşıyor
Intelligence Density ölçütüne göre 1.06/GB değerine ulaşıyor; aynı parametre sınıfındaki en yakın rakip modele (Qwen3 8B, 0.10/GB) karşı yaklaşık 10.6 kat üstünlük sağlıyor
M4 Pro Mac'te 131 tok/s, RTX 4090'da 368 tok/s, iPhone 17 Pro Max'te yaklaşık 44 tok/s hızında çalışıyor; enerji verimliliği ise 16 bit modellere kıyasla yaklaşık 4~5 kat daha iyi
1 bit'e özel donanım tasarlanırsa, tek haneli katlar düzeyinde ek performans ve verimlilik artışı mümkün olabilir; bu da cihaz üstü yapay zeka, robotik ve güvenlik odaklı kurumsal kullanım gibi yeni dağıtım kategorilerinin önünü açıyor

PrismML ve 1-bit Bonsai'nin ortaya çıkış zemini

Son 10 yılda yapay zekadaki ilerleme, modelleri daha da büyütme yönünde ilerledi (daha fazla parametre, GPU, güç, bellek ve maliyet)
Bunun sonucunda en güçlü zeka, büyük ölçekli kümeler ve özel altyapı içine hapsolmuş yapısal bir kısıta dönüştü
Oysa yapay zekaya ihtiyaç duyulan alan veri merkezleriyle sınırlı değil; akıllı telefonlar, dizüstü bilgisayarlar, araçlar, robotlar, güvenlik odaklı kurumsal ortamlar ve edge cihazlar gibi çok çeşitli yerleri kapsıyor
PrismML, Caltech araştırma ekibinden doğdu ve Khosla Ventures, Cerberus ve Google desteğiyle kuruldu
Temel optimizasyon metriği olarak Intelligence Density — model boyutu (GB) başına sunulabilen zeka miktarı — belirlendi

Gerçek bir 1 bit model tasarımı

1-bit Bonsai 8B; embedding, attention katmanları, MLP katmanları ve LM head dahil her şeyi 1 bit ile uygular ve yüksek hassasiyetli bir kaçış yolu (escape hatch) olmadan tüm 8.2 milyar parametre boyunca tamamen 1 bit yapıyı korur
Önceki düşük bitli modellerde komut takibi, çok adımlı akıl yürütme ve araç kullanımının güvenilirliğinde büyük performans kaybı yaşanıyor, bu yüzden gerçek ürün temeli olarak kullanımları zor oluyordu
Bonsai, 1 bit modellerin dar bir ödün noktası değil, üretim seviyesinde tam bir sistem olabileceğini gösteriyor

Intelligence Density ölçümü

Intelligence Density, benchmark'lar genelindeki ortalama hata oranının negatif log değerinin model boyutuna bölünmesiyle tanımlanıyor
Bu ölçüt, basit benchmark ortalamasına göre daha gerçekçi bir zeka düzeyini yansıtıyor: zaten yüksek doğruluk seviyelerinde elde edilen ek iyileştirmelere daha yüksek değer atfediyor
1-bit Bonsai 8B: 1.06/GB, Qwen3 8B: 0.10/GB — bu, yalnızca önde olmak değil, bambaşka bir ölçekte sonuç anlamına geliyor
Ham benchmark ortalamalarında da 1-bit Bonsai 8B, başlıca 8B sınıfı modellerle rekabetçi performansını korurken bellek ayak izi 1.15GB ile aynı sınıfa göre yaklaşık 12~14 kat daha küçük kalıyor

Boyut ve hız

1.15GB boyutuyla iPhone 17 Pro üzerinde çalışabiliyor — mevcut 16 bit 8B modeller hiçbir iPhone'a sığmıyor
Cihaza göre çıkarım hızları:
- M4 Pro Mac: 131 tok/s
- RTX 4090: 368 tok/s
- iPhone 17 Pro Max: yaklaşık 44 tok/s
50 bileti özetleme ve yönlendirme işini simüle eden testte, 1-bit Bonsai 8B 50 işin tamamını işledi; aynı koşullardaki 16 bit 8B model ise yalnızca 6 tanesini işleyebildi
Uzun süreli ajan iş yüklerinde daha yüksek throughput ve daha düşük bellek kullanımı, ajanın fiilen üstlenebileceği iş miktarını da genişletiyor

Enerji verimliliği

1-bit Bonsai 8B, 16 bit tam hassasiyetli modellere kıyasla yaklaşık 4~5 kat daha iyi enerji verimliliği sunuyor
- M4 Pro: 0.074 mWh/tok
- iPhone 17 Pro Max: 0.068 mWh/tok
Yapay zekanın temel bir altyapı katmanı haline gelebilmesi için enerji verimliliğinde radikal bir ilerleme şart

1 bit'e özel donanımın potansiyeli

Mevcut performans artışı büyük ölçüde 1 bit modellerin azaltılmış bellek ayak izinden kaynaklanıyor; çıkarım sırasında 1 bit ağırlık yapısını tamamen kullanmak ise henüz başarılmış değil
MLP gibi doğrusal katmanlarda 1 bit ağırlıklar, çarpma işlemlerinin toplama ile değiştirilmesini mümkün kılıyor
1 bit çıkarıma özel donanım tasarlanırsa, performans ve enerji verimliliği ek olarak tek haneli katlar düzeyinde daha da iyileştirilebilir

Bonsai 4B ve 1.7B modelleri

1-bit Bonsai 4B ve 1-bit Bonsai 1.7B adlı iki küçük model de birlikte yayımlandı
20 ana instruct modelinin (1.2GB~16.4GB aralığı) karşılaştırıldığı zeka vs boyut saçılım grafiğinde, Bonsai ailesinin tamamı mevcut Pareto frontier'ı belirgin biçimde sola kaydırıyor
Önceki Pareto frontier; Qwen3 0.6B, 1.7B, 4B, 8B ve Ministral3 3B'den oluşuyordu, ancak Bonsai ailesi artık yeni frontier'ı tanımlıyor

Yoğunlaştırılmış zekanın mümkün kıldıkları

Model, cihaz üzerinde çalışabilecek kadar küçük, hızlı ve verimli hale geldiğinde yapay zeka ürün tasarım alanı anında değişiyor:
- Daha iyi tepki süresi: cihaz üstü çıkarım sayesinde ağ gecikmesi olmadan çalışır
- Daha güçlü gizlilik: hassas veriler cihazın dışına çıkmaz
- Daha yüksek güvenilirlik: sürekli bulut bağlantısına bağımlılık azalır
- Ekonomik uygulanabilirlik: sunucu tarafı dağıtımın maliyet nedeniyle mümkün olmadığı ortamlarda da yapay zeka kullanılabilir
Açılan yeni kategoriler: kalıcı cihaz üstü ajanlar, gerçek zamanlı robotik, güvenlik odaklı kurumsal copilot'lar, çevrimdışı zeka, bant genişliği/güç/mevzuat kısıtlı ortamlar için AI-native ürünler

Platform desteği ve yayımlanma biçimi

1-bit Bonsai 8B, Apple cihazlarında (Mac, iPhone, iPad) MLX üzerinden ve NVIDIA GPU'larda llama.cpp CUDA üzerinden yerel çalışmayı destekliyor
Model ağırlıkları şu anda Apache 2.0 lisansı ile yayımlanmış durumda
Eğitim, değerlendirme ve benchmark sürecinin tüm teknik ayrıntıları resmi whitepaper içinde sunuluyor

2 yorum

runableapp 29 일 전

Faydalı bilgi.

GN⁺ 29 일 전

Hacker News görüşleri

1.125 bit çerçevelemenin (1 bit ağırlık + her 128 grup için paylaşılan 16 bit ölçek) teknik olarak dürüst bir rakam olduğu vurgulanıyor
“Ticari olarak uygulanabilir” ifadesinin çıkarım maliyeti açısından mı, yoksa fine-tuning temelli olarak mı mümkün olduğunu ayırmak gerekiyor
Microsoft’un BitNet makalesindeki gibi en baştan 1 bit hedefiyle eğitilmiş bir modelse, bu basitçe quantize edilmiş modellerden tamamen farklı bir şey
Özellikle genel amaçlı donanımda çıkarım verimliliği, INT4 quantization’dan çok daha cazip görünüyor
Ancak benchmark’lar quantize edilmiş büyük modellerle karşılaştırılmış, bu yüzden asıl iddianın özü biraz geri planda kalmış
Çok adımlı akıl yürütme gerektiren görevlerde de performansın korunup korunmadığını görmek isterdim
1 bit + FP16 ölçek (her 128 bit için 1 adet) yapısının bu kadar iyi çalışması ilginç
Cursor üzerinden web sayfası testleri üretmeyi denedim ve araç kullanma becerisi oldukça etkileyiciydi
π Monte Carlo simülasyonunda mantık doğruydu ama arayüz üretimi başarısız oldu, bu yüzden biraz elle düzeltme gerekti
Pelican görsel sonucu oldukça soyuttu
Resmî demo olmadığı için yerel bir llama.cpp instance’ı açık bıraktım
- Link sayesinde ben de doğrudan test ettim ve yanıt hızı çok yüksek
  R script’i, LaTeX formülü üretimi gibi çeşitli istekleri denedim; özellikle Euler formülü kusursuz üretildi
  Küçük bir 1 bit model olmasına rağmen bilgi yoğunluğu yüksek ve tepkileri hızlı
- Sanat tarihi mezunu olarak “bisiklete binen pelikan” fikrine tamamen katılıyorum
- ngrok linki aşırı yük yüzünden kapanınca Google Colab sürümünü paylaştı
- Prism’in llama.cpp fork’unun gerekip gerekmediğini merak ediyorum
- İlk dönem ChatGPT gibi, çoğu zaman doğru ama bazen saçmalıyor gibi hissettiriyor
  Bir “düşünme aşaması” eklenirse ya da arama tabanlı güçlendirme yapılırsa çok daha kullanışlı olabilir
Kendi yaptığım SQL debugging benchmark’ını çalıştırdım ve oldukça etkileyiciydi
25 testin 8’ini geçti, 0’ında başarısız oldu, 17’sinde hata verdi; seviye olarak Qwen3.5-4B ile Nanbeige4.1-3B arasında
Tüm testler 200 saniyede tamamlandı ve hız açısından Granite 7B 4bit’ten çok daha verimliydi
Sonuçlara SQL benchmark sitesinden bakılabilir
- Ben de @freakynit’in runpod’unu kullandım
  Kişisel olarak bir Pomodoro uygulaması yapma testi denedim; tamamlanma düzeyi düşük olsa da belirli alanlarda epey kullanışlıydı
  Yazma becerisi de beklenmedik şekilde iyi ve em-dash kullanımının az olması ilginç
  HTML üretiminde zayıf, ama 1 bit modeli Ngram-embedding ile birleştirmenin yeni olasılıklar açabileceğini düşünüyorum
  Kendi prototip kodunu da paylaştı
Güncellenmiş Locally AI uygulaması ile iPhone’da da çalıştırılabiliyor
1.2GB boyutuna göre şaşırtıcı bir performans gösteriyor
Pelikan SVG sonucu açısından yorumlar iyiydi ama görsel pek iyi değildi
- Küçük modellerin saat dilimi dönüşümünde çok zayıf olduğunu fark ettim
  “Tayvan standart saatiyle sabah 9:30, ABD Pasifik saatinde kaç olur?” diye sordum ama hiçbir model doğru cevabı veremedi
- Pelikana bisiklet eklenmesini özellikle mi istediğini, yoksa modelin bunu yaratıcı şekilde mi eklediğini merak ediyorum
8GiB modeli RTX 3090 üzerinde 5 saat boyunca herkese açık biçimde çalıştırdı
Sunucu linkini ve çalıştırma komutunu paylaştı
5 paralel istek, yaklaşık 13K token sınırı, 4GiB VRAM kullanımı
190t/s hızında çıktı üretecek kadar çok hızlıydı
- KV cache’i hassasiyet kaybı olmadan korumanın daha iyi olduğunu tavsiye etti
- Modelle konuşmak gerçekten keyifli
  Sohbet örneğinde “araba yıkamaya yürüyerek mi gideyim, arabayla mı?” diye sorulduğunda yaratıcı bir yanıt verdi
- Spot instance kapandığı için sunucunun da kapandığını güncelledi
- Hıza hayran kaldığını söyledi
- Pastebin sonucunu da paylaşarak, zayıf modellerin böyle bir çıktı veremeyeceğini belirtti
GPU olmadığı için CPU’da çalıştırdım; eski bir dizüstünde 0.6t/s’den AVX2 eklendikten sonra 12t/s seviyesine çıktı
Gayet iyi bir performans gibi hissettiriyor
- AVX2 derlemesinde bile yavaş kaldığı ya da yalnızca anlamsız çıktı verdiği yönünde geri bildirimler vardı
  Bunun sebebi git checkout prism adımının atlanmasıymış; düzeltildikten sonra normal çalıştı
- “not shabby” ifadesinin hafif kaldığına dair şaka yapıldı
Büyük modellerin geleceğinin float yerine bit düzeyinde olacağını düşünüyorum
Float değerlerin çoğu dar bir aralıkta toplanıyor ve verimsiz; sonuçta her şey yine bit işlemleriyle uygulanıyor
Ama sorun, GPU’ların ve teorik temelin reel sayı işlemlerine göre kurulmuş olması
- Düşük bit genişliğinde çıkarım kolay, ama eğitim zor ve dengesiz
  Float formatlarının sürmesinin nedeni aslında GPU stack’iyle uyumlu olmaları
- Bu makale eğitimi de ikili tabanlı olarak yapıyor
  “Boolean variation” kavramını tanıtıyor; türevi ikili biçimde tanımlayıp doğrudan backpropagation uyguluyor
Spiking neural network ile benzerliği ilginç
Spike olup olmamasına göre 1 bit iletişim kuruyor ve analog membran potansiyeli kullanıyor
5 bin Izhikevich nöronla dört ayaklı hareket kontrolü yaptım ve PPO’dan daha verimliydi
1 bit verimliliği, LLM’lerin ötesine geçen bir kavram
“-log error / model size” oranı 1’e yakınsa bunun hata oranının %40 civarında olduğu anlamına mı geldiğini merak ediyorum
Matematiksel olarak error/model size = 1/e sonucunu da ekledi
Bonsai 8B modeli 1.15GB olarak sunuyor; 27B ya da 35B modeller ne kadar büyük olur merak ediyorum
Ölçekleme korunursa 100B model bile 64GB RAM içine sığabilir gibi görünüyor
- Ama asıl sorun eğitim maliyeti
  Muhtemelen tam hassasiyetli model kadar pahalı olacaktır; aksi olsaydı muhtemelen çoktan belirtilirdi

1-bit Bonsai - Ticari olarak pratik ilk 1 bit LLM

PrismML ve 1-bit Bonsai'nin ortaya çıkış zemini

Gerçek bir 1 bit model tasarımı

Intelligence Density ölçümü

Boyut ve hız

Enerji verimliliği

1 bit'e özel donanımın potansiyeli

Bonsai 4B ve 1.7B modelleri

Yoğunlaştırılmış zekanın mümkün kıldıkları

Platform desteği ve yayımlanma biçimi

İlgili okumalar

2 yorum

Hacker News görüşleri