1-bit Bonsai - Ticari olarak pratik ilk 1 bit LLM
(prismml.com)- Caltech araştırmalarından doğan yapay zeka girişimi PrismML, 1-bit Bonsai 8B modelini tanıttı; mevcut 16 bit muadillerine kıyasla yaklaşık 14 kat daha küçük olan 1.15GB boyutuyla akıllı telefonlar ve edge cihazlarda pratik yapay zeka çıkarımını mümkün kılıyor
- Tüm ağın (embedding, attention, MLP, LM head) istisnasız 1 bit ile kurulduğu gerçek uçtan uca 1 bit tasarım, önceki düşük bitli modellerde görülen komut takibi, çok adımlı akıl yürütme ve araç kullanımı kalitesi düşüşü sorunlarını aşıyor
- Intelligence Density ölçütüne göre 1.06/GB değerine ulaşıyor; aynı parametre sınıfındaki en yakın rakip modele (Qwen3 8B, 0.10/GB) karşı yaklaşık 10.6 kat üstünlük sağlıyor
- M4 Pro Mac'te 131 tok/s, RTX 4090'da 368 tok/s, iPhone 17 Pro Max'te yaklaşık 44 tok/s hızında çalışıyor; enerji verimliliği ise 16 bit modellere kıyasla yaklaşık 4~5 kat daha iyi
- 1 bit'e özel donanım tasarlanırsa, tek haneli katlar düzeyinde ek performans ve verimlilik artışı mümkün olabilir; bu da cihaz üstü yapay zeka, robotik ve güvenlik odaklı kurumsal kullanım gibi yeni dağıtım kategorilerinin önünü açıyor
PrismML ve 1-bit Bonsai'nin ortaya çıkış zemini
- Son 10 yılda yapay zekadaki ilerleme, modelleri daha da büyütme yönünde ilerledi (daha fazla parametre, GPU, güç, bellek ve maliyet)
- Bunun sonucunda en güçlü zeka, büyük ölçekli kümeler ve özel altyapı içine hapsolmuş yapısal bir kısıta dönüştü
- Oysa yapay zekaya ihtiyaç duyulan alan veri merkezleriyle sınırlı değil; akıllı telefonlar, dizüstü bilgisayarlar, araçlar, robotlar, güvenlik odaklı kurumsal ortamlar ve edge cihazlar gibi çok çeşitli yerleri kapsıyor
- PrismML, Caltech araştırma ekibinden doğdu ve Khosla Ventures, Cerberus ve Google desteğiyle kuruldu
- Temel optimizasyon metriği olarak Intelligence Density — model boyutu (GB) başına sunulabilen zeka miktarı — belirlendi
Gerçek bir 1 bit model tasarımı
- 1-bit Bonsai 8B; embedding, attention katmanları, MLP katmanları ve LM head dahil her şeyi 1 bit ile uygular ve yüksek hassasiyetli bir kaçış yolu (escape hatch) olmadan tüm 8.2 milyar parametre boyunca tamamen 1 bit yapıyı korur
- Önceki düşük bitli modellerde komut takibi, çok adımlı akıl yürütme ve araç kullanımının güvenilirliğinde büyük performans kaybı yaşanıyor, bu yüzden gerçek ürün temeli olarak kullanımları zor oluyordu
- Bonsai, 1 bit modellerin dar bir ödün noktası değil, üretim seviyesinde tam bir sistem olabileceğini gösteriyor
Intelligence Density ölçümü
- Intelligence Density, benchmark'lar genelindeki ortalama hata oranının negatif log değerinin model boyutuna bölünmesiyle tanımlanıyor
- Bu ölçüt, basit benchmark ortalamasına göre daha gerçekçi bir zeka düzeyini yansıtıyor: zaten yüksek doğruluk seviyelerinde elde edilen ek iyileştirmelere daha yüksek değer atfediyor
- 1-bit Bonsai 8B: 1.06/GB, Qwen3 8B: 0.10/GB — bu, yalnızca önde olmak değil, bambaşka bir ölçekte sonuç anlamına geliyor
- Ham benchmark ortalamalarında da 1-bit Bonsai 8B, başlıca 8B sınıfı modellerle rekabetçi performansını korurken bellek ayak izi 1.15GB ile aynı sınıfa göre yaklaşık 12~14 kat daha küçük kalıyor
Boyut ve hız
- 1.15GB boyutuyla iPhone 17 Pro üzerinde çalışabiliyor — mevcut 16 bit 8B modeller hiçbir iPhone'a sığmıyor
- Cihaza göre çıkarım hızları:
- M4 Pro Mac: 131 tok/s
- RTX 4090: 368 tok/s
- iPhone 17 Pro Max: yaklaşık 44 tok/s
- 50 bileti özetleme ve yönlendirme işini simüle eden testte, 1-bit Bonsai 8B 50 işin tamamını işledi; aynı koşullardaki 16 bit 8B model ise yalnızca 6 tanesini işleyebildi
- Uzun süreli ajan iş yüklerinde daha yüksek throughput ve daha düşük bellek kullanımı, ajanın fiilen üstlenebileceği iş miktarını da genişletiyor
Enerji verimliliği
- 1-bit Bonsai 8B, 16 bit tam hassasiyetli modellere kıyasla yaklaşık 4~5 kat daha iyi enerji verimliliği sunuyor
- M4 Pro: 0.074 mWh/tok
- iPhone 17 Pro Max: 0.068 mWh/tok
- Yapay zekanın temel bir altyapı katmanı haline gelebilmesi için enerji verimliliğinde radikal bir ilerleme şart
1 bit'e özel donanımın potansiyeli
- Mevcut performans artışı büyük ölçüde 1 bit modellerin azaltılmış bellek ayak izinden kaynaklanıyor; çıkarım sırasında 1 bit ağırlık yapısını tamamen kullanmak ise henüz başarılmış değil
- MLP gibi doğrusal katmanlarda 1 bit ağırlıklar, çarpma işlemlerinin toplama ile değiştirilmesini mümkün kılıyor
- 1 bit çıkarıma özel donanım tasarlanırsa, performans ve enerji verimliliği ek olarak tek haneli katlar düzeyinde daha da iyileştirilebilir
Bonsai 4B ve 1.7B modelleri
- 1-bit Bonsai 4B ve 1-bit Bonsai 1.7B adlı iki küçük model de birlikte yayımlandı
- 20 ana instruct modelinin (1.2GB~16.4GB aralığı) karşılaştırıldığı zeka vs boyut saçılım grafiğinde, Bonsai ailesinin tamamı mevcut Pareto frontier'ı belirgin biçimde sola kaydırıyor
- Önceki Pareto frontier; Qwen3 0.6B, 1.7B, 4B, 8B ve Ministral3 3B'den oluşuyordu, ancak Bonsai ailesi artık yeni frontier'ı tanımlıyor
Yoğunlaştırılmış zekanın mümkün kıldıkları
- Model, cihaz üzerinde çalışabilecek kadar küçük, hızlı ve verimli hale geldiğinde yapay zeka ürün tasarım alanı anında değişiyor:
- Daha iyi tepki süresi: cihaz üstü çıkarım sayesinde ağ gecikmesi olmadan çalışır
- Daha güçlü gizlilik: hassas veriler cihazın dışına çıkmaz
- Daha yüksek güvenilirlik: sürekli bulut bağlantısına bağımlılık azalır
- Ekonomik uygulanabilirlik: sunucu tarafı dağıtımın maliyet nedeniyle mümkün olmadığı ortamlarda da yapay zeka kullanılabilir
- Açılan yeni kategoriler: kalıcı cihaz üstü ajanlar, gerçek zamanlı robotik, güvenlik odaklı kurumsal copilot'lar, çevrimdışı zeka, bant genişliği/güç/mevzuat kısıtlı ortamlar için AI-native ürünler
Platform desteği ve yayımlanma biçimi
- 1-bit Bonsai 8B, Apple cihazlarında (Mac, iPhone, iPad) MLX üzerinden ve NVIDIA GPU'larda llama.cpp CUDA üzerinden yerel çalışmayı destekliyor
- Model ağırlıkları şu anda Apache 2.0 lisansı ile yayımlanmış durumda
- Eğitim, değerlendirme ve benchmark sürecinin tüm teknik ayrıntıları resmi whitepaper içinde sunuluyor
2 yorum
Faydalı bilgi.
Hacker News görüşleri
1.125 bit çerçevelemenin (1 bit ağırlık + her 128 grup için paylaşılan 16 bit ölçek) teknik olarak dürüst bir rakam olduğu vurgulanıyor
“Ticari olarak uygulanabilir” ifadesinin çıkarım maliyeti açısından mı, yoksa fine-tuning temelli olarak mı mümkün olduğunu ayırmak gerekiyor
Microsoft’un BitNet makalesindeki gibi en baştan 1 bit hedefiyle eğitilmiş bir modelse, bu basitçe quantize edilmiş modellerden tamamen farklı bir şey
Özellikle genel amaçlı donanımda çıkarım verimliliği, INT4 quantization’dan çok daha cazip görünüyor
Ancak benchmark’lar quantize edilmiş büyük modellerle karşılaştırılmış, bu yüzden asıl iddianın özü biraz geri planda kalmış
Çok adımlı akıl yürütme gerektiren görevlerde de performansın korunup korunmadığını görmek isterdim
1 bit + FP16 ölçek (her 128 bit için 1 adet) yapısının bu kadar iyi çalışması ilginç
Cursor üzerinden web sayfası testleri üretmeyi denedim ve araç kullanma becerisi oldukça etkileyiciydi
π Monte Carlo simülasyonunda mantık doğruydu ama arayüz üretimi başarısız oldu, bu yüzden biraz elle düzeltme gerekti
Pelican görsel sonucu oldukça soyuttu
Resmî demo olmadığı için yerel bir llama.cpp instance’ı açık bıraktım
R script’i, LaTeX formülü üretimi gibi çeşitli istekleri denedim; özellikle Euler formülü kusursuz üretildi
Küçük bir 1 bit model olmasına rağmen bilgi yoğunluğu yüksek ve tepkileri hızlı
Bir “düşünme aşaması” eklenirse ya da arama tabanlı güçlendirme yapılırsa çok daha kullanışlı olabilir
Kendi yaptığım SQL debugging benchmark’ını çalıştırdım ve oldukça etkileyiciydi
25 testin 8’ini geçti, 0’ında başarısız oldu, 17’sinde hata verdi; seviye olarak Qwen3.5-4B ile Nanbeige4.1-3B arasında
Tüm testler 200 saniyede tamamlandı ve hız açısından Granite 7B 4bit’ten çok daha verimliydi
Sonuçlara SQL benchmark sitesinden bakılabilir
Kişisel olarak bir Pomodoro uygulaması yapma testi denedim; tamamlanma düzeyi düşük olsa da belirli alanlarda epey kullanışlıydı
Yazma becerisi de beklenmedik şekilde iyi ve em-dash kullanımının az olması ilginç
HTML üretiminde zayıf, ama 1 bit modeli Ngram-embedding ile birleştirmenin yeni olasılıklar açabileceğini düşünüyorum
Kendi prototip kodunu da paylaştı
Güncellenmiş Locally AI uygulaması ile iPhone’da da çalıştırılabiliyor
1.2GB boyutuna göre şaşırtıcı bir performans gösteriyor
Pelikan SVG sonucu açısından yorumlar iyiydi ama görsel pek iyi değildi
“Tayvan standart saatiyle sabah 9:30, ABD Pasifik saatinde kaç olur?” diye sordum ama hiçbir model doğru cevabı veremedi
8GiB modeli RTX 3090 üzerinde 5 saat boyunca herkese açık biçimde çalıştırdı
Sunucu linkini ve çalıştırma komutunu paylaştı
5 paralel istek, yaklaşık 13K token sınırı, 4GiB VRAM kullanımı
190t/s hızında çıktı üretecek kadar çok hızlıydı
Sohbet örneğinde “araba yıkamaya yürüyerek mi gideyim, arabayla mı?” diye sorulduğunda yaratıcı bir yanıt verdi
GPU olmadığı için CPU’da çalıştırdım; eski bir dizüstünde 0.6t/s’den AVX2 eklendikten sonra 12t/s seviyesine çıktı
Gayet iyi bir performans gibi hissettiriyor
Bunun sebebi
git checkout prismadımının atlanmasıymış; düzeltildikten sonra normal çalıştıBüyük modellerin geleceğinin float yerine bit düzeyinde olacağını düşünüyorum
Float değerlerin çoğu dar bir aralıkta toplanıyor ve verimsiz; sonuçta her şey yine bit işlemleriyle uygulanıyor
Ama sorun, GPU’ların ve teorik temelin reel sayı işlemlerine göre kurulmuş olması
Float formatlarının sürmesinin nedeni aslında GPU stack’iyle uyumlu olmaları
“Boolean variation” kavramını tanıtıyor; türevi ikili biçimde tanımlayıp doğrudan backpropagation uyguluyor
Spiking neural network ile benzerliği ilginç
Spike olup olmamasına göre 1 bit iletişim kuruyor ve analog membran potansiyeli kullanıyor
5 bin Izhikevich nöronla dört ayaklı hareket kontrolü yaptım ve PPO’dan daha verimliydi
1 bit verimliliği, LLM’lerin ötesine geçen bir kavram
“-log error / model size” oranı 1’e yakınsa bunun hata oranının %40 civarında olduğu anlamına mı geldiğini merak ediyorum
Matematiksel olarak error/model size = 1/e sonucunu da ekledi
Bonsai 8B modeli 1.15GB olarak sunuyor; 27B ya da 35B modeller ne kadar büyük olur merak ediyorum
Ölçekleme korunursa 100B model bile 64GB RAM içine sığabilir gibi görünüyor
Muhtemelen tam hassasiyetli model kadar pahalı olacaktır; aksi olsaydı muhtemelen çoktan belirtilirdi