Bonsai Image 4B - Yerel cihazlar için 1-bit/ternary görüntü üretim modeli

(prismml.com)

3 puan yazan GN⁺ 2026-06-01 | 1 yorum | WhatsApp'ta paylaş

Dizüstü bilgisayarlar ve telefonlar gibi yerel donanımlarda yüksek kaliteli difüzyon çıkarımı çalıştırmak üzere tasarlanmış küçük bir görüntü üretim modeli ailesi
FLUX.2 Klein 4B mimarisini korurken difüzyon transformatörü ağırlıklarını 1-bit veya ternary gösterime dönüştürüyor
Difüzyon transformatörü boyutu orijinal 7.75GB'den 1-bit için 0.93GB'a, ternary için 1.21GB'a düşerek bellek bütçesi yükünü azaltıyor
iPhone 17 Pro Max'te 512×512 görüntüyü 9.4 saniyede üretiyor; Mac M4 Pro'da ise yaklaşık 6 saniye ve MFLUX'a kıyasla 5.6 kata kadar hız sunuyor
Ternary sürüm, FLUX.2 Klein 4B'ye kıyasla %95 performansı koruyor ve her iki varyant da Apache 2.0 açık ağırlıklar ve kodla yayımlanacak

Yerel görüntü üretimi için Bonsai Image 4B

Bonsai Image 4B, dizüstü bilgisayarlardan telefonlara kadar yerel donanımlarda yüksek kaliteli difüzyon çıkarımı çalıştırmak üzere tasarlanmış küçük bir görüntü üretim modeli ailesidir
FLUX.2 Klein 4B'yi temel alır ve mimariyi korurken difüzyon transformatörü ağırlıklarını 1-bit veya ternary biçimine dönüştürür
- 1-bit Bonsai Image 4B, ikili {−1, +1} transformatör ağırlıkları ve FP16 grup bazlı ölçekleme faktörleri kullanarak ağırlık başına 1.125 etkin bit sağlar
- Ternary Bonsai Image 4B, {−1, 0, +1} transformatör ağırlıkları ve FP16 grup bazlı ölçekleme faktörleri kullanarak ağırlık başına 1.71 etkin bit sağlar
Ternary varyant, 1-bit'ten daha büyük olsa da eklenen 0 durumu sayesinde görsel kaliteyi ve prompt'a sadakati artırır
Bonsai Image 4B, açık ağırlıklar ve yerel çıkarım sayesinde bu sınıftaki modelleri çalıştırmakta zorlanan cihazlarda da görüntü üretimini mümkün kılan bir dağıtım biçimini hedefler
PrismML'ye göre Bonsai Image 4B, bu parametre sınıfındaki görüntü modelleri arasında iPhone üzerinde doğrudan çalışan ilk modeldir

Yerel çalıştırma için bellek tasarrufu

Yerel görüntü üretimindeki temel kısıt, modelin cihazın bellek bütçesine sığması gerekliliğidir
4B sınıfı görüntü modellerinde difüzyon transformatörü, modelin en büyük bölümüdür ve üretim sırasında her denoising adımında tekrar tekrar çalıştırılır
Transformatör boyutu, bellek baskısını, bant genişliği gereksinimini ve yerel çıkarım hızını doğrudan etkiler
FLUX.2 Klein 4B'nin difüzyon transformatörü 7.75GB iken, 1-bit Bonsai Image 4B 0.93GB, Ternary Bonsai Image 4B ise 1.21GB'dir
1-bit varyant, tam hassasiyetli FLUX.2 Klein 4B'ye kıyasla 8.3 kat, ternary varyant ise 6.4 kat daha küçüktür
İkili katmanların kendisi tam hassasiyetli transformatör ağırlıklarına kıyasla yaklaşık 14 kat küçülse de, hassasiyete duyarlı yaklaşık %5'lik projection layer bölümü FP16 olarak korunur
Ternary katmanlar yaklaşık 10 kat tasarruf sağlar ve nihai transformatör boyutu 1.21GB olur

Dağıtım payload'u ve çalışma zamanı belleği

Sıkıştırılmış metin kodlayıcı ve FP16 VAE içeren Apple Silicon dağıtım payload'u, 1-bit için 3.42GB, ternary için 3.88GB'dır
Tam hassasiyetli FLUX.2 Klein 4B'nin dağıtım payload'u 15.97GB'dır
Çalışma zamanında prompt kodlamasından sonra metin kodlayıcı offload edildiği için ortalama bellek kullanımı toplam payload'dan daha düşüktür
512×512 görüntü üretiminde ortalama etkin bellek, 1-bit için 1.5GB, ternary için 1.96GB, orijinal FLUX.2 Klein 4B için ise 11.74GB'dır
512×512 temelinde bellek azalma oranı 1-bit için 7.8 kat, ternary için 6.0 kattır
1024×1024 görüntü üretiminde ortalama etkin bellek, 1-bit için 1.95GB, ternary için 2.38GB, orijinal FLUX.2 Klein 4B için 14.39GB'dır
1024×1024 temelinde bellek azalma oranı 1-bit için 7.4 kat, ternary için 6.0 kattır

Desteklenen donanım ve çalışma performansı

Dağıtım yığını Apple Silicon iPhone, iPad, Mac ve CUDA GPU'ları destekler
Apple donanımlarında MLX low-bit yolu, CUDA'da ise Gemlite low-bit GEMM kernel kullanılır
iPhone 17 Pro Max'te tam hassasiyetli FLUX.2 Klein 4B pipeline'ı cihazın bellek bütçesine sığmazken, Bonsai Image'ın iki varyantı da cihaz üzerinde çalışır
Bonsai Image 4B, iPhone 17 Pro Max'te 512×512 görüntüyü 9.4 saniyede üretir
Mac M4 Pro'da 512×512 görüntüyü yaklaşık 6 saniyede üretir
Mac M4 Pro'da Bonsai Image 4B, varsayılan tam hassasiyetli MFLUX pipeline'ına göre 5.6 kata kadar daha hızlıdır

Benchmark performansı

Bonsai Image 4B, GenEval, HPSv3 ve DPG-Bench olmak üzere üç benchmark ile değerlendirildi
GenEval nesne bileşimini ve özellik bağlamayı, HPSv3 insan tercihlerini ve estetik kaliteyi, DPG-Bench ise yoğun prompt takibini ve anlamsal sadakati değerlendirir
Ternary Bonsai Image 4B, 1.21GB difüzyon transformatörü ile GenEval 0.723, HPSv3 12.22, DPG-Bench 0.851 sonuçlarını elde etti
Ternary Bonsai Image 4B, FLUX.2 Klein 4B'ye kıyasla %95 performansı korurken difüzyon transformatörü boyutunu 6.4 kat küçültür
1-bit Bonsai Image 4B, 0.93GB difüzyon transformatörü ile GenEval 0.671, HPSv3 11.15, DPG-Bench 0.822 sonuçlarını elde etti
1-bit Bonsai Image 4B, FLUX.2 Klein 4B'ye kıyasla %88 performansı korurken difüzyon transformatörünü 1GB'ın altına indirir
FLUX.2 Klein 4B, 7.75GB difüzyon transformatörü ile GenEval 0.819, HPSv3 12.84, DPG-Bench 0.853 sonuçlarını elde etti
SDXL, 5.14GB difüzyon transformatörü ile GenEval 0.3, HPSv3 10.05, DPG-Bench 0.74 sonuçlarını elde ederken FLUX.2 Klein 4B'ye kıyasla %67 performans gösterdi
BK-SDM-Small, 0.98GB difüzyon transformatörü ile GenEval 0.297, HPSv3 3.05, DPG-Bench 0.559 sonuçlarını elde ederken FLUX.2 Klein 4B'ye kıyasla %42 performans gösterdi
Stable Diffusion 1.5, 1.72GB difüzyon transformatörü ile GenEval 0.396, HPSv3 4.2, DPG-Bench 0.601 sonuçlarını elde ederken FLUX.2 Klein 4B'ye kıyasla %51 performans gösterdi
PixArt-Σ XL 2, 1.2GB difüzyon transformatörü ile GenEval 0.541, HPSv3 11.93, DPG-Bench 0.769 sonuçlarını elde ederken FLUX.2 Klein 4B'ye kıyasla %83 performans gösterdi
İki Bonsai varyantı, modern 4B sınıfı görüntü modelleriyle rekabet ederken difüzyon transformatörü ayak izini çok daha küçük tutar
Benzer bellek ayak izine sahip daha küçük modellere göre daha yüksek performans sunarak, daha önce daha küçük ve daha düşük performanslı modellerin kapladığı bellek aralığına modern difüzyon transformatörü davranışını taşır

Yerel çıkarımın ürün açısından anlamı

Görüntü üretimi yalnızca model kalitesine değil, dağıtım biçimine de bağlıdır
Cloud API'ler birçok üründe uygun olmaya devam etse de, yalnızca bulut tabanlı üretim tüm prompt'ları uzak isteklere dönüştürür ve her yinelemeye servis maliyeti ile gidiş-dönüş gecikmesi ekler
Görüntü üretimi doğal olarak yinelemelidir; kullanıcılar prompt'ları düzenler, sonuçları karşılaştırır, varyasyonlar üretir, başarısız sonuçları atar ve yeniden dener
Her deneme sunucu tarafı bir iş olduğunda, yaratıcı döngünün her adımında kullanıcı hem maliyeti hesaplamak hem de beklemek zorunda kalır
Yerel çıkarım, model cihaza girdikten sonra üretim yeteneğinin doğrudan ürün deneyiminin içine yerleştirilmesini sağlar
Yerelde çalıştırma, yürütme maliyetini düşürür, yineleme hızını artırır ve prompt'ların ile üretilen varlıkların gizli kalması gereken ortamlarda kullanımı kolaylaştırır
Bonsai Image 4B, görüntü üretimi dağıtım biçiminin kullanıcıların zaten sahip olduğu donanım üzerinde kullanıcıya daha yakın bir konuma taşınmasına doğru atılmış bir adımdır

Yayın biçimi ve kaynaklar

1-bit Bonsai Image 4B ve Ternary Bonsai Image 4B, açık ağırlıklar ve kod ile yayımlanacak
Lisans Apache 2.0'dır
PrismML ayrıca iPhone'da Bonsai Image 4B'yi doğrudan denemeye yarayan iOS uygulaması Bonsai Studio'yu da yayımlıyor
Whitepaper
Hugging Face
WebGPU demo
Bonsai Studio for iPhone
GitHub

1 yorum

GN⁺ 2026-06-01

Hacker News görüşleri

20 yıl önce, gördüğümüz ya da okuduğumuz şeylerin gerçek olup olmadığına güvenemeyeceğimiz bir geleceğin internetini bekleyen kimse yoktu sanırım
Umarım bir gün bu döneme, Mad Men'de Draper ailesinin piknik çöpünü çimlerin üstüne bırakıp gittiği sahne gibi sapkın bir dönem olarak geri bakabiliriz
- 20 yıl önce öğretmenler internetten hiçbir şeye güvenilemeyeceğini söyleyip Wikipedia kullanmamamızı söylerdi; ayrıca uygulama ya da web sitesinde tanıştığımız biriyle asla çıkmamamız gerektiğini de söylerlerdi. Öyle biri %100 katildir derlerdi ve bir de “internet porno içindir” sözü vardı
  Zamanla iyileşen çok şey oluyor ve insanlar yeni teknoloji ilk çıktığında toplumsal riskleri hep abartma eğiliminde oluyor
- O piknik sahnesi: https://www.youtube.com/watch?v=FDIvzDGBLWU
- O dönemde Narrative Science(https://en.wikipedia.org/wiki/Narrative_Science) etrafındaki tartışmaları hatırlamıyor gibisin
  Bu şirket üniversiteden çıkmış bir spin-off'tu ve sadece istatistiklerle inandırıcı beyzbol yazıları, sonrasında da finans haberleri yazabiliyordu. Yerel haber sitelerinin tüm maç yazılarını yayımlayabilmesini sağladığı için spor takipçileri açısından faydalıydı ve web trafiğini artıran temel bir itici güç olarak görülüyordu, ama “gerçek” olmadığı yönünde de çok eleştiri alıyordu
  Slate'in 2012'de bu konuda yazdığı yazı: https://slate.com/technology/2012/03/narrative-science-robot...
  Bilgisayarların ortaya çıkışından beri insanlar bilgisayarları insan gibi konuşturmaya çalışıyor ve konuştuğum ya da okuduğum şeyin insan taklidi yapan bir robot olup olmadığını dert etmek de yeni bir şey değil
- Buna sapkın bir dönem demek biraz aşırı tepki gibi geliyor
- Metinlerde ve görsellerde her zaman yanlış bilgi vardı; fotoğraflar da fotoğrafçılığın ortaya çıktığı andan beri manipüle edilebiliyordu
  Elbette daha kolay hâle geliyor ama niteliksel olarak tamamen farklı bir değişim değil. 20 yıl önce internette gördüğün her şeye olduğu gibi inanmak da bugünkü kadar gülünç olurdu
Pahalı abonelikler yerine donanımımı yükselterek kendi AI'ımı yükseltebileceğim geleceği gerçekten dört gözle bekliyorum
Çözmek istediğim bazı problemler milyarlarca token gerektiriyor ve şu anda bir şirket projesi sponsorluğu olmadan buna erişmek pratikte imkânsız. Opus 4.6 seviyesinde kaliteyle saniyede on binlerce token üretebilen bir ASIC üretim makinesi yeterli olurdu
- Taalas adında bir şirket buna benzer bir şey yapıyor. Opus 4.6 kalitesinde değil ama daha büyük modelleri hedefliyor gibi görünüyor
  Şu anda LLama 8B modeli kullanıyor, saniyede yaklaşık 17k token hızında çalışıyor ve https://chatjimmy.ai/ üzerinden test edilebiliyor
- Böyle bir probleme bir örnek verebilir misin?
- Donanım ve elektrik maliyetinin abonelik maliyetleriyle karşılaştırıldığında ne kadar olacağını merak ediyorum
- Mantıken beş kişinin kaynaklarını birleştirmesi bir kişiden daha güçlüdür, bu yüzden veri merkezi her zaman kazanır
  Çünkü zaman kullanım oranı daha yüksektir. Ben de hep aynı hayali kuruyorum ama mantıken bunun bir yanılsama olduğunu düşünüyorum. Ortalama olarak donanımı daha iyi kullanan bir topluluktan daha fazla tüketemezsin
  Kişisel donanım da gelişecek ama en ileri seviye her zaman bulutta olacak
“1-bit” ifadesini görünce aklıma ilk gelen, 1 bit model ağırlıkları değil 1 bit dithering siyah-beyaz görüntü üretimi oldu
Bu yüzden eğitim görsellerini ve çalışma alanını Floyd-Steinberg, Atkinson ya da tercih edilen başka bir algoritmayla dithering uygulanmış 1 bit görüntülerle sınırlarsak, diffusion tabanlı bir görüntü üreticisinin ne kadar havalı, hızlı ve sıkıştırılmış olacağını merak ettim
Eğitim oldukça hızlı olurdu ve muhtemelen modern bir GPU'nun tekine sığardı
- Yine de önce grayscale ile eğitip sonra dithering uygulamak daha iyi olur gibi geliyor
- Ben de tam olarak aynı şeyi düşündüm; burada keşfedilecek epey ilginç fikir var gibi görünüyor
Gerçekten merakımdan soruyorum, bu gerçek bir problemi çözüyor mu?
Diffusion modelleri kullanırken darboğazın depolama ya da bellek değil, üretim süresi olduğunu düşünüyorum. Birçok model 1080 nesli sonrası 8–12GB GPU'larda ya da benzer belleğe sahip Mac'lerde çalışıyor ve GPU performansı açısından bakınca zaten bu alt sınıra oldukça yakın. Üstelik bu modellerin, temel aldıkları daha küçük FLUX.2 modelinden biraz daha yavaş göründüğü de anlaşılıyor
Elbette iPhone gibi nispeten güçlü GPU'su olup belleği kısıtlı cihazlarda yerel model çalıştırmayı mümkün kılabilir ama bu gerçekten yaygın bir ihtiyaç mı?
- Faydalı bir ilerleme. Yerel ölçekte çıkarım ile fena sayılmayacak bir kalite elde edilebilirse, maliyet kaygısı olmadan sık sık çöpe atılabilecek görseller üreten bir ürün yapılabilir
  Şimdiye kadar gördüğüm tüm görüntü üretim ürünleri kullanım başına ücretliydi, bu da değerlerini ciddi biçimde sınırlıyor. Yalnız bunun gerçekten “fena sayılmayacak kalite” seviyesine ulaşıp ulaşmadığını bilmiyorum
- Şu anda GPU talebinin aşırı yüksek, arzın ise kısıtlı olduğu bir dönemdeyiz. Çıkarımı her edge tarafa ittiğinde, bulut kaynakları başka işler için boşalıyor
  Verimlilik her arttığında mevcut kaynaklarla yapılabilecek iş miktarı da artıyor. Görselleri hesabın yarısıyla render edebiliyorsan GPU'nun da yarısına ihtiyaç duyarsın
- 8–12GB 1080 nesli GPU'lar ya da benzer belleğe sahip Mac'ler alt sınır değil. Çoğu kişi bundan çok daha zayıf GPU'lu dizüstü ya da mobil cihazlar kullanıyor
- Mevcut değeri, gerçek kullanımdan çok akademik değere daha yakın görünüyor
  En ön saftaki modeller bile hâlâ zar zor kullanılabilir seviyede ve görüntü üretiminde en iyi modeller bile çoğu zaman berbat sonuçlar veriyor. Bu yüzden yetenek açısından ön saftakilerin epey gerisinde kalması kaçınılmaz olan küçük 1 bit modellerin şu anda kullanışlı olduğunu düşünmüyorum
  Ama hesap birimi başına yetenek yoğunluğunu ciddi biçimde artırmak çok anlamlı. Bu sayede en ön saftaki modeller daha iyi ve daha ucuz çalıştırılabilir, kaynak tüketimi azaltılabilir ve kişisel dizüstüler ya da telefonlar gibi edge cihazlarda yapılabilecek işlerin kapsamı genişleyebilir
  Gizlilik açısından da cihaz üstünde çalışması gereken pek çok görev var ve herkesin büyük, özel bir GPU'su yok
- Evet. Boyut ve performans sadece yerel LLM'lerin değil, OpenAI ve Anthropic gibi ön saftaki LLM şirketlerinin de sorunu
  Anthropic gibi şirketler hâlâ çıkarım tarafında devasa zarar yazıyor; verimli ama güçlü modellerdeki gelişmeler kârlılığa yardımcı olur
“Bildiğimiz kadarıyla Bonsai Image 4B, bu parametre ölçeğinde doğrudan iPhone üzerinde çalışan ilk görüntü modeli” cümlesi yanlış. Ama tamamen yanlış olmaması için temkinli bir ifadeyle kurulmuş
FLUX.2 [klein] 4B, yani aynı parametre ölçeğindeki ve esasen aynı model olan sürüm, Draw Things uygulaması üzerinden iPhone'da çalışıyor. 8 bit ya da 6 bit quantization kullandığı için “doğrudan” sayılmaz denebilir ama bu teknik kaçamak kulağa biraz şüpheli geliyor
Diffusion modeli deniyor ama temelindeki Flux.2, bir rectified flow modeli
- Bana kalırsa “diffusion” terimini bu ailenin tamamı için kullanmakta sorun yok
Tuhaf. Birleşik Krallık'tan ziyaretçiyim ve bende şu görünüyor:
Website Not Allowed
“⁦‪prismml.com‬⁩” is a restricted website.
Bir gün içinde biri bu 1 bit model için LoRA eğitip Apple Watch'ta hentai içerik ürettirecek
Yerel dosya sistemiyle uğraşmadan çalıştırmak istiyorsan https://github.com/kordless/bonsai-docker kullanabilirsin
Web demosundaki kodu çıkarıp tarayıcı içi AI iş akışı aracına web görüntü üretim düğümü olarak bağladım, gayet iyi çalışıyor
xenova'nın bunu transformersjs 4.3'e eklemesini bekliyorum; o zaman ben de yayımlayacağım. Test etmek için bekleyemedim, önce kendim denedim
- Şu tarayıcı içi AI iş akışı aracını biraz anlatabilir misin? Ben de benzer bir şey geliştiriyor olabilirim; bu alanda başkalarının neler yaptığını gerçekten çok merak ediyorum

Bonsai Image 4B - Yerel cihazlar için 1-bit/ternary görüntü üretim modeli

Yerel görüntü üretimi için Bonsai Image 4B

Yerel çalıştırma için bellek tasarrufu

Dağıtım payload'u ve çalışma zamanı belleği

Desteklenen donanım ve çalışma performansı

Benchmark performansı

Yerel çıkarımın ürün açısından anlamı

Yayın biçimi ve kaynaklar

İlgili okumalar

1 yorum

Hacker News görüşleri