- Bonsai Image 4B, dizüstü bilgisayarlar ve telefonlar gibi yerel donanımlarda yüksek kaliteli difüzyon çıkarımı çalıştırmak için tasarlanmış küçük bir görüntü üretim modeli ailesidir
- FLUX.2 Klein 4B mimarisini korurken difüzyon transformatörü ağırlıklarını 1-bit veya ternary gösterime dönüştürüyor
- Difüzyon transformatörü boyutu orijinal 7.75GB'den 1-bit sürümde 0.93GB'a, ternary sürümde 1.21GB'a düşerek bellek bütçesi yükünü azaltıyor
- iPhone 17 Pro Max'te 512×512 görüntüleri 9.4 saniyede üretiyor; Mac M4 Pro'da ise yaklaşık 6 saniye sürüyor ve MFLUX'a kıyasla 5.6 kata kadar hız sağlıyor
- ternary sürüm, FLUX.2 Klein 4B'ye kıyasla %95 performansı koruyor ve iki varyant da Apache 2.0 açık ağırlıklar ve kod ile yayımlanacak
Yerel görüntü üretimi için Bonsai Image 4B
- Bonsai Image 4B, dizüstü bilgisayarlardan telefonlara kadar yerel donanımlarda yüksek kaliteli difüzyon çıkarımı çalıştırmak için tasarlanmış küçük bir görüntü üretim modeli ailesidir
- FLUX.2 Klein 4B tabanlıdır; mimari korunurken difüzyon transformatörü ağırlıkları 1-bit veya ternary biçimine dönüştürülmüştür
- 1-bit Bonsai Image 4B, ikili
{−1, +1}transformatör ağırlıkları ve FP16 grup bazlı ölçekleme faktörleri kullanarak ağırlık başına 1.125 etkin bit sunar - Ternary Bonsai Image 4B,
{−1, 0, +1}transformatör ağırlıkları ve FP16 grup bazlı ölçekleme faktörleri kullanarak ağırlık başına 1.71 etkin bit sunar
- 1-bit Bonsai Image 4B, ikili
- ternary varyant, 1-bit sürümden daha büyük olsa da eklenen 0 durumu sayesinde görsel kaliteyi ve prompt bağlılığını artırır
- Bonsai Image 4B, açık ağırlıklar ve yerel çıkarım aracılığıyla, bu sınıftaki modelleri çalıştırmakta zorlanan cihazlarda da görüntü üretimini mümkün kılacak bir dağıtım biçimini hedefliyor
- PrismML'e göre Bonsai Image 4B, bu parametre sınıfındaki görüntü modelleri arasında iPhone'da doğrudan çalışan ilk modeldir
Yerel çalıştırma için bellek tasarrufu
- Yerel görüntü üretimindeki temel kısıt, modelin cihaz bellek bütçesi içine sığması gerekliliğidir
- 4B sınıfı görüntü modellerinde difüzyon transformatörü, modelin en büyük bölümüdür ve üretim sırasında her denoising adımında tekrar tekrar çalıştırılır
- Transformatör boyutu, bellek baskısını, bant genişliği gereksinimini ve yerel çıkarım hızını doğrudan etkiler
- FLUX.2 Klein 4B'nin difüzyon transformatörü 7.75GB iken, 1-bit Bonsai Image 4B 0.93GB ve Ternary Bonsai Image 4B 1.21GB'dir
- 1-bit varyant, tam hassasiyetli FLUX.2 Klein 4B'ye kıyasla 8.3 kat, ternary varyant ise 6.4 kat daha küçüktür
- İkili katmanların kendisi, tam hassasiyetli transformatör ağırlıklarına kıyasla yaklaşık 14 kat küçülür; ancak hassasiyete duyarlı yaklaşık %5'lik projection layer FP16 olarak korunur
- ternary katmanlar yaklaşık 10 kat tasarruf sağlar ve nihai transformatör boyutu 1.21GB olur
Dağıtım payload'u ve çalışma zamanı belleği
- Sıkıştırılmış metin kodlayıcı ve FP16 VAE içeren Apple Silicon dağıtım payload'u 1-bit için 3.42GB, ternary için 3.88GB'dir
- Tam hassasiyetli FLUX.2 Klein 4B'nin dağıtım payload'u 15.97GB'dir
- Çalışma zamanında prompt kodlamasından sonra metin kodlayıcı offload edildiği için ortalama bellek kullanımı toplam payload'dan daha düşük olur
- 512×512 görüntü üretiminde ortalama etkin bellek 1-bit için 1.5GB, ternary için 1.96GB, orijinal FLUX.2 Klein 4B için 11.74GB'dir
- 512×512 temelinde bellek azalma oranı 1-bit için 7.8 kat, ternary için 6.0 kattır
- 1024×1024 görüntü üretiminde ortalama etkin bellek 1-bit için 1.95GB, ternary için 2.38GB, orijinal FLUX.2 Klein 4B için 14.39GB'dir
- 1024×1024 temelinde bellek azalma oranı 1-bit için 7.4 kat, ternary için 6.0 kattır
Desteklenen donanım ve çalışma performansı
- Dağıtım yığını Apple Silicon iPhone, iPad, Mac ve CUDA GPU'ları destekler
- Apple donanımında MLX low-bit yolu, CUDA'da ise Gemlite low-bit GEMM kernel kullanılır
- iPhone 17 Pro Max'te tam hassasiyetli FLUX.2 Klein 4B pipeline'ı cihaz bellek bütçesine sığmazken, Bonsai Image'ın iki varyantı da cihaz üzerinde çalışır
- Bonsai Image 4B, iPhone 17 Pro Max'te 512×512 görüntüyü 9.4 saniyede üretir
- Mac M4 Pro'da 512×512 görüntü yaklaşık 6 saniyede üretilir
- Mac M4 Pro'da Bonsai Image 4B, varsayılan tam hassasiyetli MFLUX pipeline'ından 5.6 kata kadar daha hızlıdır
Benchmark performansı
- Bonsai Image 4B, üç benchmark ile değerlendirildi: GenEval, HPSv3, DPG-Bench
- GenEval nesne kompozisyonunu ve öznitelik bağlamayı, HPSv3 insan tercihlerini ve estetik kaliteyi, DPG-Bench ise yoğun prompt takibini ve anlamsal doğruluğu değerlendirir
- Ternary Bonsai Image 4B, 1.21GB difüzyon transformatörü ile GenEval 0.723, HPSv3 12.22, DPG-Bench 0.851 skorlarına ulaştı
- Ternary Bonsai Image 4B, FLUX.2 Klein 4B'ye kıyasla %95 performansı korurken difüzyon transformatörü boyutunu 6.4 kat küçültüyor
- 1-bit Bonsai Image 4B, 0.93GB difüzyon transformatörü ile GenEval 0.671, HPSv3 11.15, DPG-Bench 0.822 skorlarına ulaştı
- 1-bit Bonsai Image 4B, FLUX.2 Klein 4B'ye kıyasla %88 performansı korurken difüzyon transformatörünü 1GB'ın altına indiriyor
- FLUX.2 Klein 4B, 7.75GB difüzyon transformatörü ile GenEval 0.819, HPSv3 12.84, DPG-Bench 0.853 skorlarına ulaştı
- SDXL, 5.14GB difüzyon transformatörü ile GenEval 0.3, HPSv3 10.05, DPG-Bench 0.74 skorlarına ulaşıyor ve FLUX.2 Klein 4B'ye kıyasla %67 performans gösteriyor
- BK-SDM-Small, 0.98GB difüzyon transformatörü ile GenEval 0.297, HPSv3 3.05, DPG-Bench 0.559 skorlarına ulaşıyor ve FLUX.2 Klein 4B'ye kıyasla %42 performans gösteriyor
- Stable Diffusion 1.5, 1.72GB difüzyon transformatörü ile GenEval 0.396, HPSv3 4.2, DPG-Bench 0.601 skorlarına ulaşıyor ve FLUX.2 Klein 4B'ye kıyasla %51 performans gösteriyor
- PixArt-Σ XL 2, 1.2GB difüzyon transformatörü ile GenEval 0.541, HPSv3 11.93, DPG-Bench 0.769 skorlarına ulaşıyor ve FLUX.2 Klein 4B'ye kıyasla %83 performans gösteriyor
- İki Bonsai varyantı da modern 4B sınıfı görüntü modelleriyle rekabet ederken difüzyon transformatörü footprint'ini çok daha küçük tutuyor
- Benzer bellek footprint'ine sahip daha küçük modellere göre daha yüksek performans sunarak, daha önce daha küçük ve daha düşük performanslı modellerin kapladığı bellek aralığına modern difüzyon transformatörü davranışını getiriyor
Yerel çıkarımın ürün açısından anlamı
- Görüntü üretimi yalnızca model kalitesine değil, dağıtım biçimine de bağlıdır
- Cloud API'ler birçok ürün için uygun olmaya devam etse de yalnızca bulut tabanlı üretim, tüm prompt'ları uzak isteklere dönüştürür ve her yinelemeye servis maliyeti ile gidiş-dönüş gecikmesi ekler
- Görüntü üretimi doğal olarak yinelemelidir; kullanıcılar prompt'ları düzenler, sonuçları karşılaştırır, varyasyonlar üretir, başarısız sonuçları atar ve yeniden dener
- Her deneme sunucu tarafı bir iş olduğunda, her yaratıcı döngüde kullanıcıların maliyeti hesaplaması ve beklemesi gerekir
- Yerel çıkarım, model cihaza bir kez yerleştirildikten sonra üretim işlevinin doğrudan ürün deneyiminin içine konumlandırılmasını sağlar
- Yerel çalışma yürütme maliyetini düşürür, yineleme hızını artırır ve prompt'ların ile üretilen varlıkların gizli kalması gereken ortamlarda kullanımı kolaylaştırır
- Bonsai Image 4B, görüntü üretimi dağıtım biçiminin kullanıcıların zaten sahip olduğu donanım üzerinde onlara daha yakın bir yere taşınmasına doğru atılmış bir adımdır
Yayın biçimi ve kaynaklar
- 1-bit Bonsai Image 4B ve Ternary Bonsai Image 4B, açık ağırlıklar ve kod ile yayımlanacak
- Lisans Apache 2.0'dır
- PrismML ayrıca iPhone'da Bonsai Image 4B'yi doğrudan denemek için iOS uygulaması Bonsai Studio'yu da yayımlıyor
- Whitepaper
- Hugging Face
- WebGPU demo
- Bonsai Studio for iPhone
- GitHub
1 yorum
Hacker News görüşleri
20 yıl önce, gördüğümüz ya da okuduğumuz şeylerin gerçek olup olmadığına güvenemeyeceğimiz bir geleceğin internetini bekleyen kimse yoktu sanırım
Umarım bir gün bu döneme, Mad Men'de Draper ailesinin piknik çöpünü çimlerin üstüne bırakıp gittiği sahne gibi sapkın bir dönem olarak geri bakabiliriz
Zamanla iyileşen çok şey oluyor ve insanlar yeni teknoloji ilk çıktığında toplumsal riskleri hep abartma eğiliminde oluyor
Bu şirket üniversiteden çıkmış bir spin-off'tu ve sadece istatistiklerle inandırıcı beyzbol yazıları, sonrasında da finans haberleri yazabiliyordu. Yerel haber sitelerinin tüm maç yazılarını yayımlayabilmesini sağladığı için spor takipçileri açısından faydalıydı ve web trafiğini artıran temel bir itici güç olarak görülüyordu, ama “gerçek” olmadığı yönünde de çok eleştiri alıyordu
Slate'in 2012'de bu konuda yazdığı yazı: https://slate.com/technology/2012/03/narrative-science-robot...
Bilgisayarların ortaya çıkışından beri insanlar bilgisayarları insan gibi konuşturmaya çalışıyor ve konuştuğum ya da okuduğum şeyin insan taklidi yapan bir robot olup olmadığını dert etmek de yeni bir şey değil
Elbette daha kolay hâle geliyor ama niteliksel olarak tamamen farklı bir değişim değil. 20 yıl önce internette gördüğün her şeye olduğu gibi inanmak da bugünkü kadar gülünç olurdu
Pahalı abonelikler yerine donanımımı yükselterek kendi AI'ımı yükseltebileceğim geleceği gerçekten dört gözle bekliyorum
Çözmek istediğim bazı problemler milyarlarca token gerektiriyor ve şu anda bir şirket projesi sponsorluğu olmadan buna erişmek pratikte imkânsız. Opus 4.6 seviyesinde kaliteyle saniyede on binlerce token üretebilen bir ASIC üretim makinesi yeterli olurdu
Şu anda LLama 8B modeli kullanıyor, saniyede yaklaşık 17k token hızında çalışıyor ve https://chatjimmy.ai/ üzerinden test edilebiliyor
Çünkü zaman kullanım oranı daha yüksektir. Ben de hep aynı hayali kuruyorum ama mantıken bunun bir yanılsama olduğunu düşünüyorum. Ortalama olarak donanımı daha iyi kullanan bir topluluktan daha fazla tüketemezsin
Kişisel donanım da gelişecek ama en ileri seviye her zaman bulutta olacak
“1-bit” ifadesini görünce aklıma ilk gelen, 1 bit model ağırlıkları değil 1 bit dithering siyah-beyaz görüntü üretimi oldu
Bu yüzden eğitim görsellerini ve çalışma alanını Floyd-Steinberg, Atkinson ya da tercih edilen başka bir algoritmayla dithering uygulanmış 1 bit görüntülerle sınırlarsak, diffusion tabanlı bir görüntü üreticisinin ne kadar havalı, hızlı ve sıkıştırılmış olacağını merak ettim
Eğitim oldukça hızlı olurdu ve muhtemelen modern bir GPU'nun tekine sığardı
Gerçekten merakımdan soruyorum, bu gerçek bir problemi çözüyor mu?
Diffusion modelleri kullanırken darboğazın depolama ya da bellek değil, üretim süresi olduğunu düşünüyorum. Birçok model 1080 nesli sonrası 8–12GB GPU'larda ya da benzer belleğe sahip Mac'lerde çalışıyor ve GPU performansı açısından bakınca zaten bu alt sınıra oldukça yakın. Üstelik bu modellerin, temel aldıkları daha küçük FLUX.2 modelinden biraz daha yavaş göründüğü de anlaşılıyor
Elbette iPhone gibi nispeten güçlü GPU'su olup belleği kısıtlı cihazlarda yerel model çalıştırmayı mümkün kılabilir ama bu gerçekten yaygın bir ihtiyaç mı?
Şimdiye kadar gördüğüm tüm görüntü üretim ürünleri kullanım başına ücretliydi, bu da değerlerini ciddi biçimde sınırlıyor. Yalnız bunun gerçekten “fena sayılmayacak kalite” seviyesine ulaşıp ulaşmadığını bilmiyorum
Verimlilik her arttığında mevcut kaynaklarla yapılabilecek iş miktarı da artıyor. Görselleri hesabın yarısıyla render edebiliyorsan GPU'nun da yarısına ihtiyaç duyarsın
En ön saftaki modeller bile hâlâ zar zor kullanılabilir seviyede ve görüntü üretiminde en iyi modeller bile çoğu zaman berbat sonuçlar veriyor. Bu yüzden yetenek açısından ön saftakilerin epey gerisinde kalması kaçınılmaz olan küçük 1 bit modellerin şu anda kullanışlı olduğunu düşünmüyorum
Ama hesap birimi başına yetenek yoğunluğunu ciddi biçimde artırmak çok anlamlı. Bu sayede en ön saftaki modeller daha iyi ve daha ucuz çalıştırılabilir, kaynak tüketimi azaltılabilir ve kişisel dizüstüler ya da telefonlar gibi edge cihazlarda yapılabilecek işlerin kapsamı genişleyebilir
Gizlilik açısından da cihaz üstünde çalışması gereken pek çok görev var ve herkesin büyük, özel bir GPU'su yok
Anthropic gibi şirketler hâlâ çıkarım tarafında devasa zarar yazıyor; verimli ama güçlü modellerdeki gelişmeler kârlılığa yardımcı olur
“Bildiğimiz kadarıyla Bonsai Image 4B, bu parametre ölçeğinde doğrudan iPhone üzerinde çalışan ilk görüntü modeli” cümlesi yanlış. Ama tamamen yanlış olmaması için temkinli bir ifadeyle kurulmuş
FLUX.2 [klein] 4B, yani aynı parametre ölçeğindeki ve esasen aynı model olan sürüm, Draw Things uygulaması üzerinden iPhone'da çalışıyor. 8 bit ya da 6 bit quantization kullandığı için “doğrudan” sayılmaz denebilir ama bu teknik kaçamak kulağa biraz şüpheli geliyor
Diffusion modeli deniyor ama temelindeki Flux.2, bir rectified flow modeli
Tuhaf. Birleşik Krallık'tan ziyaretçiyim ve bende şu görünüyor:
Website Not Allowed
“prismml.com” is a restricted website.
Bir gün içinde biri bu 1 bit model için LoRA eğitip Apple Watch'ta hentai içerik ürettirecek
Yerel dosya sistemiyle uğraşmadan çalıştırmak istiyorsan https://github.com/kordless/bonsai-docker kullanabilirsin
Web demosundaki kodu çıkarıp tarayıcı içi AI iş akışı aracına web görüntü üretim düğümü olarak bağladım, gayet iyi çalışıyor
xenova'nın bunu transformersjs 4.3'e eklemesini bekliyorum; o zaman ben de yayımlayacağım. Test etmek için bekleyemedim, önce kendim denedim