1 puan yazan GN⁺ 3 시간 전 | 1 yorum | WhatsApp'ta paylaş
  • Bonsai Image 4B, dizüstü bilgisayarlar ve telefonlar gibi yerel donanımlarda yüksek kaliteli difüzyon çıkarımı çalıştırmak için tasarlanmış küçük bir görüntü üretim modeli ailesidir
  • FLUX.2 Klein 4B mimarisini korurken difüzyon transformatörü ağırlıklarını 1-bit veya ternary gösterime dönüştürüyor
  • Difüzyon transformatörü boyutu orijinal 7.75GB'den 1-bit sürümde 0.93GB'a, ternary sürümde 1.21GB'a düşerek bellek bütçesi yükünü azaltıyor
  • iPhone 17 Pro Max'te 512×512 görüntüleri 9.4 saniyede üretiyor; Mac M4 Pro'da ise yaklaşık 6 saniye sürüyor ve MFLUX'a kıyasla 5.6 kata kadar hız sağlıyor
  • ternary sürüm, FLUX.2 Klein 4B'ye kıyasla %95 performansı koruyor ve iki varyant da Apache 2.0 açık ağırlıklar ve kod ile yayımlanacak

Yerel görüntü üretimi için Bonsai Image 4B

  • Bonsai Image 4B, dizüstü bilgisayarlardan telefonlara kadar yerel donanımlarda yüksek kaliteli difüzyon çıkarımı çalıştırmak için tasarlanmış küçük bir görüntü üretim modeli ailesidir
  • FLUX.2 Klein 4B tabanlıdır; mimari korunurken difüzyon transformatörü ağırlıkları 1-bit veya ternary biçimine dönüştürülmüştür
    • 1-bit Bonsai Image 4B, ikili {−1, +1} transformatör ağırlıkları ve FP16 grup bazlı ölçekleme faktörleri kullanarak ağırlık başına 1.125 etkin bit sunar
    • Ternary Bonsai Image 4B, {−1, 0, +1} transformatör ağırlıkları ve FP16 grup bazlı ölçekleme faktörleri kullanarak ağırlık başına 1.71 etkin bit sunar
  • ternary varyant, 1-bit sürümden daha büyük olsa da eklenen 0 durumu sayesinde görsel kaliteyi ve prompt bağlılığını artırır
  • Bonsai Image 4B, açık ağırlıklar ve yerel çıkarım aracılığıyla, bu sınıftaki modelleri çalıştırmakta zorlanan cihazlarda da görüntü üretimini mümkün kılacak bir dağıtım biçimini hedefliyor
  • PrismML'e göre Bonsai Image 4B, bu parametre sınıfındaki görüntü modelleri arasında iPhone'da doğrudan çalışan ilk modeldir

Yerel çalıştırma için bellek tasarrufu

  • Yerel görüntü üretimindeki temel kısıt, modelin cihaz bellek bütçesi içine sığması gerekliliğidir
  • 4B sınıfı görüntü modellerinde difüzyon transformatörü, modelin en büyük bölümüdür ve üretim sırasında her denoising adımında tekrar tekrar çalıştırılır
  • Transformatör boyutu, bellek baskısını, bant genişliği gereksinimini ve yerel çıkarım hızını doğrudan etkiler
  • FLUX.2 Klein 4B'nin difüzyon transformatörü 7.75GB iken, 1-bit Bonsai Image 4B 0.93GB ve Ternary Bonsai Image 4B 1.21GB'dir
  • 1-bit varyant, tam hassasiyetli FLUX.2 Klein 4B'ye kıyasla 8.3 kat, ternary varyant ise 6.4 kat daha küçüktür
  • İkili katmanların kendisi, tam hassasiyetli transformatör ağırlıklarına kıyasla yaklaşık 14 kat küçülür; ancak hassasiyete duyarlı yaklaşık %5'lik projection layer FP16 olarak korunur
  • ternary katmanlar yaklaşık 10 kat tasarruf sağlar ve nihai transformatör boyutu 1.21GB olur

Dağıtım payload'u ve çalışma zamanı belleği

  • Sıkıştırılmış metin kodlayıcı ve FP16 VAE içeren Apple Silicon dağıtım payload'u 1-bit için 3.42GB, ternary için 3.88GB'dir
  • Tam hassasiyetli FLUX.2 Klein 4B'nin dağıtım payload'u 15.97GB'dir
  • Çalışma zamanında prompt kodlamasından sonra metin kodlayıcı offload edildiği için ortalama bellek kullanımı toplam payload'dan daha düşük olur
  • 512×512 görüntü üretiminde ortalama etkin bellek 1-bit için 1.5GB, ternary için 1.96GB, orijinal FLUX.2 Klein 4B için 11.74GB'dir
  • 512×512 temelinde bellek azalma oranı 1-bit için 7.8 kat, ternary için 6.0 kattır
  • 1024×1024 görüntü üretiminde ortalama etkin bellek 1-bit için 1.95GB, ternary için 2.38GB, orijinal FLUX.2 Klein 4B için 14.39GB'dir
  • 1024×1024 temelinde bellek azalma oranı 1-bit için 7.4 kat, ternary için 6.0 kattır

Desteklenen donanım ve çalışma performansı

  • Dağıtım yığını Apple Silicon iPhone, iPad, Mac ve CUDA GPU'ları destekler
  • Apple donanımında MLX low-bit yolu, CUDA'da ise Gemlite low-bit GEMM kernel kullanılır
  • iPhone 17 Pro Max'te tam hassasiyetli FLUX.2 Klein 4B pipeline'ı cihaz bellek bütçesine sığmazken, Bonsai Image'ın iki varyantı da cihaz üzerinde çalışır
  • Bonsai Image 4B, iPhone 17 Pro Max'te 512×512 görüntüyü 9.4 saniyede üretir
  • Mac M4 Pro'da 512×512 görüntü yaklaşık 6 saniyede üretilir
  • Mac M4 Pro'da Bonsai Image 4B, varsayılan tam hassasiyetli MFLUX pipeline'ından 5.6 kata kadar daha hızlıdır

Benchmark performansı

  • Bonsai Image 4B, üç benchmark ile değerlendirildi: GenEval, HPSv3, DPG-Bench
  • GenEval nesne kompozisyonunu ve öznitelik bağlamayı, HPSv3 insan tercihlerini ve estetik kaliteyi, DPG-Bench ise yoğun prompt takibini ve anlamsal doğruluğu değerlendirir
  • Ternary Bonsai Image 4B, 1.21GB difüzyon transformatörü ile GenEval 0.723, HPSv3 12.22, DPG-Bench 0.851 skorlarına ulaştı
  • Ternary Bonsai Image 4B, FLUX.2 Klein 4B'ye kıyasla %95 performansı korurken difüzyon transformatörü boyutunu 6.4 kat küçültüyor
  • 1-bit Bonsai Image 4B, 0.93GB difüzyon transformatörü ile GenEval 0.671, HPSv3 11.15, DPG-Bench 0.822 skorlarına ulaştı
  • 1-bit Bonsai Image 4B, FLUX.2 Klein 4B'ye kıyasla %88 performansı korurken difüzyon transformatörünü 1GB'ın altına indiriyor
  • FLUX.2 Klein 4B, 7.75GB difüzyon transformatörü ile GenEval 0.819, HPSv3 12.84, DPG-Bench 0.853 skorlarına ulaştı
  • SDXL, 5.14GB difüzyon transformatörü ile GenEval 0.3, HPSv3 10.05, DPG-Bench 0.74 skorlarına ulaşıyor ve FLUX.2 Klein 4B'ye kıyasla %67 performans gösteriyor
  • BK-SDM-Small, 0.98GB difüzyon transformatörü ile GenEval 0.297, HPSv3 3.05, DPG-Bench 0.559 skorlarına ulaşıyor ve FLUX.2 Klein 4B'ye kıyasla %42 performans gösteriyor
  • Stable Diffusion 1.5, 1.72GB difüzyon transformatörü ile GenEval 0.396, HPSv3 4.2, DPG-Bench 0.601 skorlarına ulaşıyor ve FLUX.2 Klein 4B'ye kıyasla %51 performans gösteriyor
  • PixArt-Σ XL 2, 1.2GB difüzyon transformatörü ile GenEval 0.541, HPSv3 11.93, DPG-Bench 0.769 skorlarına ulaşıyor ve FLUX.2 Klein 4B'ye kıyasla %83 performans gösteriyor
  • İki Bonsai varyantı da modern 4B sınıfı görüntü modelleriyle rekabet ederken difüzyon transformatörü footprint'ini çok daha küçük tutuyor
  • Benzer bellek footprint'ine sahip daha küçük modellere göre daha yüksek performans sunarak, daha önce daha küçük ve daha düşük performanslı modellerin kapladığı bellek aralığına modern difüzyon transformatörü davranışını getiriyor

Yerel çıkarımın ürün açısından anlamı

  • Görüntü üretimi yalnızca model kalitesine değil, dağıtım biçimine de bağlıdır
  • Cloud API'ler birçok ürün için uygun olmaya devam etse de yalnızca bulut tabanlı üretim, tüm prompt'ları uzak isteklere dönüştürür ve her yinelemeye servis maliyeti ile gidiş-dönüş gecikmesi ekler
  • Görüntü üretimi doğal olarak yinelemelidir; kullanıcılar prompt'ları düzenler, sonuçları karşılaştırır, varyasyonlar üretir, başarısız sonuçları atar ve yeniden dener
  • Her deneme sunucu tarafı bir iş olduğunda, her yaratıcı döngüde kullanıcıların maliyeti hesaplaması ve beklemesi gerekir
  • Yerel çıkarım, model cihaza bir kez yerleştirildikten sonra üretim işlevinin doğrudan ürün deneyiminin içine konumlandırılmasını sağlar
  • Yerel çalışma yürütme maliyetini düşürür, yineleme hızını artırır ve prompt'ların ile üretilen varlıkların gizli kalması gereken ortamlarda kullanımı kolaylaştırır
  • Bonsai Image 4B, görüntü üretimi dağıtım biçiminin kullanıcıların zaten sahip olduğu donanım üzerinde onlara daha yakın bir yere taşınmasına doğru atılmış bir adımdır

Yayın biçimi ve kaynaklar

1 yorum

 
GN⁺ 3 시간 전
Hacker News görüşleri
  • 20 yıl önce, gördüğümüz ya da okuduğumuz şeylerin gerçek olup olmadığına güvenemeyeceğimiz bir geleceğin internetini bekleyen kimse yoktu sanırım
    Umarım bir gün bu döneme, Mad Men'de Draper ailesinin piknik çöpünü çimlerin üstüne bırakıp gittiği sahne gibi sapkın bir dönem olarak geri bakabiliriz

    • 20 yıl önce öğretmenler internetten hiçbir şeye güvenilemeyeceğini söyleyip Wikipedia kullanmamamızı söylerdi; ayrıca uygulama ya da web sitesinde tanıştığımız biriyle asla çıkmamamız gerektiğini de söylerlerdi. Öyle biri %100 katildir derlerdi ve bir de “internet porno içindir” sözü vardı
      Zamanla iyileşen çok şey oluyor ve insanlar yeni teknoloji ilk çıktığında toplumsal riskleri hep abartma eğiliminde oluyor
    • O piknik sahnesi: https://www.youtube.com/watch?v=FDIvzDGBLWU
    • O dönemde Narrative Science(https://en.wikipedia.org/wiki/Narrative_Science) etrafındaki tartışmaları hatırlamıyor gibisin
      Bu şirket üniversiteden çıkmış bir spin-off'tu ve sadece istatistiklerle inandırıcı beyzbol yazıları, sonrasında da finans haberleri yazabiliyordu. Yerel haber sitelerinin tüm maç yazılarını yayımlayabilmesini sağladığı için spor takipçileri açısından faydalıydı ve web trafiğini artıran temel bir itici güç olarak görülüyordu, ama “gerçek” olmadığı yönünde de çok eleştiri alıyordu
      Slate'in 2012'de bu konuda yazdığı yazı: https://slate.com/technology/2012/03/narrative-science-robot...
      Bilgisayarların ortaya çıkışından beri insanlar bilgisayarları insan gibi konuşturmaya çalışıyor ve konuştuğum ya da okuduğum şeyin insan taklidi yapan bir robot olup olmadığını dert etmek de yeni bir şey değil
    • Buna sapkın bir dönem demek biraz aşırı tepki gibi geliyor
    • Metinlerde ve görsellerde her zaman yanlış bilgi vardı; fotoğraflar da fotoğrafçılığın ortaya çıktığı andan beri manipüle edilebiliyordu
      Elbette daha kolay hâle geliyor ama niteliksel olarak tamamen farklı bir değişim değil. 20 yıl önce internette gördüğün her şeye olduğu gibi inanmak da bugünkü kadar gülünç olurdu
  • Pahalı abonelikler yerine donanımımı yükselterek kendi AI'ımı yükseltebileceğim geleceği gerçekten dört gözle bekliyorum
    Çözmek istediğim bazı problemler milyarlarca token gerektiriyor ve şu anda bir şirket projesi sponsorluğu olmadan buna erişmek pratikte imkânsız. Opus 4.6 seviyesinde kaliteyle saniyede on binlerce token üretebilen bir ASIC üretim makinesi yeterli olurdu

    • Taalas adında bir şirket buna benzer bir şey yapıyor. Opus 4.6 kalitesinde değil ama daha büyük modelleri hedefliyor gibi görünüyor
      Şu anda LLama 8B modeli kullanıyor, saniyede yaklaşık 17k token hızında çalışıyor ve https://chatjimmy.ai/ üzerinden test edilebiliyor
    • Böyle bir probleme bir örnek verebilir misin?
    • Donanım ve elektrik maliyetinin abonelik maliyetleriyle karşılaştırıldığında ne kadar olacağını merak ediyorum
    • Mantıken beş kişinin kaynaklarını birleştirmesi bir kişiden daha güçlüdür, bu yüzden veri merkezi her zaman kazanır
      Çünkü zaman kullanım oranı daha yüksektir. Ben de hep aynı hayali kuruyorum ama mantıken bunun bir yanılsama olduğunu düşünüyorum. Ortalama olarak donanımı daha iyi kullanan bir topluluktan daha fazla tüketemezsin
      Kişisel donanım da gelişecek ama en ileri seviye her zaman bulutta olacak
  • “1-bit” ifadesini görünce aklıma ilk gelen, 1 bit model ağırlıkları değil 1 bit dithering siyah-beyaz görüntü üretimi oldu
    Bu yüzden eğitim görsellerini ve çalışma alanını Floyd-Steinberg, Atkinson ya da tercih edilen başka bir algoritmayla dithering uygulanmış 1 bit görüntülerle sınırlarsak, diffusion tabanlı bir görüntü üreticisinin ne kadar havalı, hızlı ve sıkıştırılmış olacağını merak ettim
    Eğitim oldukça hızlı olurdu ve muhtemelen modern bir GPU'nun tekine sığardı

    • Yine de önce grayscale ile eğitip sonra dithering uygulamak daha iyi olur gibi geliyor
    • Ben de tam olarak aynı şeyi düşündüm; burada keşfedilecek epey ilginç fikir var gibi görünüyor
  • Gerçekten merakımdan soruyorum, bu gerçek bir problemi çözüyor mu?
    Diffusion modelleri kullanırken darboğazın depolama ya da bellek değil, üretim süresi olduğunu düşünüyorum. Birçok model 1080 nesli sonrası 8–12GB GPU'larda ya da benzer belleğe sahip Mac'lerde çalışıyor ve GPU performansı açısından bakınca zaten bu alt sınıra oldukça yakın. Üstelik bu modellerin, temel aldıkları daha küçük FLUX.2 modelinden biraz daha yavaş göründüğü de anlaşılıyor
    Elbette iPhone gibi nispeten güçlü GPU'su olup belleği kısıtlı cihazlarda yerel model çalıştırmayı mümkün kılabilir ama bu gerçekten yaygın bir ihtiyaç mı?

    • Faydalı bir ilerleme. Yerel ölçekte çıkarım ile fena sayılmayacak bir kalite elde edilebilirse, maliyet kaygısı olmadan sık sık çöpe atılabilecek görseller üreten bir ürün yapılabilir
      Şimdiye kadar gördüğüm tüm görüntü üretim ürünleri kullanım başına ücretliydi, bu da değerlerini ciddi biçimde sınırlıyor. Yalnız bunun gerçekten “fena sayılmayacak kalite” seviyesine ulaşıp ulaşmadığını bilmiyorum
    • Şu anda GPU talebinin aşırı yüksek, arzın ise kısıtlı olduğu bir dönemdeyiz. Çıkarımı her edge tarafa ittiğinde, bulut kaynakları başka işler için boşalıyor
      Verimlilik her arttığında mevcut kaynaklarla yapılabilecek iş miktarı da artıyor. Görselleri hesabın yarısıyla render edebiliyorsan GPU'nun da yarısına ihtiyaç duyarsın
    • 8–12GB 1080 nesli GPU'lar ya da benzer belleğe sahip Mac'ler alt sınır değil. Çoğu kişi bundan çok daha zayıf GPU'lu dizüstü ya da mobil cihazlar kullanıyor
    • Mevcut değeri, gerçek kullanımdan çok akademik değere daha yakın görünüyor
      En ön saftaki modeller bile hâlâ zar zor kullanılabilir seviyede ve görüntü üretiminde en iyi modeller bile çoğu zaman berbat sonuçlar veriyor. Bu yüzden yetenek açısından ön saftakilerin epey gerisinde kalması kaçınılmaz olan küçük 1 bit modellerin şu anda kullanışlı olduğunu düşünmüyorum
      Ama hesap birimi başına yetenek yoğunluğunu ciddi biçimde artırmak çok anlamlı. Bu sayede en ön saftaki modeller daha iyi ve daha ucuz çalıştırılabilir, kaynak tüketimi azaltılabilir ve kişisel dizüstüler ya da telefonlar gibi edge cihazlarda yapılabilecek işlerin kapsamı genişleyebilir
      Gizlilik açısından da cihaz üstünde çalışması gereken pek çok görev var ve herkesin büyük, özel bir GPU'su yok
    • Evet. Boyut ve performans sadece yerel LLM'lerin değil, OpenAI ve Anthropic gibi ön saftaki LLM şirketlerinin de sorunu
      Anthropic gibi şirketler hâlâ çıkarım tarafında devasa zarar yazıyor; verimli ama güçlü modellerdeki gelişmeler kârlılığa yardımcı olur
  • “Bildiğimiz kadarıyla Bonsai Image 4B, bu parametre ölçeğinde doğrudan iPhone üzerinde çalışan ilk görüntü modeli” cümlesi yanlış. Ama tamamen yanlış olmaması için temkinli bir ifadeyle kurulmuş
    FLUX.2 [klein] 4B, yani aynı parametre ölçeğindeki ve esasen aynı model olan sürüm, Draw Things uygulaması üzerinden iPhone'da çalışıyor. 8 bit ya da 6 bit quantization kullandığı için “doğrudan” sayılmaz denebilir ama bu teknik kaçamak kulağa biraz şüpheli geliyor

  • Diffusion modeli deniyor ama temelindeki Flux.2, bir rectified flow modeli

    • Bana kalırsa “diffusion” terimini bu ailenin tamamı için kullanmakta sorun yok
  • Tuhaf. Birleşik Krallık'tan ziyaretçiyim ve bende şu görünüyor:
    Website Not Allowed
    “⁦‪prismml.com‬⁩” is a restricted website.

  • Bir gün içinde biri bu 1 bit model için LoRA eğitip Apple Watch'ta hentai içerik ürettirecek

  • Yerel dosya sistemiyle uğraşmadan çalıştırmak istiyorsan https://github.com/kordless/bonsai-docker kullanabilirsin

  • Web demosundaki kodu çıkarıp tarayıcı içi AI iş akışı aracına web görüntü üretim düğümü olarak bağladım, gayet iyi çalışıyor
    xenova'nın bunu transformersjs 4.3'e eklemesini bekliyorum; o zaman ben de yayımlayacağım. Test etmek için bekleyemedim, önce kendim denedim

    • Şu tarayıcı içi AI iş akışı aracını biraz anlatabilir misin? Ben de benzer bir şey geliştiriyor olabilirim; bu alanda başkalarının neler yaptığını gerçekten çok merak ediyorum