- FLUX.2 [klein], görüntü üretimi ve düzenlemeyi birleştiren ultra hızlı görsel üretim model ailesi olup, 1 saniyenin altında çıkarım hızı ve tüketici sınıfı GPU uyumluluğu sunar
- Metinden görüntüye, görüntü düzenleme ve çoklu referans üretim yeteneklerini tek bir mimaride desteklerken kaliteyi büyük modeller seviyesinde korur
- 9B model FLUX NCL lisansı, 4B model ise Apache 2.0 lisansı ile yayımlandı; bu da geliştirici erişimini ve özelleştirmeyi kolaylaştırıyor
- FP8 ve NVFP4 nicemlenmiş sürümler, NVIDIA iş birliğiyle hazırlanarak VRAM kullanımını %55'e kadar azaltıyor ve hızı 2,7 kata kadar artırıyor
- Gerçek zamanlı üretim ve etkileşimi hedefleyen 'etkileşimli görsel zeka' vizyonuna doğru bir adım olarak, gerçek zamanlı tasarım ve içerik üretim araçlarında kullanılabilir
FLUX.2 [klein] genel bakış
- FLUX.2 [klein], Black Forest Labs'ın yayımladığı en hızlı görüntü üretim model ailesi olarak, üretim ve düzenlemeyi tek bir yapıda birleştiriyor
- Uçtan uca çıkarım hızı 1 saniyenin altında ve yüksek kaliteli görüntüleri gerçek zamanlı üretebiliyor
- Yalnızca 13GB VRAM ile çalışabildiği için RTX 3090/4070 sınıfı GPU'larda da çalıştırılabiliyor
- 'klein' model adı Almancada 'küçük' anlamına geliyor ve küçük yapı ile düşük gecikmeyi ifade ediyor
- Buna rağmen performansı büyük modellerle boy ölçüşüyor ve metinden görüntü üretimi, düzenleme ve çoklu referans üretimini birlikte destekliyor
Öne çıkan özellikler
- 0,5 saniyenin altında çıkarım ile görüntü üretimi veya düzenleme
- Fotoğraf düzeyinde gerçekçilik ve yüksek çeşitlilik
- Birleşik model yapısı sayesinde metinden görüntüye, görüntüden görüntüye ve çoklu referans görevlerini tek modelde yürütme
- Tüketici GPU uyumluluğu: 4B model yaklaşık 13GB VRAM üzerinde çalışıyor
- Geliştirici dostu lisanslama: 4B model Apache 2.0, 9B model FLUX NCL ile sunuluyor
- API ve açık ağırlıklar sayesinde yerelde çalıştırma ve üretim ortamına dağıtım mümkün
Model yapısı
FLUX.2 [klein] 9B
- Kalite ve gecikme dengesini tanımlayan amiral gemisi model
- Metinden görüntüye, tek referanslı düzenleme ve çoklu referans üretiminde 5 kat daha büyük modellerle eşdeğer veya daha iyi performans
- 0,5 saniyenin altında çıkarım hızı
- 9B flow modeli ve 8B Qwen3 metin gömücü temelli
- Verimliliği en üst düzeye çıkaran 4 adımlı çıkarım (step-distilled) yapı
- Lisans: FLUX NCL
FLUX.2 [klein] 4B
- Apache 2.0 lisansı ile tamamen açık yayımlanan model
- RTX 3090/4070 gibi tüketici GPU'larında çalışabiliyor
- Metinden görüntüye (T2I), görüntüden görüntüye (I2I) ve çoklu referans üretimi desteği
- Küçük olmasına rağmen boyutuna göre yüksek kalite sunuyor
- Yerel geliştirme ve edge dağıtımı için uygun
FLUX.2 [klein] Base 9B / 4B
- Eğitim sinyalini tamamen koruyan damıtılmamış (full-capacity) sürümler
- İnce ayar, LoRA eğitimi ve araştırma odaklı pipeline'lar için uygun
- Damıtılmış modellere göre çıktı çeşitliliği daha yüksek
- Lisans: 4B Base için Apache 2.0, 9B Base için FLUX NCL
Nicemlenmiş sürümler
- NVIDIA ile iş birliği içinde FP8 ve NVFP4 sürümleri yayımlandı
- FP8: 1,6 kata kadar daha hızlı ve %40 daha az VRAM
- NVFP4: 2,7 kata kadar daha hızlı ve %55 daha az VRAM
- Karşılaştırmalar RTX 5080/5090 üzerinde 1024×1024 T2I benchmark ile yapıldı
- Aynı lisans yapısı korunuyor: 4B için Apache 2.0, 9B için FLUX NCL
Performans analizi
- FLUX.2 [klein], Qwen'e kıyasla daha düşük gecikme ve VRAM kullanımıyla eşdeğer veya daha iyi kalite sunuyor
- Z-Image'dan daha iyi performans gösterirken, metinden görüntüye ve çoklu referans düzenlemeyi tek modelde destekliyor
- Base sürümleri, hız açısından biraz daha yavaş olsa da özelleştirme ve araştırma uygunluğu daha yüksek
- Hız ölçümleri GB200 (bf16) ortamında gerçekleştirildi
Etkileşimli görsel zeka vizyonu
- FLUX.2 [klein], yalnızca hız artışı değil, gerçek zamanlı etkileşimli görsel zekaya doğru bir ilerleme anlamına geliyor
- Yapay zekanın görebildiği, yaratabildiği ve yineleme yapabildiği sistemleri hedefliyor
- Bu sayede gerçek zamanlı tasarım araçları, görsel akıl yürütme ve etkileşimli içerik üretimi gibi yeni uygulama alanları mümkün hale geliyor
Kaynaklar ve erişim yolları
2 yorum
Ah, Mac'te olmayacak galiba.
No GPU or XPU founddiyor haha,,Hacker News yorumları
Henüz GenAI Showdown siteme Klein'ı ekleyemedim
Ama Z-Image Turbo'ya benziyorsa performansı çok güçlü olacaktır
Referans olması açısından, Z-Image Turbo 15 üzerinden 4 puan aldı; çok daha büyük bir model olan Flux.2 (32b) ise bundan sadece 1 puan fazla aldığı düşünülürse bu oldukça etkileyici
Yerel model karşılaştırma sonuçlarına buradan bakılabilir
Yapılandırılmış veri tabanlı testler yanlış bir güven duygusu verebilir. Artık basit text-to-image iyi bir benchmark değil
Modeller küçülürken kalite ve verimliliğin artması şaşırtıcı
Z-Image Turbo gerçekten etkileyici ve bu modeli de bir an önce denemek istiyorum
İlgili eski başlık burada görülebilir
100GB'lık bir modeli indirmek ve çalıştırmak zor ama 4GB'lık bir modeli çoğu geliştirici hemen deneyebilir
Özellikle insan, sanatçı ve belirli nesnelerin tasvirinde fark büyük
GPT 3.5'ten sonra Deepseek çok daha düşük maliyetle eğitildi ve artık dizüstünde bile 3.5'i aşan modeller çalışıyor. Bunun nereye kadar küçülebileceği merak konusu
Bu model pogo stick görseli oluşturamıyor
“Bir kaplanın pogo stick üzerinde zıpladığı” bir görsel denedim ama pogo stick'in kendisini bile üretemedi
Bu tür fiziksel manipülasyonlar modelin hâlâ yapamadığı şeyler olduğu için ilgili meslekler bir süre daha güvende gibi
Çeşitli model örnekleri burada görülebilir
Küçük modeller,
pogo stickgibi belirli nesneleri ifade etmek için ek promptlara ihtiyaç duyuyorModel yeterli akıl yürütme yeteneğine sahip olsaydı, dış referans görsellerle bilgisini tamamlayabilirdi ama şimdilik bu eksik
Kaplan örneği, bu bir pogo stick değil, Nano Banana Pro örneği
FLUX.2 [klein] 4B, Klein ailesindeki en hızlı sürüm ve gerçek zamanlı önizleme ya da gecikmenin kritik olduğu prodüksiyon ortamları için tasarlanmış deniyor
Bunun tam olarak hangi durumlar olduğunu merak ediyorum
Özellikle görsel düzenleme işlerinde hız önemli
İlk başta bunun gece ekranı turuncuya çeviren F.lux uygulamasıyla ilgili olduğunu sandım
Artık neredeyse tüm işletim sistemlerinde varsayılan özellik olarak geldiği için buna ihtiyaç kalmadı
GenAI modellerini birer sıkıştırılmış uygulama gibi düşünürsek, metin iyi sıkıştırılıyor ama görsel ve video için aynı şey söylenemez
Buna rağmen son text-to-image ve text-to-video modelleri, Llama-3 gibi LLM'lerden çok daha küçük
Bunun nedeni, görsel dünyanın yalnızca insan merkezli dar bir bölümünü öğrenmiş olmamız olabilir. Hâlâ keşfedilmemiş çok büyük bir görsel kombinasyon alanı var
İnsanların ayırt edemeyeceği düzeyde kayıplı sıkıştırma kabul edilirse, görsel tarafı aslında daha verimli olabilir
Metin genelde 4:1 ila 6:1 düzeyindeyken, görseller 10:1'in üzerinde bile görsel olarak kayıpsıza yakın olabilir; video ise zamansal tutarlılık sayesinde daha da verimlidir
Aynı zamanda LLM'lerin örtük olarak taşıdığı meta bilgi miktarını da küçümsememek gerekir
Acaba burada Flux 2 Klein kullanmış olan var mı
Ben artık yeni modellerin peşinden koşmuyorum; tüm uygulamamı tek başına Nano Banana Pro üzerine kuruyorum
Sonuçlar fazlasıyla tatmin edici
picxstudio.com
Flux 1 ile gerçekten çok eğlendim, şu an da Z-Image Turbo ile oynuyorum
Invoke'a Flux2 Klein eklenince deneyeceğim
GPT sürümüyle karşılaştırıldığında etkileşim yeteneğinin nasıl olduğunu merak ediyorum
Küçük bir sürüm olmasına rağmen açık kaynak olarak yayımlanmış olmasını beğendim
Devasa bütçeler olmadan da çalıştırılabildiği için daha fazla fırsat doğuyor
Hız artışı da oldukça etkileyici