FLUX.2 [klein]: Etkileşimli görsel zekaya doğru

(bfl.ai)

5 puan yazan GN⁺ 2026-01-19 | 2 yorum | WhatsApp'ta paylaş

FLUX.2 [klein], görüntü üretimi ve düzenlemeyi birleştiren ultra hızlı görsel üretim model ailesi olup, 1 saniyenin altında çıkarım hızı ve tüketici sınıfı GPU uyumluluğu sunar
Metinden görüntüye, görüntü düzenleme ve çoklu referans üretim yeteneklerini tek bir mimaride desteklerken kaliteyi büyük modeller seviyesinde korur
9B model FLUX NCL lisansı, 4B model ise Apache 2.0 lisansı ile yayımlandı; bu da geliştirici erişimini ve özelleştirmeyi kolaylaştırıyor
FP8 ve NVFP4 nicemlenmiş sürümler, NVIDIA iş birliğiyle hazırlanarak VRAM kullanımını %55'e kadar azaltıyor ve hızı 2,7 kata kadar artırıyor
Gerçek zamanlı üretim ve etkileşimi hedefleyen 'etkileşimli görsel zeka' vizyonuna doğru bir adım olarak, gerçek zamanlı tasarım ve içerik üretim araçlarında kullanılabilir

FLUX.2 [klein] genel bakış

FLUX.2 [klein], Black Forest Labs'ın yayımladığı en hızlı görüntü üretim model ailesi olarak, üretim ve düzenlemeyi tek bir yapıda birleştiriyor
- Uçtan uca çıkarım hızı 1 saniyenin altında ve yüksek kaliteli görüntüleri gerçek zamanlı üretebiliyor
- Yalnızca 13GB VRAM ile çalışabildiği için RTX 3090/4070 sınıfı GPU'larda da çalıştırılabiliyor
'klein' model adı Almancada 'küçük' anlamına geliyor ve küçük yapı ile düşük gecikmeyi ifade ediyor
- Buna rağmen performansı büyük modellerle boy ölçüşüyor ve metinden görüntü üretimi, düzenleme ve çoklu referans üretimini birlikte destekliyor

Öne çıkan özellikler

0,5 saniyenin altında çıkarım ile görüntü üretimi veya düzenleme
Fotoğraf düzeyinde gerçekçilik ve yüksek çeşitlilik
Birleşik model yapısı sayesinde metinden görüntüye, görüntüden görüntüye ve çoklu referans görevlerini tek modelde yürütme
Tüketici GPU uyumluluğu: 4B model yaklaşık 13GB VRAM üzerinde çalışıyor
Geliştirici dostu lisanslama: 4B model Apache 2.0, 9B model FLUX NCL ile sunuluyor
API ve açık ağırlıklar sayesinde yerelde çalıştırma ve üretim ortamına dağıtım mümkün

Model yapısı

FLUX.2 [klein] 9B

Kalite ve gecikme dengesini tanımlayan amiral gemisi model
- Metinden görüntüye, tek referanslı düzenleme ve çoklu referans üretiminde 5 kat daha büyük modellerle eşdeğer veya daha iyi performans
- 0,5 saniyenin altında çıkarım hızı
- 9B flow modeli ve 8B Qwen3 metin gömücü temelli
- Verimliliği en üst düzeye çıkaran 4 adımlı çıkarım (step-distilled) yapı
Lisans: FLUX NCL

FLUX.2 [klein] 4B

Apache 2.0 lisansı ile tamamen açık yayımlanan model
- RTX 3090/4070 gibi tüketici GPU'larında çalışabiliyor
- Metinden görüntüye (T2I), görüntüden görüntüye (I2I) ve çoklu referans üretimi desteği
- Küçük olmasına rağmen boyutuna göre yüksek kalite sunuyor
- Yerel geliştirme ve edge dağıtımı için uygun

FLUX.2 [klein] Base 9B / 4B

Eğitim sinyalini tamamen koruyan damıtılmamış (full-capacity) sürümler
- İnce ayar, LoRA eğitimi ve araştırma odaklı pipeline'lar için uygun
- Damıtılmış modellere göre çıktı çeşitliliği daha yüksek
Lisans: 4B Base için Apache 2.0, 9B Base için FLUX NCL

Nicemlenmiş sürümler

NVIDIA ile iş birliği içinde FP8 ve NVFP4 sürümleri yayımlandı
- FP8: 1,6 kata kadar daha hızlı ve %40 daha az VRAM
- NVFP4: 2,7 kata kadar daha hızlı ve %55 daha az VRAM
- Karşılaştırmalar RTX 5080/5090 üzerinde 1024×1024 T2I benchmark ile yapıldı
Aynı lisans yapısı korunuyor: 4B için Apache 2.0, 9B için FLUX NCL

Performans analizi

FLUX.2 [klein], Qwen'e kıyasla daha düşük gecikme ve VRAM kullanımıyla eşdeğer veya daha iyi kalite sunuyor
Z-Image'dan daha iyi performans gösterirken, metinden görüntüye ve çoklu referans düzenlemeyi tek modelde destekliyor
Base sürümleri, hız açısından biraz daha yavaş olsa da özelleştirme ve araştırma uygunluğu daha yüksek
Hız ölçümleri GB200 (bf16) ortamında gerçekleştirildi

Etkileşimli görsel zeka vizyonu

FLUX.2 [klein], yalnızca hız artışı değil, gerçek zamanlı etkileşimli görsel zekaya doğru bir ilerleme anlamına geliyor
Yapay zekanın görebildiği, yaratabildiği ve yineleme yapabildiği sistemleri hedefliyor
Bu sayede gerçek zamanlı tasarım araçları, görsel akıl yürütme ve etkileşimli içerik üretimi gibi yeni uygulama alanları mümkün hale geliyor

Kaynaklar ve erişim yolları

Deneme: Demo, Playground
Hugging Face Space: klein 9B, klein 4B
Geliştirici kaynakları: Dokümantasyon, GitHub, Model ağırlıkları
Ek bilgi: Resmî model sayfası

2 yorum

yangeok 2026-01-19

Ah, Mac'te olmayacak galiba. No GPU or XPU found diyor haha,,

GN⁺ 2026-01-19

Hacker News yorumları

Henüz GenAI Showdown siteme Klein'ı ekleyemedim
Ama Z-Image Turbo'ya benziyorsa performansı çok güçlü olacaktır
Referans olması açısından, Z-Image Turbo 15 üzerinden 4 puan aldı; çok daha büyük bir model olan Flux.2 (32b) ise bundan sadece 1 puan fazla aldığı düşünülürse bu oldukça etkileyici
Yerel model karşılaştırma sonuçlarına buradan bakılabilir
- Mobilde bilgi balonuna dokununca hemen kaybolma sorunu var. Düzeltilmesi istendi
- Test yönteminde sorun olduğunu düşünüyorum. Büyük modeller çok daha fazla ince ayarlı öğrenme yeteneğine ve CGI render mantığını anlama becerisine sahip
  Yapılandırılmış veri tabanlı testler yanlış bir güven duygusu verebilir. Artık basit text-to-image iyi bir benchmark değil
Modeller küçülürken kalite ve verimliliğin artması şaşırtıcı
Z-Image Turbo gerçekten etkileyici ve bu modeli de bir an önce denemek istiyorum
İlgili eski başlık burada görülebilir
- Küçük modeller için de bir eşik noktası var gibi görünüyor
  100GB'lık bir modeli indirmek ve çalıştırmak zor ama 4GB'lık bir modeli çoğu geliştirici hemen deneyebilir
- Kalite yükseliyor ama küçük modellerin, büyük modellere kıyasla (Qwen Image, Flux 2 Full) hâlâ bilgi birikimi eksik
  Özellikle insan, sanatçı ve belirli nesnelerin tasvirinde fark büyük
- Belirli bir çıktı kalitesi için gerekli asgari parametre sayısı diye bir şey olup olmadığını merak ediyorum
  GPT 3.5'ten sonra Deepseek çok daha düşük maliyetle eğitildi ve artık dizüstünde bile 3.5'i aşan modeller çalışıyor. Bunun nereye kadar küçülebileceği merak konusu
Bu model pogo stick görseli oluşturamıyor
“Bir kaplanın pogo stick üzerinde zıpladığı” bir görsel denedim ama pogo stick'in kendisini bile üretemedi
- Boş bir şarap kadehi görseli verip şarapla doldurmasını isteseniz de başarısız oluyor
  Bu tür fiziksel manipülasyonlar modelin hâlâ yapamadığı şeyler olduğu için ilgili meslekler bir süre daha güvende gibi
- Yerel modeller için zor bir test. gpt-image ya da NB bunu yaptı ama Qwen-Image ancak yakın sonuç verdi
  Çeşitli model örnekleri burada görülebilir
  Küçük modeller, pogo stick gibi belirli nesneleri ifade etmek için ek promptlara ihtiyaç duyuyor
- Referans görsel verseniz bile hâlâ başarısız oluyor.
  Model yeterli akıl yürütme yeteneğine sahip olsaydı, dış referans görsellerle bilgisini tamamlayabilirdi ama şimdilik bu eksik
- İyi bir benchmark promptu. Z-Image Turbo da pogo stick çizmekte pek başarılı değil
  Kaplan örneği, bu bir pogo stick değil, Nano Banana Pro örneği
FLUX.2 [klein] 4B, Klein ailesindeki en hızlı sürüm ve gerçek zamanlı önizleme ya da gecikmenin kritik olduğu prodüksiyon ortamları için tasarlanmış deniyor
Bunun tam olarak hangi durumlar olduğunu merak ediyorum
- Yerel model kullanırken tek bir görsel üretmek için 10 dakika beklemek istemiyorum
  Özellikle görsel düzenleme işlerinde hız önemli
- Muhtemelen hızlı görsel düzenleme için uygun olacaktır
İlk başta bunun gece ekranı turuncuya çeviren F.lux uygulamasıyla ilgili olduğunu sandım
Artık neredeyse tüm işletim sistemlerinde varsayılan özellik olarak geldiği için buna ihtiyaç kalmadı
GenAI modellerini birer sıkıştırılmış uygulama gibi düşünürsek, metin iyi sıkıştırılıyor ama görsel ve video için aynı şey söylenemez
Buna rağmen son text-to-image ve text-to-video modelleri, Llama-3 gibi LLM'lerden çok daha küçük
Bunun nedeni, görsel dünyanın yalnızca insan merkezli dar bir bölümünü öğrenmiş olmamız olabilir. Hâlâ keşfedilmemiş çok büyük bir görsel kombinasyon alanı var
- Metin kayıpsız sıkıştırılabilir ama görsel ve videoda çok fazla gürültü olduğu için birebir karşılaştırma adil değil
  İnsanların ayırt edemeyeceği düzeyde kayıplı sıkıştırma kabul edilirse, görsel tarafı aslında daha verimli olabilir
- Aslında görsel ve video, metinden çok daha iyi sıkıştırılır
  Metin genelde 4:1 ila 6:1 düzeyindeyken, görseller 10:1'in üzerinde bile görsel olarak kayıpsıza yakın olabilir; video ise zamansal tutarlılık sayesinde daha da verimlidir
- LLM'lerde hâlâ verimlilik artışı için büyük alan olduğunu düşünüyorum
  Aynı zamanda LLM'lerin örtük olarak taşıdığı meta bilgi miktarını da küçümsememek gerekir
Acaba burada Flux 2 Klein kullanmış olan var mı
Ben artık yeni modellerin peşinden koşmuyorum; tüm uygulamamı tek başına Nano Banana Pro üzerine kuruyorum
Sonuçlar fazlasıyla tatmin edici
picxstudio.com
Flux 1 ile gerçekten çok eğlendim, şu an da Z-Image Turbo ile oynuyorum
Invoke'a Flux2 Klein eklenince deneyeceğim
- Katılıyorum. Invoke içinde ZIT kullanma deneyimi harikaydı
GPT sürümüyle karşılaştırıldığında etkileşim yeteneğinin nasıl olduğunu merak ediyorum
Küçük bir sürüm olmasına rağmen açık kaynak olarak yayımlanmış olmasını beğendim
Devasa bütçeler olmadan da çalıştırılabildiği için daha fazla fırsat doğuyor
Hız artışı da oldukça etkileyici

FLUX.2 [klein]: Etkileşimli görsel zekaya doğru

FLUX.2 [klein] genel bakış

Öne çıkan özellikler

Model yapısı

FLUX.2 [klein] 9B

FLUX.2 [klein] 4B

FLUX.2 [klein] Base 9B / 4B

Nicemlenmiş sürümler

Performans analizi

Etkileşimli görsel zeka vizyonu

Kaynaklar ve erişim yolları

İlgili okumalar

2 yorum

Hacker News yorumları