5 puan yazan GN⁺ 2026-01-19 | 2 yorum | WhatsApp'ta paylaş
  • FLUX.2 [klein], görüntü üretimi ve düzenlemeyi birleştiren ultra hızlı görsel üretim model ailesi olup, 1 saniyenin altında çıkarım hızı ve tüketici sınıfı GPU uyumluluğu sunar
  • Metinden görüntüye, görüntü düzenleme ve çoklu referans üretim yeteneklerini tek bir mimaride desteklerken kaliteyi büyük modeller seviyesinde korur
  • 9B model FLUX NCL lisansı, 4B model ise Apache 2.0 lisansı ile yayımlandı; bu da geliştirici erişimini ve özelleştirmeyi kolaylaştırıyor
  • FP8 ve NVFP4 nicemlenmiş sürümler, NVIDIA iş birliğiyle hazırlanarak VRAM kullanımını %55'e kadar azaltıyor ve hızı 2,7 kata kadar artırıyor
  • Gerçek zamanlı üretim ve etkileşimi hedefleyen 'etkileşimli görsel zeka' vizyonuna doğru bir adım olarak, gerçek zamanlı tasarım ve içerik üretim araçlarında kullanılabilir

FLUX.2 [klein] genel bakış

  • FLUX.2 [klein], Black Forest Labs'ın yayımladığı en hızlı görüntü üretim model ailesi olarak, üretim ve düzenlemeyi tek bir yapıda birleştiriyor
    • Uçtan uca çıkarım hızı 1 saniyenin altında ve yüksek kaliteli görüntüleri gerçek zamanlı üretebiliyor
    • Yalnızca 13GB VRAM ile çalışabildiği için RTX 3090/4070 sınıfı GPU'larda da çalıştırılabiliyor
  • 'klein' model adı Almancada 'küçük' anlamına geliyor ve küçük yapı ile düşük gecikmeyi ifade ediyor
    • Buna rağmen performansı büyük modellerle boy ölçüşüyor ve metinden görüntü üretimi, düzenleme ve çoklu referans üretimini birlikte destekliyor

Öne çıkan özellikler

  • 0,5 saniyenin altında çıkarım ile görüntü üretimi veya düzenleme
  • Fotoğraf düzeyinde gerçekçilik ve yüksek çeşitlilik
  • Birleşik model yapısı sayesinde metinden görüntüye, görüntüden görüntüye ve çoklu referans görevlerini tek modelde yürütme
  • Tüketici GPU uyumluluğu: 4B model yaklaşık 13GB VRAM üzerinde çalışıyor
  • Geliştirici dostu lisanslama: 4B model Apache 2.0, 9B model FLUX NCL ile sunuluyor
  • API ve açık ağırlıklar sayesinde yerelde çalıştırma ve üretim ortamına dağıtım mümkün

Model yapısı

FLUX.2 [klein] 9B

  • Kalite ve gecikme dengesini tanımlayan amiral gemisi model
    • Metinden görüntüye, tek referanslı düzenleme ve çoklu referans üretiminde 5 kat daha büyük modellerle eşdeğer veya daha iyi performans
    • 0,5 saniyenin altında çıkarım hızı
    • 9B flow modeli ve 8B Qwen3 metin gömücü temelli
    • Verimliliği en üst düzeye çıkaran 4 adımlı çıkarım (step-distilled) yapı
  • Lisans: FLUX NCL

FLUX.2 [klein] 4B

  • Apache 2.0 lisansı ile tamamen açık yayımlanan model
    • RTX 3090/4070 gibi tüketici GPU'larında çalışabiliyor
    • Metinden görüntüye (T2I), görüntüden görüntüye (I2I) ve çoklu referans üretimi desteği
    • Küçük olmasına rağmen boyutuna göre yüksek kalite sunuyor
    • Yerel geliştirme ve edge dağıtımı için uygun

FLUX.2 [klein] Base 9B / 4B

  • Eğitim sinyalini tamamen koruyan damıtılmamış (full-capacity) sürümler
    • İnce ayar, LoRA eğitimi ve araştırma odaklı pipeline'lar için uygun
    • Damıtılmış modellere göre çıktı çeşitliliği daha yüksek
  • Lisans: 4B Base için Apache 2.0, 9B Base için FLUX NCL

Nicemlenmiş sürümler

  • NVIDIA ile iş birliği içinde FP8 ve NVFP4 sürümleri yayımlandı
    • FP8: 1,6 kata kadar daha hızlı ve %40 daha az VRAM
    • NVFP4: 2,7 kata kadar daha hızlı ve %55 daha az VRAM
    • Karşılaştırmalar RTX 5080/5090 üzerinde 1024×1024 T2I benchmark ile yapıldı
  • Aynı lisans yapısı korunuyor: 4B için Apache 2.0, 9B için FLUX NCL

Performans analizi

  • FLUX.2 [klein], Qwen'e kıyasla daha düşük gecikme ve VRAM kullanımıyla eşdeğer veya daha iyi kalite sunuyor
  • Z-Image'dan daha iyi performans gösterirken, metinden görüntüye ve çoklu referans düzenlemeyi tek modelde destekliyor
  • Base sürümleri, hız açısından biraz daha yavaş olsa da özelleştirme ve araştırma uygunluğu daha yüksek
  • Hız ölçümleri GB200 (bf16) ortamında gerçekleştirildi

Etkileşimli görsel zeka vizyonu

  • FLUX.2 [klein], yalnızca hız artışı değil, gerçek zamanlı etkileşimli görsel zekaya doğru bir ilerleme anlamına geliyor
  • Yapay zekanın görebildiği, yaratabildiği ve yineleme yapabildiği sistemleri hedefliyor
  • Bu sayede gerçek zamanlı tasarım araçları, görsel akıl yürütme ve etkileşimli içerik üretimi gibi yeni uygulama alanları mümkün hale geliyor

Kaynaklar ve erişim yolları


2 yorum

 
yangeok 2026-01-19

Ah, Mac'te olmayacak galiba. No GPU or XPU found diyor haha,,

 
GN⁺ 2026-01-19
Hacker News yorumları
  • Henüz GenAI Showdown siteme Klein'ı ekleyemedim
    Ama Z-Image Turbo'ya benziyorsa performansı çok güçlü olacaktır
    Referans olması açısından, Z-Image Turbo 15 üzerinden 4 puan aldı; çok daha büyük bir model olan Flux.2 (32b) ise bundan sadece 1 puan fazla aldığı düşünülürse bu oldukça etkileyici
    Yerel model karşılaştırma sonuçlarına buradan bakılabilir

    • Mobilde bilgi balonuna dokununca hemen kaybolma sorunu var. Düzeltilmesi istendi
    • Test yönteminde sorun olduğunu düşünüyorum. Büyük modeller çok daha fazla ince ayarlı öğrenme yeteneğine ve CGI render mantığını anlama becerisine sahip
      Yapılandırılmış veri tabanlı testler yanlış bir güven duygusu verebilir. Artık basit text-to-image iyi bir benchmark değil
  • Modeller küçülürken kalite ve verimliliğin artması şaşırtıcı
    Z-Image Turbo gerçekten etkileyici ve bu modeli de bir an önce denemek istiyorum
    İlgili eski başlık burada görülebilir

    • Küçük modeller için de bir eşik noktası var gibi görünüyor
      100GB'lık bir modeli indirmek ve çalıştırmak zor ama 4GB'lık bir modeli çoğu geliştirici hemen deneyebilir
    • Kalite yükseliyor ama küçük modellerin, büyük modellere kıyasla (Qwen Image, Flux 2 Full) hâlâ bilgi birikimi eksik
      Özellikle insan, sanatçı ve belirli nesnelerin tasvirinde fark büyük
    • Belirli bir çıktı kalitesi için gerekli asgari parametre sayısı diye bir şey olup olmadığını merak ediyorum
      GPT 3.5'ten sonra Deepseek çok daha düşük maliyetle eğitildi ve artık dizüstünde bile 3.5'i aşan modeller çalışıyor. Bunun nereye kadar küçülebileceği merak konusu
  • Bu model pogo stick görseli oluşturamıyor
    “Bir kaplanın pogo stick üzerinde zıpladığı” bir görsel denedim ama pogo stick'in kendisini bile üretemedi

    • Boş bir şarap kadehi görseli verip şarapla doldurmasını isteseniz de başarısız oluyor
      Bu tür fiziksel manipülasyonlar modelin hâlâ yapamadığı şeyler olduğu için ilgili meslekler bir süre daha güvende gibi
    • Yerel modeller için zor bir test. gpt-image ya da NB bunu yaptı ama Qwen-Image ancak yakın sonuç verdi
      Çeşitli model örnekleri burada görülebilir
      Küçük modeller, pogo stick gibi belirli nesneleri ifade etmek için ek promptlara ihtiyaç duyuyor
    • Referans görsel verseniz bile hâlâ başarısız oluyor.
      Model yeterli akıl yürütme yeteneğine sahip olsaydı, dış referans görsellerle bilgisini tamamlayabilirdi ama şimdilik bu eksik
    • İyi bir benchmark promptu. Z-Image Turbo da pogo stick çizmekte pek başarılı değil
      Kaplan örneği, bu bir pogo stick değil, Nano Banana Pro örneği
  • FLUX.2 [klein] 4B, Klein ailesindeki en hızlı sürüm ve gerçek zamanlı önizleme ya da gecikmenin kritik olduğu prodüksiyon ortamları için tasarlanmış deniyor
    Bunun tam olarak hangi durumlar olduğunu merak ediyorum

    • Yerel model kullanırken tek bir görsel üretmek için 10 dakika beklemek istemiyorum
      Özellikle görsel düzenleme işlerinde hız önemli
    • Muhtemelen hızlı görsel düzenleme için uygun olacaktır
  • İlk başta bunun gece ekranı turuncuya çeviren F.lux uygulamasıyla ilgili olduğunu sandım
    Artık neredeyse tüm işletim sistemlerinde varsayılan özellik olarak geldiği için buna ihtiyaç kalmadı

  • GenAI modellerini birer sıkıştırılmış uygulama gibi düşünürsek, metin iyi sıkıştırılıyor ama görsel ve video için aynı şey söylenemez
    Buna rağmen son text-to-image ve text-to-video modelleri, Llama-3 gibi LLM'lerden çok daha küçük
    Bunun nedeni, görsel dünyanın yalnızca insan merkezli dar bir bölümünü öğrenmiş olmamız olabilir. Hâlâ keşfedilmemiş çok büyük bir görsel kombinasyon alanı var

    • Metin kayıpsız sıkıştırılabilir ama görsel ve videoda çok fazla gürültü olduğu için birebir karşılaştırma adil değil
      İnsanların ayırt edemeyeceği düzeyde kayıplı sıkıştırma kabul edilirse, görsel tarafı aslında daha verimli olabilir
    • Aslında görsel ve video, metinden çok daha iyi sıkıştırılır
      Metin genelde 4:1 ila 6:1 düzeyindeyken, görseller 10:1'in üzerinde bile görsel olarak kayıpsıza yakın olabilir; video ise zamansal tutarlılık sayesinde daha da verimlidir
    • LLM'lerde hâlâ verimlilik artışı için büyük alan olduğunu düşünüyorum
      Aynı zamanda LLM'lerin örtük olarak taşıdığı meta bilgi miktarını da küçümsememek gerekir
  • Acaba burada Flux 2 Klein kullanmış olan var mı
    Ben artık yeni modellerin peşinden koşmuyorum; tüm uygulamamı tek başına Nano Banana Pro üzerine kuruyorum
    Sonuçlar fazlasıyla tatmin edici
    picxstudio.com

  • Flux 1 ile gerçekten çok eğlendim, şu an da Z-Image Turbo ile oynuyorum
    Invoke'a Flux2 Klein eklenince deneyeceğim

    • Katılıyorum. Invoke içinde ZIT kullanma deneyimi harikaydı
  • GPT sürümüyle karşılaştırıldığında etkileşim yeteneğinin nasıl olduğunu merak ediyorum

  • Küçük bir sürüm olmasına rağmen açık kaynak olarak yayımlanmış olmasını beğendim
    Devasa bütçeler olmadan da çalıştırılabildiği için daha fazla fırsat doğuyor
    Hız artışı da oldukça etkileyici