FLUX.2: Yeni Nesil Görsel Üretim ve Düzenleme Modeli

(bfl.ai)

2 puan yazan GN⁺ 2025-11-27 | 1 yorum | WhatsApp'ta paylaş

FLUX.2, gerçek yaratıcı iş akışları için tasarlanmış yüksek kaliteli bir görüntü üretim modeli olup, birden fazla referans görsel arasında karakter ve stil tutarlılığını korurken metin işleme ve marka yönergelerine uyum yetenekleri sunar
En fazla 4 megapiksel çözünürlükte ayrıntılı görüntü düzenleme yapılabilir ve ışıklandırma, yerleşim, logo gibi görsel unsurlar kararlı biçimde kontrol edilebilir
Open-core stratejisi ile açık ağırlıklı modeller ve prodüksiyon düzeyinde API birlikte sunularak, FLUX.1 ile kurulan açık ekosistem FLUX.2 seviyesine taşınıyor
Çoklu referans desteği, gelişmiş tipografi işleme, iyileştirilmiş prompt işleme, gerçek dünya bilgisinin yansıtılması gibi temel özellikler yeni eklendi
Model ailesi pro, flex, dev, klein, VAE sürümlerinden oluşuyor ve hem açık ağırlık hem de ticari API tarafında sunuluyor
Black Forest Labs, açık araştırma ile ticari altyapıyı birleştirerek görsel zekanın açık gelişimini hedefliyor

FLUX.2 Genel Bakış

FLUX.2, yalnızca demo için değil, gerçek üretim ortamları için geliştirilmiş bir görüntü üretim modeli
- Birden fazla referans görsel temelinde karakter ve stil tutarlılığını korur
- Yapılandırılmış prompt'ları takip eder ve karmaşık metinleri okuyup yazabilir
- Marka yönergelerini, ışıklandırmayı, yerleşimi ve logoları kararlı şekilde işler
En fazla 4MP çözünürlükte, ayrıntı ve tutarlılığı koruyan görüntü düzenleme desteği sunar

Black Forest Labs’in Open Core Felsefesi

Görsel zekanın araştırmacılar, üreticiler ve geliştiriciler tarafından birlikte ilerletilmesi gerektiği ilkesini ortaya koyuyor
Açık ağırlıklı modeller ile ticari seviyede API endpoint'leri eş zamanlı sunuluyor
- Açık modeller deney yapmayı ve maliyet tasarrufunu teşvik ederken şeffaflığı artırır
2024’teki kuruluşundan bu yana FLUX.1 [dev] ve FLUX.1 Kontext [pro] ile açık inovasyon temeli oluşturdu
- FLUX.1 [dev], dünya çapında en popüler açık görüntü modeli olarak anılıyor
- FLUX.1 Kontext [pro], Adobe ve Meta gibi büyük ekipler tarafından kullanılıyor

FLUX.1’den FLUX.2’ye

FLUX.1 yaratıcı bir araç olarak potansiyelini gösterdiyse, FLUX.2 odağını üretim iş akışlarında dönüşüme çeviriyor
Hassasiyet, verimlilik, kontrol ve gerçekçiliği güçlendirerek görüntü üretiminin ekonomik verimliliğini büyük ölçüde iyileştiriyor
Sonuç olarak yaratıcı altyapının temel bileşenlerinden biri hâline gelmesi bekleniyor

Temel Özellikler (What’s New)

Çoklu referans desteği: Aynı anda en fazla 10 görsele referans vererek karakter, ürün ve stil tutarlılığını korur
İnce ayrıntı ve gerçekçilik: Ürün çekimi, görselleştirme ve fotoğraf düzeyinde sonuçlar için uygundur
Metin işleme iyileştirmeleri: Karmaşık tipografi, infografik ve UI mockup gibi alanlarda okunabilirliği artırır
Prompt işleme güçlendirmesi: Çok yapılı prompt'ları ve bileşim kısıtlarını doğru biçimde yansıtır
Gerçek dünya bilgisinin genişletilmesi: Işık ve mekân mantığına dayalı tutarlı sahne kurgusu sağlar
Yüksek çözünürlüklü düzenleme: En fazla 4MP çözünürlükte esnek giriş ve çıkış oranlarını destekler

FLUX.2 Ürün Ailesi

FLUX.2 [pro]
- Kapalı en üst seviye modellerle rekabet eden görüntü kalitesi, prompt uyumu ve görsel sadakat sunar
- Hızlı üretim ve düşük maliyet özellikleriyle öne çıkar; BFL Playground, API ve iş ortağı platformlarında sunulur
FLUX.2 [flex]
- Adım sayısı, guidance scale gibi parametreleri doğrudan ayarlayarak kaliteyi, hızı ve metin işlemeyi optimize etmeye imkân verir
- Özellikle hassas tipografi üretiminde güçlüdür
FLUX.2 [dev]
- 32B açık ağırlıklı model olarak, tek bir checkpoint üzerinde metinden görüntüye üretim ile çoklu giriş görsel düzenlemeyi destekleyen mevcut en güçlü açık modeldir
- Ağırlıklar Hugging Face üzerinden sunulur; NVIDIA ve ComfyUI iş birliğiyle geliştirilen FP8 optimizasyon uygulamasını içerir
- FAL, Replicate, Runware, Verda, TogetherAI, Cloudflare ve DeepInfra gibi servislerde API olarak kullanılabilir
FLUX.2 [klein] (yakında)
- Apache 2.0 açık kaynak model olarak, FLUX.2 temelinden boyut damıtımıyla türetilmiş hafif ve yüksek performanslı bir sürüm olarak sunulacak
FLUX.2 – VAE
- Eğitim kolaylığı, kalite ve sıkıştırma oranını dengeli biçimde optimize eden yeni bir VAE olup FLUX.2 omurgasının temel bileşenlerinden biridir
- Hugging Face üzerinde Apache 2.0 lisansıyla sunuluyor

Performans ve Değer

FLUX.2 model ailesi, en güncel görüntü üretim kalitesini rekabetçi fiyatlarla sunuyor
Açık ağırlıklı modeller arasında FLUX.2 [dev], metinden görüntü üretimi ile tekli ve çoklu referanslı düzenlemede tüm açık alternatiflere kıyasla üstün performans gösteriyor
Tüm modeller, sorumlu geliştirme ilkeleri doğrultusunda lansman öncesi ve sonrasında yönetiliyor

Teknik Yapı (How It Works)

Latent flow matching mimarisi temelinde, görüntü üretimi ve düzenlemeyi tek bir yapıda birleştirir
Mistral-3 24B vision-language model ile Rectified Flow Transformer birleşimini kullanır
- VLM, gerçek dünya bilgisi ve bağlamsal anlayış sağlar
- Transformer, mekânsal ilişkileri, malzeme özelliklerini ve kompozisyon mantığını işler
En fazla 10 referans görsel birleştirilerek yeni sonuçlar üretilebilir
Modelin latent uzayı yeniden eğitilerek eğitilebilirlik, kalite ve sıkıştırma oranı üçlü ikilemi (trilemma) iyileştirildi

Ek Kaynaklar

Gelecek Yönü (Into the New)

FLUX.2, algı, üretim, bellek ve akıl yürütmeyi birleştiren çok modlu modellere doğru atılan bir adım
Görsel zeka altyapısının temel teknolojisi olarak, dünyayı algılama ve anlama biçimini dönüştürmeyi hedefliyor
Şu anda Freiburg ve San Francisco’da yetenek alımı yapılıyor

1 yorum

GN⁺ 2025-11-27

Hacker News görüşü

Son zamanlarda yeni modeller o kadar sık çıkıyor ki GenAI karşılaştırma sitesini güncel tutmak neredeyse Sisifos işi gibi geliyor
Yine de yeni çıkan Flux 2 Pro Editing modelinin sonuçlarını ekledim
Sonuç sayfasından bakabilirsiniz
Bu model, BFL’in Kontext’inden biraz daha yüksek puan alarak toplam 12 model içinde ortalarda, 6 puan aldı
Yakında daha ayrıntılı değerlendirme için sayısal metrikler eklemeyi planlıyorum
Sadece Flux 2 Pro, Nano Banana Pro ve Kontext’i karşılaştırmak istiyorsanız bu bağlantıya bakın
Bu arada BFL, daha hassas düzenlemeler için JSON yapısını destekliyor gibi görünüyor; bunu kullanınca doğruluğun artıp artmayacağını merak ediyorum
- Puanlama sistemi basit geçme/kalma yerine 0-10 aralıklı bir ölçeğe dönüşse iyi olur
  Flux ile Gemini Pro 3’ün aynı puanı alması benchmark kalitesini düşürüyor
- Karşılaştırma faydalı ama stil çeşitliliği eksik
  OpenAI modellerinin kendine özgü dokunuşu fazla baskın olduğu için stil eşleştirmesi zayıf, Flux ise stile göre değişken performans gösteriyor
  Flux, birden çok stili ortalamaya alan eğitimden kaçınmaya çalıştı ama bu, görsel olarak çekici imgeler üretme hedefiyle çelişiyor
  Sonuç olarak stil tutarlılığı sorunu bir süre daha devam edecek gibi görünüyor
- Şu anda Google açık ara önde
  Seedream de etkileyici; bir sonraki sürümde Google’la yarışacak seviyeye gelebilir
  Görüntü üretimi artık neredeyse çözülmüş bir problem gibi hissettiriyor
- Sitede bir yazım hatası var: s/sttae/state/g düzeltilmeli
- BFL’in Google ve ByteDance(SeeDream) gibi dev şirketlerle rekabet etmeyi sürdürecek enerjisi kalıp kalmadığı soru işareti
  Yeni model orta karar kalıyor ve açık kaynak tarafı da Çin modelleri kadar açık değil
  Flux’un görüntü kalitesi hâlâ plastik ten, yapay doku hissi veriyor
  Teknik olarak yeterli olsa bile gerçek iş akışında Flux’u seçmezdim
  Bu, estetik sezgisi zayıf bir veri ekibi sorunu da olabilir
  Google ile Çin ekosistemi arasında sıkışan BFL zor bir konumda
  RunwayML, PikaLabs, LumaLabs gibi diğer medya model şirketleri de benzer zorluklar yaşıyor
  BFL kısa süre önce büyük yatırım aldı ama yine de hiper ölçekleyicilerle rekabet etmek ağır görünüyor
Yeni modelin açık ağırlıklı sürüm olarak da yayımlanması sevindirici
Ama daha önce duyurulan SOTA video modeline ne olduğu merak konusu
YouTube videosunda da bahsedilmişti ama ilgili sayfa(bfl.ai/up-next) silinmiş
- Startup olarak video yerine görüntü modellerine odaklanacak şekilde pivot ettiler
  Görüntü modellerinin kullanım senaryosu daha fazla ve veri setleri de çok daha zengin
- Duyduğum kadarıyla video model eğitimi büyük bir başarısızlıkla sonuçlandı ve proje iptal edildi
- Görüntü modelleri hâlâ çekirdek teknoloji ekseni
  Görüntü, videonun temelini oluşturuyor ve kontrol edilebilir unsur sayısı çok daha fazla
  Görüntü modelleri hızlı geri bildirim ve üretkenlik sağlıyor; stil, poz, tutarlılık kontrolü gibi alanlarda da hâlâ gidilecek çok yol var
  Midjourney estetik açıdan ezici derecede güçlü ama kontrol kabiliyeti zayıf
  Flux plastik gibi, Imagen çizgi filmvari, OpenAI ise demode hissettiriyor
  Sonuçta rekabetin estetik, kontrol ve yeniden üretilebilirlik alanlarının hepsinde verilmesi gerekiyor
  Video bu iş için dikkat dağıtıcı bir unsur
Flux 2 Pro’yu bizzat test ettim (Replicate bağlantısı)
Nano Banana ile karşılaştırınca büyük bir fark yaratmıyor; Flux 1.1 Pro’ya göre kademeli bir iyileştirme düzeyinde
- Prompt tutarlılığı iyileşmiş ama görüntü kalitesi daha yapay görünüyor
- Flux 2 prompt rehberi, varsayılan olarak JSON promptları ve HEX renk tanımlamayı öneriyor
- Prompt upsampling etkinleştirilince muhakeme gücü artıyor, kapalıyken ise alakasız sonuçlar çıkabiliyor
- Flux 2 API’si IP konusunda yüksek hassasiyet gösteriyor; upsampling açılınca ancak geçen durumlar olabiliyor (örnek)
- Maliyet ve hız Nano Banana’ya benziyor ama görüntü girişi özelliği kullanıldığında Flux 2 Pro daha pahalı
- Flux 1.1 ile 2’nin sonuçları arasında nesnel bir üstünlük farkı yok
- Flux’u yerelde çalıştırabilme ihtimali tek başına bir avantaj
  Google fiyat artırırsa veya API’yi değiştirirse alternatif kalmayabilir ama BFL’de yerel çalıştırma seçeneği var
- Flux 2 Pro’nun yüksek çözünürlüklü(4K) çıktısı bazen ters etki yaratabiliyor
  ESRGAN upscale gibi gereksiz detaylar ekliyor (test bağlantısı)
- Flux 2 Dev sürümünde IP sansürü yok
FLUX.1 Pro Kontext hâlâ sanatsal ifade ve talimat anlama konusunda çok güçlü
Nano Banana karşılaştırma blogunda da görülebilir
FLUX.2 [dev], RTX GPU üzerinde fp8 optimize sürümle yerelde çalıştırılabiliyor
Açık ağırlıkları koruması güzel ama model boyutu 12B’den 32B’ye çıktığı için yerel kullanım daha zahmetli
Bir distill sürüm bekliyorum
- Hugging Face sayfasına göre
  metin encoder’ı 48GB, üretim modeli 64GB; toplamda 100GB’ı aşıyor
  Yerel kullanıcılar için giriş bariyeri yüksek
Bu sürümün metin encoder’ı Mistral-Small-3.2-24B-Instruct-2506; önceki CLIP/T5 kombinasyonundan daha iyi ama büyük
Apache 2.0 ile distill edilmiş modeli bekleyip öyle çıkarsalardı Nano Banana’dan daha iyi ayrışabilirdi
Fiyatlandırma da ilginç — girişte MP başına $0.015, çıkışta ilk MP için $0.03, sonrasında MP başına $0.015
- Qwen-Image-Edit-2511 gelecek hafta Apache 2.0 ile çıkacağı için BFL biraz acele etmiş gibi görünüyor
- CLIP fiilen anlamsız bir tercihti. Ağırlığını sıfıra çekince bile sonuçlar neredeyse aynı kaldı
- O dönemde pek çok görüntü üretim modeli CLIP+T5 kombinasyonunu kullanıyordu. Garip bir tercih değildi
- GTM stratejisine odaklanırken Avrupa pazarı zarar görmüş gibi duruyor
Nano Banana Pro’ya bir rakip gelmesi sevindirici
Fiyat rekabetinin korunmasına yardımcı olur
- Hong Kong gibi ABD modellerinin kullanımının kısıtlı olduğu bölgelerde bu tür alternatifler özellikle önemli
  Google, OpenAI, Claude için abonelik açılamıyor
- Avrupalı bir şirketin öne çıkması da güzel
Bu arada FLUX.2-DEV açık kaynak sürümü ticari kullanıma uygun değil
Lisansın tamamı burada
“family guy cyberpunk 2077” promptuyla Nano Banana Pro ve Flux 2 Pro’yu karşılaştırdım,
Google modeli oyun sahnesine daha uygun çıktı; Flux ise fazla gerçekçi kaldı
- Flux, fotoğraf ağırlıklı veri setine göre ayarlandığı için sanatsal stillerde zayıf
  Flux 2 Pro da benzer bir eğilim gösterdi
  Ama LoRA ekosistemi ve tuning için zaman ayırırsanız Flux 1 Dev hâlâ yaratıcı stilizasyon konusunda güçlü
18GB 4bit quant sürümü diffusers ile sunuluyor; böylece düşük VRAM ortamlarında da çalıştırılabiliyor

FLUX.2: Yeni Nesil Görsel Üretim ve Düzenleme Modeli

FLUX.2 Genel Bakış

Black Forest Labs’in Open Core Felsefesi

FLUX.1’den FLUX.2’ye

Temel Özellikler (What’s New)

FLUX.2 Ürün Ailesi

Performans ve Değer

Teknik Yapı (How It Works)

Ek Kaynaklar

Gelecek Yönü (Into the New)

İlgili okumalar

1 yorum

Hacker News görüşü