- FLUX.2, gerçek yaratıcı iş akışları için tasarlanmış yüksek kaliteli bir görüntü üretim modeli olup, birden fazla referans görsel arasında karakter ve stil tutarlılığını korurken metin işleme ve marka yönergelerine uyum yetenekleri sunar
- En fazla 4 megapiksel çözünürlükte ayrıntılı görüntü düzenleme yapılabilir ve ışıklandırma, yerleşim, logo gibi görsel unsurlar kararlı biçimde kontrol edilebilir
- Open-core stratejisi ile açık ağırlıklı modeller ve prodüksiyon düzeyinde API birlikte sunularak, FLUX.1 ile kurulan açık ekosistem FLUX.2 seviyesine taşınıyor
- Çoklu referans desteği, gelişmiş tipografi işleme, iyileştirilmiş prompt işleme, gerçek dünya bilgisinin yansıtılması gibi temel özellikler yeni eklendi
- Model ailesi pro, flex, dev, klein, VAE sürümlerinden oluşuyor ve hem açık ağırlık hem de ticari API tarafında sunuluyor
- Black Forest Labs, açık araştırma ile ticari altyapıyı birleştirerek görsel zekanın açık gelişimini hedefliyor
FLUX.2 Genel Bakış
- FLUX.2, yalnızca demo için değil, gerçek üretim ortamları için geliştirilmiş bir görüntü üretim modeli
- Birden fazla referans görsel temelinde karakter ve stil tutarlılığını korur
- Yapılandırılmış prompt'ları takip eder ve karmaşık metinleri okuyup yazabilir
- Marka yönergelerini, ışıklandırmayı, yerleşimi ve logoları kararlı şekilde işler
- En fazla 4MP çözünürlükte, ayrıntı ve tutarlılığı koruyan görüntü düzenleme desteği sunar
Black Forest Labs’in Open Core Felsefesi
- Görsel zekanın araştırmacılar, üreticiler ve geliştiriciler tarafından birlikte ilerletilmesi gerektiği ilkesini ortaya koyuyor
- Açık ağırlıklı modeller ile ticari seviyede API endpoint'leri eş zamanlı sunuluyor
- Açık modeller deney yapmayı ve maliyet tasarrufunu teşvik ederken şeffaflığı artırır
- 2024’teki kuruluşundan bu yana FLUX.1 [dev] ve FLUX.1 Kontext [pro] ile açık inovasyon temeli oluşturdu
- FLUX.1 [dev], dünya çapında en popüler açık görüntü modeli olarak anılıyor
- FLUX.1 Kontext [pro], Adobe ve Meta gibi büyük ekipler tarafından kullanılıyor
FLUX.1’den FLUX.2’ye
- FLUX.1 yaratıcı bir araç olarak potansiyelini gösterdiyse, FLUX.2 odağını üretim iş akışlarında dönüşüme çeviriyor
- Hassasiyet, verimlilik, kontrol ve gerçekçiliği güçlendirerek görüntü üretiminin ekonomik verimliliğini büyük ölçüde iyileştiriyor
- Sonuç olarak yaratıcı altyapının temel bileşenlerinden biri hâline gelmesi bekleniyor
Temel Özellikler (What’s New)
- Çoklu referans desteği: Aynı anda en fazla 10 görsele referans vererek karakter, ürün ve stil tutarlılığını korur
- İnce ayrıntı ve gerçekçilik: Ürün çekimi, görselleştirme ve fotoğraf düzeyinde sonuçlar için uygundur
- Metin işleme iyileştirmeleri: Karmaşık tipografi, infografik ve UI mockup gibi alanlarda okunabilirliği artırır
- Prompt işleme güçlendirmesi: Çok yapılı prompt'ları ve bileşim kısıtlarını doğru biçimde yansıtır
- Gerçek dünya bilgisinin genişletilmesi: Işık ve mekân mantığına dayalı tutarlı sahne kurgusu sağlar
- Yüksek çözünürlüklü düzenleme: En fazla 4MP çözünürlükte esnek giriş ve çıkış oranlarını destekler
FLUX.2 Ürün Ailesi
- FLUX.2 [pro]
- Kapalı en üst seviye modellerle rekabet eden görüntü kalitesi, prompt uyumu ve görsel sadakat sunar
- Hızlı üretim ve düşük maliyet özellikleriyle öne çıkar; BFL Playground, API ve iş ortağı platformlarında sunulur
- FLUX.2 [flex]
- Adım sayısı, guidance scale gibi parametreleri doğrudan ayarlayarak kaliteyi, hızı ve metin işlemeyi optimize etmeye imkân verir
- Özellikle hassas tipografi üretiminde güçlüdür
- FLUX.2 [dev]
- 32B açık ağırlıklı model olarak, tek bir checkpoint üzerinde metinden görüntüye üretim ile çoklu giriş görsel düzenlemeyi destekleyen mevcut en güçlü açık modeldir
- Ağırlıklar Hugging Face üzerinden sunulur; NVIDIA ve ComfyUI iş birliğiyle geliştirilen FP8 optimizasyon uygulamasını içerir
- FAL, Replicate, Runware, Verda, TogetherAI, Cloudflare ve DeepInfra gibi servislerde API olarak kullanılabilir
- FLUX.2 [klein] (yakında)
- Apache 2.0 açık kaynak model olarak, FLUX.2 temelinden boyut damıtımıyla türetilmiş hafif ve yüksek performanslı bir sürüm olarak sunulacak
- FLUX.2 – VAE
- Eğitim kolaylığı, kalite ve sıkıştırma oranını dengeli biçimde optimize eden yeni bir VAE olup FLUX.2 omurgasının temel bileşenlerinden biridir
- Hugging Face üzerinde Apache 2.0 lisansıyla sunuluyor
Performans ve Değer
- FLUX.2 model ailesi, en güncel görüntü üretim kalitesini rekabetçi fiyatlarla sunuyor
- Açık ağırlıklı modeller arasında FLUX.2 [dev], metinden görüntü üretimi ile tekli ve çoklu referanslı düzenlemede tüm açık alternatiflere kıyasla üstün performans gösteriyor
- Tüm modeller, sorumlu geliştirme ilkeleri doğrultusunda lansman öncesi ve sonrasında yönetiliyor
Teknik Yapı (How It Works)
- Latent flow matching mimarisi temelinde, görüntü üretimi ve düzenlemeyi tek bir yapıda birleştirir
- Mistral-3 24B vision-language model ile Rectified Flow Transformer birleşimini kullanır
- VLM, gerçek dünya bilgisi ve bağlamsal anlayış sağlar
- Transformer, mekânsal ilişkileri, malzeme özelliklerini ve kompozisyon mantığını işler
- En fazla 10 referans görsel birleştirilerek yeni sonuçlar üretilebilir
- Modelin latent uzayı yeniden eğitilerek eğitilebilirlik, kalite ve sıkıştırma oranı üçlü ikilemi (trilemma) iyileştirildi
Ek Kaynaklar
Gelecek Yönü (Into the New)
- FLUX.2, algı, üretim, bellek ve akıl yürütmeyi birleştiren çok modlu modellere doğru atılan bir adım
- Görsel zeka altyapısının temel teknolojisi olarak, dünyayı algılama ve anlama biçimini dönüştürmeyi hedefliyor
- Şu anda Freiburg ve San Francisco’da yetenek alımı yapılıyor
1 yorum
Hacker News görüşü
Son zamanlarda yeni modeller o kadar sık çıkıyor ki GenAI karşılaştırma sitesini güncel tutmak neredeyse Sisifos işi gibi geliyor
Yine de yeni çıkan Flux 2 Pro Editing modelinin sonuçlarını ekledim
Sonuç sayfasından bakabilirsiniz
Bu model, BFL’in Kontext’inden biraz daha yüksek puan alarak toplam 12 model içinde ortalarda, 6 puan aldı
Yakında daha ayrıntılı değerlendirme için sayısal metrikler eklemeyi planlıyorum
Sadece Flux 2 Pro, Nano Banana Pro ve Kontext’i karşılaştırmak istiyorsanız bu bağlantıya bakın
Bu arada BFL, daha hassas düzenlemeler için JSON yapısını destekliyor gibi görünüyor; bunu kullanınca doğruluğun artıp artmayacağını merak ediyorum
Flux ile Gemini Pro 3’ün aynı puanı alması benchmark kalitesini düşürüyor
OpenAI modellerinin kendine özgü dokunuşu fazla baskın olduğu için stil eşleştirmesi zayıf, Flux ise stile göre değişken performans gösteriyor
Flux, birden çok stili ortalamaya alan eğitimden kaçınmaya çalıştı ama bu, görsel olarak çekici imgeler üretme hedefiyle çelişiyor
Sonuç olarak stil tutarlılığı sorunu bir süre daha devam edecek gibi görünüyor
Seedream de etkileyici; bir sonraki sürümde Google’la yarışacak seviyeye gelebilir
Görüntü üretimi artık neredeyse çözülmüş bir problem gibi hissettiriyor
Yeni model orta karar kalıyor ve açık kaynak tarafı da Çin modelleri kadar açık değil
Flux’un görüntü kalitesi hâlâ plastik ten, yapay doku hissi veriyor
Teknik olarak yeterli olsa bile gerçek iş akışında Flux’u seçmezdim
Bu, estetik sezgisi zayıf bir veri ekibi sorunu da olabilir
Google ile Çin ekosistemi arasında sıkışan BFL zor bir konumda
RunwayML, PikaLabs, LumaLabs gibi diğer medya model şirketleri de benzer zorluklar yaşıyor
BFL kısa süre önce büyük yatırım aldı ama yine de hiper ölçekleyicilerle rekabet etmek ağır görünüyor
Yeni modelin açık ağırlıklı sürüm olarak da yayımlanması sevindirici
Ama daha önce duyurulan SOTA video modeline ne olduğu merak konusu
YouTube videosunda da bahsedilmişti ama ilgili sayfa(bfl.ai/up-next) silinmiş
Görüntü modellerinin kullanım senaryosu daha fazla ve veri setleri de çok daha zengin
Görüntü, videonun temelini oluşturuyor ve kontrol edilebilir unsur sayısı çok daha fazla
Görüntü modelleri hızlı geri bildirim ve üretkenlik sağlıyor; stil, poz, tutarlılık kontrolü gibi alanlarda da hâlâ gidilecek çok yol var
Midjourney estetik açıdan ezici derecede güçlü ama kontrol kabiliyeti zayıf
Flux plastik gibi, Imagen çizgi filmvari, OpenAI ise demode hissettiriyor
Sonuçta rekabetin estetik, kontrol ve yeniden üretilebilirlik alanlarının hepsinde verilmesi gerekiyor
Video bu iş için dikkat dağıtıcı bir unsur
Flux 2 Pro’yu bizzat test ettim (Replicate bağlantısı)
Nano Banana ile karşılaştırınca büyük bir fark yaratmıyor; Flux 1.1 Pro’ya göre kademeli bir iyileştirme düzeyinde
Google fiyat artırırsa veya API’yi değiştirirse alternatif kalmayabilir ama BFL’de yerel çalıştırma seçeneği var
ESRGAN upscale gibi gereksiz detaylar ekliyor (test bağlantısı)
FLUX.1 Pro Kontext hâlâ sanatsal ifade ve talimat anlama konusunda çok güçlü
Nano Banana karşılaştırma blogunda da görülebilir
FLUX.2 [dev], RTX GPU üzerinde fp8 optimize sürümle yerelde çalıştırılabiliyor
Açık ağırlıkları koruması güzel ama model boyutu 12B’den 32B’ye çıktığı için yerel kullanım daha zahmetli
Bir distill sürüm bekliyorum
metin encoder’ı 48GB, üretim modeli 64GB; toplamda 100GB’ı aşıyor
Yerel kullanıcılar için giriş bariyeri yüksek
Bu sürümün metin encoder’ı Mistral-Small-3.2-24B-Instruct-2506; önceki CLIP/T5 kombinasyonundan daha iyi ama büyük
Apache 2.0 ile distill edilmiş modeli bekleyip öyle çıkarsalardı Nano Banana’dan daha iyi ayrışabilirdi
Fiyatlandırma da ilginç — girişte MP başına $0.015, çıkışta ilk MP için $0.03, sonrasında MP başına $0.015
Nano Banana Pro’ya bir rakip gelmesi sevindirici
Fiyat rekabetinin korunmasına yardımcı olur
Google, OpenAI, Claude için abonelik açılamıyor
Bu arada FLUX.2-DEV açık kaynak sürümü ticari kullanıma uygun değil
Lisansın tamamı burada
“family guy cyberpunk 2077” promptuyla Nano Banana Pro ve Flux 2 Pro’yu karşılaştırdım,
Google modeli oyun sahnesine daha uygun çıktı; Flux ise fazla gerçekçi kaldı
Flux 2 Pro da benzer bir eğilim gösterdi
Ama LoRA ekosistemi ve tuning için zaman ayırırsanız Flux 1 Dev hâlâ yaratıcı stilizasyon konusunda güçlü
18GB 4bit quant sürümü diffusers ile sunuluyor; böylece düşük VRAM ortamlarında da çalıştırılabiliyor