- Black Forest Labs'in FLUX.1 Kontext modeli, metin ve görseli aynı anda girdi olarak alıp bağlamı anlayan, mevcut görsellerin özelliklerini ve stilini koruyarak anında düzenleme ve üretim yapabilen yeni nesil bir üretken yapay zeka modelidir
- Mevcut metinden-görsele üretim algoritmalarına kıyasla metin/nesne tutarlılığı, yerel düzenleme, stil referansı ve yüksek hızlı yanıt gibi alanlarda üstün performans gösterir
- Kullanıcılar yalnızca metin girebilir veya görsel ve metni birlikte kullanarak yalnızca belirli alanları değiştirme, sadece stil uygulama, çok adımlı düzenleme gibi çeşitli etkileşimli görsel işleri gerçekleştirebilir
- FLUX.1 Kontext [pro], birden çok düzenleme sonrasında da görsel tutarlılığını korur ve sektör lideri hızda çalışır
- Açık kaynak [dev] sürümü, hafifletilmiş 12B diffusion transformer olarak araştırma ve özelleştirme amaçlı özel beta kapsamında sunulmuştur
FLUX.1 Kontext'e giriş
- FLUX.1 Kontext, yalnızca metinle görsel üreten mevcut modellerin sınırlarını aşarak metin ve görseli birlikte girdi olarak alır ve bağlam temelli görsel üretimi ile düzenleme yapabilen üretken bir flow matching modelidir
- Metin prompt'u ve görseli aynı anda kullanarak görselin belirli öğelerini kaldırabilir/ekleyebilir/değiştirebilir ve stil ya da karakteristik özellikleri koruyarak yeni sahneler üretebilir
Başlıca özellikler
- Karakter tutarlılığı: Aynı kişi, nesne ve stil farklı sahne ve ortamlarda da tutarlı biçimde korunur
- Yerel düzenleme: Görselin yalnızca belirli bölümleri metin komutlarıyla düzenlenebilir (ör. yüzdeki belirli bir öğeyi kaldırmak, sadece yazıyı değiştirmek)
- Stil referansı: Referans görseldeki ayırt edici stil yeni bir sahneye uygulanabilir
- Etkileşimli hız: Mevcut modellere kıyasla 8 kata kadar daha hızlı çıkarım hızıyla gerçek zamanlı düzenleme ve üretimi destekler
Metinden-görsele ve görselden-görsele düzenlemenin birleşimi
- FLUX.1 Kontext, yalnızca tek seferlik düzenlemelerde değil, birden fazla aşamaya yayılan yinelemeli talimatlarda da görsel kalitesini ve karakteristik özellikleri korur
- Prompt'lar ve önceki görsel sonuçları art arda kullanılarak istenen sonuca adım adım ulaşılabilir
FLUX.1 Kontext model ailesi
- FLUX.1 Kontext [pro]
- Hızlı yinelemeli düzenleme ve üretime odaklanan amiral gemisi model
- Metin ve referans görseli aynı anda alarak hedef alan düzenleme ve karmaşık sahne dönüşümlerini hızlı ve tutarlı biçimde gerçekleştirir
- FLUX.1 Kontext [max]
- Prompt anlama, tipografi ve yüksek hızlı tutarlı düzenleme yetenekleri geliştirilmiş deneysel üst seviye model
- FLUX.1 Kontext [dev]
- Araştırma ve özelleştirme amaçlı hafifletilmiş (12B) model olup özel beta olarak sunulmuştur
- Yayınlandığında FAL, Replicate, Runware, DataCrunch, TogetherAI, HuggingFace gibi başlıca yapay zeka altyapı ortakları üzerinden sağlanacaktır
Destek ve erişim
- FLUX.1 Kontext serisi, KreaAI, Freepik, Lightricks, OpenArt, LeonardoAI gibi çeşitli servislerde ve FAL, Replicate, Runware, DataCrunch, TogetherAI, ComfyOrg gibi altyapılarda kullanılabilir
- Gerçek zamanlı deneyim ve demo için sunulan FLUX Playground(https://playground.bfl.ai/) üzerinden ek bir entegrasyona gerek kalmadan model performansı kolayca doğrulanabilir ve sonuçlar görülebilir
Performans değerlendirmesi
- Kendi benchmark'ı olan KontextBench üzerinde 6 farklı görsel üretim ve düzenleme görevi bazında SOTA modellerle karşılaştırmalı değerlendirme yapılmıştır
- Metin düzenleme ve karakter koruma alanlarında sektörün en üst düzey puanları elde edilmiştir
- Çıkarım hızı da mevcut en yüksek performanslı modellere kıyasla ezici derecede düşük gecikme sağlamıştır
- Estetik kalite, prompt anlama, tipografi ve gerçekçilik gibi çeşitli ölçütlerde de rekabet gücü kanıtlanmıştır
Sınırlamalar ve gelecekteki çalışmalar
- Çok adımlı (6 defadan fazla) yinelemeli düzenlemelerde görsel gürültü (artifact) oluşabilir ve bu da görsel kalitesini düşürebilir
- Bazı durumlarda belirli prompt'lardaki ayrıntılı talimatlar tam olarak izlenemeyebilir
- Dünya bilgisi ve bağlam anlama yeteneğinin sınırlı olması nedeniyle bağlamsal olarak hatalı görseller üretilebilir
- Modelin hafifletilmesi ve distillation sürecinde görsel kalitesi düşebilir
1 yorum
Hacker News görüşleri
Bizzat denedim ve eğlenceli bir “bağlam kayması” olayı yaşadım. İlgili görsel Üretim prompt’uyla ıssız bir gezegene iniş yapan bir uzay gemisi görseli oluşturdum ve ardından “uzay gemisini daha renkli çiz ve görselde daha büyük göster” diye düzenleme istedim. Ama sonuçta uzay gemisi bir konteyner gemisine dönüştü. Sohbet geçmişi duruyordu, yani benim uzay gemisi istediğimi anlaması gerekirdi; ama önemli bağlamı kaçırınca sonuç alakasız çıktı.
Replicate’in FLUX Kontext Pro endpoint’ini bizzat test ediyorum. FLUX Kontext’in çeşitli görsel düzenleme kullanım biçimlerini gösteren bir Replicate uygulaması da var: FLUX Kontext Apps. Görsel kalitesi, basit image-to-image üretimde GPT-4o görsel üretim seviyesiyle benzer. Üretim hızı da yaklaşık 4 saniye ile oldukça hızlı. Prompt engineering, örnekler dışındaki durumlarda biraz zorlayıcı hissettiriyor; ama zamanla iyileşeceğini düşünüyorum. Stil değişiklikleri ya da ayrıntılı istekler uygulanıyor, ancak talimatlar ne kadar spesifikleşirse ayrıntılı gereksinimleri görmezden gelme eğilimi de o kadar artıyor.
Bazı örnekler fazla iyi sonuçları seçip gösteriyor gibi. “Kontext Apps” içindeki profesyonel headshot uygulamasını deneyen oldu mu? Kontext Apps bağlantısı Kendi fotoğraflarımdan birkaçını yükledim ama her seferinde tamamen farklı birine dönüştüm. Nihai headshot sonucu ise kesinlikle profesyonel görünüyor.
FLUX Kontext modelini kendi GenAI görsel karşılaştırma siteme ekleyip eklememeyi düşünüyorum. Max sürümü, prompt’a sadakat açısından neredeyse 2 kat daha yüksek puan alıyor ama yine de OpenAI’nin gpt-image-1 modelinin epey gerisinde kalıyor (görüntü kalitesini bir kenara bırakırsak). gpt-image-1 liderlik tablosunda 1. sırada. Flux 1.D’yi yerel GenAI yetenekleri için bir baseline olarak tutuyorum. Karşılaştırma sitesi Hunyuan’ın Image 2.0 modelini de yakın zamanda ekledim ama gerçek zamanlı bir model olduğu için puanı düşük çıkıyor. Bu arada Black Forest Labs’ın bu modeli, text-to-image’dan ziyade mevcut görsellerin tekrarlı düzenlenmesi ve düzeltilmesine daha çok odaklanmış gibi görünüyor.
Giriş görseli tek bir görselle mi sınırlı, merak ediyorum. Birden fazla görsel verip “A görselindeki öğeyi B görselinin içine yerleştir” ya da “A karakterini B manzarasına koy” gibi birleşik prompt’lar denemek istiyorum.
Teknik makaleyi merak edenler için resmi raporu paylaşıyorum.
Bunu yerelde bizzat düzenleyip eğitmek için ne kadar uzmanlık gerekir? RTX 4090 ve Windows üzerinde Flux 1 dev ile kendim LoRa ince ayarı yapmayı denemek için iki gündür uğraşıyorum ama doğru düzgün beceremedim. Ne kadar derine inmek gerektiğini, giriş bariyerinin düşük olup olmadığını merak ediyorum. Yeni başlayan biri yapabilir mi, yoksa sadece ileri düzey kullanıcılar mı girebilir?
remove from face örneğini pek anlayamadım. Başka bir yüz fotoğrafı yoksa sonuçta yine tipik bir görsel kullanmıyor mu?
Satranç görseli üretip üretemediğini soran biri var. Satranç AI tahmin bağlantısı
Açık geliştirici sürümünün ne zaman çıkacağına dair tahmin soran bir yorum; bir hafta içinde mi, yoksa bir iki ay daha mı sürer diye merak ediyor.