3 puan yazan GN⁺ 2025-05-30 | 1 yorum | WhatsApp'ta paylaş
  • Black Forest Labs'in FLUX.1 Kontext modeli, metin ve görseli aynı anda girdi olarak alıp bağlamı anlayan, mevcut görsellerin özelliklerini ve stilini koruyarak anında düzenleme ve üretim yapabilen yeni nesil bir üretken yapay zeka modelidir
  • Mevcut metinden-görsele üretim algoritmalarına kıyasla metin/nesne tutarlılığı, yerel düzenleme, stil referansı ve yüksek hızlı yanıt gibi alanlarda üstün performans gösterir
  • Kullanıcılar yalnızca metin girebilir veya görsel ve metni birlikte kullanarak yalnızca belirli alanları değiştirme, sadece stil uygulama, çok adımlı düzenleme gibi çeşitli etkileşimli görsel işleri gerçekleştirebilir
  • FLUX.1 Kontext [pro], birden çok düzenleme sonrasında da görsel tutarlılığını korur ve sektör lideri hızda çalışır
  • Açık kaynak [dev] sürümü, hafifletilmiş 12B diffusion transformer olarak araştırma ve özelleştirme amaçlı özel beta kapsamında sunulmuştur

FLUX.1 Kontext'e giriş

  • FLUX.1 Kontext, yalnızca metinle görsel üreten mevcut modellerin sınırlarını aşarak metin ve görseli birlikte girdi olarak alır ve bağlam temelli görsel üretimi ile düzenleme yapabilen üretken bir flow matching modelidir
  • Metin prompt'u ve görseli aynı anda kullanarak görselin belirli öğelerini kaldırabilir/ekleyebilir/değiştirebilir ve stil ya da karakteristik özellikleri koruyarak yeni sahneler üretebilir

Başlıca özellikler

  • Karakter tutarlılığı: Aynı kişi, nesne ve stil farklı sahne ve ortamlarda da tutarlı biçimde korunur
  • Yerel düzenleme: Görselin yalnızca belirli bölümleri metin komutlarıyla düzenlenebilir (ör. yüzdeki belirli bir öğeyi kaldırmak, sadece yazıyı değiştirmek)
  • Stil referansı: Referans görseldeki ayırt edici stil yeni bir sahneye uygulanabilir
  • Etkileşimli hız: Mevcut modellere kıyasla 8 kata kadar daha hızlı çıkarım hızıyla gerçek zamanlı düzenleme ve üretimi destekler

Metinden-görsele ve görselden-görsele düzenlemenin birleşimi

  • FLUX.1 Kontext, yalnızca tek seferlik düzenlemelerde değil, birden fazla aşamaya yayılan yinelemeli talimatlarda da görsel kalitesini ve karakteristik özellikleri korur
  • Prompt'lar ve önceki görsel sonuçları art arda kullanılarak istenen sonuca adım adım ulaşılabilir

FLUX.1 Kontext model ailesi

  • FLUX.1 Kontext [pro]
    • Hızlı yinelemeli düzenleme ve üretime odaklanan amiral gemisi model
    • Metin ve referans görseli aynı anda alarak hedef alan düzenleme ve karmaşık sahne dönüşümlerini hızlı ve tutarlı biçimde gerçekleştirir
  • FLUX.1 Kontext [max]
    • Prompt anlama, tipografi ve yüksek hızlı tutarlı düzenleme yetenekleri geliştirilmiş deneysel üst seviye model
  • FLUX.1 Kontext [dev]
    • Araştırma ve özelleştirme amaçlı hafifletilmiş (12B) model olup özel beta olarak sunulmuştur
    • Yayınlandığında FAL, Replicate, Runware, DataCrunch, TogetherAI, HuggingFace gibi başlıca yapay zeka altyapı ortakları üzerinden sağlanacaktır

Destek ve erişim

  • FLUX.1 Kontext serisi, KreaAI, Freepik, Lightricks, OpenArt, LeonardoAI gibi çeşitli servislerde ve FAL, Replicate, Runware, DataCrunch, TogetherAI, ComfyOrg gibi altyapılarda kullanılabilir
  • Gerçek zamanlı deneyim ve demo için sunulan FLUX Playground(https://playground.bfl.ai/) üzerinden ek bir entegrasyona gerek kalmadan model performansı kolayca doğrulanabilir ve sonuçlar görülebilir

Performans değerlendirmesi

  • Kendi benchmark'ı olan KontextBench üzerinde 6 farklı görsel üretim ve düzenleme görevi bazında SOTA modellerle karşılaştırmalı değerlendirme yapılmıştır
  • Metin düzenleme ve karakter koruma alanlarında sektörün en üst düzey puanları elde edilmiştir
  • Çıkarım hızı da mevcut en yüksek performanslı modellere kıyasla ezici derecede düşük gecikme sağlamıştır
  • Estetik kalite, prompt anlama, tipografi ve gerçekçilik gibi çeşitli ölçütlerde de rekabet gücü kanıtlanmıştır

Sınırlamalar ve gelecekteki çalışmalar

  • Çok adımlı (6 defadan fazla) yinelemeli düzenlemelerde görsel gürültü (artifact) oluşabilir ve bu da görsel kalitesini düşürebilir
  • Bazı durumlarda belirli prompt'lardaki ayrıntılı talimatlar tam olarak izlenemeyebilir
  • Dünya bilgisi ve bağlam anlama yeteneğinin sınırlı olması nedeniyle bağlamsal olarak hatalı görseller üretilebilir
  • Modelin hafifletilmesi ve distillation sürecinde görsel kalitesi düşebilir

1 yorum

 
GN⁺ 2025-05-30
Hacker News görüşleri
  • Bizzat denedim ve eğlenceli bir “bağlam kayması” olayı yaşadım. İlgili görsel Üretim prompt’uyla ıssız bir gezegene iniş yapan bir uzay gemisi görseli oluşturdum ve ardından “uzay gemisini daha renkli çiz ve görselde daha büyük göster” diye düzenleme istedim. Ama sonuçta uzay gemisi bir konteyner gemisine dönüştü. Sohbet geçmişi duruyordu, yani benim uzay gemisi istediğimi anlaması gerekirdi; ama önemli bağlamı kaçırınca sonuç alakasız çıktı.

  • Replicate’in FLUX Kontext Pro endpoint’ini bizzat test ediyorum. FLUX Kontext’in çeşitli görsel düzenleme kullanım biçimlerini gösteren bir Replicate uygulaması da var: FLUX Kontext Apps. Görsel kalitesi, basit image-to-image üretimde GPT-4o görsel üretim seviyesiyle benzer. Üretim hızı da yaklaşık 4 saniye ile oldukça hızlı. Prompt engineering, örnekler dışındaki durumlarda biraz zorlayıcı hissettiriyor; ama zamanla iyileşeceğini düşünüyorum. Stil değişiklikleri ya da ayrıntılı istekler uygulanıyor, ancak talimatlar ne kadar spesifikleşirse ayrıntılı gereksinimleri görmezden gelme eğilimi de o kadar artıyor.

    • Orijinal özellikleri ne kadar iyi koruduğuna bakınca, FLUX modeli 4o’dan daha isabetli hissettiriyor. Mevcut bir 3D hayvan karakterinde sadece ışıklandırmayı değiştirmek istediğinizde, 4o karakterin yüzünü bozup gövdeye veya detaylara dokunurken FLUX, pozu ya da ışığı büyük ölçüde değiştirse bile görünür biçimi neredeyse kusursuz şekilde aynı tutuyor.
    • Image-to-image deneylerinde GPT-4o’dan daha etkileyici. 4o, sepyaya yakın tonlara aşırı takılıyor ve özellikle tekrarlı düzenlemelerde sonucun 4o’dan çıktığı çok belli oluyor. Buna karşılık FLUX.1 Kontext Max sürümü çok daha geniş ve çeşitli renk ifadeleri sunuyor, ayrıca 4o’nun kaçıracağı küçük detayları da yakalıyor. Sadece prompt ile sıfırdan görsel üretmeyi henüz denemedim. Ama mevcut bir görseli prompt ile düzenleme konusunda FLUX açık ara daha iyi hissettiriyor.
    • Replicate’in her zaman en yeni modelleri hemen sunmasını gerçekten seviyorum. Hızla gelişen yapay zeka çağında yeni araştırma sürümü modellerin anında API olarak dağıtılması ve gerçek kullanımda ölçekli biçimde kullanılabilmesi harika. Replicate gibi dağıtım sağlayıcıları, bu modellerin yayınlanmasının etkisini katlayan bir rol oynuyor gibi.
    • Yaklaşık 4 saniye sürmesi hangi GPU ve VRAM ölçütüne göre? Acaba Huggingface’in UI’ını mı kastediyorsun?
  • Bazı örnekler fazla iyi sonuçları seçip gösteriyor gibi. “Kontext Apps” içindeki profesyonel headshot uygulamasını deneyen oldu mu? Kontext Apps bağlantısı Kendi fotoğraflarımdan birkaçını yükledim ama her seferinde tamamen farklı birine dönüştüm. Nihai headshot sonucu ise kesinlikle profesyonel görünüyor.

    • flux playground’da yorgun bir spor salonu selfie'siyle headshot prompt’unu denedim; aynı ifade, ter, cilt tonu gibi görünüşümün büyük kısmını korudu. Sanki sadece arka planı değiştirmiş gibiydi ve “bunu sosyal medya için iyi bir headshot’a dönüştür, gülümseme, iyi duruş ve kıyafetler, ter olmayan temiz cilt vb.” diye genişletilmiş bir istek verince sadece kıyafet değişti ve yapay duran bir gülümseme eklendi. Bu tür görsellerde pratikte çıkan sonuçlara benziyordu.
    • Giriş ve çıkış görsellerinin oranı aynı mı diye merak ediyorum. Oran zorla değiştiriliyorsa tuhaflıklar bundan kaynaklanıyor olabilir.
    • Yüz gibi kimlik koruması, henüz kimsenin kusursuz çözemediği bir mesele. Eller de öyle; bilimsel bir zorluk.
  • FLUX Kontext modelini kendi GenAI görsel karşılaştırma siteme ekleyip eklememeyi düşünüyorum. Max sürümü, prompt’a sadakat açısından neredeyse 2 kat daha yüksek puan alıyor ama yine de OpenAI’nin gpt-image-1 modelinin epey gerisinde kalıyor (görüntü kalitesini bir kenara bırakırsak). gpt-image-1 liderlik tablosunda 1. sırada. Flux 1.D’yi yerel GenAI yetenekleri için bir baseline olarak tutuyorum. Karşılaştırma sitesi Hunyuan’ın Image 2.0 modelini de yakın zamanda ekledim ama gerçek zamanlı bir model olduğu için puanı düşük çıkıyor. Bu arada Black Forest Labs’ın bu modeli, text-to-image’dan ziyade mevcut görsellerin tekrarlı düzenlenmesi ve düzeltilmesine daha çok odaklanmış gibi görünüyor.

    • “Flux 1.1 Pro Ultra”yı da siteye eklemeni isterim. Bu serinin en yüksek performanslısı ve prompt’a sadakatte Flux Dev’den çok daha iyi olduğu söyleniyor. En iyi açık kaynak modellerden biri olarak daha adil bir karşılaştırma sağlar. Sitenin kendisi de eğlenceli, prompt’lar da ilginç.
    • Benim önerim: Böyle bir sahne prompt’unu geçmişte hiçbir model düzgün uygulayamadı; son zamanlarda çok iyileşmiş olabilir diye düşünüyorum…
      A knight with a sword in hand stands with his back to us, facing down an army. He holds his shield above his head to protect himself from the rain of arrows shot by archers visible in the rear.
      
      Yeterli veri olmasına rağmen sonuçların neden bu kadar kötü olduğunu anlamak ilginç. Oldukça ikonik bir sahne.
    • Siteye ekleme talebinde bulundum, keyifle takip ediyorum.
  • Giriş görseli tek bir görselle mi sınırlı, merak ediyorum. Birden fazla görsel verip “A görselindeki öğeyi B görselinin içine yerleştir” ya da “A karakterini B manzarasına koy” gibi birleşik prompt’lar denemek istiyorum.

    • Deneysel “multi” modunda birden fazla görsel girdisi mümkün.
    • Fal üzerinde çoklu görsel arayüzünü deneyebilirsin, Replicate’de de muhtemelen vardır (kontrol etmedim). Bu model inanılmaz güçlü. gpt-image-1 kadar iyi değil ama gerçekten çok yakın. Görsel ya da videoda artık tekel niteliğinde bir engel kalmayacağını düşünüyorum. Google veya OpenAI’nin yaratıcılık pazarını tekeline alacağından endişe ediliyordu ama artık herkes kendisi bir şeyler üretebilecek.
  • Teknik makaleyi merak edenler için resmi raporu paylaşıyorum.

    • Uygulama, diğer açık modellerdekine benzer şekilde oldukça basit görünüyor (HiDream-E1, ICEdit, DreamO vb.). Asıl fark yaratan şey veri kürasyonu ve bu kısım makalede yalnızca kısaca anlatılıyor.
    • Çoğu kişi makalenin kendisiyle ilgilenmiyor; amaç açık ağırlıklı modeli indirip doğrudan çalıştırmak. Çoğu alıp kullanıyor, katkı ise neredeyse yok.
  • Bunu yerelde bizzat düzenleyip eğitmek için ne kadar uzmanlık gerekir? RTX 4090 ve Windows üzerinde Flux 1 dev ile kendim LoRa ince ayarı yapmayı denemek için iki gündür uğraşıyorum ama doğru düzgün beceremedim. Ne kadar derine inmek gerektiğini, giriş bariyerinin düşük olup olmadığını merak ediyorum. Yeni başlayan biri yapabilir mi, yoksa sadece ileri düzey kullanıcılar mı girebilir?

    • Açık kaynak model henüz yayınlanmadı ve Flux 1 Dev üzerinde LoRA eğitimi yapmaktan daha kolay olması beklenmez.
    • SimpleTuner script’ini kullanmanı öneririm. Python kütüphanelerini bilmiyor olsam da doğrudan LoRa ince ayarı yapabilmiştim.
    • Genelde comfyui içinde yapılandırılmış sürümler kolay bulunuyor. Bazı YouTuber’lar bunları Patreon destek ödülü gibi yollarla da dağıtıyor.
    • RTX 4090 + Windows’ta sorun yaşanıyorsa muhtemelen problem Windows işletim sistemi. Gerçek performansını Linux’ta gösteriyor.
  • remove from face örneğini pek anlayamadım. Başka bir yüz fotoğrafı yoksa sonuçta yine tipik bir görsel kullanmıyor mu?

    • Gerçekte bir şeyi geri getirmiyor; hepsi zaten üretilmiş görseller. Gerçek bir yüz yok.
    • Örneğe dikkatli bakarsan, belirli bir nesne yüzün bir kısmını kapattığında model bunu çıkarımla geri oluşturabiliyor olabilir.
    • Temel modelin hangi aşamada olduğuna bağlı; bazı kimlik modelleri sadece kısmi geometriyle bile yüzü oldukça ayrıntılı biçimde interpolate edebiliyor.
    • İlk örnekteki slayt gösterisinin kendisinde bir bug var gibi. Kar tanesi yüzün büyük kısmını kapatıyor.
    • Gerçek fotoğraf kullanıldığında model çoğu zaman yüzü değiştiriyor; bu yüzden örnek olarak yüzün hiç görünmediği bir fotoğraf kullanılıyor olabilir.
  • Satranç görseli üretip üretemediğini soran biri var. Satranç AI tahmin bağlantısı

  • Açık geliştirici sürümünün ne zaman çıkacağına dair tahmin soran bir yorum; bir hafta içinde mi, yoksa bir iki ay daha mı sürer diye merak ediyor.