- Krea 1’in ilk görsel modeli, FLUX.1 Krea adındaki açık ağırlık sürümü olarak yayınlandı
- Mevcut görsel oluşturma modellerinden farklı olarak, net bir estetik zevk ve foto-gerçekçilik odaklı şekilde, "yapay zeka gibi görünmeyen" görüntüler hedefleyerek tasarlandı
- Mevcut benchmark ve değerlendirme metriklerinin gerçek kullanıcıların aradığı estetik duyguyla çeliştiği sorun analiz edildi; bunu çözmek için doğrudan küratörlü veri ve tercihe dayalı estetik önyargı uygulandı
- Ön-eğitim (pre-training) ile sonrası eğitimi (post-training) süreçleri ayrılarak, çeşitliliği güvence altına alan aşama ile net bir stile yakınsama aşaması sistematik biçimde işletildi
- İleride kişiselleştirme/zevk uyumlaması çalışmaları, daha geniş bir görsel alan genişletimi ve içerik üreticileri için destek özellikleri güçlendirme planlanıyor
FLUX.1 Krea Açık Kaynak Yayını
- Krea 1, Black Forest Labs ile birlikte eğitilmiş ilk görsel üretme modeli olarak, estetik kontrol ve görüntü kalitesinde üstünlük hedefliyor
- FLUX.1 Krea [dev] açık ağırlık olarak yayımlanıyor ve mevcut FLUX.1-dev ekosistemiyle tamamen uyumlu
- Bu model, foto-gerçekçilik ve estetik öğeleri maksimuma çıkarırken belirli bir estetik zevki yansıtarak tasarlanmış opinionated aesthetics yaklaşımını hedefliyor
"AI Look" Fenomeni ve Sınırlılıkları
- Mevcut yapay zeka ile üretilmiş görseller genellikle aşırı bulanık arka plan, mumumsu cilt ve tekdüze kompozisyon gibi, yaygın bir şekilde "AI look" fenomenini sergiliyor
- Benchmark optimizasyonu ve teknik metriklere odaklanmak, gerçekçi doku, stil çeşitliliği ve yaratıcı sonuçların kurban edilmesine yol açabiliyor
- Gerçek kullanıcı zevkini yansıtmayan mevcut değerlendirme modellerinin sınırları
- Ön-eğitimde kullanılan Fréchet Inception Distance (FID), CLIP Score modelin genel performansını ölçmekte faydalı
- Akademi ve sektörde DPG, GenEval, T2I-Compbench, GenAI-Bench gibi farklı benchmarklar kullanılmakta, ancak çoğunlukla yalnızca istem uyumu, mekânsal ilişki ve özellik birleştirme gibi alanları değerlendiriyor
- Estetik değerlendirme modeli olarak LAION-Aesthetics, Pickscore, ImageReward, HPSv2 kullanılmasına rağmen, çoğu CLIP tabanlı olduğundan çözünürlük ve parametre sayısı sınırlı
- Örneğin LAION-Aesthetics, kadın, bulanık arka plan, parlak renk görsellere yönelik bir önyargı taşır; bu ölçütlerle veri filtrelenirse modele örtük bir önyargı aşılanabilir
- Estetik değerlendirme metrikleri ve filtreler kötü görselleri ayıklamada faydalı olsa da, eğitim verisini seçerken bunlara aşırı bağımlılık modelin kendisine önyargı kazandırma riski taşır
- Görüntü dil modeli tabanlı en yeni değerlendirme ölçütleri ortaya çıksa da, estetik zevk hâlâ öznel olduğundan tek bir sayıya indirgenemez
Ön-eğitim (Pre-training) ve Sonrası Eğitimi (Post-training) Mimarisi
-
Ön-eğitim (Pre-training)
- Ön-eğitimde model, görsel dünya hakkında stil, nesne, kişi, mekan gibi bilgileri geniş ölçüde öğrenerek çeşitlilik (mode coverage) en üst düzeye çıkarılır
- İyi olmayan veriler de dahil edilerek modelin istenmeyen özellikleri de (ör. tuhaf parmaklar, bulanıklık vb.) öğrenmesi sağlanır
- Ön-eğitim, modelin en iyi kalite sınırını ve stil çeşitliliğini belirler
-
Sonrası Eğitimi (Post-training)
- Sonrası eğitime girerken model dağılımı tercih edilen stile odaklanarak sıkıştırılır (mode collapsing) ve “AI look” yerine net bir estetik yönelimde yakınsar
- Supervised Finetuning (SFT) ve RLHF (tercihe dayalı pekiştirmeli öğrenme) ile iki aşamada ilerlenir
- SFT: doğrudan küratörlü yüksek kaliteli veri seti ve Krea-1 sentetik görselleri kullanılır
- RLHF: içsel tercih verisine dayalı olarak defalarca optimize edilip estetik ve stil detaylı biçimde incelenir
- Veri miktarından çok veri kalitesinin belirleyici olduğu doğrulandı (1M’in altında az miktarda yüksek kaliteli veriyle yeterli)
- Tercihe dayalı yaklaşım (opinionated approach) estetik tercih etiketleri uygulanır; yalnızca mevcut açık tercih verisi kullanıldığında tekdüzeleşme ve AI look’a geri dönme sorunu engellenir
Model Boru Hattı ve Deneysel Bulgular
- flux-dev-raw adlı 12B parametreli bir guidance-distilled temel model kullanılarak, mevcut aşırı fine-tuned açık modellerden ayrıştırıldı
- RLHF aşamasında TPO (preference optimization) tekniği uygulandı ve görsel duyarlık ile stilizasyon özellikleri güçlendirildi
- Sıkı filtrelenmiş yüksek kaliteli iç tercih verisi birden çok kez kullanılarak model çıktısı hassas biçimde kalibre edildi
-
Temel Bulgular
- 1. Veri miktarından çok kalitenin daha önemli olduğu görülüyor. 1M’in altında veriyle bile anlamlı bir son eğitim yapmak mümkün. Nicel çeşitlilik önyargıyı azaltma ve stabilite için faydalı olsa da en kritik unsur küratörlü yüksek kaliteli veridir
- 2. Net bir zevk odaklı veri toplamaya ihtiyaç var. Yaygın açık veri kümeleri istem dışı önyargı, “AI look” geri dönüşü ve basit kompozisyon/renk yanlılığı gibi sorunlara yol açabiliyor
- Metin üretimi, anatomi, yapı gibi objektif hedeflerde veri çeşitliliği yardımcı olurken, estetik gibi öznel hedeflerde karışık veri yerine özelleştirilmiş veri daha etkilidir
- Çok sayıda estetik dağılımını bir araya getirdiğinizde kimsenin gerçekten memnun olmayacağı sonuçlar doğar; bu da birçok kullanıcının LoRA gibi son işlem yöntemlerine bağımlı kalmasına yol açıyor
Gelecek Araştırma Yönleri ve Kapanış
- Krea 1, estetik standart ve kalite odaklı içerik üreticileri için atılmış ilk adım olup, açık kaynak topluluğunun büyümesini hedefliyor
- İleride çekirdek yetenekleri geliştirme, daha çeşitli görsel alan desteği ve kişiselleştirme·kontrol edilebilirlik çalışmalarıyla kullanıcının estetik zevkine uygun model sunmayı hedefliyoruz
- GitHub( https://github.com/krea-ai/flux-krea ) referans
Henüz yorum yok.