4 puan yazan GN⁺ 2025-08-02 | 1 yorum | WhatsApp'ta paylaş
  • Krea 1’in ilk görsel modeli, FLUX.1 Krea adındaki açık ağırlık sürümü olarak yayınlandı
  • Mevcut görsel oluşturma modellerinden farklı olarak, net bir estetik zevk ve foto-gerçekçilik odaklı şekilde, "yapay zeka gibi görünmeyen" görüntüler hedefleyerek tasarlandı
  • Mevcut benchmark ve değerlendirme metriklerinin gerçek kullanıcıların aradığı estetik duyguyla çeliştiği sorun analiz edildi; bunu çözmek için doğrudan küratörlü veri ve tercihe dayalı estetik önyargı uygulandı
  • Ön-eğitim (pre-training) ile sonrası eğitimi (post-training) süreçleri ayrılarak, çeşitliliği güvence altına alan aşama ile net bir stile yakınsama aşaması sistematik biçimde işletildi
  • İleride kişiselleştirme/zevk uyumlaması çalışmaları, daha geniş bir görsel alan genişletimi ve içerik üreticileri için destek özellikleri güçlendirme planlanıyor

FLUX.1 Krea Açık Kaynak Yayını

  • Krea 1, Black Forest Labs ile birlikte eğitilmiş ilk görsel üretme modeli olarak, estetik kontrol ve görüntü kalitesinde üstünlük hedefliyor
  • FLUX.1 Krea [dev] açık ağırlık olarak yayımlanıyor ve mevcut FLUX.1-dev ekosistemiyle tamamen uyumlu
  • Bu model, foto-gerçekçilik ve estetik öğeleri maksimuma çıkarırken belirli bir estetik zevki yansıtarak tasarlanmış opinionated aesthetics yaklaşımını hedefliyor

"AI Look" Fenomeni ve Sınırlılıkları

  • Mevcut yapay zeka ile üretilmiş görseller genellikle aşırı bulanık arka plan, mumumsu cilt ve tekdüze kompozisyon gibi, yaygın bir şekilde "AI look" fenomenini sergiliyor
  • Benchmark optimizasyonu ve teknik metriklere odaklanmak, gerçekçi doku, stil çeşitliliği ve yaratıcı sonuçların kurban edilmesine yol açabiliyor
  • Gerçek kullanıcı zevkini yansıtmayan mevcut değerlendirme modellerinin sınırları
    • Ön-eğitimde kullanılan Fréchet Inception Distance (FID), CLIP Score modelin genel performansını ölçmekte faydalı
    • Akademi ve sektörde DPG, GenEval, T2I-Compbench, GenAI-Bench gibi farklı benchmarklar kullanılmakta, ancak çoğunlukla yalnızca istem uyumu, mekânsal ilişki ve özellik birleştirme gibi alanları değerlendiriyor
    • Estetik değerlendirme modeli olarak LAION-Aesthetics, Pickscore, ImageReward, HPSv2 kullanılmasına rağmen, çoğu CLIP tabanlı olduğundan çözünürlük ve parametre sayısı sınırlı
    • Örneğin LAION-Aesthetics, kadın, bulanık arka plan, parlak renk görsellere yönelik bir önyargı taşır; bu ölçütlerle veri filtrelenirse modele örtük bir önyargı aşılanabilir
  • Estetik değerlendirme metrikleri ve filtreler kötü görselleri ayıklamada faydalı olsa da, eğitim verisini seçerken bunlara aşırı bağımlılık modelin kendisine önyargı kazandırma riski taşır
  • Görüntü dil modeli tabanlı en yeni değerlendirme ölçütleri ortaya çıksa da, estetik zevk hâlâ öznel olduğundan tek bir sayıya indirgenemez

Ön-eğitim (Pre-training) ve Sonrası Eğitimi (Post-training) Mimarisi

  • Ön-eğitim (Pre-training)

    • Ön-eğitimde model, görsel dünya hakkında stil, nesne, kişi, mekan gibi bilgileri geniş ölçüde öğrenerek çeşitlilik (mode coverage) en üst düzeye çıkarılır
    • İyi olmayan veriler de dahil edilerek modelin istenmeyen özellikleri de (ör. tuhaf parmaklar, bulanıklık vb.) öğrenmesi sağlanır
    • Ön-eğitim, modelin en iyi kalite sınırını ve stil çeşitliliğini belirler
  • Sonrası Eğitimi (Post-training)

    • Sonrası eğitime girerken model dağılımı tercih edilen stile odaklanarak sıkıştırılır (mode collapsing) ve “AI look” yerine net bir estetik yönelimde yakınsar
    • Supervised Finetuning (SFT) ve RLHF (tercihe dayalı pekiştirmeli öğrenme) ile iki aşamada ilerlenir
      • SFT: doğrudan küratörlü yüksek kaliteli veri seti ve Krea-1 sentetik görselleri kullanılır
      • RLHF: içsel tercih verisine dayalı olarak defalarca optimize edilip estetik ve stil detaylı biçimde incelenir
    • Veri miktarından çok veri kalitesinin belirleyici olduğu doğrulandı (1M’in altında az miktarda yüksek kaliteli veriyle yeterli)
    • Tercihe dayalı yaklaşım (opinionated approach) estetik tercih etiketleri uygulanır; yalnızca mevcut açık tercih verisi kullanıldığında tekdüzeleşme ve AI look’a geri dönme sorunu engellenir

Model Boru Hattı ve Deneysel Bulgular

  • flux-dev-raw adlı 12B parametreli bir guidance-distilled temel model kullanılarak, mevcut aşırı fine-tuned açık modellerden ayrıştırıldı
  • RLHF aşamasında TPO (preference optimization) tekniği uygulandı ve görsel duyarlık ile stilizasyon özellikleri güçlendirildi
  • Sıkı filtrelenmiş yüksek kaliteli iç tercih verisi birden çok kez kullanılarak model çıktısı hassas biçimde kalibre edildi
  • Temel Bulgular

    • 1. Veri miktarından çok kalitenin daha önemli olduğu görülüyor. 1M’in altında veriyle bile anlamlı bir son eğitim yapmak mümkün. Nicel çeşitlilik önyargıyı azaltma ve stabilite için faydalı olsa da en kritik unsur küratörlü yüksek kaliteli veridir
    • 2. Net bir zevk odaklı veri toplamaya ihtiyaç var. Yaygın açık veri kümeleri istem dışı önyargı, “AI look” geri dönüşü ve basit kompozisyon/renk yanlılığı gibi sorunlara yol açabiliyor
      • Metin üretimi, anatomi, yapı gibi objektif hedeflerde veri çeşitliliği yardımcı olurken, estetik gibi öznel hedeflerde karışık veri yerine özelleştirilmiş veri daha etkilidir
      • Çok sayıda estetik dağılımını bir araya getirdiğinizde kimsenin gerçekten memnun olmayacağı sonuçlar doğar; bu da birçok kullanıcının LoRA gibi son işlem yöntemlerine bağımlı kalmasına yol açıyor

Gelecek Araştırma Yönleri ve Kapanış

  • Krea 1, estetik standart ve kalite odaklı içerik üreticileri için atılmış ilk adım olup, açık kaynak topluluğunun büyümesini hedefliyor
  • İleride çekirdek yetenekleri geliştirme, daha çeşitli görsel alan desteği ve kişiselleştirme·kontrol edilebilirlik çalışmalarıyla kullanıcının estetik zevkine uygun model sunmayı hedefliyoruz
  • GitHub( https://github.com/krea-ai/flux-krea ) referans

1 yorum

 
GN⁺ 2025-08-02
Hacker News yorumları
  • Herkese merhaba. Ben Krea'nın kurucu ortaklarından biri ve CTO'suyum. Modelimizin ağırlıklarını açık edip HN topluluğuyla paylaşmayı uzun zamandır istiyorduk. Bugün gün boyunca mümkün olduğunca çevrimiçi kalıp soruları yanıtlamaya çalışacağım
    • Flux 'Kontext' sürümü, yani düzenleme modeli için destek planınız olup olmadığını merak ediyorum. Prompt tabanlı görsel düzenlemenin kullanım alanı çok büyük görünüyor. Açık ağırlıklı sürümün kalitesini henüz görmedim ama demo çok etkileyiciydi. Bildiğim kadarıyla bu model de 12B boyutunda
    • Bunu yayımlamanızın amacı nedir, merak ediyorum. Ticari olarak hedeflediğiniz bir şey mi var, yoksa gerçekten tamamen katkı amacıyla mı yapıyorsunuz?
    • İngilizce dışındaki dilleri de destekleyen bir modele ihtiyacımız var
    • P(.|photo) ile P(.|minimal) örneğinde bu çatışmayı pratikte nasıl çözdüğünüzü merak ediyorum. Bence fotoğraf gerçekçiliği varsayılan olmalı. Örneğin kullanıcı "kitap okuyan bir kedi" yazarsa, AI tarzı ya da çizim yerine gerçekten kitap okuyan bir kedi görüntüsü çıkması daha doğru gibi geliyor. Ek bağlam yoksa "kedi"nin gerçek bir kedi olarak yorumlanması doğal hissettiriyor. Kullanıcı illüstrasyon gibi başka bir stil istiyorsa bunu prompt'ta açıkça belirtmesi gerekmez mi? Acaba benim kaçırdığım bir nüans mı var?
  • Güzel bir yayın. 12B Txt2Img Krea modeliyle kısa bir test yaptım. En dikkat çekici yanı hızıydı (ve muhtemelen gerçekçiliği). Ama tahmin edilebileceği gibi, <i>prompt adherence</i> açısından genel Flux.1D modelinden daha yüksek puan alamadı. Sonuçlar https://genai-showdown.specr.net adresinde görülebilir. Öte yandan Wan 2.2+ sürümünün ileride T2I alanında önemli bir rol oynama ihtimali var, ancak görsel çeşitliliği artırmak için çok sayıda LoRA gerekebilir
    • Test sonuçlarını görebileceğimiz URL'yi paylaşabilir misiniz? Ayrıca bu modelin yalnızca prompt doğruluğuna değil, daha çok <i>aesthetics</i>'e odaklandığını da belirtmek isterim. Kötü örnekleri savunmak için söylemiyorum; bu araştırma hedeflerinden biriydi. "flux look" diye anılan o kendine has stili ortadan kaldırmak istiyorsanız bunun kaçınılmaz bir ödünleşim olduğunu dikkate almanız gerekir. Ayrıca bazı kişiler Wan 2.2 ile temel görüntüyü üretip Krea ile refine ediyor; oldukça ilginç bir yaklaşım
  • Merhaba! Ben Krea-1 FLUX.1'in baş araştırmacısıyım. Krea, Krea-1'den distill edilmiş 12B Rectified Flow Model ve FLUX mimarisiyle uyumlu olacak şekilde tasarlandı. Teknik sorular varsa yanıtlayabilirim
    • Ben geleneksel medya prodüksiyonu kökenliyim. Medyayı birden çok katmana ayırıp birleştirerek çalışmak maliyet yönetimi ve kalite kontrolü için kritik. Ama bugünkü AI görüntü, video ve ses üretim yöntemleri bunu desteklemiyor. ForgeUI kısa süreliğine destekledi ama sonra bırakıldı. Bence bunun nedeni gerçek büyük ölçekli medya üretim ihtiyaçlarının anlaşılmamış olması. Ekipte gerçek film VFX'i, animasyon reklamları veya milyonlarca dolarlık prodüksiyon tecrübesine sahip biri var mı, merak ediyorum. Başarılı olmak istiyorsanız mutlaka geleneksel medya üretim iş akışlarını desteklemelisiniz. Mevcut AI araçları prodüksiyon araçları ya da beklentilerle hiç entegre olmadığı için sahada benimsenemiyor
    • Model kalitesi gerçekten çok iyi. Özellikle "flux-dev-raw bir guidance distilled model olduğu için, özel bir kayıp fonksiyonu oluşturup classifier-free guided dağılım üzerinde doğrudan fine-tune ettik" kısmı çok etkileyiciydi. Bununla ilgili daha ayrıntılı açıklama ve fine-tuning ipuçları varsa duymak isterim. Açık kaynak AI sanat topluluğunda da orijinal distilled flux-dev üzerinde fine-tuning çok zor olduğu için bunu merak ediyorum
    • Bu çaba için gerçekten teşekkürler. "FLUX mimarisiyle uyumlu olacak şekilde tasarlandı" derken neyi kastettiğinizi ve bunun neden önemli olduğunu açıklayabilir misiniz?
  • 23.8GB boyutundaki safetensor dosyası 12B parametreli bir model için bana pek anlaşılır gelmedi. 1B parametrenin 1GB VRAM gerektirdiğini sanıyordum; bu model 24GB VRAM mi kullanıyor, 12GB mı? Yoksa ben mi yanlış düşünüyorum?
    • bfloat16 ile hesaplarsanız 1B x 16bit = 2GB eder; yani 12B için neredeyse 24GB doğru. float32'den bfloat16'ya inince performans kaybı neredeyse olmadığı için bfloat16 olarak yükledik
    • Parametre başına kullanılan float boyutu değişebilir. Pek çok model FP8 (parametre başına 8bit) olarak dağıtılıyor, ama bu model FP16 (16bit). Sık görülen yaklaşım, modeli FP16 ile eğitip sonra FP8 ya da FP4 olarak quantize ederek yayımlamak
    • 8bit'e quantize edilmiş modeller için 1B=1GB gibi düşünebilirsiniz, ama 16bit ve 32bit sürümler bunun 2 ila 4 katı kadar alan ister
  • Basit bir prompt ile ilginç bir sonuç aldım: "Octopus DJ spinning the turntables at a rave." DJ'de görünen insan elleri dikkat çekiciydi. Ne kadar prompt denesem de bu elleri kaldıramadım. Makalede belirtildiği gibi model gerçekten opinionated görünüyor
    • "Octopus DJ with no fingers" prompt'unu yazınca eller kayboldu ama bu kez ahtapotun tüm insani özellikleri de gitti ve geriye sadece pikabı çeviren saf bir ahtapot kaldı
  • Benim her zaman üretmek istediğim görüntü bir Galton board. Üst tarafta biraz ayrık duran iki delikten toplar düşüyor; biri mavi, biri kırmızı. Altta ise iki rengin birleşik dağılımı, sütunların çift tepeli bir normal dağılım oluşturduğunu gösteriyor. Referans görsel: https://imgur.com/a/DiAOTzJ (üstte iki çıkış ağzı). Gerçek deneme sonuçları: https://imgur.com/undefined, https://imgur.com/a/uecXDzI
    • Bunu gerçek hayatta kendiniz yapmayı hiç denediniz mi? double Galton board için bir video bulamadım
  • hey hn! Ben Krea'nın kurucu ortaklarından biriyim. FLUX Krea'yı nasıl eğittiğimizi özetleyen bir blog yazımız var; daha fazla ayrıntı isterseniz bakabilirsiniz: https://www.krea.ai/blog/flux-krea-open-source-release
    • Konu dışı bir soru ama gerçekten web sitesinde kaydırma çubuğunu gizlediniz mi? Neden böyle yaptığınızı anlayamıyorum.
      .scrollbar-hide {
        -ms-overflow-style: none;
        scrollbar-width: none;
      }
      
  • NVIDIA için optimize edilmiş bir sürüm sunuyor musunuz? RTX hızlandırmalı FLUX.1 Kontext gibi: https://blogs.nvidia.com/blog/rtx-ai-garage-flux-kontext-nim-tensorrt/
    • FLUX.1 Krea için ayrı bir RTX hızlandırmalı sürüm hazırlamadık. Ancak model mevcut FLUX.1 dev kod tabanıyla tamamen uyumlu. Ayrı bir ONNX export da görünmüyor. SVDQuant ile 4~8bit quantize edilmiş sürümler, checkpoint'leri daha genel donanımlar için uygun hale getirmek adına iyi bir sonraki adım olabilir
  • Faydalı bağlantılar:
  • Şirketlerin, istedikleri çıktıyı aldıklarında bunun ticari kullanım haklarını açık biçimde lisanslayabilecekleri iyi belgelenmiş bir yol sunmanızı öneririm (yakında nedenini anlayacaksınız!)