8 puan yazan GN⁺ 2024-08-02 | 1 yorum | WhatsApp'ta paylaş
  • Black Forest Labs tarafından geliştirilen en büyük SOTA açık kaynak metinden görüntüye model
    • Stable Diffusion’ı geliştiren orijinal ekip
  • 12B parametreyle yaratıcılık ve performansın sınırlarını genişleterek Midjourney’e benzer görüntü üretim yetenekleri sunuyor

3 model seçeneğiyle sunuluyor

  • FLUX.1 [dev]: Ticari olmayan lisansla açık kaynak olarak sunulan temel model. Topluluk bunun üzerine inşa edebilir
  • FLUX.1 [schnell]: Temel modelin damıtılmış sürümü; 10 kata kadar daha hızlı çalışır. Apache 2 lisansı.
  • FLUX.1 [pro]: Yalnızca API üzerinden kullanılabilen kapalı sürüm

Başlıca özellikler

  • Geliştirilmiş görüntü kalitesi: Yüksek çözünürlükte etkileyici görseller üretebilir
  • Gelişmiş insan anatomisi ve fotogerçekçilik: Son derece gerçekçi ve anatomik olarak doğru görüntüler üretebilir
  • İyileştirilmiş prompt uyumu: Girdiye dayalı daha doğru ve daha ilgili görüntüler üretebilir
  • Üstün hız: Yüksek talep gören uygulamalar için ideal olan Flux Schnell’in hızı ve verimliliği

fal entegrasyonu

  • fal’ın son teknoloji çıkarım motoru entegre edilerek Flux modelleri eager torch’a göre 2 kata kadar daha hızlı çalıştırılabiliyor
  • Hızlı işlem süresiyle birlikte üstün kalite ve detay korunuyor

GN⁺ özeti

  • Flux, Black Forest Labs tarafından geliştirilen en yeni metinden görüntüye model olarak yaratıcılık ve performans için yeni bir standart ortaya koyuyor
  • Farklı varyant modeller aracılığıyla çeşitli kullanım senaryolarına uygun özelleştirilmiş çözümler sunuyor
  • Geliştirilmiş görüntü kalitesi ve gerçekçi ifade gücüyle yüksek talep gören uygulamalar için uygun
  • fal’ın çıkarım motoru sayesinde model daha hızlı ve daha verimli çalıştırılabiliyor
  • Benzer yeteneklere sahip diğer projeler arasında DALL-E ve Midjourney bulunuyor

1 yorum

 
GN⁺ 2024-08-02
Hacker News görüşleri
  • burkay from fal.ai: Model fal tarafından yapılmadı; Black Forest Labs tarafından geliştirildi

    • fal.ai, modeli optimize edilmiş bir çıkarım motorunda çalıştırarak çok hızlı hale getiriyor
    • Model playground'da denenebilir
    • [schnell] modeli, Apache lisansı ile Hugging Face üzerinde açık kaynak olarak sunuluyor
    • Metin render etmesi çok hızlı ve başarılı; ayrıca metni ve konumunu daha iyi işleyebilen bir metin kodlayıcısı var
    • Metin render kalitesi arttıkça, eğitim verilerindeki metin filigranları daha belirgin hale geliyor
    • Modeli denemek için bağlantılar paylaşıldı
      • FLUX.1 [schnell]: Apache 2.0, açık ağırlıklar, step distillation
      • FLUX.1 [dev]: ticari olmayan kullanım, açık ağırlıklar, guidance distillation (giriş gerekli)
      • FLUX.1 [pro]: kapalı kaynak, SOTA, ham veri (yalnızca API üzerinden kullanılabilir)
  • Başka bir kullanıcı: Karşılaştırmaların çoğu yeni modeli düzgün test etmiyor

    • Şu anda piyasadaki en iyi prompt uyumu DALL-E 3'te, ancak karmaşık kavramlarda hâlâ yetersiz ve yoğun sansür var
    • Flux ile DALL-E 3 karşılaştırıldığında, Flux etkileyici ve performansı güçlü görünüyor
    • Karşılaştırma sonuçlarını blogunda paylaştı
  • Başka bir kullanıcı: Test için ideogram prompt'larını kullandı ve Flux çok iyi görseller üretti

    • ideogram'ı denedi ama filtrelerini beğenmedi
    • Yerelde çalıştırılabilirse, görsel kalitesi ve prompt uyumu açısından çok yakın
    • Metin karmaşık olduğunda net şekilde yazamıyor
    • Örnek olarak ideogram görselinin prompt'unu paylaştı
    • Stable Diffusion modellerini uzun zaman önce bırakmış; teknoloji fazla karmaşık hale geldiği için eğlencesi kalmamış
    • Filtresiz, yerelde çalıştırılabilen ideogram benzeri bir sistem istiyor
    • Bu modelin çok iyi olduğunu düşünüyor
  • Başka bir kullanıcı: Her yeni modeli gördüğünde mühendislik diyagramları oluşturup oluşturamadığına bakıyor

    • Bu model henüz mühendislik diyagramlarını iyi işleyemiyor
    • Yapay zeka şirketlerinin mühendislik diyagramı sorununu çözmesini istiyor
    • Bunun mevcut eğitim veri setlerinde yer almıyor olma ihtimali yüksek
    • Sentetik veri seti/benchmark oluşturmak istiyor
  • Başka bir kullanıcı: Kayıt süreci zahmetli

    • GitHub hesabı oluştururken şu anda hata almış; iki deneme ve iki tarayıcı gerekmiş
  • Başka bir kullanıcı: Girişim sermayesi destekli startup'lar, iş modeli olmadan ücretsiz model yayınlamayı sürdürüyor

    • Açık kaynağı destekliyor ama uzun vadede bunun sürdürülebilir olup olmayacağından endişeli
  • Başka bir kullanıcı: Etkileyici bir kalite

  • Başka bir kullanıcı: Mekânsal ilişkileri iyi işleyemiyor

    • "ters çevrilmiş bir ev" -> sıradan bir ev
    • "bir köpeğin üstünde oturan at" -> at ve köpek yan yana
    • "ters dönmüş Lockheed Martin F-22 Raptor" -> hatalı sonuç