13 puan yazan xguru 2024-03-06 | 1 yorum | WhatsApp'ta paylaş
  • Stable Diffusion 3'ü çalıştıran teknolojiyi derinlemesine inceleyen bir araştırma makalesi yayımlandı
  • SD3, insan tercih değerlendirmelerine göre tipografi ve prompt'a uyum açısından DALL·E 3, Midjourney v6 ve Ideogram v1 gibi en güncel metinden-görüntü üreten sistemleri geride bırakıyor
  • Yeni Multimodal Diffusion Transformer (MMDiT) mimarisi, görüntü ve dil temsilleri için ayrı ağırlık kümeleri kullanarak SD3'ün önceki sürümlerine kıyasla metin anlama ve yazım becerisini geliştiriyor

Performans

  • Stable Diffusion 3'ün çıktı görüntüleri, SDXL, SDXL Turbo, Stable Cascade, Playground v2.5, Pixart-α gibi çeşitli açık modeller ve DALL·E 3, Midjourney v6, Ideogram v1 gibi kapalı kaynak sistemlerle karşılaştırılarak insan geri bildirimine dayalı performans değerlendirmesi yapıldı
  • Test sonuçlarına göre Stable Diffusion 3, yukarıdaki tüm alanlarda mevcut en güncel metinden-görüntü üreten sistemlerle aynı seviyede ya da daha iyi performans gösteriyor
  • İlk optimize edilmemiş çıkarım testlerinde en büyük SD3 modeli 8B parametreye sahip, RTX 4090'ın 24GB VRAM'ine sığıyor ve 50 örnekleme adımı kullanıldığında 1024x1024 çözünürlükte bir görüntü üretmesi 34 saniye sürüyor
  • İlk sürümde, 800m ile 8B parametreli modellere kadar uzanan çeşitli Stable Diffusion 3 varyantları sunularak donanım bariyeri daha da düşürülüyor

Mimari ayrıntılar

  • Metinden-görüntü üretimi için modelin hem metin hem de görüntü olmak üzere iki modaliteyi birlikte dikkate alması gerekiyor
  • Bu yeni mimariye, farklı modaliteleri işleyebilme yeteneğine atıfla MMDiT adı veriliyor
  • Stable Diffusion'ın önceki sürümlerinde olduğu gibi, uygun metin ve görüntü temsillerini çıkarmak için önceden eğitilmiş modeller kullanılıyor
  • Metin ve görüntü embedding'leri kavramsal olarak oldukça farklı olduğundan, iki modalite için ayrı ağırlık kümeleri kullanılıyor
  • Bu yaklaşım sayesinde görüntü ve metin token'ları arasında bilgi akışı sağlanarak çıktının genel anlama düzeyi ve tipografisi iyileştiriliyor
  • Bu mimari, video gibi çoklu modalitelere kolayca genişletilebiliyor

Reweighting ile Rectified Flows iyileştirmesi

  • Stable Diffusion 3, eğitim sırasında veri ile gürültüyü doğrusal bir yörüngede bağlayan Rectified Flow (RF) formülasyonunu kullanıyor
  • Bu, daha doğrusal bir çıkarım yolu oluşturarak daha az adımla örnekleme yapılmasını sağlıyor
  • Ayrıca eğitim sürecine yeni bir yörünge örnekleme takvimi eklenerek yörüngenin orta bölümüne daha fazla ağırlık veriliyor
  • Bu yaklaşım farklı diffusion yörüngeleriyle karşılaştırıldığında, önceki RF formülasyonunun az adımlı örnekleme düzeninde performansı artırdığı, ancak daha fazla adımda göreli performansın düştüğü görüldü
  • Buna karşılık yeniden ağırlıklandırılmış RF varyantı performansı tutarlı biçimde artırıyor

Rectified Flow Transformer modelinin ölçeklendirilmesi

  • Yeniden ağırlıklandırılmış Rectified Flow formülasyonu ve MMDiT backbone'u kullanılarak metinden-görüntü sentezi için bir ölçeklendirme çalışması yapıldı
  • Hem model boyutu hem de eğitim adımları açısından doğrulama kaybında yumuşak bir düşüş gözlemlendi
  • Bunun model çıktısında anlamlı iyileşmelere dönüşüp dönüşmediğini test etmek için otomatik görüntü hizalama metriği (GenEval) ve insan tercih puanı (ELO) değerlendirildi
  • Sonuçlar, bu metriklerle doğrulama kaybı arasında güçlü bir korelasyon olduğunu gösteriyor
  • Ölçeklendirme eğilimleri bir doygunluk işareti göstermediği için, gelecekte model performansının daha da artırılabileceğine dair iyimser bir tablo ortaya çıkıyor

Esnek metin encoder'ı

  • Çıkarım sırasında bellek yoğun 4.7B parametreli T5 metin encoder'ının kaldırılmasıyla, SD3'ün bellek gereksinimleri büyük ölçüde azaltılabilir ve performans kaybı ise çok sınırlı kalır
  • Bu metin encoder'ını kaldırmak görsel estetiği etkilemez (kaldırma sonrası kazanma oranı: %50), metne uyumda ise hafif bir düşüş olur (kazanma oranı %46)
  • Ancak metin üretiminde SD3'ün tam gücünü ortaya çıkarmak için T5'in dahil edilmesi önerilir

1 yorum

 
xguru 2024-03-06

Hacker News görüşleri

  • Stability AI'ın açık kaynağa olan bağlılığı oldukça ilgi çekici ve mümkün olduğunca uzun süre ayakta kalmalarını umuyorum.

    • Stable Diffusion 3'ün hâlâ tokenization ve metin gömme için OpenAI'ın CLIP'ini kullanıp kullanmadığını merak ediyorum.
    • Model mimarisinin bu kısmını geliştirip metin ve görsel prompt'larla daha iyi eşleşmesini sağlayacaklarını varsayıyorum.
  • Stable Diffusion 3'ün metin render etmesi etkileyici, ancak metinde her zaman kendine özgü aşırı işlenmiş bir his var.

    • Metin rengi hep tek bir değere yükseltilmiş gibi oluyor; bu da sanki yüksek kaliteli bir görsele amatörce metin eklenmiş gibi gösteriyor.
  • SD3'ün indirilebilir olup olmadığına dair bir soru.

    • SD'nin ilk sürümlerini local olarak çalıştırmıştım ve çok iyiydi.
    • Kendi kendine barındırmanın umut verici olduğu pek çok LLM gibi bunun da SAAS'a mı döndüğünü merak ediyorum.
  • Görsel üreticilerin nihayet yazımı doğru uygulamaya başlaması çok ilgi çekici.

    • DALL-E 3'ün yazım becerisi öne çıkarılmıştı, ancak Bing ile denediğimde tutarlılığı zayıftı.
    • Yazımı doğru üretirken karşılaşılan zorluklar ve bunun nedenleri hakkında daha az teknik bir açıklama okumak isterim.
    • SD3'ün eski görsellerdeki metin sorunlarını temizleyip düzeltemeyeceğini merak ediyorum.
  • SD3'ün duyurusu oldukça heyecan verici.

    • Makale, blog yazısından çok daha fazla ayrıntı içeriyor.
    • Makaledeki ana nokta, daha ifade gücü yüksek bir metin kodlayıcı içerebilecek bir mimariye sahip olması ve bunun karmaşık sahnelere yardımcı olduğunu göstermesi.
    • Eğitim tarafında bu yığının sınırına henüz ulaşılmadığı için SD3.1'in daha da gelişmesini bekliyorum; SD4'ün ise video işleme için daha fazla front-end encoding ekleyebileceğini düşünüyorum.
  • SD3'ün metin render etmedeki iyileşmesi güzel, ancak el ve parmak üretmek hâlâ zor.

    • Örnek görsellerde pikselleşmiş büyücü dışında insan eli yok ve maymunun elleri de biraz tuhaf görünüyor.
  • Bu mimari, videoya kolayca genişletilebilecek kadar esnek.

    • LLaMA'nın transformer blokları gibi bir başka "temel" blok olmasını bekliyorum.
    • Metin encoding'i/time-step koşullandırmasını bloğa çeşitli şekillerde entegre etmeye yetecek kadar genel.
    • Position encoding (2D RoPE?) ile oynamak dışında yapılacak pek bir şey kalmamış gibi.
    • Transformer'ı ölçekleyip quantization/optimization'a odaklanarak bu yığını her yerde düzgün çalıştırmak.
  • Bir zamanlar "açık" olmaya adanmış ya da daha önce açık olan birçok şirket giderek daha kapalı hâle geliyor.

    • Stability AI'ın bu araştırma makalelerini yayımlamasını takdir ediyorum.
  • Stability AI ile karşılaştırıldığında OpenAI, en kapalı yapay zeka araştırma laboratuvarı.

    • Deep Mind bile daha fazla makale yayımlıyor.
    • OpenAI içinde kamuya açık şekilde "Biz burada para için varız!" diyen biri olup olmadığını merak ediyorum.
    • SamA'nın kısa süre önce Elon'un davası hakkında yazdığı mektup, Putin'in Ukrayna'yı 'Nazilerden arındırmak' için işgal ettiğini söylemesi kadar doğru.