Stable Diffusion 3 araştırma makalesi yayımlandı

xguru · 2024-03-06T10:46:01+09:00

Stable Diffusion 3'ü çalıştıran teknolojiyi derinlemesine inceleyen bir araştırma makalesi yayımlandı SD3, insan tercih değerlendirmelerine göre tipografi ve prompt'a uyum açısından DALL·E 3, Midjourney v6 ve Ideogram v1 gibi en güncel metinden-görüntü üreten sistemleri geride bırakıyor Yeni Multimodal Diffusion Transformer (MMDiT) mimarisi, görüntü ve dil temsilleri için ayrı ağırlık kümeleri kullanarak SD3'ün önceki sürümlerine kıyasla metin anlama ve yazım becerisini geliştiriyor Performans Stable Diffusion 3'ün çıktı görüntüleri, SDXL, SDXL Turbo, Stable Cascade, Playground v2.5, Pixart-α gibi çeşitli açık modeller ve DALL·E 3, Midjourney v6, Ideogram v1 gibi kapalı kaynak sistemlerle karşılaştırılarak insan geri bildirimine dayalı performans değerlendirmesi yapıldı Test sonuçlarına göre Stable Diffusion 3, yukarıdaki tüm alanlarda mevcut en güncel metinden-görüntü üreten sistemlerle aynı seviyede ya da daha iyi performans gösteriyor İlk optimize edilmemiş çıkarım testlerinde en büyük SD3 modeli 8B parametreye sahip, RTX 4090'ın 24GB VRAM'ine sığıyor ve 50 örnekleme adımı kullanıldığında 1024x1024 çözünürlükte bir görüntü üretmesi 34 saniye sürüyor İlk sürümde, 800m ile 8B parametreli modellere kadar uzanan çeşitli Stable Diffusion 3 varyantları sunularak donanım bariyeri daha da düşürülüyor Mimari ayrıntılar Metinden-görüntü üretimi için modelin hem metin hem de görüntü olmak üzere iki modaliteyi birlikte dikkate alması gerekiyor Bu yeni mimariye, farklı modaliteleri işleyebilme yeteneğine atıfla MMDiT adı veriliyor Stable Diffusion'ın önceki sürümlerinde olduğu gibi, uygun metin ve görüntü temsillerini çıkarmak için önceden eğitilmiş modeller kullanılıyor Metin ve görüntü embedding'leri kavramsal olarak oldukça farklı olduğundan, iki modalite için ayrı ağırlık kümeleri kullanılıyor Bu yaklaşım sayesinde görüntü ve metin token'ları arasında bilgi akışı sağlanarak çıktının genel anlama düzeyi ve tipografisi iyileştiriliyor Bu mimari, video gibi çoklu modalitelere kolayca genişletilebiliyor Reweighting ile Rectified Flows iyileştirmesi Stable Diffusion 3, eğitim sırasında veri ile gürültüyü doğrusal bir yörüngede bağlayan Rectified Flow (RF) formülasyonunu kullanıyor Bu, daha doğrusal bir çıkarım yolu oluşturarak daha az adımla örnekleme yapılmasını sağlıyor Ayrıca eğitim sürecine yeni bir yörünge örnekleme takvimi eklenerek yörüngenin orta bölümüne daha fazla ağırlık veriliyor Bu yaklaşım farklı diffusion yörüngeleriyle karşılaştırıldığında, önceki RF formülasyonunun az adımlı örnekleme düzeninde performansı artırdığı, ancak daha fazla adımda göreli performansın düştüğü görüldü Buna karşılık yeniden ağırlıklandırılmış RF varyantı performansı tutarlı biçimde artırıyor Rectified Flow Transformer modelinin ölçeklendirilmesi Yeniden ağırlıklandırılmış Rectified Flow formülasyonu ve MMDiT backbone'u kullanılarak metinden-görüntü sentezi için bir ölçeklendirme çalışması yapıldı Hem model boyutu hem de eğitim adımları açısından doğrulama kaybında yumuşak bir düşüş gözlemlendi Bunun model çıktısında anlamlı iyileşmelere dönüşüp dönüşmediğini test etmek için otomatik görüntü hizalama metriği (GenEval) ve insan tercih puanı (ELO) değerlendirildi Sonuçlar, bu metriklerle doğrulama kaybı arasında güçlü bir korelasyon olduğunu gösteriyor Ölçeklendirme eğilimleri bir doygunluk işareti göstermediği için, gelecekte model performansının daha da artırılabileceğine dair iyimser bir tablo ortaya çıkıyor Esnek metin encoder'ı Çıkarım sırasında bellek yoğun 4.7B parametreli T5 metin encoder'ının kaldırılmasıyla, SD3'ün bellek gereksinimleri büyük ölçüde azaltılabilir ve performans kaybı ise çok sınırlı kalır Bu metin encoder'ını kaldırmak görsel estetiği etkilemez (kaldırma sonrası kazanma oranı: %50), metne uyumda ise hafif bir düşüş olur (kazanma oranı %46) Ancak metin üretiminde SD3'ün tam gücünü ortaya çıkarmak için T5'in dahil edilmesi önerilir

(stability.ai)

13 puan yazan xguru 2024-03-06 | 1 yorum | WhatsApp'ta paylaş

Stable Diffusion 3'ü çalıştıran teknolojiyi derinlemesine inceleyen bir araştırma makalesi yayımlandı
SD3, insan tercih değerlendirmelerine göre tipografi ve prompt'a uyum açısından DALL·E 3, Midjourney v6 ve Ideogram v1 gibi en güncel metinden-görüntü üreten sistemleri geride bırakıyor
Yeni Multimodal Diffusion Transformer (MMDiT) mimarisi, görüntü ve dil temsilleri için ayrı ağırlık kümeleri kullanarak SD3'ün önceki sürümlerine kıyasla metin anlama ve yazım becerisini geliştiriyor

Performans

Stable Diffusion 3'ün çıktı görüntüleri, SDXL, SDXL Turbo, Stable Cascade, Playground v2.5, Pixart-α gibi çeşitli açık modeller ve DALL·E 3, Midjourney v6, Ideogram v1 gibi kapalı kaynak sistemlerle karşılaştırılarak insan geri bildirimine dayalı performans değerlendirmesi yapıldı
Test sonuçlarına göre Stable Diffusion 3, yukarıdaki tüm alanlarda mevcut en güncel metinden-görüntü üreten sistemlerle aynı seviyede ya da daha iyi performans gösteriyor
İlk optimize edilmemiş çıkarım testlerinde en büyük SD3 modeli 8B parametreye sahip, RTX 4090'ın 24GB VRAM'ine sığıyor ve 50 örnekleme adımı kullanıldığında 1024x1024 çözünürlükte bir görüntü üretmesi 34 saniye sürüyor
İlk sürümde, 800m ile 8B parametreli modellere kadar uzanan çeşitli Stable Diffusion 3 varyantları sunularak donanım bariyeri daha da düşürülüyor

Mimari ayrıntılar

Metinden-görüntü üretimi için modelin hem metin hem de görüntü olmak üzere iki modaliteyi birlikte dikkate alması gerekiyor
Bu yeni mimariye, farklı modaliteleri işleyebilme yeteneğine atıfla MMDiT adı veriliyor
Stable Diffusion'ın önceki sürümlerinde olduğu gibi, uygun metin ve görüntü temsillerini çıkarmak için önceden eğitilmiş modeller kullanılıyor
Metin ve görüntü embedding'leri kavramsal olarak oldukça farklı olduğundan, iki modalite için ayrı ağırlık kümeleri kullanılıyor
Bu yaklaşım sayesinde görüntü ve metin token'ları arasında bilgi akışı sağlanarak çıktının genel anlama düzeyi ve tipografisi iyileştiriliyor
Bu mimari, video gibi çoklu modalitelere kolayca genişletilebiliyor

Reweighting ile Rectified Flows iyileştirmesi

Stable Diffusion 3, eğitim sırasında veri ile gürültüyü doğrusal bir yörüngede bağlayan Rectified Flow (RF) formülasyonunu kullanıyor
Bu, daha doğrusal bir çıkarım yolu oluşturarak daha az adımla örnekleme yapılmasını sağlıyor
Ayrıca eğitim sürecine yeni bir yörünge örnekleme takvimi eklenerek yörüngenin orta bölümüne daha fazla ağırlık veriliyor
Bu yaklaşım farklı diffusion yörüngeleriyle karşılaştırıldığında, önceki RF formülasyonunun az adımlı örnekleme düzeninde performansı artırdığı, ancak daha fazla adımda göreli performansın düştüğü görüldü
Buna karşılık yeniden ağırlıklandırılmış RF varyantı performansı tutarlı biçimde artırıyor

Rectified Flow Transformer modelinin ölçeklendirilmesi

Yeniden ağırlıklandırılmış Rectified Flow formülasyonu ve MMDiT backbone'u kullanılarak metinden-görüntü sentezi için bir ölçeklendirme çalışması yapıldı
Hem model boyutu hem de eğitim adımları açısından doğrulama kaybında yumuşak bir düşüş gözlemlendi
Bunun model çıktısında anlamlı iyileşmelere dönüşüp dönüşmediğini test etmek için otomatik görüntü hizalama metriği (GenEval) ve insan tercih puanı (ELO) değerlendirildi
Sonuçlar, bu metriklerle doğrulama kaybı arasında güçlü bir korelasyon olduğunu gösteriyor
Ölçeklendirme eğilimleri bir doygunluk işareti göstermediği için, gelecekte model performansının daha da artırılabileceğine dair iyimser bir tablo ortaya çıkıyor

Esnek metin encoder'ı

Çıkarım sırasında bellek yoğun 4.7B parametreli T5 metin encoder'ının kaldırılmasıyla, SD3'ün bellek gereksinimleri büyük ölçüde azaltılabilir ve performans kaybı ise çok sınırlı kalır
Bu metin encoder'ını kaldırmak görsel estetiği etkilemez (kaldırma sonrası kazanma oranı: %50), metne uyumda ise hafif bir düşüş olur (kazanma oranı %46)
Ancak metin üretiminde SD3'ün tam gücünü ortaya çıkarmak için T5'in dahil edilmesi önerilir

1 yorum

xguru 2024-03-06

Hacker News görüşleri

Stability AI'ın açık kaynağa olan bağlılığı oldukça ilgi çekici ve mümkün olduğunca uzun süre ayakta kalmalarını umuyorum.
- Stable Diffusion 3'ün hâlâ tokenization ve metin gömme için OpenAI'ın CLIP'ini kullanıp kullanmadığını merak ediyorum.
- Model mimarisinin bu kısmını geliştirip metin ve görsel prompt'larla daha iyi eşleşmesini sağlayacaklarını varsayıyorum.
Stable Diffusion 3'ün metin render etmesi etkileyici, ancak metinde her zaman kendine özgü aşırı işlenmiş bir his var.
- Metin rengi hep tek bir değere yükseltilmiş gibi oluyor; bu da sanki yüksek kaliteli bir görsele amatörce metin eklenmiş gibi gösteriyor.
SD3'ün indirilebilir olup olmadığına dair bir soru.
- SD'nin ilk sürümlerini local olarak çalıştırmıştım ve çok iyiydi.
- Kendi kendine barındırmanın umut verici olduğu pek çok LLM gibi bunun da SAAS'a mı döndüğünü merak ediyorum.
Görsel üreticilerin nihayet yazımı doğru uygulamaya başlaması çok ilgi çekici.
- DALL-E 3'ün yazım becerisi öne çıkarılmıştı, ancak Bing ile denediğimde tutarlılığı zayıftı.
- Yazımı doğru üretirken karşılaşılan zorluklar ve bunun nedenleri hakkında daha az teknik bir açıklama okumak isterim.
- SD3'ün eski görsellerdeki metin sorunlarını temizleyip düzeltemeyeceğini merak ediyorum.
SD3'ün duyurusu oldukça heyecan verici.
- Makale, blog yazısından çok daha fazla ayrıntı içeriyor.
- Makaledeki ana nokta, daha ifade gücü yüksek bir metin kodlayıcı içerebilecek bir mimariye sahip olması ve bunun karmaşık sahnelere yardımcı olduğunu göstermesi.
- Eğitim tarafında bu yığının sınırına henüz ulaşılmadığı için SD3.1'in daha da gelişmesini bekliyorum; SD4'ün ise video işleme için daha fazla front-end encoding ekleyebileceğini düşünüyorum.
SD3'ün metin render etmedeki iyileşmesi güzel, ancak el ve parmak üretmek hâlâ zor.
- Örnek görsellerde pikselleşmiş büyücü dışında insan eli yok ve maymunun elleri de biraz tuhaf görünüyor.
Bu mimari, videoya kolayca genişletilebilecek kadar esnek.
- LLaMA'nın transformer blokları gibi bir başka "temel" blok olmasını bekliyorum.
- Metin encoding'i/time-step koşullandırmasını bloğa çeşitli şekillerde entegre etmeye yetecek kadar genel.
- Position encoding (2D RoPE?) ile oynamak dışında yapılacak pek bir şey kalmamış gibi.
- Transformer'ı ölçekleyip quantization/optimization'a odaklanarak bu yığını her yerde düzgün çalıştırmak.
Bir zamanlar "açık" olmaya adanmış ya da daha önce açık olan birçok şirket giderek daha kapalı hâle geliyor.
- Stability AI'ın bu araştırma makalelerini yayımlamasını takdir ediyorum.
Stability AI ile karşılaştırıldığında OpenAI, en kapalı yapay zeka araştırma laboratuvarı.
- Deep Mind bile daha fazla makale yayımlıyor.
- OpenAI içinde kamuya açık şekilde "Biz burada para için varız!" diyen biri olup olmadığını merak ediyorum.
- SamA'nın kısa süre önce Elon'un davası hakkında yazdığı mektup, Putin'in Ukrayna'yı 'Nazilerden arındırmak' için işgal ettiğini söylemesi kadar doğru.