- Stable Diffusion 3'ü çalıştıran teknolojiyi derinlemesine inceleyen bir araştırma makalesi yayımlandı
- SD3, insan tercih değerlendirmelerine göre tipografi ve prompt'a uyum açısından DALL·E 3, Midjourney v6 ve Ideogram v1 gibi en güncel metinden-görüntü üreten sistemleri geride bırakıyor
- Yeni Multimodal Diffusion Transformer (MMDiT) mimarisi, görüntü ve dil temsilleri için ayrı ağırlık kümeleri kullanarak SD3'ün önceki sürümlerine kıyasla metin anlama ve yazım becerisini geliştiriyor
Performans
- Stable Diffusion 3'ün çıktı görüntüleri, SDXL, SDXL Turbo, Stable Cascade, Playground v2.5, Pixart-α gibi çeşitli açık modeller ve DALL·E 3, Midjourney v6, Ideogram v1 gibi kapalı kaynak sistemlerle karşılaştırılarak insan geri bildirimine dayalı performans değerlendirmesi yapıldı
- Test sonuçlarına göre Stable Diffusion 3, yukarıdaki tüm alanlarda mevcut en güncel metinden-görüntü üreten sistemlerle aynı seviyede ya da daha iyi performans gösteriyor
- İlk optimize edilmemiş çıkarım testlerinde en büyük SD3 modeli 8B parametreye sahip, RTX 4090'ın 24GB VRAM'ine sığıyor ve 50 örnekleme adımı kullanıldığında 1024x1024 çözünürlükte bir görüntü üretmesi 34 saniye sürüyor
- İlk sürümde, 800m ile 8B parametreli modellere kadar uzanan çeşitli Stable Diffusion 3 varyantları sunularak donanım bariyeri daha da düşürülüyor
Mimari ayrıntılar
- Metinden-görüntü üretimi için modelin hem metin hem de görüntü olmak üzere iki modaliteyi birlikte dikkate alması gerekiyor
- Bu yeni mimariye, farklı modaliteleri işleyebilme yeteneğine atıfla MMDiT adı veriliyor
- Stable Diffusion'ın önceki sürümlerinde olduğu gibi, uygun metin ve görüntü temsillerini çıkarmak için önceden eğitilmiş modeller kullanılıyor
- Metin ve görüntü embedding'leri kavramsal olarak oldukça farklı olduğundan, iki modalite için ayrı ağırlık kümeleri kullanılıyor
- Bu yaklaşım sayesinde görüntü ve metin token'ları arasında bilgi akışı sağlanarak çıktının genel anlama düzeyi ve tipografisi iyileştiriliyor
- Bu mimari, video gibi çoklu modalitelere kolayca genişletilebiliyor
Reweighting ile Rectified Flows iyileştirmesi
- Stable Diffusion 3, eğitim sırasında veri ile gürültüyü doğrusal bir yörüngede bağlayan Rectified Flow (RF) formülasyonunu kullanıyor
- Bu, daha doğrusal bir çıkarım yolu oluşturarak daha az adımla örnekleme yapılmasını sağlıyor
- Ayrıca eğitim sürecine yeni bir yörünge örnekleme takvimi eklenerek yörüngenin orta bölümüne daha fazla ağırlık veriliyor
- Bu yaklaşım farklı diffusion yörüngeleriyle karşılaştırıldığında, önceki RF formülasyonunun az adımlı örnekleme düzeninde performansı artırdığı, ancak daha fazla adımda göreli performansın düştüğü görüldü
- Buna karşılık yeniden ağırlıklandırılmış RF varyantı performansı tutarlı biçimde artırıyor
Rectified Flow Transformer modelinin ölçeklendirilmesi
- Yeniden ağırlıklandırılmış Rectified Flow formülasyonu ve MMDiT backbone'u kullanılarak metinden-görüntü sentezi için bir ölçeklendirme çalışması yapıldı
- Hem model boyutu hem de eğitim adımları açısından doğrulama kaybında yumuşak bir düşüş gözlemlendi
- Bunun model çıktısında anlamlı iyileşmelere dönüşüp dönüşmediğini test etmek için otomatik görüntü hizalama metriği (GenEval) ve insan tercih puanı (ELO) değerlendirildi
- Sonuçlar, bu metriklerle doğrulama kaybı arasında güçlü bir korelasyon olduğunu gösteriyor
- Ölçeklendirme eğilimleri bir doygunluk işareti göstermediği için, gelecekte model performansının daha da artırılabileceğine dair iyimser bir tablo ortaya çıkıyor
Esnek metin encoder'ı
- Çıkarım sırasında bellek yoğun 4.7B parametreli T5 metin encoder'ının kaldırılmasıyla, SD3'ün bellek gereksinimleri büyük ölçüde azaltılabilir ve performans kaybı ise çok sınırlı kalır
- Bu metin encoder'ını kaldırmak görsel estetiği etkilemez (kaldırma sonrası kazanma oranı: %50), metne uyumda ise hafif bir düşüş olur (kazanma oranı %46)
- Ancak metin üretiminde SD3'ün tam gücünü ortaya çıkarmak için T5'in dahil edilmesi önerilir
1 yorum
Hacker News görüşleri
Stability AI'ın açık kaynağa olan bağlılığı oldukça ilgi çekici ve mümkün olduğunca uzun süre ayakta kalmalarını umuyorum.
Stable Diffusion 3'ün metin render etmesi etkileyici, ancak metinde her zaman kendine özgü aşırı işlenmiş bir his var.
SD3'ün indirilebilir olup olmadığına dair bir soru.
Görsel üreticilerin nihayet yazımı doğru uygulamaya başlaması çok ilgi çekici.
SD3'ün duyurusu oldukça heyecan verici.
SD3'ün metin render etmedeki iyileşmesi güzel, ancak el ve parmak üretmek hâlâ zor.
Bu mimari, videoya kolayca genişletilebilecek kadar esnek.
Bir zamanlar "açık" olmaya adanmış ya da daha önce açık olan birçok şirket giderek daha kapalı hâle geliyor.
Stability AI ile karşılaştırıldığında OpenAI, en kapalı yapay zeka araştırma laboratuvarı.