- SD v1, açık kaynaklı yapay zeka modellerinin gidişatını değiştirmişti
- SD v2, yeni metin kodlayıcısı OpenCLIP ile text-to-image modeli eğiterek v1'e kıyasla görüntü kalitesini büyük ölçüde artırıyor
- 512x512 ve 768x768 görüntü üretebiliyor
- LAION-5B veri kümesinin estetik odaklı bir alt kümesi kullanılarak eğitildi (ayrıca NSFW filtresiyle yetişkin içerikler hariç tutuldu)
- Upscaler Diffusion modeli yerleşik olarak geliyor ve görüntü çözünürlüğünü 4 kat artırıyor
- Yani 128x128 görüntüler 512x512'ye upscale edilebiliyor
- Başka bir deyişle SD v2 artık 2048x2048 çözünürlüğün üzerinde görüntüler üretebiliyor
- Depth-to-Image Diffusion modeli: depth2img
- Mevcut image-to-image işlevini yeni olasılıklarla genişletiyor
- Girdi görüntüsünün derinliğini tahmin ettikten sonra hem metni hem de derinlik bilgisini kullanarak yeni bir görüntü oluşturuyor
- Yani görüntünün derinliğine göre belirli bölümler farklı şekilde üretilebiliyor
- Inpainting Diffusion Model iyileştirildi
- SD v1'de olduğu gibi tek GPU ortamında da çalışabilecek şekilde optimize edildi
1 yorum
Biz de SD v1’e bir upscaler ekleyip sunuyoruz (512 x 512’de üretip kullanıcı isterse yatay ve dikeyde 4 kat upscale), ama SD v1 ile doğrudan büyük boyut üretmektense o kombinasyonun daha hızlı ve daha iyi olduğunu gördük.