- Makale, yazarın açık kaynak model Stability AI'nin Stable Diffusion XL 1.0 (SDXL) performansını iyileştirme çabalarını ele alıyor. Bu model 1024x1024 çözünürlükte görseller üretiyor.
- SDXL iki modelden oluşuyor: temel model ve hızı etkilemeden ayrıntıları büyük ölçüde iyileştiren isteğe bağlı bir refiner modeli.
- Yazar, SDXL ile çalışmak için Hugging Face'in
diffusers Python kütüphanesini kullandı ve hem temel modeli hem de refiner modelini yükleyip kullanmaya dair örnekler sundu.
- Yazar, orta seviye L4 GPU'ya sahip bir bulut sanal makinesi kullanarak görseller ürettiğini ve her bir 1024x1024 görselin yaklaşık 22 saniyede oluşturulduğunu belirtti.
- Yazar,
diffusers içindeki iki yeni özelliği denedi: prompt weighting ile Dreambooth LoRA eğitimi ve çıkarımı.
- Prompt weighting, ortaya çıkan konumsal metin gömlemelerinde terimlere daha fazla matematiksel ağırlık verilmesine izin vererek nihai üretimi iyileştiriyor.
- Dreambooth LoRA desteği, az sayıda kaynak görsel ve bir tetikleyici anahtar kelime üzerinden Stable Diffusion'un ince ayarlanmasını mümkün kılıyor; böylece bu anahtar kelime verildiğinde farklı bağlamlarda o görselin "kavramı" kullanılabiliyor.
- Yazar, SDXL'in potansiyelini, Stable Diffusion'un özgün veri kümesinde bulunmayan bir kavram olan Ugly Sonic için LoRA eğiterek test etti. Sonuçlar çok daha iyi ve tutarlıydı.
- Yazar ayrıca, prompt olarak "wrong" atanmış, aşırı derecede bozulmuş çöp görseller üzerinde de LoRA eğitti. Amaç, LoRA'nın "wrong" ifadesini bir "negative prompt" gibi kullanıp bu tür görsellerden kaçınarak daha az bozulmuş görseller üretmesini sağlamaktı.
- Yazar, LoRA'nın SDXL'i daha akıllı hale getirdiğini, prompt'un ruhuna daha sadık kalmasını sağladığını ve böylece üretilen görsellerin kalite ile netliğini artırdığını buldu.
- Yazar, SDXL'i kötü görsellerle eğitmenin, ChatGPT'yi güçlü kılan tekniğe benzer şekilde, insan geri bildiriminden pekiştirmeli öğrenmenin (RLHF) bir biçimi olduğu sonucuna vardı.
- Yazar, performansı artırmak için bunları diğer LoRA'larla birleştirmeyi de içerecek şekilde, "negative LoRA"ların potansiyelini keşfetmeyi sürdürmeyi planlıyor.
1 yorum
Hacker News yorumu