2 puan yazan GN⁺ 2023-08-23 | 1 yorum | WhatsApp'ta paylaş
  • Makale, yazarın açık kaynak model Stability AI'nin Stable Diffusion XL 1.0 (SDXL) performansını iyileştirme çabalarını ele alıyor. Bu model 1024x1024 çözünürlükte görseller üretiyor.
  • SDXL iki modelden oluşuyor: temel model ve hızı etkilemeden ayrıntıları büyük ölçüde iyileştiren isteğe bağlı bir refiner modeli.
  • Yazar, SDXL ile çalışmak için Hugging Face'in diffusers Python kütüphanesini kullandı ve hem temel modeli hem de refiner modelini yükleyip kullanmaya dair örnekler sundu.
  • Yazar, orta seviye L4 GPU'ya sahip bir bulut sanal makinesi kullanarak görseller ürettiğini ve her bir 1024x1024 görselin yaklaşık 22 saniyede oluşturulduğunu belirtti.
  • Yazar, diffusers içindeki iki yeni özelliği denedi: prompt weighting ile Dreambooth LoRA eğitimi ve çıkarımı.
  • Prompt weighting, ortaya çıkan konumsal metin gömlemelerinde terimlere daha fazla matematiksel ağırlık verilmesine izin vererek nihai üretimi iyileştiriyor.
  • Dreambooth LoRA desteği, az sayıda kaynak görsel ve bir tetikleyici anahtar kelime üzerinden Stable Diffusion'un ince ayarlanmasını mümkün kılıyor; böylece bu anahtar kelime verildiğinde farklı bağlamlarda o görselin "kavramı" kullanılabiliyor.
  • Yazar, SDXL'in potansiyelini, Stable Diffusion'un özgün veri kümesinde bulunmayan bir kavram olan Ugly Sonic için LoRA eğiterek test etti. Sonuçlar çok daha iyi ve tutarlıydı.
  • Yazar ayrıca, prompt olarak "wrong" atanmış, aşırı derecede bozulmuş çöp görseller üzerinde de LoRA eğitti. Amaç, LoRA'nın "wrong" ifadesini bir "negative prompt" gibi kullanıp bu tür görsellerden kaçınarak daha az bozulmuş görseller üretmesini sağlamaktı.
  • Yazar, LoRA'nın SDXL'i daha akıllı hale getirdiğini, prompt'un ruhuna daha sadık kalmasını sağladığını ve böylece üretilen görsellerin kalite ile netliğini artırdığını buldu.
  • Yazar, SDXL'i kötü görsellerle eğitmenin, ChatGPT'yi güçlü kılan tekniğe benzer şekilde, insan geri bildiriminden pekiştirmeli öğrenmenin (RLHF) bir biçimi olduğu sonucuna vardı.
  • Yazar, performansı artırmak için bunları diğer LoRA'larla birleştirmeyi de içerecek şekilde, "negative LoRA"ların potansiyelini keşfetmeyi sürdürmeyi planlıyor.

1 yorum

 
GN⁺ 2023-08-23
Hacker News yorumu
  • Kişiselleştirilmiş RLHF (Reinforcement Learning from Human Feedback) kavramı ilgi görüyor ve bunun, yapay zeka çıktısını bireysel tercihlere göre yönlendirme potansiyeli taşıdığı düşünülüyor.
  • Yapay zeka sistemlerinin ürettiği tüm görsellere "beğen/beğenme" geri bildirim seçeneği eklenmesi önerildi; ayrıca "yanlış" görselleri göz ardı etmek için seçmeli metin etiketleri de önerildi.
  • Geri bildirim için mümkün olan en hızlı yineleme döngüsünün ne olabileceği sorgulandı; modelin kişisel olarak tercih edilen görseller üretme olasılığını artırmak için saniyede yaklaşık 10k tercih toplanması fikri ortaya atıldı.
  • Stable Diffusion'ın (SD) sanatsal üretim için kullanımı kabul görüyor ve SD 1.5/2.0 ile SDXL arasındaki farkın önemli olduğu vurgulandı.
  • Veri bilimcilerin kendi PC'lerinde yaptıkları tüm tuş vuruşlarını kaydettiği ve bunun artık yapay zeka sistemleri için faydalı veri olarak görüldüğü belirtildi.
  • SDXL Base Model kullanılarak farklı tarzlarda prompt'ların karıştırılmasıyla görseller üretme, bunlarla LoRA'yı (Learning from Observations and Rewards) eğitme ve ardından bu LoRA + eğitim setini üretmekte kullanılan prompt'larla yeniden üretim yapma fikri paylaşıldı.
  • Bu sürecin sonucu güçlendirilmiş bir etki olarak tanımlanıyor: daha fazla hata, daha tuhaf sonuçlar, yüksek çözünürlük.
  • Görsel üreten yapay zeka sistemlerinin piyasaya çıkışının, daha yüksek VRAM ve hesaplama gereksinimleri ile özelleşmiş SD1.5 modellerine kıyasla daha düşük kaliteli çıktılar nedeniyle yeterince ilgi görmediği düşünülüyor.
  • Stable Diffusion XL için oluşturulan LORA'ların yalnızca genel negatif prompt'larla iyi çalıştığı bildirildi.
  • Aynı anda birden fazla LoRA'yı etkinleştirebilme yeteneği konusunda tartışma var.
  • GPT3'ü kullanımı daha kolay hale getirmek için RLHF kullanılmasının değerli olduğu kabul ediliyor ve gelecekteki modellerin kötü sonuçları negatif eğitim verisi olarak içermesi umuluyor.
  • LoRA'ları birleştirme olasılığından söz edildi; kişisel konuları içeren bir LoRA, sonuçları iyileştiren başka bir LoRA ve belirli bir stil için üçüncü bir LoRA kullanma fikrine ilgi duyuluyor.