Kötü yapay zeka üretimi görsellerle Stable Diffusion XL’i daha akıllı hale getirme deneyi

(minimaxir.com)

2 puan yazan GN⁺ 2023-08-23 | 1 yorum | WhatsApp'ta paylaş

Stable Diffusion XL 1.0, 1024x1024 görselleri varsayılan olarak üretebilen açık kaynaklı bir model ve diffusers desteği ile refiner modeli sayesinde bireysel deneyler için giriş eşiği düşmüş durumda
Dreambooth LoRA, tüm modeli yeniden eğitmek yerine yalnızca küçük bir adaptörü eğiterek belirli kavramları hızlıca eklemeyi ve paylaşmayı kolaylaştıran bir yöntem
Temel deney, SDXL’in ürettiği bozuk ve düşük kaliteli görselleri wrong ile eşleyip eğittikten sonra bunu negative prompt olarak verince üretim sonuçlarının iyileşip iyileşmediğini karşılaştırmak
wrong LoRA, çeşitli prompt’larda ışıklandırma, doku, yerleşim, el-kol ifadesi ve prompt’a bağlılık açısından temel SDXL’e ya da yalnızca wrong negative prompt’una kıyasla daha iyi örnekler gösteriyor
Kötü görselleri seçip modelin kaçınması gereken yönü öğretmesi bakımından bu yaklaşım negative LoRA ve RLHF’ye daha yakın; veri üretimi ve eğitim süresinde ise hâlâ iyileştirme alanı var

SDXL 1.0 ve deney ortamı

Stability AI, geçen ay Stable Diffusion XL 1.0’ı tanıttı ve açık kaynak olarak dağıttı
SDXL, ek bir dolambaçlı yöntem gerektirmeden 1024x1024 çözünürlükte görselleri varsayılan olarak üretebilen açık kaynaklı modellerden biri ve daha fazla detay verebiliyor
Model iki bölümden oluşuyor
- base model: temel görsel üretiminden sorumlu
- refiner model: detayları büyük ölçüde iyileştiriyor ve hız açısından ek yük getirmediği için mümkünse birlikte kullanılması öneriliyor
Hugging Face’in diffusers kütüphanesi, SDXL ve performans optimizasyonlarını destekliyor; böylece örnek kodda küçük değişikliklerle deney yapmak mümkün oluyor
Deney, Google Cloud Platform’un Spot instance’ında NVIDIA L4 GPU ile yürütüldü
- Toplam maliyet saat başına $0.24
- 1024x1024 tek bir görsel üretmek yaklaşık 22 saniye sürüyor
- Orta seviye GPU’larda aynı anda yalnızca 1 görsel üretilebiliyor
- Daha düşük çözünürlüklerde daha hızlı olsa da sonuçlar çok daha kötü olduğu için önerilmiyor

diffusers’ta prompt ağırlıkları ve Dreambooth LoRA

diffusers, önceki Stable Diffusion deneylerinde kullanılmayan iki özelliği destekliyor
- Prompt ağırlıkları
- Dreambooth LoRA eğitimi ve çıkarımı
Prompt ağırlıkları, compel kullanarak kelime ya da ifadelerin önemini daha matematiksel biçimde ayarlıyor
- Bir kelimenin sonuna birden fazla + veya - ekleyerek sonuç embedding’inde önemini artırıp azaltabiliyorsunuz
- İfadeleri paranteze alıp San Francisco landscape by Salvador Dali, (oil on canvas)+++ örneğinde olduğu gibi belirli bir ortam ya da teknik ifadesini güçlendirebiliyorsunuz
Testlerde bu yöntem, Stable Diffusion 2.0 sonrası zorlaşan prompt ayarlarının büyük kısmını hafifletiyor
- Varsayılan guidance_scale değeri 7.5
- Max Woolf ise 13 değerini tercih ediyor; yazıdaki tüm LoRA örneklerinde de guidance_scale 13 kullanılıyor
Dreambooth, az sayıda kaynak görsel ve bir tetikleyici anahtar kelimeyle Stable Diffusion’a belirli bir kavramı öğretme tekniği
LoRA, tüm Stable Diffusion modelini değil, görsel model için küçük bir adaptörü eğitiyor
- Tek bir düşük maliyetli GPU’da yaklaşık 10 dakikada eğitilebiliyor
- Nihai model+LoRA kalitesi, tam fine-tuning ile benzer düzeyde olabiliyor
- Küçük bir ikili dosya olarak saklandığı için paylaşımı kolay
- Genelde Stable Diffusion fine-tuning denilen şey, çoğu zaman LoRA üretimi oluyor
- Aynı anda etkinleştirilebilen LoRA sayısı bir; birden fazla LoRA birleştirilebiliyor ama bu hassas bir iş

Ugly Sonic LoRA ile SDXL’in potansiyelini doğrulama

LoRA yaygınlaşmadan önce textual inversion ile kavramlar metin kodlayıcısına öğretiliyordu; ancak eğitim uzun sürüyor ve sonuçları kullanmak zor olabiliyordu
Daha önce, Stable Diffusion’ın özgün veri setinde olmayan meme karakteri Ugly Sonic, textual inversion ile eğitilmişti ama sonuçlar tutarsızdı
SDXL’in potansiyelini görmek için Ugly Sonic, bu kez LoRA ile yeniden eğitildi
- Hugging Face’in train_dreambooth_lora_sdxl.py script’i kullanıldı
- Bazı parametreler ayarlansa da temelde doğrudan çalıştı
Eğitilen Ugly Sonic LoRA, çeşitli prompt’larda öncekinden çok daha iyi ve tutarlı görseller üretiyor

`wrong` LoRA deney tasarımı

Önceki negative prompt odaklı textual inversion deneyi, bu kez SDXL LoRA ile yeniden yapıldı; bozuk ve düşük kaliteli görseller wrong prompt’una bağlanarak eğitildi
Amaç, wrong ifadesi negative prompt olarak kullanıldığında modelin bu tür görsellerden uzaklaşıp daha az bozuk sonuçlar üretip üretmediğini görmekti
Sentetik wrong görselleri SDXL’in kendisiyle üretildi
- wrong image generator Jupyter Notebook hazırlandı
- blurry, bad hands gibi kötü görsel türlerini daha belirgin hale getirmek için çeşitli prompt ağırlıkları kullanıldı
- Yüksek çözünürlüklü ama düşük kaliteli görseller üretmek için yine SDXL kullanmak gerekti
Üretilen wrong görseller bazen 2000’ler punk rock albüm kapakları gibi görünüyor ya da ilk bakışta normal görünse de yakından bakınca rahatsız edici bir uncanny valley hissi veriyor
sdxl-wrong-lora, SDXL base modeline yükleniyor
- refiner için LoRA gerekmiyor
- Karşılaştırma için bir Jupyter Notebook da paylaşıldı

Karşılaştırma yöntemi ve öne çıkan sonuçlar

Üç yapı karşılaştırıldı
- LoRA’sız base + refiner hattı
- LoRA olmadan wrong ifadesinin negative prompt olarak verildiği hat
- wrong LoRA uygulanıp wrong ifadesinin negative prompt olarak verildiği hat
Tüm üretimlerde aynı seed kullanılarak fotoğraf kompozisyonu benzer tutuldu; böylece wrong negative prompt’unun ve LoRA’nın etkisini kıyaslamak kolaylaştı
A wolf in Yosemite National Park, chilly nature documentary film photography
- Temel modele wrong eklendiğinde orman görseline bir miktar yaprak ve derinlik ekleniyor
- LoRA ise ışık, gölge, yaprak detayı ve kurdu kameraya bakar hale getiren kompozisyon açısından daha iyi sonuç veriyor
An extreme close-up of a wolf in Yosemite National Park, chilly nature documentary film photography
- LoRA sonucu doku, canlılık ve netlik açısından daha iyi
- Yalnızca wrong prompt’unu eklemek bile bakış açısını değiştiriyor
a large delicious hamburger (in the shape of five-dimensional alien geometry)++++, professional food photography
- Çeşitli prompt mühendisliği denemelerine rağmen beş boyutlu uzaylı geometri şeklindeki hamburger düzgün üretilemiyor
- Temel SDXL, alien ifadesini beklenenden daha kelimesi kelimesine yorumlamış gibi bir sonuç veriyor
- LoRA ise insanların yemesinin zor olduğu daha “uzaylı” bir hamburger ve daha parlak bir sunum üretiyor
lossless PDF scan of the front page of the January 2038 issue of the Wall Street Journal featuring a cover story about (evil robot world domination)++
- Metin okunabilirliği Stable Diffusion 2.0’a göre iyileşmiş olsa da üç durumda da benzer kalıyor
- LoRA, daha modern sayfa düzeni, daha çeşitli haber yerleşimleri ve başlıklardaki göreli yazı kalınlığını iyileştiriyor
- Temel modelde wrong negative prompt’u eklense bile sayfa tekdüze kalıyor ve eski kahverengi kâğıt gibi görünüyor
USA President Taylor Swift (signing papers)++++, photo taken by the Associated Press
- Temel SDXL’de sağ kol oldukça gerçek dışı ve yalnızca wrong eklenince daha da kötüleşiyor
- LoRA’da kol sorunu düzeliyor; ceketin rengi de sarımsı beyaz yerine daha belirgin bir beyaza yaklaşıyor
- Yine de SDXL 1.0 ile insan üretmek hâlâ zor ve güvenilmez; eller için de yakından bakmamak gerektiği not ediliyor

Ek örneklerde görülen değişimler

realistic human Shrek blogging at a computer workstation, hyperrealistic award-winning photo for vanity fair
- Eller ve ışıklandırma daha iyi, kıyafet detayları ve arka plan daha ilgi çekici
pepperoni pizza in the shape of a heart, hyperrealistic award-winning professional food photography
- Pepperoni detayları ve ısıyla oluşan kabarcıklar daha görünür hale geliyor; kenarlardaki aşırı pepperoni azalıyor ve crust daha çıtır görünüyor
presidential painting of realistic human Spongebob Squarepants wearing a suit, (oil on canvas)+++++
- Spongebob’un burnu geri geliyor ve takım elbise düğmeleri artıyor
San Francisco panorama attacked by (one massive kitten)++++, hyperrealistic award-winning photo by the Associated Press
- LoRA, prompt’u gerçekten takip etmeye çalıştığını gösteriyor
hyperrealistic death metal album cover featuring edgy moody realistic (human Super Mario)++, edgy and moody
- Mario’nun oranları oyun karakterine daha yakın hale geliyor; karakter ışıklandırması da daha sert ve kasvetli oluyor

Paylaşılan kaynaklar ve yeniden üretim

wrong LoRA, Hugging Face üzerinde açık olarak paylaşılıyor
diffusers dışındaki arayüzlerde aynı etkinin garanti edilmediği belirtiliyor
Görsel üretiminde kullanılan notebook’lar GitHub repository içinde açıklandı
Genel SDXL 1.0 + refiner + wrong LoRA için hazırlanan Colab Notebook, ücretsiz T4 GPU’da çalıştırılabiliyor
Yazıda kullanılan üretilmiş görsellerin yüksek çözünürlüklü sürümleri post source code içinde görülebiliyor

`wrong` LoRA neden işe yaradı?

Beklenti, wrong LoRA’nın yalnızca görsel kalitesini ve netliğini artırmasıydı; ancak pratikte sonuçlar, SDXL’in prompt niyetine daha sadık davranması yönünde oldu
Teknik olarak negative prompt, difüzyon sürecinin başladığı gizil uzay bölgesini belirliyor
- LoRA olmadan wrong negative prompt kullanılması durumu
- LoRA uygulanıp wrong negative prompt kullanılması durumu
- Her iki durumda başlangıç bölgesi aynı
Sezgisel yorum, LoRA’nın yüksek boyutlu gizil uzaydaki istenmeyen bölgeleri başlangıç bölgesine daha yakın şekilde yeniden biçimlendirdiği; böylece normal üretimin o bölgelere ulaşma olasılığının azaldığı ve sonuçların iyileştiği yönünde
Kötü görsellerle SDXL’i eğiterek iyileştirme yaklaşımı, teknik olarak bir tür RLHF olarak görülebilir
- OpenAI, olumlu kullanıcı etkileşimleriyle modeli geliştirip olumsuz davranışları örtük biçimde azaltıyor
- Bu deney ise kullanıcıların kötü olarak seçtiği görselleri kullanıp olumlu davranışı örtük biçimde artırmayı hedefliyor
Dreambooth LoRA, büyük dil modellerindeki kadar fazla girdi verisi gerektirmiyor

Kalan geliştirme alanları ve sonraki deneyler

negative LoRA tarafında hâlâ geliştirilebilecek çok şey var
- sentetik veri seti üretim parametreleri daha iyi ayarlanabilir
- LoRA daha uzun süre eğitilebilir
Diğer LoRA’larla birleştirilerek performans artırılıp artırılamayacağı da test edilmek isteniyor
- Özellikle wrong LoRA ile Ugly Sonic LoRA birleşimi örnek olarak veriliyor
SDXL, ControlNet için diffusers modeli desteği de sunuyor
- ControlNet, üretilen görselin genel formunu ve kompozisyonunu güçlü biçimde kontrol etmeyi sağlıyor
- ControlNet, LoRA ile birlikte de kullanılabiliyor
Yapay zeka görsel üretim kalitesini iyileştirme araştırmalarının gerekçesi olarak şeffaf yapay zeka gazeteciliği vurgulanıyor
- Buna yeniden üretilebilir prompt’ların ve Jupyter Notebook’ların açık paylaşımı da dahil
- Mevcut girişim sermayesi ortamında, sektördeki yeni yapay zeka görsel üretim iyileştirmelerinin kamuya açık olmayabileceği düşünülüyor
- Ayrıca profesyonel sanatçıların yapay zeka ile değiştirilmesini desteklemediği ya da hoş görmediği de özellikle belirtiliyor

1 yorum

GN⁺ 2023-08-23

Hacker News yorumları

Kişiselleştirilmiş RLHF kavramı gerçekten ilginç
Belirli bir üretken yapay zeka sistemiyle etkileşim arttıkça, çıktıyı kişisel tercihlere doğru anlamlı biçimde ayarlamaya yetecek kadar etkileşim verisi birikecek gibi görünüyor. UI iyileştirilip bu sürecin mümkün olduğunca şeffaf hale gelmesi iyi olur
Ürünleştirme açısından, üretilen her görsele “beğen/beğenme” geri bildirimi eklemek ve wrong değerinin üzerine yazacak isteğe bağlı bir metin etiketi koymak kolay görünüyor. Yeterli insan geri bildirimi biriktiğinde ya da her gece batch işi çalıştırarak yeni bir LoRA kişisel tercihlere göre yeniden eğitilebilir
Prompt’tan N adet aday görsel üretip birini seçerek iyileştirmeye dayalı örtük ağaç aramasında da insan geri bildirimi toplanabilir. Daha açık biçimde, batch’i hızlıca sıralama/puanlama için bir UI ya da her yinelemeli iyileştirme adımında beğenilmeyen görselleri atmaya yarayan bir çöp kutusu konabilir; daha sonra proje/genel LoRA güncellemelerinde negatif geri bildirim toplanıp yansıtılabilir
Görsel üretildikten hemen sonra tuş girdisiyle tepki veren çok kısa bir geri bildirim döngüsü kurulursa en kısa yineleme döngüsünün nereye kadar gidebileceğini de merak ediyorum. Birkaç saat boyunca cihaza bağlı kalıp saniyede 1 tane olmak üzere yaklaşık 10 bin tercih toplarsanız, modelin kişisel olarak hoşunuza gidecek görselleri çok daha iyi üretmesi sağlanabilir mi? Gerçi oldukça yoğun; biraz Clockwork Orange hissi de veriyor
Yazıda wrong görsel sayısını göremedim; koda göz gezdirince 13 anahtar kelime ve anahtar kelime başına yaklaşık 6 görsel gibi duruyor, yani çok fazla değil. Yaklaşık 100 geri bildirimle model bu kadar ayarlanabildiyse şaşırtıcı derecede az bir miktar
- AI Horde, Stability.ai ile işbirliği yaparak fiilen bu akışı hayata geçiriyor
  AI Horde, gönüllülerin sağladığı GPU’larla çalışan açık kaynaklı dağıtık bir küme; Stability.ai de A/B testleri çalıştırmak için bir miktar GPU kaynağı sağlıyor
  AI Horde UI’ı olan Lucid Creations’tan ya da kendi yaptıkları ArtBot’tan SDXL modeliyle görsel istediğinizde 2 görsel alıyorsunuz. Biri SDXL v1.0 ile, diğeri güncellenmiş modelle üretiliyor; ama hangisinin hangisi olduğunu bilmiyorsunuz
  Kullanıcının yalnızca ikisi arasından daha çok beğendiği görseli seçmesi gerekiyor; sonuçlar analiz edilmek ve gelecekteki görsel modellerine yansıtılmak üzere Stability.ai’ye geri gidiyor
  Ek olarak AI Horde ve LAION da benzer biçimde işbirliği yaparak kullanıcı tanımlı estetik değerlendirmeyi aynı amaçla sunuyor
  https://aihorde.net/
  https://dbzer0.com/blog/stable-diffusion-xl-beta-on-the-ai-h...
  https://dbzer0.itch.io/lucid-creations
  https://tinybots.net/artbot
  https://laion.ai/blog/laion-stable-horde/
- Doğru. 6 CFG değeri × 13 anahtar kelime = 78 görsel
  Yine de bazıları pek işe yaramıyor. Örneğin “random text” bazen eski tarz bir SMS uygulaması gibi sonuçlar üretiyor gibi
  LoRA iyi çalışıyor ve 4-5 görsel bile yeterli olabiliyor; ama bu daha eski ve daha küçük Stable Diffusion içindi. Bu yüzden SDXL’de daha fazla görsel kullandım ve LoRA’yı da biraz daha uzun eğittim. Karşılaştırma için, Ugly Sonic LoRA yaklaşık 14 görsel kullandı ve muhtemelen overfit oldu
- Geliştirdiğimiz açık kaynak framework https://github.com/agentic-ai/enact ilginizi çekebilir
  Hâlâ erken aşamada, ama temel içgörü şu: Metin ya da görsel olsun, tekil model ya da model zinciri olsun, pek çok üretken yapay zeka akışının bir tür geri bildirim sinyaliyle hizalanması gerekiyor; dolayısıyla bunu destekleyen temel altyapıyı kurmak mantıklı. İlk demolardan biri tam olarak böyle bir akıştı ve gerçek model ağırlıklarını ayarlamak yerine ucuz bir vekil yöntem olarak prompt iyileştirme kullandı
  Kabaca, akışları neredeyse native Python ile kolayca yazmayı ve değerlendirici gibi “insan bileşenlerinin” çalıştırılması dahil üretim akışının yürütülmesini izlemeyi sağlayan Python seviyesinde bir çekirdek altyapı kurmaya çalışıyoruz. Zamanda gezinme/geri sarma/yeniden çalıştırma, otomatik gradio UI ve FastAPI desteği de var; ama son ikisi hâlâ oldukça deneysel
  Orta vadede, herhangi bir üretim akışını “insan değerlendirmesi” akışıyla sarmalayıp API ya da gradio UI olarak otomatik dağıtmayı; ardından RLHF, ince ayar, üretim alt bileşenleri için A/B testi gibi çeşitli tekniklerle hizalamayı kolaylaştırmak istiyoruz
  Şu anda “iskeleti” doğru kurmaya odaklanıyoruz, ama hızlı başlangıç belgesi https://github.com/agentic-ai/enact/blob/main/examples/quick... ve README https://github.com/agentic-ai/enact/tree/main#why-enact yönü oldukça iyi gösteriyor. Deneyecek ya da katkıda bulunacak kişiler arıyoruz
- RLHF, insan geri bildirimiyle pekiştirmeli öğrenme demek
  Bu tür sistemler zaten insan geri bildirimine göre iyi olanları daha yüksek, kötü olanları daha düşük puanlayacak şekilde eğitilmiyor mu?
- Örtük RLHF, açık yöntemden daha iyi çalışıyor
  Mom test’e benziyor; insanlardan değerlendirme istediğinizde, sorunun kendisi değerlendirmeyi etkiliyor
  Upscale akışını kullanabilirsiniz ama Discord tabanlı Midjourney gibi kısıtlı olmak zorunda değil. Tüm tam boyutlu görselleri gösterebilir ve kullanıcının kopyalayıp/kaydedip/sağ tıklayıp tıklamadığı gibi davranışları da algılayabilirsiniz
Stable Diffusion ile sanat yapmak gerçekten eğlenceli bir hobiye dönüştü
SD 1.5/2.0 ile SDXL arasındaki fark çok büyük; kalitenin bu kadar hızlı iyileşmesi etkileyici
- SD 1.5/2.0 ile SDXL arasındaki farkın neden bu kadar büyük olduğunu açıklayabilir misin?
  Henüz SDXL kullanmadım ama 1.5’i çok fazla kullandım
  Şimdiye kadar bunu daha yüksek çözünürlük ve daha yüksek “kalite” olarak anlamıştım; ancak realistic vision 3’ü uzun süre kullandığım için kalite sorunu yaşamadım. Upscaling kullanınca daha yüksek çözünürlüğe de ihtiyaç duymadım
Yaklaşık 5 yıl önce bazı veri bilimciler arasında PC’deki tüm tuş vuruşlarını kaydetmek moda olmuştu; şimdi o verilerin gerçekten epey işe yaradığını görünce biraz imreniyorum
Sevdiğim anime çizimlerinden oluşan 30 bin görsellik bir koleksiyonum var ve 5 yıl önce bunları estetik puana göre rekabetçi biçimde sıralamıştım; sanırım böyle işler için epey kullanışlı olur
Çok harika. Yakında bu fikri kendim çalıştırmayı düşünüyorum. Ben de biraz bilim insanıyım :)
Birkaç gün önce ilginç bir şey denedim. SDXL Base Model’i Diffusers ile kullanıp çeşitli stil prompt’larını karıştırarak görseller ürettim; sonra bu görsellerle bir LoRA eğittim ve ardından bu LoRA ile, eğitim setini oluştururken kullandığım prompt’larla tekrar üretim yaptım
Sonuçta etki daha da güçlendi; daha glitch’li, daha tuhaf ve yüksek çözünürlüklü hissi veren bir hale geldi
Sonuçlar burada: https://imgur.com/gallery/vUobKPK
Elbette bu çıktılarla bir LoRA daha eğitip süreci tekrarlayacağım
Düşününce, Diffusers’ın 77 token sınırını aşmak ve çok daha fazla stil geliştirmek için oldukça iyi bir yöntem
LoRA’yı https://replicate.com/galleri5/nammeh adresinde deneyebilirsiniz. GitHub hesabı gerekiyor
Yakında CivitAI’ye de yükleyeceğim
LoRA’yı civitai.com’a ve Stable Diffusion Reddit’ine de koyarsan iyi olur
Sonuçlar oldukça iyi görünüyor ve denemeyi dört gözle bekliyorum. Üretken görsel heyecanının azaldığını bilmiyordum; ben düzenli olarak kullanmaya devam ettiğim için bana hâlâ gündemdeymiş gibi geliyor
- İlk sürümü /r/StableDiffusion’a koymuştum ama yorumların hepsi “neden A1111 ile uyumlu değil?” şeklindeydi ve dönüştürme için düzgün bir betik bulamadım: https://www.reddit.com/r/StableDiffusion/comments/15r5k3i/i_...
  Civitai LoRA’yı alıp yayımladı: https://civitai.com/models/128708/sdxl-wrong-lora
- İnsanlar kendi alışkanlıklarına bakıp herkesin de öyle olduğunu varsayma eğiliminde; ben de bunu epey sık yapıyorum. Benim açımdan üretken görsel heyecanı hâlâ canlı
  SDXL beni çok heyecanlandırmadıysa, bunun nedeni görüntü kalitesinde devasa bir sıçrama hissi vermemesiydi. Boyutun iki katına çıkması güzel ama her zaman 1024x1024 görsel üretmek istemediğim için bu aynı zamanda sorun da oluyor
  Hâlâ üçüncü tarafların eğittiği SD 1.5 modellerini kullanıyorum; çıktıları gerçekten iyi ve yaklaşık 5 farklı upscaling yöntemim var, bunlardan en az biri büyütürken yeni ayrıntılar ekliyor
Biraz bağlantılı bir konu: Nedenini henüz tam bilmiyorum ama Stable Diffusion XL için yaptığım LoRA’lar ancak oldukça genel bir negatif prompt eklediğimde iyi çalışıyor
Kendi yüz fotoğraflarımdan 6 tanesiyle fine-tuning yaptım; yalnızca pozitif prompt kullanınca üretilen karakter bana pek benzemiyor. Ama “low quality” gibi genel bir negatif ifade ekleyince birden yüzümün betimi neredeyse doğru hale geliyor
Birkaç model eğittim; farklı öğrenme oranları ve eğitim epoch sayılarında da durum hep aynıydı
Sonunda bu olgunun bir şekilde minimaxir’in bu yazıda gözlemlediği şeyi ortaya çıkaran nedenle bağlantılı olacağını hissediyorum
Üretken görsel yapay zeka heyecanı azaldığı için SDXL sürümünün genel olarak sessiz geçtiği görüşüne katılmıyorum
Konuştuğum insanlara göre bunun iki nedeni vardı. Birincisi, daha yüksek VRAM ve hesaplama gereksinimi. İkincisi, sonuç kalitesinin özelleşmiş SD1.5 modellerinden daha düşük algılanması
Bunlardan biri farklı olsaydı çok daha popüler olacağından eminim
Ama sonuçta çoğu kişi, özelleşmiş SDXL modellerinin özelleşmiş 1.5 modellerini gerçekten geçip geçemeyeceğini bekleyip görüyor
- Nedeni çıktı kalitesinin düşük olması
  Konuya hafifçe temas eden çoğu kişi için bunun biraz kurcalanıp bırakılan bir oyuncak gibi olduğunu düşünüyorum. Tutkulu SD hayranları ise… muhtemelen daha hardcore şeyler yapıyordur
  XL pornoda zayıf. Stability kendi yaptığından korktu ve “güvenlik” tarafına çekilerek riskten kaçınmaya çalıştı. Kate Middleton ya da Emma Watson pornosunun fazla inandırıcı olmaması gerekiyor sonuçta
  İnsanlar daha iyisi çıkana kadar, özellikle de pornoda daha iyisi çıkana kadar 1.5’i kullanmaya devam edecek
Bu kavram yeni değil. civit.ai’de elleri ve kötü anatomiyi düzeltmek için negatif prompt’a eklenen çok sayıda negative embedding var
- Bu, yazıda bahsedilen önceki textual inversion deneyiydi: https://minimaxir.com/2022/11/stable-diffusion-negative-prom...
  Bu yazı ise teknik düzeyde aynı şekilde çalışmayan negative LoRA hakkında
90’lardaki “karşı kültür vs yine karşı kültür ama MTV’de çıkan karşı kültür” çelişki alanında büyümüş olmamın etkisi midir bilmem; prompt’un “award winning photo for vanity fair” gibi etiket referanslarıyla bittiğini görünce bu üretken görsel dalgasına dahil olmak istemeyen derin bir dürtü hissediyorum
Bu tür yazılarda prompt yazarının kullandığı standart etiket son eki ne olursa olsun benzer hissediyorum
- “award winning photo for vanity fair” çoğunlukla iyi fotoğraf kompozisyonunu, örneğin üçler kuralını, ortaya çıkarmaya yarayan bir hileye yakın
“LoRA aynı anda yalnızca bir tane etkinleştirilebilir” ifadesi en azından auto1111 için hiç doğru değil
- Hatırladığım kadarıyla içeride birleştirme ve ağırlık ayarlama yapıyor

Kötü yapay zeka üretimi görsellerle Stable Diffusion XL’i daha akıllı hale getirme deneyi

SDXL 1.0 ve deney ortamı

diffusers’ta prompt ağırlıkları ve Dreambooth LoRA

Ugly Sonic LoRA ile SDXL’in potansiyelini doğrulama

wrong LoRA deney tasarımı

Karşılaştırma yöntemi ve öne çıkan sonuçlar

Ek örneklerde görülen değişimler

Paylaşılan kaynaklar ve yeniden üretim

wrong LoRA neden işe yaradı?

Kalan geliştirme alanları ve sonraki deneyler

İlgili okumalar

1 yorum

Hacker News yorumları

`wrong` LoRA deney tasarımı

`wrong` LoRA neden işe yaradı?