2 puan yazan GN⁺ 2023-08-23 | 1 yorum | WhatsApp'ta paylaş
  • Stable Diffusion XL 1.0, 1024x1024 görselleri varsayılan olarak üretebilen açık kaynaklı bir model ve diffusers desteği ile refiner modeli sayesinde bireysel deneyler için giriş eşiği düşmüş durumda
  • Dreambooth LoRA, tüm modeli yeniden eğitmek yerine yalnızca küçük bir adaptörü eğiterek belirli kavramları hızlıca eklemeyi ve paylaşmayı kolaylaştıran bir yöntem
  • Temel deney, SDXL’in ürettiği bozuk ve düşük kaliteli görselleri wrong ile eşleyip eğittikten sonra bunu negative prompt olarak verince üretim sonuçlarının iyileşip iyileşmediğini karşılaştırmak
  • wrong LoRA, çeşitli prompt’larda ışıklandırma, doku, yerleşim, el-kol ifadesi ve prompt’a bağlılık açısından temel SDXL’e ya da yalnızca wrong negative prompt’una kıyasla daha iyi örnekler gösteriyor
  • Kötü görselleri seçip modelin kaçınması gereken yönü öğretmesi bakımından bu yaklaşım negative LoRA ve RLHF’ye daha yakın; veri üretimi ve eğitim süresinde ise hâlâ iyileştirme alanı var

SDXL 1.0 ve deney ortamı

  • Stability AI, geçen ay Stable Diffusion XL 1.0’ı tanıttı ve açık kaynak olarak dağıttı
  • SDXL, ek bir dolambaçlı yöntem gerektirmeden 1024x1024 çözünürlükte görselleri varsayılan olarak üretebilen açık kaynaklı modellerden biri ve daha fazla detay verebiliyor
  • Model iki bölümden oluşuyor
    • base model: temel görsel üretiminden sorumlu
    • refiner model: detayları büyük ölçüde iyileştiriyor ve hız açısından ek yük getirmediği için mümkünse birlikte kullanılması öneriliyor
  • Hugging Face’in diffusers kütüphanesi, SDXL ve performans optimizasyonlarını destekliyor; böylece örnek kodda küçük değişikliklerle deney yapmak mümkün oluyor
  • Deney, Google Cloud Platform’un Spot instance’ında NVIDIA L4 GPU ile yürütüldü
    • Toplam maliyet saat başına $0.24
    • 1024x1024 tek bir görsel üretmek yaklaşık 22 saniye sürüyor
    • Orta seviye GPU’larda aynı anda yalnızca 1 görsel üretilebiliyor
    • Daha düşük çözünürlüklerde daha hızlı olsa da sonuçlar çok daha kötü olduğu için önerilmiyor

diffusers’ta prompt ağırlıkları ve Dreambooth LoRA

  • diffusers, önceki Stable Diffusion deneylerinde kullanılmayan iki özelliği destekliyor
  • Prompt ağırlıkları, compel kullanarak kelime ya da ifadelerin önemini daha matematiksel biçimde ayarlıyor
    • Bir kelimenin sonuna birden fazla + veya - ekleyerek sonuç embedding’inde önemini artırıp azaltabiliyorsunuz
    • İfadeleri paranteze alıp San Francisco landscape by Salvador Dali, (oil on canvas)+++ örneğinde olduğu gibi belirli bir ortam ya da teknik ifadesini güçlendirebiliyorsunuz
  • Testlerde bu yöntem, Stable Diffusion 2.0 sonrası zorlaşan prompt ayarlarının büyük kısmını hafifletiyor
    • Varsayılan guidance_scale değeri 7.5
    • Max Woolf ise 13 değerini tercih ediyor; yazıdaki tüm LoRA örneklerinde de guidance_scale 13 kullanılıyor
  • Dreambooth, az sayıda kaynak görsel ve bir tetikleyici anahtar kelimeyle Stable Diffusion’a belirli bir kavramı öğretme tekniği
  • LoRA, tüm Stable Diffusion modelini değil, görsel model için küçük bir adaptörü eğitiyor
    • Tek bir düşük maliyetli GPU’da yaklaşık 10 dakikada eğitilebiliyor
    • Nihai model+LoRA kalitesi, tam fine-tuning ile benzer düzeyde olabiliyor
    • Küçük bir ikili dosya olarak saklandığı için paylaşımı kolay
    • Genelde Stable Diffusion fine-tuning denilen şey, çoğu zaman LoRA üretimi oluyor
    • Aynı anda etkinleştirilebilen LoRA sayısı bir; birden fazla LoRA birleştirilebiliyor ama bu hassas bir iş

Ugly Sonic LoRA ile SDXL’in potansiyelini doğrulama

  • LoRA yaygınlaşmadan önce textual inversion ile kavramlar metin kodlayıcısına öğretiliyordu; ancak eğitim uzun sürüyor ve sonuçları kullanmak zor olabiliyordu
  • Daha önce, Stable Diffusion’ın özgün veri setinde olmayan meme karakteri Ugly Sonic, textual inversion ile eğitilmişti ama sonuçlar tutarsızdı
  • SDXL’in potansiyelini görmek için Ugly Sonic, bu kez LoRA ile yeniden eğitildi
  • Eğitilen Ugly Sonic LoRA, çeşitli prompt’larda öncekinden çok daha iyi ve tutarlı görseller üretiyor

wrong LoRA deney tasarımı

  • Önceki negative prompt odaklı textual inversion deneyi, bu kez SDXL LoRA ile yeniden yapıldı; bozuk ve düşük kaliteli görseller wrong prompt’una bağlanarak eğitildi
  • Amaç, wrong ifadesi negative prompt olarak kullanıldığında modelin bu tür görsellerden uzaklaşıp daha az bozuk sonuçlar üretip üretmediğini görmekti
  • Sentetik wrong görselleri SDXL’in kendisiyle üretildi
    • wrong image generator Jupyter Notebook hazırlandı
    • blurry, bad hands gibi kötü görsel türlerini daha belirgin hale getirmek için çeşitli prompt ağırlıkları kullanıldı
    • Yüksek çözünürlüklü ama düşük kaliteli görseller üretmek için yine SDXL kullanmak gerekti
  • Üretilen wrong görseller bazen 2000’ler punk rock albüm kapakları gibi görünüyor ya da ilk bakışta normal görünse de yakından bakınca rahatsız edici bir uncanny valley hissi veriyor
  • sdxl-wrong-lora, SDXL base modeline yükleniyor
    • refiner için LoRA gerekmiyor
    • Karşılaştırma için bir Jupyter Notebook da paylaşıldı

Karşılaştırma yöntemi ve öne çıkan sonuçlar

  • Üç yapı karşılaştırıldı
    • LoRA’sız base + refiner hattı
    • LoRA olmadan wrong ifadesinin negative prompt olarak verildiği hat
    • wrong LoRA uygulanıp wrong ifadesinin negative prompt olarak verildiği hat
  • Tüm üretimlerde aynı seed kullanılarak fotoğraf kompozisyonu benzer tutuldu; böylece wrong negative prompt’unun ve LoRA’nın etkisini kıyaslamak kolaylaştı
  • A wolf in Yosemite National Park, chilly nature documentary film photography
    • Temel modele wrong eklendiğinde orman görseline bir miktar yaprak ve derinlik ekleniyor
    • LoRA ise ışık, gölge, yaprak detayı ve kurdu kameraya bakar hale getiren kompozisyon açısından daha iyi sonuç veriyor
  • An extreme close-up of a wolf in Yosemite National Park, chilly nature documentary film photography
    • LoRA sonucu doku, canlılık ve netlik açısından daha iyi
    • Yalnızca wrong prompt’unu eklemek bile bakış açısını değiştiriyor
  • a large delicious hamburger (in the shape of five-dimensional alien geometry)++++, professional food photography
    • Çeşitli prompt mühendisliği denemelerine rağmen beş boyutlu uzaylı geometri şeklindeki hamburger düzgün üretilemiyor
    • Temel SDXL, alien ifadesini beklenenden daha kelimesi kelimesine yorumlamış gibi bir sonuç veriyor
    • LoRA ise insanların yemesinin zor olduğu daha “uzaylı” bir hamburger ve daha parlak bir sunum üretiyor
  • lossless PDF scan of the front page of the January 2038 issue of the Wall Street Journal featuring a cover story about (evil robot world domination)++
    • Metin okunabilirliği Stable Diffusion 2.0’a göre iyileşmiş olsa da üç durumda da benzer kalıyor
    • LoRA, daha modern sayfa düzeni, daha çeşitli haber yerleşimleri ve başlıklardaki göreli yazı kalınlığını iyileştiriyor
    • Temel modelde wrong negative prompt’u eklense bile sayfa tekdüze kalıyor ve eski kahverengi kâğıt gibi görünüyor
  • USA President Taylor Swift (signing papers)++++, photo taken by the Associated Press
    • Temel SDXL’de sağ kol oldukça gerçek dışı ve yalnızca wrong eklenince daha da kötüleşiyor
    • LoRA’da kol sorunu düzeliyor; ceketin rengi de sarımsı beyaz yerine daha belirgin bir beyaza yaklaşıyor
    • Yine de SDXL 1.0 ile insan üretmek hâlâ zor ve güvenilmez; eller için de yakından bakmamak gerektiği not ediliyor

Ek örneklerde görülen değişimler

  • realistic human Shrek blogging at a computer workstation, hyperrealistic award-winning photo for vanity fair
    • Eller ve ışıklandırma daha iyi, kıyafet detayları ve arka plan daha ilgi çekici
  • pepperoni pizza in the shape of a heart, hyperrealistic award-winning professional food photography
    • Pepperoni detayları ve ısıyla oluşan kabarcıklar daha görünür hale geliyor; kenarlardaki aşırı pepperoni azalıyor ve crust daha çıtır görünüyor
  • presidential painting of realistic human Spongebob Squarepants wearing a suit, (oil on canvas)+++++
    • Spongebob’un burnu geri geliyor ve takım elbise düğmeleri artıyor
  • San Francisco panorama attacked by (one massive kitten)++++, hyperrealistic award-winning photo by the Associated Press
    • LoRA, prompt’u gerçekten takip etmeye çalıştığını gösteriyor
  • hyperrealistic death metal album cover featuring edgy moody realistic (human Super Mario)++, edgy and moody
    • Mario’nun oranları oyun karakterine daha yakın hale geliyor; karakter ışıklandırması da daha sert ve kasvetli oluyor

Paylaşılan kaynaklar ve yeniden üretim

  • wrong LoRA, Hugging Face üzerinde açık olarak paylaşılıyor
  • diffusers dışındaki arayüzlerde aynı etkinin garanti edilmediği belirtiliyor
  • Görsel üretiminde kullanılan notebook’lar GitHub repository içinde açıklandı
  • Genel SDXL 1.0 + refiner + wrong LoRA için hazırlanan Colab Notebook, ücretsiz T4 GPU’da çalıştırılabiliyor
  • Yazıda kullanılan üretilmiş görsellerin yüksek çözünürlüklü sürümleri post source code içinde görülebiliyor

wrong LoRA neden işe yaradı?

  • Beklenti, wrong LoRA’nın yalnızca görsel kalitesini ve netliğini artırmasıydı; ancak pratikte sonuçlar, SDXL’in prompt niyetine daha sadık davranması yönünde oldu
  • Teknik olarak negative prompt, difüzyon sürecinin başladığı gizil uzay bölgesini belirliyor
    • LoRA olmadan wrong negative prompt kullanılması durumu
    • LoRA uygulanıp wrong negative prompt kullanılması durumu
    • Her iki durumda başlangıç bölgesi aynı
  • Sezgisel yorum, LoRA’nın yüksek boyutlu gizil uzaydaki istenmeyen bölgeleri başlangıç bölgesine daha yakın şekilde yeniden biçimlendirdiği; böylece normal üretimin o bölgelere ulaşma olasılığının azaldığı ve sonuçların iyileştiği yönünde
  • Kötü görsellerle SDXL’i eğiterek iyileştirme yaklaşımı, teknik olarak bir tür RLHF olarak görülebilir
    • OpenAI, olumlu kullanıcı etkileşimleriyle modeli geliştirip olumsuz davranışları örtük biçimde azaltıyor
    • Bu deney ise kullanıcıların kötü olarak seçtiği görselleri kullanıp olumlu davranışı örtük biçimde artırmayı hedefliyor
  • Dreambooth LoRA, büyük dil modellerindeki kadar fazla girdi verisi gerektirmiyor

Kalan geliştirme alanları ve sonraki deneyler

  • negative LoRA tarafında hâlâ geliştirilebilecek çok şey var
    • sentetik veri seti üretim parametreleri daha iyi ayarlanabilir
    • LoRA daha uzun süre eğitilebilir
  • Diğer LoRA’larla birleştirilerek performans artırılıp artırılamayacağı da test edilmek isteniyor
    • Özellikle wrong LoRA ile Ugly Sonic LoRA birleşimi örnek olarak veriliyor
  • SDXL, ControlNet için diffusers modeli desteği de sunuyor
    • ControlNet, üretilen görselin genel formunu ve kompozisyonunu güçlü biçimde kontrol etmeyi sağlıyor
    • ControlNet, LoRA ile birlikte de kullanılabiliyor
  • Yapay zeka görsel üretim kalitesini iyileştirme araştırmalarının gerekçesi olarak şeffaf yapay zeka gazeteciliği vurgulanıyor
    • Buna yeniden üretilebilir prompt’ların ve Jupyter Notebook’ların açık paylaşımı da dahil
    • Mevcut girişim sermayesi ortamında, sektördeki yeni yapay zeka görsel üretim iyileştirmelerinin kamuya açık olmayabileceği düşünülüyor
    • Ayrıca profesyonel sanatçıların yapay zeka ile değiştirilmesini desteklemediği ya da hoş görmediği de özellikle belirtiliyor

1 yorum

 
GN⁺ 2023-08-23
Hacker News yorumları
  • Kişiselleştirilmiş RLHF kavramı gerçekten ilginç
    Belirli bir üretken yapay zeka sistemiyle etkileşim arttıkça, çıktıyı kişisel tercihlere doğru anlamlı biçimde ayarlamaya yetecek kadar etkileşim verisi birikecek gibi görünüyor. UI iyileştirilip bu sürecin mümkün olduğunca şeffaf hale gelmesi iyi olur
    Ürünleştirme açısından, üretilen her görsele “beğen/beğenme” geri bildirimi eklemek ve wrong değerinin üzerine yazacak isteğe bağlı bir metin etiketi koymak kolay görünüyor. Yeterli insan geri bildirimi biriktiğinde ya da her gece batch işi çalıştırarak yeni bir LoRA kişisel tercihlere göre yeniden eğitilebilir
    Prompt’tan N adet aday görsel üretip birini seçerek iyileştirmeye dayalı örtük ağaç aramasında da insan geri bildirimi toplanabilir. Daha açık biçimde, batch’i hızlıca sıralama/puanlama için bir UI ya da her yinelemeli iyileştirme adımında beğenilmeyen görselleri atmaya yarayan bir çöp kutusu konabilir; daha sonra proje/genel LoRA güncellemelerinde negatif geri bildirim toplanıp yansıtılabilir
    Görsel üretildikten hemen sonra tuş girdisiyle tepki veren çok kısa bir geri bildirim döngüsü kurulursa en kısa yineleme döngüsünün nereye kadar gidebileceğini de merak ediyorum. Birkaç saat boyunca cihaza bağlı kalıp saniyede 1 tane olmak üzere yaklaşık 10 bin tercih toplarsanız, modelin kişisel olarak hoşunuza gidecek görselleri çok daha iyi üretmesi sağlanabilir mi? Gerçi oldukça yoğun; biraz Clockwork Orange hissi de veriyor
    Yazıda wrong görsel sayısını göremedim; koda göz gezdirince 13 anahtar kelime ve anahtar kelime başına yaklaşık 6 görsel gibi duruyor, yani çok fazla değil. Yaklaşık 100 geri bildirimle model bu kadar ayarlanabildiyse şaşırtıcı derecede az bir miktar

    • AI Horde, Stability.ai ile işbirliği yaparak fiilen bu akışı hayata geçiriyor
      AI Horde, gönüllülerin sağladığı GPU’larla çalışan açık kaynaklı dağıtık bir küme; Stability.ai de A/B testleri çalıştırmak için bir miktar GPU kaynağı sağlıyor
      AI Horde UI’ı olan Lucid Creations’tan ya da kendi yaptıkları ArtBot’tan SDXL modeliyle görsel istediğinizde 2 görsel alıyorsunuz. Biri SDXL v1.0 ile, diğeri güncellenmiş modelle üretiliyor; ama hangisinin hangisi olduğunu bilmiyorsunuz
      Kullanıcının yalnızca ikisi arasından daha çok beğendiği görseli seçmesi gerekiyor; sonuçlar analiz edilmek ve gelecekteki görsel modellerine yansıtılmak üzere Stability.ai’ye geri gidiyor
      Ek olarak AI Horde ve LAION da benzer biçimde işbirliği yaparak kullanıcı tanımlı estetik değerlendirmeyi aynı amaçla sunuyor
      https://aihorde.net/
      https://dbzer0.com/blog/stable-diffusion-xl-beta-on-the-ai-h...
      https://dbzer0.itch.io/lucid-creations
      https://tinybots.net/artbot
      https://laion.ai/blog/laion-stable-horde/
    • Doğru. 6 CFG değeri × 13 anahtar kelime = 78 görsel
      Yine de bazıları pek işe yaramıyor. Örneğin “random text” bazen eski tarz bir SMS uygulaması gibi sonuçlar üretiyor gibi
      LoRA iyi çalışıyor ve 4-5 görsel bile yeterli olabiliyor; ama bu daha eski ve daha küçük Stable Diffusion içindi. Bu yüzden SDXL’de daha fazla görsel kullandım ve LoRA’yı da biraz daha uzun eğittim. Karşılaştırma için, Ugly Sonic LoRA yaklaşık 14 görsel kullandı ve muhtemelen overfit oldu
    • Geliştirdiğimiz açık kaynak framework https://github.com/agentic-ai/enact ilginizi çekebilir
      Hâlâ erken aşamada, ama temel içgörü şu: Metin ya da görsel olsun, tekil model ya da model zinciri olsun, pek çok üretken yapay zeka akışının bir tür geri bildirim sinyaliyle hizalanması gerekiyor; dolayısıyla bunu destekleyen temel altyapıyı kurmak mantıklı. İlk demolardan biri tam olarak böyle bir akıştı ve gerçek model ağırlıklarını ayarlamak yerine ucuz bir vekil yöntem olarak prompt iyileştirme kullandı
      Kabaca, akışları neredeyse native Python ile kolayca yazmayı ve değerlendirici gibi “insan bileşenlerinin” çalıştırılması dahil üretim akışının yürütülmesini izlemeyi sağlayan Python seviyesinde bir çekirdek altyapı kurmaya çalışıyoruz. Zamanda gezinme/geri sarma/yeniden çalıştırma, otomatik gradio UI ve FastAPI desteği de var; ama son ikisi hâlâ oldukça deneysel
      Orta vadede, herhangi bir üretim akışını “insan değerlendirmesi” akışıyla sarmalayıp API ya da gradio UI olarak otomatik dağıtmayı; ardından RLHF, ince ayar, üretim alt bileşenleri için A/B testi gibi çeşitli tekniklerle hizalamayı kolaylaştırmak istiyoruz
      Şu anda “iskeleti” doğru kurmaya odaklanıyoruz, ama hızlı başlangıç belgesi https://github.com/agentic-ai/enact/blob/main/examples/quick... ve README https://github.com/agentic-ai/enact/tree/main#why-enact yönü oldukça iyi gösteriyor. Deneyecek ya da katkıda bulunacak kişiler arıyoruz
    • RLHF, insan geri bildirimiyle pekiştirmeli öğrenme demek
      Bu tür sistemler zaten insan geri bildirimine göre iyi olanları daha yüksek, kötü olanları daha düşük puanlayacak şekilde eğitilmiyor mu?
    • Örtük RLHF, açık yöntemden daha iyi çalışıyor
      Mom test’e benziyor; insanlardan değerlendirme istediğinizde, sorunun kendisi değerlendirmeyi etkiliyor
      Upscale akışını kullanabilirsiniz ama Discord tabanlı Midjourney gibi kısıtlı olmak zorunda değil. Tüm tam boyutlu görselleri gösterebilir ve kullanıcının kopyalayıp/kaydedip/sağ tıklayıp tıklamadığı gibi davranışları da algılayabilirsiniz
  • Stable Diffusion ile sanat yapmak gerçekten eğlenceli bir hobiye dönüştü
    SD 1.5/2.0 ile SDXL arasındaki fark çok büyük; kalitenin bu kadar hızlı iyileşmesi etkileyici

    • SD 1.5/2.0 ile SDXL arasındaki farkın neden bu kadar büyük olduğunu açıklayabilir misin?
      Henüz SDXL kullanmadım ama 1.5’i çok fazla kullandım
      Şimdiye kadar bunu daha yüksek çözünürlük ve daha yüksek “kalite” olarak anlamıştım; ancak realistic vision 3’ü uzun süre kullandığım için kalite sorunu yaşamadım. Upscaling kullanınca daha yüksek çözünürlüğe de ihtiyaç duymadım
  • Yaklaşık 5 yıl önce bazı veri bilimciler arasında PC’deki tüm tuş vuruşlarını kaydetmek moda olmuştu; şimdi o verilerin gerçekten epey işe yaradığını görünce biraz imreniyorum
    Sevdiğim anime çizimlerinden oluşan 30 bin görsellik bir koleksiyonum var ve 5 yıl önce bunları estetik puana göre rekabetçi biçimde sıralamıştım; sanırım böyle işler için epey kullanışlı olur

  • Çok harika. Yakında bu fikri kendim çalıştırmayı düşünüyorum. Ben de biraz bilim insanıyım :)
    Birkaç gün önce ilginç bir şey denedim. SDXL Base Model’i Diffusers ile kullanıp çeşitli stil prompt’larını karıştırarak görseller ürettim; sonra bu görsellerle bir LoRA eğittim ve ardından bu LoRA ile, eğitim setini oluştururken kullandığım prompt’larla tekrar üretim yaptım
    Sonuçta etki daha da güçlendi; daha glitch’li, daha tuhaf ve yüksek çözünürlüklü hissi veren bir hale geldi
    Sonuçlar burada: https://imgur.com/gallery/vUobKPK
    Elbette bu çıktılarla bir LoRA daha eğitip süreci tekrarlayacağım
    Düşününce, Diffusers’ın 77 token sınırını aşmak ve çok daha fazla stil geliştirmek için oldukça iyi bir yöntem
    LoRA’yı https://replicate.com/galleri5/nammeh adresinde deneyebilirsiniz. GitHub hesabı gerekiyor
    Yakında CivitAI’ye de yükleyeceğim

  • LoRA’yı civitai.com’a ve Stable Diffusion Reddit’ine de koyarsan iyi olur
    Sonuçlar oldukça iyi görünüyor ve denemeyi dört gözle bekliyorum. Üretken görsel heyecanının azaldığını bilmiyordum; ben düzenli olarak kullanmaya devam ettiğim için bana hâlâ gündemdeymiş gibi geliyor

    • İlk sürümü /r/StableDiffusion’a koymuştum ama yorumların hepsi “neden A1111 ile uyumlu değil?” şeklindeydi ve dönüştürme için düzgün bir betik bulamadım: https://www.reddit.com/r/StableDiffusion/comments/15r5k3i/i_...
      Civitai LoRA’yı alıp yayımladı: https://civitai.com/models/128708/sdxl-wrong-lora
    • İnsanlar kendi alışkanlıklarına bakıp herkesin de öyle olduğunu varsayma eğiliminde; ben de bunu epey sık yapıyorum. Benim açımdan üretken görsel heyecanı hâlâ canlı
      SDXL beni çok heyecanlandırmadıysa, bunun nedeni görüntü kalitesinde devasa bir sıçrama hissi vermemesiydi. Boyutun iki katına çıkması güzel ama her zaman 1024x1024 görsel üretmek istemediğim için bu aynı zamanda sorun da oluyor
      Hâlâ üçüncü tarafların eğittiği SD 1.5 modellerini kullanıyorum; çıktıları gerçekten iyi ve yaklaşık 5 farklı upscaling yöntemim var, bunlardan en az biri büyütürken yeni ayrıntılar ekliyor
  • Biraz bağlantılı bir konu: Nedenini henüz tam bilmiyorum ama Stable Diffusion XL için yaptığım LoRA’lar ancak oldukça genel bir negatif prompt eklediğimde iyi çalışıyor
    Kendi yüz fotoğraflarımdan 6 tanesiyle fine-tuning yaptım; yalnızca pozitif prompt kullanınca üretilen karakter bana pek benzemiyor. Ama “low quality” gibi genel bir negatif ifade ekleyince birden yüzümün betimi neredeyse doğru hale geliyor
    Birkaç model eğittim; farklı öğrenme oranları ve eğitim epoch sayılarında da durum hep aynıydı
    Sonunda bu olgunun bir şekilde minimaxir’in bu yazıda gözlemlediği şeyi ortaya çıkaran nedenle bağlantılı olacağını hissediyorum

  • Üretken görsel yapay zeka heyecanı azaldığı için SDXL sürümünün genel olarak sessiz geçtiği görüşüne katılmıyorum
    Konuştuğum insanlara göre bunun iki nedeni vardı. Birincisi, daha yüksek VRAM ve hesaplama gereksinimi. İkincisi, sonuç kalitesinin özelleşmiş SD1.5 modellerinden daha düşük algılanması
    Bunlardan biri farklı olsaydı çok daha popüler olacağından eminim
    Ama sonuçta çoğu kişi, özelleşmiş SDXL modellerinin özelleşmiş 1.5 modellerini gerçekten geçip geçemeyeceğini bekleyip görüyor

    • Nedeni çıktı kalitesinin düşük olması
      Konuya hafifçe temas eden çoğu kişi için bunun biraz kurcalanıp bırakılan bir oyuncak gibi olduğunu düşünüyorum. Tutkulu SD hayranları ise… muhtemelen daha hardcore şeyler yapıyordur
      XL pornoda zayıf. Stability kendi yaptığından korktu ve “güvenlik” tarafına çekilerek riskten kaçınmaya çalıştı. Kate Middleton ya da Emma Watson pornosunun fazla inandırıcı olmaması gerekiyor sonuçta
      İnsanlar daha iyisi çıkana kadar, özellikle de pornoda daha iyisi çıkana kadar 1.5’i kullanmaya devam edecek
  • Bu kavram yeni değil. civit.ai’de elleri ve kötü anatomiyi düzeltmek için negatif prompt’a eklenen çok sayıda negative embedding var

  • 90’lardaki “karşı kültür vs yine karşı kültür ama MTV’de çıkan karşı kültür” çelişki alanında büyümüş olmamın etkisi midir bilmem; prompt’un “award winning photo for vanity fair” gibi etiket referanslarıyla bittiğini görünce bu üretken görsel dalgasına dahil olmak istemeyen derin bir dürtü hissediyorum
    Bu tür yazılarda prompt yazarının kullandığı standart etiket son eki ne olursa olsun benzer hissediyorum

    • “award winning photo for vanity fair” çoğunlukla iyi fotoğraf kompozisyonunu, örneğin üçler kuralını, ortaya çıkarmaya yarayan bir hileye yakın
  • “LoRA aynı anda yalnızca bir tane etkinleştirilebilir” ifadesi en azından auto1111 için hiç doğru değil

    • Hatırladığım kadarıyla içeride birleştirme ve ağırlık ayarlama yapıyor