HN Tanıtımı: SDXL Lightning ile gerçek zamanlı görüntü oluşturma

(fastsdxl.ai)

1 puan yazan GN⁺ 2024-02-23 | 1 yorum | WhatsApp'ta paylaş

1 yorum

GN⁺ 2024-02-23

Hacker News yorumları

Dün bunu Groq ile birlikte kullanarak Neal Agrawal’ın sonsuz eğlence oyununu bir Chrome uzantısıyla geliştirmeyi denedim; yalnızca emoji değil, gerçek görseller üretmesini sağladım
Neredeyse gerçek zamanlı görsel üretimi ve LLM üretimi gelecek gibi hissettiriyor. Prompt yazımı için Groq’un Mixtral’ını, gerçek zamanlı üretim için de Fal API’yi kullandım
https://x.com/altryne/status/1760561501096575401?s=20
- Bunu bir yatay kaydırmalı oyuna dönüştürüp, ilerledikçe arka planın işlenen kelimelerin render’larına kademeli ve doğal biçimde geçiş yapması güzel olurdu
  Demonun başındaki mavi manzaranın, sonlardaki görseldeki kurak dağlık araziye yavaşça dönüştüğünü ve ön planda yeni bir karakterin belirdiğini hayal ediyorum
- Kart tabanlı bir oyuna dönüştürülebilir mi, onu da merak ediyorum
- Gerçekten iyi görünüyor. Chrome uzantısını paylaşma ihtimaliniz var mı merak ediyorum
Kayıt düşmek gerekirse, SDXL Lightning Hugging Face’te görece hoşgörülü bir lisansla yayımlanmış açık kaynaklı bir proje: https://huggingface.co/ByteDance/SDXL-Lightning
Başka birkaç UI da var. Örn: https://replicate.com/lucataco/sdxl-lightning-4step
- Doğru. İçeride ByteDance’in Stable Diffusion XL üzerinde eğitip açık kaynak olarak yayımladığı SDXL Lightning kullanılıyor
  Buna kendi çıkarım motorunu ve gerçek zamanlı altyapısını ekleyerek diğer UI’lardan daha akıcı bir deneyim sunuyorlar. Hız açısından neredeyse kıyas kabul etmez bence; burada 4 adım yaklaşık 370 ms sürerken, link verdiğiniz replicate örneği yaklaşık 2–3 saniye seviyesinde
- Gradio ile de bir demo yaptım ama fal.ai’den 2 kat yavaş. Tek bir A10G üzerinde stable-fast derlemesi kullanıyor
  https://huggingface.co/spaces/radames/Real-Time-Text-to-Imag...
  GPU/CUDA/Docker varsa yerelde de çalıştırıp deneyebilirsiniz
  docker run -it -p 7860:7860 --platform=linux/amd64 --gpus all -e SFAST_COMPILE="1" -e USE_TAESD="0" registry.hf.space/radames-real-time-text-to-image-sdxl-lightning:latest python app.py
- Yerel çıkarımda bellek kullanımı ve hızın ne düzeyde olduğunu merak ediyorum
Hızı harika
Kalite için bugün insanların Stable Diffusion 3 ve diğer modelleri test etmekte kullandığı prompt’u ödünç aldım: "Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat"
Benim aldığım sonuç şöyle: https://imgur.com/a/XrAuqCB
Stable Diffusion 3 ile karşılaştırınca: https://pbs.twimg.com/media/GG8mm5va4AA_5PJ?format=jpg&name=...
1. https://news.ycombinator.com/item?id=39467526
- Mekânsal prompt’a uyum, SDXL ya da önceki Stable Diffusion ailesinde genel olarak zayıf kalan bir alan. Stable Diffusion’ın örnekteki gibi bu kısmı iyi cilalamasını umuyorum
  En güncel açık ağırlıklı Stability modeli olan Stable Cascade’de de aynı örneği denedim; o da pek iyi değil: https://fal.ai/models/stable-cascade?share=eab44060-690b-497...
- Benim aldığım sonuç oldukça doğru: https://imgur.com/a/vH0zq5b
  seed: 3919562
- Seed’i değiştirerek çalıştırınca sonuçlar çok farklı oluyor
Demo gerçekten etkileyici ama daha akıcı olsaydı çok daha şaşırtıcı olurdu. Şu anda örneğin bir kelimeyi silince ya da boşluk ekleyince kısa sürede 4 kez çıkarım yapılıyor ve takılma hissi bırakıyor
Kasıtlı olarak adım adım sonuçları gösteriyor da olabilir. Bu arada bu fal.ai’nin demosu; Stable Cascade’in yayımlandığı sabah onlar demoyu koyduğunda ilk kez haberdar oldum
OpenAI dışında çıkarım çalıştıracaksanız fal.ai’yi şiddetle öneririm. Yapay zeka sektöründe neredeyse 3 yıldır varım, geçen yıldan beri de neredeyse 24 saat bunun içindeyim; Fal, kâğıt üzerindeki sayılar değil gerçek kullanımda bu kadar hızlı olması için ayrıntılarla ilgilenen ilk servis gibi görünüyor
Örneğin WebSocket bağlantısı, API anahtarıyla istek imzalamak için edge function’dan geçmek zorunda bırakmayan kısa ömürlü JWT gibi şeyler
- Bu kadar hızlıysa hedef görsele doğrudan atlamak yerine latent uzay içinde yumuşak bir yol izleyerek ara görseller üretmek daha iyi olabilir
Bu demoyu gerçekten çok sevdim. Erişmesi kolay, hızlı ve sezgisel. Bu kalitede sonuçları bu kadar kolay elde edebilmek şaşırtıcı
- Bu demo ve Groq gerçekten şaşırtıcıydı. Daha çok kısa süre önce, hesap açınca yaklaşık 20 ücretsiz üretim hakkı veren sitelerde bozuk bir görsel almak için uzun süre beklediğimi hatırlıyorum
  Artık üyelik ya da CAPTCHA olmadan bir web sitesine girip şimşek hızında metin ve görsel üretebilmek harika. Özellikle Groq ve fal.ai’ın demoları tamamen açık tutabilecek durumda olması da düşünülünce, 2024’ün başında böyle bir performans artışı beklemiyordum
  Hızlı üretimin, görsel kalitesindeki eksileri de büyük ölçüde telafi ettiğini düşünüyorum. Başarısız olsa bile iyi bir sonuç genellikle yalnızca bir seed ya da küçük bir prompt düzeltmesi uzaklıkta oluyor
Nasıl bu kadar hızlı olabildiğini merak ediyorum. Ayrıca blob:[https://blbahblah](<https://blbahblah>;) görsellerinin ne olduğunu da bilmiyorum
Bu arada prompt’u biraz değiştirince rakunun iki kuyruğu olması kolaylaşıyor
- İkinci soruya yanıt olarak, bu bir nesne URL’si
  https://developer.mozilla.org/en-US/docs/Web/API/URL/createO...
  Bir dosyayı veya Blob’u, görsel öğesi gibi yerlerde kullanılabilecek bir URL’ye dönüştürme yöntemi
- JavaScript’teki bir buffer’ı temsil eden geçici bir URL: https://developer.mozilla.org/en-US/docs/Web/API/URL/createO...
Gerçekten şaşırtıcı. Gecikmenin azalması, bu tür araçlarla etkileşim kurma biçimimizi büyük ölçüde etkiliyor
Buradaki hız avantajı yalnızca daha fazla görsel üretmenin ötesinde; farklı denemeler yaparken aynı düşünce akışını kesintiye uğratmadan sürdürmeyi sağlıyor
Gerçekten etkileyici, ama Stable Diffusion ile tutarlı karakter üretmenin yolunu bilen var mı merak ediyorum
İlk prompt kediyle konuşan bir kız, ikinci prompt da o kediyle oynayan bir kızsa, iki görselde de kızın ve kedinin aynı görünmesini isterim
Mümkünse ilgili bağlantılar veya eğitimler çok yardımcı olur
- Hatırladığım kadarıyla Dashtoon Studio, Stable Diffusion ile tutarlı karakterlere sahip çizgi romanlar yapmayı sağlıyor: https://dashtoon.com/create
- Dashtoon Studio’da mümkün. Tek bir görsel yükleseniz bile tutarlı karakter LoRA’sı eğitiyor. Yapay zeka ile çizgi roman üretimine yönelik bir yazılım; YouTube’da şu videoyu buldum: https://www.youtube.com/watch?v=EEQwEvKQGvE
  LoRA en çok yönlü seçenek gibi. Çünkü istediğiniz pozda ve kamera açısında karakteri tutarlı biçimde elde edebiliyorsunuz. IP-Adapter, girdi görselinin özelliklerini fazla kopyalıyor ve poz gibi kopyalanmaması gereken unsurları seçmek zor. Bu yüzden portre girdisindeki karaktere farklı eylemler yaptırmak zorlaşabiliyor
  Reactor, yüzü yerleştireceğiniz üretilmiş bir görsele ihtiyaç duyuyor. Gerçekçi görsellerde iyi çalışıyor ama stilize görsellerde stil korunmuyor ve saç şekli de kopyalanmıyor
  Şimdiye kadar bulduklarım arasında Dashtoon en kararlı ve en kolayıydı. Çünkü yeni karaktere ait 20 görsel toplamak da zor; LoRA eğitim setlerinde yakın plan sayısı ya da ifade çeşitliliği gibi görsel özellikleri epey önemli
- https://scenario.gg’ye bakmaya değer. Karakterin özel görselleriyle kendi LoRA modelinizi eğitebilirsiniz; iyi bir tutarlılık için farklı açılardan yaklaşık 20 görsel gerekiyor
  Daha basit ama yine de oldukça iyi bir yöntem olarak IP-Adapter da var ve bu servis onu da destekliyor. Kediyi tutarlı tutmak, özel bir LoRA olmadan zor olacak gibi. Referans: https://help.scenario.com/training-a-character-lora
- Genellikle yalnızca isim kullanmak bile yeterli oluyor. İyi SD modellerinde Maria Smith neredeyse her zaman Maria Smith gibi görünüyor
- Mickey oldukça tutarlı görünüyor: https://fastsdxl.ai/share/4us7hrp3jm20
Tek bir harf girildiğinde davranışı ilginç. Benim denemelerimde çoğu zaman küçük ve epey detaylı binalara yakınsıyor gibi
Aynı harfi ne kadar çok tekrar ederseniz, örneğin 111 yerine 11111111 olunca binalar daha tuhaflaşıyor. Şimdi bakınca seed’e epey duyarlı gibi görünüyor
- Bilinmeyen kelimeler veya kavramlar çıktıyı pratikte etkilemiyor. Prompt’ta baby raccoon yerine maxolhx yazmayı deneyin; o kelimeyi yok sayıp İtalyan bir rahibi render ediyor
  Kesin konuşmak gerekirse hâlâ bir etkisi var, ama bizim kolayca açıklayabileceğimiz bir şekilde değil. Neredeyse seed ile oynamak gibi
Gerçekten çok hoşuma gitti. URL paylaşımı mümkün olsa harika olurdu
late 90s movie poster, 24 hour clock movie "2: Electric Boogaloo" dan aykroyd1
Bu prompt’un sonucu harikaydı
- Sıradan bir insan şöyle görünüyor: https://fastsdxl.ai/share/1mb3d5lo5ic9
  Kahraman şöyle görünüyor: https://fastsdxl.ai/share/x9jxax4pnljd
  Terörist şöyle görünüyor: https://fastsdxl.ai/share/ejtyvv9ahpfs
  Olmak istediğim kişi şöyle görünüyor: https://fastsdxl.ai/share/8ekkecm5rqsr
  Yüksek hızı sayesinde yalnızca seed’i değiştirerek içkin önyargıyı hızlıca değerlendirebilmek çok ilginç
- Paylaşım özelliğini az önce ekledim. Neler yaptığınızı söylerseniz sevinirim
- Seed sağlansaydı paylaşım mümkün olurdu gibi geliyor

HN Tanıtımı: SDXL Lightning ile gerçek zamanlı görüntü oluşturma

İlgili okumalar

1 yorum

Hacker News yorumları