Dün bunu Groq ile birlikte kullanarak Neal Agrawal’ın sonsuz eğlence oyununu bir Chrome uzantısıyla geliştirmeyi denedim; yalnızca emoji değil, gerçek görseller üretmesini sağladım
Neredeyse gerçek zamanlı görsel üretimi ve LLM üretimi gelecek gibi hissettiriyor. Prompt yazımı için Groq’un Mixtral’ını, gerçek zamanlı üretim için de Fal API’yi kullandım https://x.com/altryne/status/1760561501096575401?s=20
Bunu bir yatay kaydırmalı oyuna dönüştürüp, ilerledikçe arka planın işlenen kelimelerin render’larına kademeli ve doğal biçimde geçiş yapması güzel olurdu
Demonun başındaki mavi manzaranın, sonlardaki görseldeki kurak dağlık araziye yavaşça dönüştüğünü ve ön planda yeni bir karakterin belirdiğini hayal ediyorum
Kart tabanlı bir oyuna dönüştürülebilir mi, onu da merak ediyorum
Gerçekten iyi görünüyor. Chrome uzantısını paylaşma ihtimaliniz var mı merak ediyorum
Doğru. İçeride ByteDance’in Stable Diffusion XL üzerinde eğitip açık kaynak olarak yayımladığı SDXL Lightning kullanılıyor
Buna kendi çıkarım motorunu ve gerçek zamanlı altyapısını ekleyerek diğer UI’lardan daha akıcı bir deneyim sunuyorlar. Hız açısından neredeyse kıyas kabul etmez bence; burada 4 adım yaklaşık 370 ms sürerken, link verdiğiniz replicate örneği yaklaşık 2–3 saniye seviyesinde
Gradio ile de bir demo yaptım ama fal.ai’den 2 kat yavaş. Tek bir A10G üzerinde stable-fast derlemesi kullanıyor https://huggingface.co/spaces/radames/Real-Time-Text-to-Imag...
GPU/CUDA/Docker varsa yerelde de çalıştırıp deneyebilirsiniz docker run -it -p 7860:7860 --platform=linux/amd64 --gpus all -e SFAST_COMPILE="1" -e USE_TAESD="0" registry.hf.space/radames-real-time-text-to-image-sdxl-lightning:latest python app.py
Yerel çıkarımda bellek kullanımı ve hızın ne düzeyde olduğunu merak ediyorum
Hızı harika
Kalite için bugün insanların Stable Diffusion 3 ve diğer modelleri test etmekte kullandığı prompt’u ödünç aldım: "Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat"
Benim aldığım sonuç şöyle: https://imgur.com/a/XrAuqCB
Stable Diffusion 3 ile karşılaştırınca: https://pbs.twimg.com/media/GG8mm5va4AA_5PJ?format=jpg&name=...
Mekânsal prompt’a uyum, SDXL ya da önceki Stable Diffusion ailesinde genel olarak zayıf kalan bir alan. Stable Diffusion’ın örnekteki gibi bu kısmı iyi cilalamasını umuyorum
En güncel açık ağırlıklı Stability modeli olan Stable Cascade’de de aynı örneği denedim; o da pek iyi değil: https://fal.ai/models/stable-cascade?share=eab44060-690b-497...
Seed’i değiştirerek çalıştırınca sonuçlar çok farklı oluyor
Demo gerçekten etkileyici ama daha akıcı olsaydı çok daha şaşırtıcı olurdu. Şu anda örneğin bir kelimeyi silince ya da boşluk ekleyince kısa sürede 4 kez çıkarım yapılıyor ve takılma hissi bırakıyor
Kasıtlı olarak adım adım sonuçları gösteriyor da olabilir. Bu arada bu fal.ai’nin demosu; Stable Cascade’in yayımlandığı sabah onlar demoyu koyduğunda ilk kez haberdar oldum
OpenAI dışında çıkarım çalıştıracaksanız fal.ai’yi şiddetle öneririm. Yapay zeka sektöründe neredeyse 3 yıldır varım, geçen yıldan beri de neredeyse 24 saat bunun içindeyim; Fal, kâğıt üzerindeki sayılar değil gerçek kullanımda bu kadar hızlı olması için ayrıntılarla ilgilenen ilk servis gibi görünüyor
Örneğin WebSocket bağlantısı, API anahtarıyla istek imzalamak için edge function’dan geçmek zorunda bırakmayan kısa ömürlü JWT gibi şeyler
Bu kadar hızlıysa hedef görsele doğrudan atlamak yerine latent uzay içinde yumuşak bir yol izleyerek ara görseller üretmek daha iyi olabilir
Bu demoyu gerçekten çok sevdim. Erişmesi kolay, hızlı ve sezgisel. Bu kalitede sonuçları bu kadar kolay elde edebilmek şaşırtıcı
Bu demo ve Groq gerçekten şaşırtıcıydı. Daha çok kısa süre önce, hesap açınca yaklaşık 20 ücretsiz üretim hakkı veren sitelerde bozuk bir görsel almak için uzun süre beklediğimi hatırlıyorum
Artık üyelik ya da CAPTCHA olmadan bir web sitesine girip şimşek hızında metin ve görsel üretebilmek harika. Özellikle Groq ve fal.ai’ın demoları tamamen açık tutabilecek durumda olması da düşünülünce, 2024’ün başında böyle bir performans artışı beklemiyordum
Hızlı üretimin, görsel kalitesindeki eksileri de büyük ölçüde telafi ettiğini düşünüyorum. Başarısız olsa bile iyi bir sonuç genellikle yalnızca bir seed ya da küçük bir prompt düzeltmesi uzaklıkta oluyor
Nasıl bu kadar hızlı olabildiğini merak ediyorum. Ayrıca blob:[https://blbahblah](<https://blbahblah>) görsellerinin ne olduğunu da bilmiyorum
Bu arada prompt’u biraz değiştirince rakunun iki kuyruğu olması kolaylaşıyor
Gerçekten şaşırtıcı. Gecikmenin azalması, bu tür araçlarla etkileşim kurma biçimimizi büyük ölçüde etkiliyor
Buradaki hız avantajı yalnızca daha fazla görsel üretmenin ötesinde; farklı denemeler yaparken aynı düşünce akışını kesintiye uğratmadan sürdürmeyi sağlıyor
Gerçekten etkileyici, ama Stable Diffusion ile tutarlı karakter üretmenin yolunu bilen var mı merak ediyorum
İlk prompt kediyle konuşan bir kız, ikinci prompt da o kediyle oynayan bir kızsa, iki görselde de kızın ve kedinin aynı görünmesini isterim
Mümkünse ilgili bağlantılar veya eğitimler çok yardımcı olur
Hatırladığım kadarıyla Dashtoon Studio, Stable Diffusion ile tutarlı karakterlere sahip çizgi romanlar yapmayı sağlıyor: https://dashtoon.com/create
Dashtoon Studio’da mümkün. Tek bir görsel yükleseniz bile tutarlı karakter LoRA’sı eğitiyor. Yapay zeka ile çizgi roman üretimine yönelik bir yazılım; YouTube’da şu videoyu buldum: https://www.youtube.com/watch?v=EEQwEvKQGvE
LoRA en çok yönlü seçenek gibi. Çünkü istediğiniz pozda ve kamera açısında karakteri tutarlı biçimde elde edebiliyorsunuz. IP-Adapter, girdi görselinin özelliklerini fazla kopyalıyor ve poz gibi kopyalanmaması gereken unsurları seçmek zor. Bu yüzden portre girdisindeki karaktere farklı eylemler yaptırmak zorlaşabiliyor
Reactor, yüzü yerleştireceğiniz üretilmiş bir görsele ihtiyaç duyuyor. Gerçekçi görsellerde iyi çalışıyor ama stilize görsellerde stil korunmuyor ve saç şekli de kopyalanmıyor
Şimdiye kadar bulduklarım arasında Dashtoon en kararlı ve en kolayıydı. Çünkü yeni karaktere ait 20 görsel toplamak da zor; LoRA eğitim setlerinde yakın plan sayısı ya da ifade çeşitliliği gibi görsel özellikleri epey önemli
https://scenario.gg’ye bakmaya değer. Karakterin özel görselleriyle kendi LoRA modelinizi eğitebilirsiniz; iyi bir tutarlılık için farklı açılardan yaklaşık 20 görsel gerekiyor
Daha basit ama yine de oldukça iyi bir yöntem olarak IP-Adapter da var ve bu servis onu da destekliyor. Kediyi tutarlı tutmak, özel bir LoRA olmadan zor olacak gibi. Referans: https://help.scenario.com/training-a-character-lora
Genellikle yalnızca isim kullanmak bile yeterli oluyor. İyi SD modellerinde Maria Smith neredeyse her zaman Maria Smith gibi görünüyor
Tek bir harf girildiğinde davranışı ilginç. Benim denemelerimde çoğu zaman küçük ve epey detaylı binalara yakınsıyor gibi
Aynı harfi ne kadar çok tekrar ederseniz, örneğin 111 yerine 11111111 olunca binalar daha tuhaflaşıyor. Şimdi bakınca seed’e epey duyarlı gibi görünüyor
Bilinmeyen kelimeler veya kavramlar çıktıyı pratikte etkilemiyor. Prompt’ta baby raccoon yerine maxolhx yazmayı deneyin; o kelimeyi yok sayıp İtalyan bir rahibi render ediyor
Kesin konuşmak gerekirse hâlâ bir etkisi var, ama bizim kolayca açıklayabileceğimiz bir şekilde değil. Neredeyse seed ile oynamak gibi
Gerçekten çok hoşuma gitti. URL paylaşımı mümkün olsa harika olurdu late 90s movie poster, 24 hour clock movie "2: Electric Boogaloo" dan aykroyd1
Bu prompt’un sonucu harikaydı
1 yorum
Hacker News yorumları
Dün bunu Groq ile birlikte kullanarak Neal Agrawal’ın sonsuz eğlence oyununu bir Chrome uzantısıyla geliştirmeyi denedim; yalnızca emoji değil, gerçek görseller üretmesini sağladım
Neredeyse gerçek zamanlı görsel üretimi ve LLM üretimi gelecek gibi hissettiriyor. Prompt yazımı için Groq’un Mixtral’ını, gerçek zamanlı üretim için de Fal API’yi kullandım
https://x.com/altryne/status/1760561501096575401?s=20
Demonun başındaki mavi manzaranın, sonlardaki görseldeki kurak dağlık araziye yavaşça dönüştüğünü ve ön planda yeni bir karakterin belirdiğini hayal ediyorum
Kayıt düşmek gerekirse, SDXL Lightning Hugging Face’te görece hoşgörülü bir lisansla yayımlanmış açık kaynaklı bir proje: https://huggingface.co/ByteDance/SDXL-Lightning
Başka birkaç UI da var. Örn: https://replicate.com/lucataco/sdxl-lightning-4step
Buna kendi çıkarım motorunu ve gerçek zamanlı altyapısını ekleyerek diğer UI’lardan daha akıcı bir deneyim sunuyorlar. Hız açısından neredeyse kıyas kabul etmez bence; burada 4 adım yaklaşık 370 ms sürerken, link verdiğiniz replicate örneği yaklaşık 2–3 saniye seviyesinde
https://huggingface.co/spaces/radames/Real-Time-Text-to-Imag...
GPU/CUDA/Docker varsa yerelde de çalıştırıp deneyebilirsiniz
docker run -it -p 7860:7860 --platform=linux/amd64 --gpus all -e SFAST_COMPILE="1" -e USE_TAESD="0" registry.hf.space/radames-real-time-text-to-image-sdxl-lightning:latest python app.pyHızı harika
Kalite için bugün insanların Stable Diffusion 3 ve diğer modelleri test etmekte kullandığı prompt’u ödünç aldım: "Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat"
Benim aldığım sonuç şöyle: https://imgur.com/a/XrAuqCB
Stable Diffusion 3 ile karşılaştırınca: https://pbs.twimg.com/media/GG8mm5va4AA_5PJ?format=jpg&name=...
En güncel açık ağırlıklı Stability modeli olan Stable Cascade’de de aynı örneği denedim; o da pek iyi değil: https://fal.ai/models/stable-cascade?share=eab44060-690b-497...
seed: 3919562
Demo gerçekten etkileyici ama daha akıcı olsaydı çok daha şaşırtıcı olurdu. Şu anda örneğin bir kelimeyi silince ya da boşluk ekleyince kısa sürede 4 kez çıkarım yapılıyor ve takılma hissi bırakıyor
Kasıtlı olarak adım adım sonuçları gösteriyor da olabilir. Bu arada bu fal.ai’nin demosu; Stable Cascade’in yayımlandığı sabah onlar demoyu koyduğunda ilk kez haberdar oldum
OpenAI dışında çıkarım çalıştıracaksanız fal.ai’yi şiddetle öneririm. Yapay zeka sektöründe neredeyse 3 yıldır varım, geçen yıldan beri de neredeyse 24 saat bunun içindeyim; Fal, kâğıt üzerindeki sayılar değil gerçek kullanımda bu kadar hızlı olması için ayrıntılarla ilgilenen ilk servis gibi görünüyor
Örneğin WebSocket bağlantısı, API anahtarıyla istek imzalamak için edge function’dan geçmek zorunda bırakmayan kısa ömürlü JWT gibi şeyler
Bu demoyu gerçekten çok sevdim. Erişmesi kolay, hızlı ve sezgisel. Bu kalitede sonuçları bu kadar kolay elde edebilmek şaşırtıcı
Artık üyelik ya da CAPTCHA olmadan bir web sitesine girip şimşek hızında metin ve görsel üretebilmek harika. Özellikle Groq ve fal.ai’ın demoları tamamen açık tutabilecek durumda olması da düşünülünce, 2024’ün başında böyle bir performans artışı beklemiyordum
Hızlı üretimin, görsel kalitesindeki eksileri de büyük ölçüde telafi ettiğini düşünüyorum. Başarısız olsa bile iyi bir sonuç genellikle yalnızca bir seed ya da küçük bir prompt düzeltmesi uzaklıkta oluyor
Nasıl bu kadar hızlı olabildiğini merak ediyorum. Ayrıca
blob:[https://blbahblah](<https://blbahblah>)görsellerinin ne olduğunu da bilmiyorumBu arada prompt’u biraz değiştirince rakunun iki kuyruğu olması kolaylaşıyor
https://developer.mozilla.org/en-US/docs/Web/API/URL/createO...
Bir dosyayı veya Blob’u, görsel öğesi gibi yerlerde kullanılabilecek bir URL’ye dönüştürme yöntemi
Gerçekten şaşırtıcı. Gecikmenin azalması, bu tür araçlarla etkileşim kurma biçimimizi büyük ölçüde etkiliyor
Buradaki hız avantajı yalnızca daha fazla görsel üretmenin ötesinde; farklı denemeler yaparken aynı düşünce akışını kesintiye uğratmadan sürdürmeyi sağlıyor
Gerçekten etkileyici, ama Stable Diffusion ile tutarlı karakter üretmenin yolunu bilen var mı merak ediyorum
İlk prompt kediyle konuşan bir kız, ikinci prompt da o kediyle oynayan bir kızsa, iki görselde de kızın ve kedinin aynı görünmesini isterim
Mümkünse ilgili bağlantılar veya eğitimler çok yardımcı olur
LoRA en çok yönlü seçenek gibi. Çünkü istediğiniz pozda ve kamera açısında karakteri tutarlı biçimde elde edebiliyorsunuz. IP-Adapter, girdi görselinin özelliklerini fazla kopyalıyor ve poz gibi kopyalanmaması gereken unsurları seçmek zor. Bu yüzden portre girdisindeki karaktere farklı eylemler yaptırmak zorlaşabiliyor
Reactor, yüzü yerleştireceğiniz üretilmiş bir görsele ihtiyaç duyuyor. Gerçekçi görsellerde iyi çalışıyor ama stilize görsellerde stil korunmuyor ve saç şekli de kopyalanmıyor
Şimdiye kadar bulduklarım arasında Dashtoon en kararlı ve en kolayıydı. Çünkü yeni karaktere ait 20 görsel toplamak da zor; LoRA eğitim setlerinde yakın plan sayısı ya da ifade çeşitliliği gibi görsel özellikleri epey önemli
Daha basit ama yine de oldukça iyi bir yöntem olarak IP-Adapter da var ve bu servis onu da destekliyor. Kediyi tutarlı tutmak, özel bir LoRA olmadan zor olacak gibi. Referans: https://help.scenario.com/training-a-character-lora
Tek bir harf girildiğinde davranışı ilginç. Benim denemelerimde çoğu zaman küçük ve epey detaylı binalara yakınsıyor gibi
Aynı harfi ne kadar çok tekrar ederseniz, örneğin
111yerine11111111olunca binalar daha tuhaflaşıyor. Şimdi bakınca seed’e epey duyarlı gibi görünüyorbaby raccoonyerinemaxolhxyazmayı deneyin; o kelimeyi yok sayıp İtalyan bir rahibi render ediyorKesin konuşmak gerekirse hâlâ bir etkisi var, ama bizim kolayca açıklayabileceğimiz bir şekilde değil. Neredeyse seed ile oynamak gibi
Gerçekten çok hoşuma gitti. URL paylaşımı mümkün olsa harika olurdu
late 90s movie poster, 24 hour clock movie "2: Electric Boogaloo" dan aykroyd1Bu prompt’un sonucu harikaydı
Kahraman şöyle görünüyor: https://fastsdxl.ai/share/x9jxax4pnljd
Terörist şöyle görünüyor: https://fastsdxl.ai/share/ejtyvv9ahpfs
Olmak istediğim kişi şöyle görünüyor: https://fastsdxl.ai/share/8ekkecm5rqsr
Yüksek hızı sayesinde yalnızca seed’i değiştirerek içkin önyargıyı hızlıca değerlendirebilmek çok ilginç