1 yorum

 
GN⁺ 2024-02-23
Hacker News yorumları
  • Dün bunu Groq ile birlikte kullanarak Neal Agrawal’ın sonsuz eğlence oyununu bir Chrome uzantısıyla geliştirmeyi denedim; yalnızca emoji değil, gerçek görseller üretmesini sağladım
    Neredeyse gerçek zamanlı görsel üretimi ve LLM üretimi gelecek gibi hissettiriyor. Prompt yazımı için Groq’un Mixtral’ını, gerçek zamanlı üretim için de Fal API’yi kullandım
    https://x.com/altryne/status/1760561501096575401?s=20

    • Bunu bir yatay kaydırmalı oyuna dönüştürüp, ilerledikçe arka planın işlenen kelimelerin render’larına kademeli ve doğal biçimde geçiş yapması güzel olurdu
      Demonun başındaki mavi manzaranın, sonlardaki görseldeki kurak dağlık araziye yavaşça dönüştüğünü ve ön planda yeni bir karakterin belirdiğini hayal ediyorum
    • Kart tabanlı bir oyuna dönüştürülebilir mi, onu da merak ediyorum
    • Gerçekten iyi görünüyor. Chrome uzantısını paylaşma ihtimaliniz var mı merak ediyorum
  • Kayıt düşmek gerekirse, SDXL Lightning Hugging Face’te görece hoşgörülü bir lisansla yayımlanmış açık kaynaklı bir proje: https://huggingface.co/ByteDance/SDXL-Lightning
    Başka birkaç UI da var. Örn: https://replicate.com/lucataco/sdxl-lightning-4step

    • Doğru. İçeride ByteDance’in Stable Diffusion XL üzerinde eğitip açık kaynak olarak yayımladığı SDXL Lightning kullanılıyor
      Buna kendi çıkarım motorunu ve gerçek zamanlı altyapısını ekleyerek diğer UI’lardan daha akıcı bir deneyim sunuyorlar. Hız açısından neredeyse kıyas kabul etmez bence; burada 4 adım yaklaşık 370 ms sürerken, link verdiğiniz replicate örneği yaklaşık 2–3 saniye seviyesinde
    • Gradio ile de bir demo yaptım ama fal.ai’den 2 kat yavaş. Tek bir A10G üzerinde stable-fast derlemesi kullanıyor
      https://huggingface.co/spaces/radames/Real-Time-Text-to-Imag...
      GPU/CUDA/Docker varsa yerelde de çalıştırıp deneyebilirsiniz
      docker run -it -p 7860:7860 --platform=linux/amd64 --gpus all -e SFAST_COMPILE="1" -e USE_TAESD="0" registry.hf.space/radames-real-time-text-to-image-sdxl-lightning:latest python app.py
    • Yerel çıkarımda bellek kullanımı ve hızın ne düzeyde olduğunu merak ediyorum
  • Hızı harika
    Kalite için bugün insanların Stable Diffusion 3 ve diğer modelleri test etmekte kullandığı prompt’u ödünç aldım: "Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat"
    Benim aldığım sonuç şöyle: https://imgur.com/a/XrAuqCB
    Stable Diffusion 3 ile karşılaştırınca: https://pbs.twimg.com/media/GG8mm5va4AA_5PJ?format=jpg&name=...

    1. https://news.ycombinator.com/item?id=39467526
    • Mekânsal prompt’a uyum, SDXL ya da önceki Stable Diffusion ailesinde genel olarak zayıf kalan bir alan. Stable Diffusion’ın örnekteki gibi bu kısmı iyi cilalamasını umuyorum
      En güncel açık ağırlıklı Stability modeli olan Stable Cascade’de de aynı örneği denedim; o da pek iyi değil: https://fal.ai/models/stable-cascade?share=eab44060-690b-497...
    • Benim aldığım sonuç oldukça doğru: https://imgur.com/a/vH0zq5b
      seed: 3919562
    • Seed’i değiştirerek çalıştırınca sonuçlar çok farklı oluyor
  • Demo gerçekten etkileyici ama daha akıcı olsaydı çok daha şaşırtıcı olurdu. Şu anda örneğin bir kelimeyi silince ya da boşluk ekleyince kısa sürede 4 kez çıkarım yapılıyor ve takılma hissi bırakıyor
    Kasıtlı olarak adım adım sonuçları gösteriyor da olabilir. Bu arada bu fal.ai’nin demosu; Stable Cascade’in yayımlandığı sabah onlar demoyu koyduğunda ilk kez haberdar oldum
    OpenAI dışında çıkarım çalıştıracaksanız fal.ai’yi şiddetle öneririm. Yapay zeka sektöründe neredeyse 3 yıldır varım, geçen yıldan beri de neredeyse 24 saat bunun içindeyim; Fal, kâğıt üzerindeki sayılar değil gerçek kullanımda bu kadar hızlı olması için ayrıntılarla ilgilenen ilk servis gibi görünüyor
    Örneğin WebSocket bağlantısı, API anahtarıyla istek imzalamak için edge function’dan geçmek zorunda bırakmayan kısa ömürlü JWT gibi şeyler

    • Bu kadar hızlıysa hedef görsele doğrudan atlamak yerine latent uzay içinde yumuşak bir yol izleyerek ara görseller üretmek daha iyi olabilir
  • Bu demoyu gerçekten çok sevdim. Erişmesi kolay, hızlı ve sezgisel. Bu kalitede sonuçları bu kadar kolay elde edebilmek şaşırtıcı

    • Bu demo ve Groq gerçekten şaşırtıcıydı. Daha çok kısa süre önce, hesap açınca yaklaşık 20 ücretsiz üretim hakkı veren sitelerde bozuk bir görsel almak için uzun süre beklediğimi hatırlıyorum
      Artık üyelik ya da CAPTCHA olmadan bir web sitesine girip şimşek hızında metin ve görsel üretebilmek harika. Özellikle Groq ve fal.ai’ın demoları tamamen açık tutabilecek durumda olması da düşünülünce, 2024’ün başında böyle bir performans artışı beklemiyordum
      Hızlı üretimin, görsel kalitesindeki eksileri de büyük ölçüde telafi ettiğini düşünüyorum. Başarısız olsa bile iyi bir sonuç genellikle yalnızca bir seed ya da küçük bir prompt düzeltmesi uzaklıkta oluyor
  • Nasıl bu kadar hızlı olabildiğini merak ediyorum. Ayrıca blob:[https://blbahblah](<https://blbahblah>;) görsellerinin ne olduğunu da bilmiyorum
    Bu arada prompt’u biraz değiştirince rakunun iki kuyruğu olması kolaylaşıyor

  • Gerçekten şaşırtıcı. Gecikmenin azalması, bu tür araçlarla etkileşim kurma biçimimizi büyük ölçüde etkiliyor
    Buradaki hız avantajı yalnızca daha fazla görsel üretmenin ötesinde; farklı denemeler yaparken aynı düşünce akışını kesintiye uğratmadan sürdürmeyi sağlıyor

  • Gerçekten etkileyici, ama Stable Diffusion ile tutarlı karakter üretmenin yolunu bilen var mı merak ediyorum
    İlk prompt kediyle konuşan bir kız, ikinci prompt da o kediyle oynayan bir kızsa, iki görselde de kızın ve kedinin aynı görünmesini isterim
    Mümkünse ilgili bağlantılar veya eğitimler çok yardımcı olur

    • Hatırladığım kadarıyla Dashtoon Studio, Stable Diffusion ile tutarlı karakterlere sahip çizgi romanlar yapmayı sağlıyor: https://dashtoon.com/create
    • Dashtoon Studio’da mümkün. Tek bir görsel yükleseniz bile tutarlı karakter LoRA’sı eğitiyor. Yapay zeka ile çizgi roman üretimine yönelik bir yazılım; YouTube’da şu videoyu buldum: https://www.youtube.com/watch?v=EEQwEvKQGvE
      LoRA en çok yönlü seçenek gibi. Çünkü istediğiniz pozda ve kamera açısında karakteri tutarlı biçimde elde edebiliyorsunuz. IP-Adapter, girdi görselinin özelliklerini fazla kopyalıyor ve poz gibi kopyalanmaması gereken unsurları seçmek zor. Bu yüzden portre girdisindeki karaktere farklı eylemler yaptırmak zorlaşabiliyor
      Reactor, yüzü yerleştireceğiniz üretilmiş bir görsele ihtiyaç duyuyor. Gerçekçi görsellerde iyi çalışıyor ama stilize görsellerde stil korunmuyor ve saç şekli de kopyalanmıyor
      Şimdiye kadar bulduklarım arasında Dashtoon en kararlı ve en kolayıydı. Çünkü yeni karaktere ait 20 görsel toplamak da zor; LoRA eğitim setlerinde yakın plan sayısı ya da ifade çeşitliliği gibi görsel özellikleri epey önemli
    • https://scenario.gg’ye bakmaya değer. Karakterin özel görselleriyle kendi LoRA modelinizi eğitebilirsiniz; iyi bir tutarlılık için farklı açılardan yaklaşık 20 görsel gerekiyor
      Daha basit ama yine de oldukça iyi bir yöntem olarak IP-Adapter da var ve bu servis onu da destekliyor. Kediyi tutarlı tutmak, özel bir LoRA olmadan zor olacak gibi. Referans: https://help.scenario.com/training-a-character-lora
    • Genellikle yalnızca isim kullanmak bile yeterli oluyor. İyi SD modellerinde Maria Smith neredeyse her zaman Maria Smith gibi görünüyor
    • Mickey oldukça tutarlı görünüyor: https://fastsdxl.ai/share/4us7hrp3jm20
  • Tek bir harf girildiğinde davranışı ilginç. Benim denemelerimde çoğu zaman küçük ve epey detaylı binalara yakınsıyor gibi
    Aynı harfi ne kadar çok tekrar ederseniz, örneğin 111 yerine 11111111 olunca binalar daha tuhaflaşıyor. Şimdi bakınca seed’e epey duyarlı gibi görünüyor

    • Bilinmeyen kelimeler veya kavramlar çıktıyı pratikte etkilemiyor. Prompt’ta baby raccoon yerine maxolhx yazmayı deneyin; o kelimeyi yok sayıp İtalyan bir rahibi render ediyor
      Kesin konuşmak gerekirse hâlâ bir etkisi var, ama bizim kolayca açıklayabileceğimiz bir şekilde değil. Neredeyse seed ile oynamak gibi
  • Gerçekten çok hoşuma gitti. URL paylaşımı mümkün olsa harika olurdu
    late 90s movie poster, 24 hour clock movie "2: Electric Boogaloo" dan aykroyd1
    Bu prompt’un sonucu harikaydı