Show HN: Infinity – Konuşabilen gerçekçi yapay zeka karakterleri

(news.ycombinator.com)

1 puan yazan GN⁺ 2024-09-07 | 1 yorum | WhatsApp'ta paylaş

Infinity AI, insan odaklı bir temel video modeli eğiterek yalnızca ses girdisiyle konuşan karakter videoları üretmeyi hedefliyor
İçerik üreticileri, karakterin söyleyeceği senaryoyu girerek video oluşturabiliyor; sonraki hedef ise davranışları da belirleyebilmek
V2, tek bir görsel, ses ve koşul sinyalini alıp video üreten uçtan uca model; mevcut lip-sync yaklaşımındaki ifade ve jest uyumsuzluğunu azaltmayı amaçlıyor
Şimdiye kadar yaklaşık 11 GPU-yılı ve yaklaşık 500 bin dolar harcanmış olsa da, rectified flow ve 3D VAE embedding layer kullanılsa bile üretim hızı hâlâ yavaş
Çok dilli kullanım, fiziksel hareketler, tablo veya heykel gibi görseller ve şarkı söylemede güçlü olsa da; hayvanlar, çizgi karakterler, el ekleme ve ünlü kimliğinin bozulması gibi başarısızlık modları sürüyor

Infinity V2'nin ürettiği konuşan karakter videoları

Infinity AI, insanlara odaklanan kendi temel video modelini eğitiyor
Ekibin bildiği kadarıyla bu, ses girdisiyle çalışan bir video diffusion transformer eğitmeye en yakın ilk örneklerden biri
Bu yaklaşım, gerçekten konuşan, etkileyici ve gerçekçi görünen karakter videoları üretmeye odaklanıyor
Örnek videolar V2 launch blog üzerinden görülebilir
Model doğrudan Infinity Studio içinde denenebilir
HN yorumlarında karakter açıklaması bırakırsanız ekip videoyu üretip bağlantıyla yanıt vereceğini söylüyor
- “Mona Lisa saying ‘what the heck are you smiling at?’”
- “A 3D pixar-style gnome with a pointy red hat reciting the Declaration of Independence”
- “Elon Musk singing Fly Me To The Moon by Sinatra”

Runway ve Luma gibi üretken yapay zeka video modelleri, karakterleri konuşturmak için uygun değil
HeyGen ve Synthesia gibi talking avatar servisleri, önceden kaydedilmiş videolar üzerine lip-sync uyguluyor
- Ses ile ifade ve jestler arasında kayma olabiliyor
- Bu uyumsuzluk, sebebi tam anlaşılamayan uncanny bir his yaratabiliyor
Infinity V1 de lip-sync yaklaşımını kullanıyordu
- Jest uyumsuzluğu devam ediyordu
- Mevcut video verisiyle her oyuncu için modeli fine-tune etmek gerektiğinden oyuncu kütüphanesi sınırlıydı
- Hayali karakterleri canlandırmak zordu
V2, tek bir görsel, ses ve diğer koşul sinyallerini girdi olarak alıp video çıktısı veren uçtan uca video diffusion transformer modeline geçti
- İnsan hareketi ve duygularındaki karmaşıklık ile nüansları yakalamak için bu yaklaşımın en uygun yol olduğu düşünülüyor
- Dezavantajı, üretim hızının yavaş olması
- rectified flow ile 2-4 kat, 3D VAE embedding layer ile 2-5 kat hız artışı elde edilmiş olsa da hâlâ yavaş
Şu ana kadar eğitime yaklaşık 11 GPU-yılı ve yaklaşık 500 bin dolar harcandı; model eğitimi hâlâ sürüyor

Güçlü yönler
- Birden çok dili işleyebiliyor
- Küpelerin doğal biçimde sallanması ve karşı kulaktaki eşini tahmin etmesi gibi bazı fizik unsurlarını öğrenmiş
- Eğitim verisinde olmayan tablo ve heykel gibi görsel türlerini de canlandırabiliyor
- Şarkı söylemeyi işleyebiliyor
Sınırlamalar
- Hayvanları işleyemiyor, yalnızca humanoid görsellere yanıt veriyor
- Kare içine sık sık el ekleyerek dikkat dağıtabiliyor
- Çizgi karakterlerde yeterince robust değil
- İnsan kimliğini bozabiliyor; bu özellikle tanınmış kişilerde belirgin

GN⁺ 2024-09-07

Hedra'nın düşük kaliteli bir taklidi gibi görünüyor ve şu an için epey geride kalmış
Metinden görsele dönüştürmeyle bir uzay deniz piyadesi oluşturdum; ek düzenleme olmadan bile şaşırtıcı derecede iyi sonuç verdi
"Gnome" yüz seçeneğini görür görmez ne yapmam gerektiğini anladım
Model Duke Nukem'den hoşlanmıyor gibi görünüyor
Tabancasını kesip çıkarınca durum daha da kötüleşti
Diğer görseller biraz daha iyi sonuç veriyor
En çok bu görseli beğendim
Birinin bunu yapması gerekiyordu
Alibaba'nın Emo gibi önceki araştırmaları var, ancak bu demonun insanların gerçekten deneyebilmesi açısından etkileyici olduğu söylenebilir
Meme'i gerçeğe dönüştürmeye çalıştım ama orijinal görsel zorluydu
- Seste biraz dil sorunu var
Bunu uncanny valley'e doğru zorlamaya çalıştım ama oldukça zordu
Bazen kadraja el ekliyor
- Sanki çok fazla İtalyanca veriyle eğitilmiş gibi
Bu araç gerçekten çok şaşırtıcı
- Kısa seslerde (3~5 saniye) görselin tamamen hareketsiz kalması gibi küçük bir sorun var