1 puan yazan GN⁺ 2024-09-07 | 1 yorum | WhatsApp'ta paylaş

Infinity AI'ye giriş

  • Infinity AI, insan merkezli bir video modeli eğiten bir şirket
  • Ses girdisiyle çalışan bir video diffusion transformer'ı eğiten ilk örnek
  • Bu model, gerçekten konuşan, etkileyici ve gerçekçi karakterler üretebiliyor

Nasıl kullanılır

  • Infinity AI'nin aracını kullanarak bir senaryo girildiğinde, karakterin konuştuğu bir video üretilebiliyor
  • Örnekler:
    • "Mona Lisa'nın 'Neye bakıp gülüyorsun?' dediği video"
    • "Kırmızı şapkalı, 3D Pixar tarzı bir cücenin Bağımsızlık Bildirgesi'ni okuduğu video"
    • "Elon Musk'ın Frank Sinatra'nın 'Fly Me To The Moon' şarkısını söylediği video"

Mevcut AI araçlarının sorunları

  • Mevcut üretken yapay zeka video modellerinde karakterler konuşamıyordu
  • Mevcut konuşan avatar şirketleri, var olan videonun üzerine dudak senkronu ekleme yaklaşımını kullanıyordu
  • Bu da sesle uyuşmayan yüz ifadeleri ve jestlere yol açarak "uncanny valley" etkisi yaratıyordu

V1 modelinin sınırlamaları

  • Dudak senkronu yaklaşımının, jest uyumsuzluğunun dışında da çeşitli sınırlamaları vardı
  • Sınırlı oyuncu kütüphanesi ve hayali karakterleri canlandıramama sorunu

V2 modelindeki iyileştirmeler

  • Tek bir görüntü, ses ve diğer koşul sinyallerini girdi olarak alıp video üreten uçtan uca bir video diffusion transformer modeli eğitildi
  • Bunun, insan hareketi ve duygularındaki karmaşıklığı ve inceliği yakalamak için en iyi yaklaşım olduğuna inanılıyor
  • Modelin yavaş olması bir dezavantaj

Modelin avantajları

  • Birden fazla dili işleyebiliyor
  • Bir miktar fizik öğrenmiş durumda (ör. küpeler doğru şekilde sallanıyor)
  • Farklı türde görüntüleri canlandırabiliyor (resim, heykel vb.)
  • Şarkı söylemeyi işleyebiliyor

Modelin dezavantajları

  • Hayvan görüntülerini işleyemiyor (yalnızca insan benzeri görseller mümkün)
  • Sık sık kareye eller ekliyor (çok can sıkıcı ve dikkat dağıtıcı)
  • Çizgi tarzı görsellerde yeterince sağlam değil
  • Kişi kimliğini bozabiliyor (özellikle ünlülerde belirgin)

Modeli dene

GN⁺ özeti

  • Infinity AI'nin video modeli, ses girdisiyle gerçekçi karakterler üretebilen ilk örnek
  • Mevcut yapay zeka araçlarının sınırlamalarını aşıyor ve uçtan uca video diffusion transformer modeliyle insan hareketini ve duygularını daha iyi yakalıyor
  • Birden fazla dili ve çeşitli görüntü türlerini işleyebilmesi avantaj sağlarken, hayvan görüntülerini işleyememesi ve kareye eller eklemesi gibi dezavantajları bulunuyor
  • Benzer işlevlere sahip diğer projeler arasında Runway ve Luma yer alıyor

1 yorum

 
GN⁺ 2024-09-07
Hacker News yorumu
  • Hedra'nın düşük kaliteli bir taklidi gibi görünüyor ve şu an için epey geride kalmış
  • Metinden görsele dönüştürmeyle bir uzay deniz piyadesi oluşturdum; ek düzenleme olmadan bile şaşırtıcı derecede iyi sonuç verdi
  • "Gnome" yüz seçeneğini görür görmez ne yapmam gerektiğini anladım
  • Model Duke Nukem'den hoşlanmıyor gibi görünüyor
  • Tabancasını kesip çıkarınca durum daha da kötüleşti
  • Diğer görseller biraz daha iyi sonuç veriyor
  • En çok bu görseli beğendim
  • Birinin bunu yapması gerekiyordu
  • Alibaba'nın Emo gibi önceki araştırmaları var, ancak bu demonun insanların gerçekten deneyebilmesi açısından etkileyici olduğu söylenebilir
  • Meme'i gerçeğe dönüştürmeye çalıştım ama orijinal görsel zorluydu
    • Seste biraz dil sorunu var
  • Bunu uncanny valley'e doğru zorlamaya çalıştım ama oldukça zordu
  • Bazen kadraja el ekliyor
    • Sanki çok fazla İtalyanca veriyle eğitilmiş gibi
  • Bu araç gerçekten çok şaşırtıcı
    • Kısa seslerde (3~5 saniye) görselin tamamen hareketsiz kalması gibi küçük bir sorun var