2 puan yazan GN⁺ 2024-10-02 | 1 yorum | WhatsApp'ta paylaş
  • Tavus'un kurucu ortakları Hassaan ve Quinn, yapay zeka araştırma şirketlerini ve video API geliştirme platformlarını tanıtıyor
  • 2020'den bu yana 'dijital ikiz' veya 'avatar' için yapay zeka video modelleri geliştiriyorlar
  • İnsanlarla gerçekçi sohbetler için yapay zeka video arayüzü oluşturmanın zorluklarını paylaşıyorlar

Zorluklar

  • Etkileşimli videonun etkili olabilmesi için çok düşük gecikme ve konuşma farkındalığı gerekiyor
  • Arkadaşlar arasındaki hızlı bir sohbette konuşmalar arasında yaklaşık 250 ms bulunurken, karmaşık konular veya yeni insanlarla yapılan konuşmalarda ek 'düşünme' süresi gerekiyor
  • 1000 ms'nin altındaki gecikme, sohbeti daha gerçekçi hissettiriyor

Mimari kararlar

  • Gecikme, ölçeklenebilirlik ve maliyet arasında denge kurmak büyük bir zorluktu
  • Gecikmeyi azaltmak için sistemi en baştan yeniden inşa etmek gerekti
  • Aynı anda binlerce konuşmayı desteklerken hesaplama maliyetlerini de düşürmek gerekiyordu

İlk geliştirme

  • İlk geliştirme aşamasında her konuşmanın ayrı bir H100 üzerinde çalışması gerekiyordu
  • Bu yaklaşım ölçeklenebilir değildi ve maliyeti yüksekti

Phoenix-2 modelinin geliştirilmesi

  • Birçok iyileştirme içeren yeni model Phoenix-2 geliştirildi
  • NeRF tabanlı omurgadan Gaussian Splatting'e geçilerek karelerin gerçek zamandan daha hızlı üretilmesi sağlandı
  • Bellek ve GPU çekirdeği kullanımı optimize edilerek düşük özellikli donanımlarda da çalışması mümkün hale getirildi
  • Zaman ve maliyeti azaltmak için streaming ile batching, süreç paralelleştirme gibi başka yöntemler de kullanıldı

Optimizasyon

  • Her bileşenin (görüntü, ASR, LLM, TTS, video üretimi) son derece hızlı olacak şekilde optimize edilmesi gerekiyordu
  • En büyük sorun LLM'di
  • Saniye başına token hızı (t/s) yüksek olsa bile ilk token'a kadar geçen süre (ttft) yavaşsa bu sorun yaratıyordu
  • Çoğu sağlayıcı çok yavaştı

Konuşma sonu algılama

  • Konuşmanın bittiğini algılamak zordu
  • Temel çözümler, sessizlikten sonra geçen süreyi kullanarak konuşmanın bittiğine 'karar' veriyor, ancak bu da ek gecikme yaratıyordu
  • Yapay zeka ajanının kullanıcının sözünü kesmemesi için doğru zamanlamayı tutturmak önemliydi

Sonuçlar

  • Bu optimizasyonlarla gecikme 3-5 saniyeden 1 saniyenin altına (en fazla 600 ms) indirildi
  • Düşük özellikli donanımlarda da 1 saniyenin altında gecikme elde edildi
  • Delphi gibi çeşitli müşterileri bulunuyor ve dijital ikizlerle yapılan konuşmalar birkaç dakikadan 4 saate kadar sürebiliyor

GN⁺ özeti

  • Tavus'un yapay zeka video modeli, insanlarla doğal sohbetleri hedefliyor
  • Gecikmeyi azaltmak için mimariyi baştan kurup optimize ettiler
  • Phoenix-2 modeli, düşük özellikli donanımlarda bile kareleri gerçek zamandan daha hızlı üretebiliyor
  • Bu teknoloji, insan-bilgisayar arayüzünün önemli bir unsuru olma potansiyeli taşıyor
  • Benzer özelliklere sahip diğer projeler arasında Google'ın Duplex'i bulunuyor

1 yorum

 
GN⁺ 2024-10-02
Hacker News yorumları
  • Web sitesini ve çevirmeli bağlantı sesini beğendim, kovboy şapkası da güzel
  • İki avatarın sohbet deneyimi iyi değil, sık sık kesiliyor ve kafa karıştırıyor
  • Görüntü tanıma iyi, avatar yavaş tepki verirken nesneleri tanıyabildi
  • Somut zorlukları paylaştığınız için teşekkürler, ileride daha da iyi olacaktır
  • Hassan versiyonu daha iyiydi, arka planı tanıyıp duvardaki model hakkında konuşuyordu
    • LEGO seti hakkında sohbet etti
  • Banyoda kamera havluyu gösteriyordu ama "Ne kadar rahat bir banyo" dedi
  • Gerçek bir insanla konuşuyormuş gibi hissettirdi, ona kodmuş gibi davranamadım
    • İnsanlarla konuşurken gereken bilinçli çabayı düşündürdü
    • Google aramalarında en az sayıda anahtar kelime kullanıyorum
    • Bu teknolojinin insanlara benzer davranışları öğreteceğinden endişeliyim
  • Düşük gecikmeli, çok modlu yapay zekayla ilgileniyorsanız Tavus, 19-20 Ekim'de SF'de bir hackathon'a sponsor oluyor
    • Uzaktan katılım parkuru da var
  • Demo işlevselliği: 9.5/10
    • Tüyler ürperticilik: 10/10
  • GPU dağıtımına alışık değilim ama pahalı ve kapasite tahsisi zor görünüyor
    • Bulut GPU kaynaklarını büyük ölçekte nasıl yönettiklerini merak ediyorum
    • Her websocket bağlantısı için GPU ayırıp ayırmadıklarını merak ediyorum; öyleyse çok pahalı olur
  • Teknik olarak çok etkileyici, Carter avatarı gergin görünüyordu
    • Ağız/dişlerde tuhaflık var ama tepki süresi hızlı
    • Zoom'da bundan daha fazla gecikme gördüm
    • Bunun çağrı merkezlerinin geleceği olduğunu düşünüyorum; avatar daha ifade gücü yüksek hale gelirse CSAT daha da artar
  • Teknik olarak inanılmaz bir çalışma, 1 saniyenin altındaki tepki süresi çok etkileyici
    • FaceTime'da sahte bir insanla konuşabilme fikri korkutucu
    • Toplumsal etkileri hakkında ne düşündüklerini merak ediyorum
    • Günümüzde insan bağlarının eksikliği nedeniyle bir yalnızlık krizi var
  • ChatGPT konuşmadaki duraklamaları algılamakta zorlanıyor
    • Sürekli söz kesiyor