Show HN: 1 saniyenin altında gecikmeye sahip gerçek zamanlı yapay zeka video ajanı

(news.ycombinator.com)

2 puan yazan GN⁺ 2024-10-02 | 1 yorum | WhatsApp'ta paylaş

Tavus, insanlarla doğal biçimde konuşan bir yapay zeka video arayüzü oluşturmak için yanıt gecikmesini 1 saniyenin altına indirmeye odaklanıyor
Hızlı sohbetlerde konuşma sıraları arasındaki boşluk yalnızca yaklaşık 250 ms olduğundan, video ajanlarının da düşük gecikmenin yanında konuşma bağlamı farkındalığına sahip olması gerekiyor
İlk Phoenix-1, her konuşma için bir H100 gerektiriyordu; bu da maliyet ve ölçeklenebilirlik açısından sınırlamalar yaratıyordu. Phoenix-2 ise Gaussian Splatting’e geçişle daha düşük donanımlarda 70 fps üzeri üretimi hedefliyor
Tüm pipeline’da vision, ASR, LLM, TTS ve video üretimi kısaltıldı; LLM tarafında saniye başına token’dan çok ilk token’a kadar geçen süre algılanan darboğazdı
Yalnızca sessizlik süresine bakarak konuşma sırasının bittiğine karar vermek araya girme ve yanıt gecikmesi yarattığından, konuşma sırası sonu algılama ve girdi tahminiyle 3–5 saniyelik gecikme 1 saniyenin altına, en hızlı durumda 600 ms’ye kadar indirildi

Tavus’un hedefi: insan gibi hissettiren yanıt hızı

Tavus, 2020’den bu yana dijital ikiz veya avatarlar için yapay zeka video modelleri geliştiren bir yapay zeka araştırma şirketi ve video API geliştirici platformudur
Demo olarak Hassaan’ın dijital ikiziyle konuşabileceğiniz hassaanraza.com ve “demo twin” Carter’ın bulunduğu tavus.io sunuluyor
Etkileşimli video, bilgisayarlarla daha doğal etkileşim kurmanın bir yolu olabilir; ancak bunun için düşük gecikme ve konuşma bağlamını yansıtan farkındalık gerekiyor
Hedef gecikme 1 saniyenin altında
- Arkadaşlar arasındaki hızlı sohbetlerde konuşma sıraları arasındaki boşluk yaklaşık 250 ms düzeyindedir
- Daha karmaşık konularda veya yabancılarla yapılan konuşmalarda ek bir “düşünme” süresi olur
- 1000 ms’nin altında olduğunda konuşmanın oldukça gerçekçi hissettirdiği düşünülüyor

Gecikme, ölçeklenebilirlik ve maliyeti birlikte karşılayan uygulama

Mimari, gecikme, ölçeklenebilirlik ve maliyeti aynı anda karşılamak zorundaydı; bu yüzden baştan düşük gecikmeli bir sistem olarak yeniden ele alındı
Video modeli ve donanım maliyeti
- İlk geliştirme aşamasında Phoenix-1 modelini 30 fps’den hızlı çalıştırmak için tüm bileşenlerin ve model ağırlıklarının GPU belleğine yüklenmesi gerekiyordu ve her konuşma için ayrı bir H100 gerekiyordu
- Bu yaklaşımın ölçeklenmesi zordu ve maliyeti de yüksekti
- Phoenix-2, çıkarım hızı dahil çeşitli iyileştirmeleri içeren yeni bir modeldir
  - NeRF tabanlı backbone’dan Gaussian Splatting’e geçildi
  - Daha düşük seviye donanımda gerçek zamandan hızlı, 70 fps üzeri kare üretimi gereksinim olarak belirlendi
  - GPU belleği ve çekirdek kullanımını optimize ederek daha düşük özellikli donanımlarda da çalışmasına odaklanıldı
  - Streaming kullanımı ve batch işleme yerine paralelleştirme de zaman ve maliyet tasarrufu için kullanıldı
LLM ve konuşma sırası sonu algılama
- Konuşma sıraları arasındaki gecikmeyi 1 saniyenin altına indirmek için vision, ASR, LLM, TTS ve video üretiminin her biri güçlü biçimde optimize edildi
- En büyük darboğaz LLM idi
  - Saniye başına token (tokens per second) hızının yüksek olmasından çok ilk token’a kadar geçen süre (time-to-first token) gerçek algılanan gecikme açısından daha önemliydi
  - Groq gibi servislerde de saniye başına token değeri yüksek olsa da ilk token’a kadar geçen süre yavaş kaldığından gereksinimi karşılamıyordu; çoğu sağlayıcı çok yavaştı
- Sonraki darboğaz, kullanıcının konuşmayı bırakıp bırakmadığını algılama kısmıydı
  - Sessizlikten sonra geçen süreye göre durmayı belirlemek ek gecikme yaratır
  - Eşik çok kısa tutulursa yapay zeka ajanı kullanıcının sözünü keser; çok uzun tutulursa yanıt gecikir
  - Konuşma sinyallerine dayanarak konuşma sırası sonunu (end-of-turn) doğru algılayan ve girdiyi tahmin ederek önceden hazırlık yapan özel bir modele ihtiyaç vardı
- Bu optimizasyonlarla 3–5 saniye olan gecikme 1 saniyenin altına, en hızlı durumda 600 ms’ye kadar indirildi ve sistem daha düşük özellikli donanımlarda da çalıştırıldı

Demo ve kullanım örnekleri

Tavus’un Delphi gibi müşterileri var; Delphi, profesyonel koç ve uzman klonlama platformu olarak, kullanıcıların dijital ikizlerle birkaç dakikadan 1 saate, hatta 4 saate kadar süren konuşmalar yaptığı bir platformdur
Demoyu gördükten sonra API’yi denemek isteyen kullanıcılar tavus.io üzerinden ücretsiz kayıt olabilir

1 yorum

GN⁺ 2024-10-02

Hacker News yorumları

Web sitesini ve çevirmeli bağlantı sesini beğendim, kovboy şapkası da güzel
İki avatarın sohbet deneyimi iyi değil, sık sık kesiliyor ve kafa karıştırıyor
Görüntü tanıma iyi, avatar yavaş tepki verirken nesneleri tanıyabildi
Somut zorlukları paylaştığınız için teşekkürler, ileride daha da iyi olacaktır
Hassan versiyonu daha iyiydi, arka planı tanıyıp duvardaki model hakkında konuşuyordu
- LEGO seti hakkında sohbet etti
Banyoda kamera havluyu gösteriyordu ama "Ne kadar rahat bir banyo" dedi
Gerçek bir insanla konuşuyormuş gibi hissettirdi, ona kodmuş gibi davranamadım
- İnsanlarla konuşurken gereken bilinçli çabayı düşündürdü
- Google aramalarında en az sayıda anahtar kelime kullanıyorum
- Bu teknolojinin insanlara benzer davranışları öğreteceğinden endişeliyim
Düşük gecikmeli, çok modlu yapay zekayla ilgileniyorsanız Tavus, 19-20 Ekim'de SF'de bir hackathon'a sponsor oluyor
- Uzaktan katılım parkuru da var
Demo işlevselliği: 9.5/10
- Tüyler ürperticilik: 10/10
GPU dağıtımına alışık değilim ama pahalı ve kapasite tahsisi zor görünüyor
- Bulut GPU kaynaklarını büyük ölçekte nasıl yönettiklerini merak ediyorum
- Her websocket bağlantısı için GPU ayırıp ayırmadıklarını merak ediyorum; öyleyse çok pahalı olur
Teknik olarak çok etkileyici, Carter avatarı gergin görünüyordu
- Ağız/dişlerde tuhaflık var ama tepki süresi hızlı
- Zoom'da bundan daha fazla gecikme gördüm
- Bunun çağrı merkezlerinin geleceği olduğunu düşünüyorum; avatar daha ifade gücü yüksek hale gelirse CSAT daha da artar
Teknik olarak inanılmaz bir çalışma, 1 saniyenin altındaki tepki süresi çok etkileyici
- FaceTime'da sahte bir insanla konuşabilme fikri korkutucu
- Toplumsal etkileri hakkında ne düşündüklerini merak ediyorum
- Günümüzde insan bağlarının eksikliği nedeniyle bir yalnızlık krizi var
ChatGPT konuşmadaki duraklamaları algılamakta zorlanıyor
- Sürekli söz kesiyor

Show HN: 1 saniyenin altında gecikmeye sahip gerçek zamanlı yapay zeka video ajanı

Tavus’un hedefi: insan gibi hissettiren yanıt hızı

Gecikme, ölçeklenebilirlik ve maliyeti birlikte karşılayan uygulama

Video modeli ve donanım maliyeti

LLM ve konuşma sırası sonu algılama

Demo ve kullanım örnekleri

İlgili okumalar

1 yorum

Hacker News yorumları