- Tavus'un kurucu ortakları Hassaan ve Quinn, yapay zeka araştırma şirketlerini ve video API geliştirme platformlarını tanıtıyor
- 2020'den bu yana 'dijital ikiz' veya 'avatar' için yapay zeka video modelleri geliştiriyorlar
- İnsanlarla gerçekçi sohbetler için yapay zeka video arayüzü oluşturmanın zorluklarını paylaşıyorlar
Zorluklar
- Etkileşimli videonun etkili olabilmesi için çok düşük gecikme ve konuşma farkındalığı gerekiyor
- Arkadaşlar arasındaki hızlı bir sohbette konuşmalar arasında yaklaşık 250 ms bulunurken, karmaşık konular veya yeni insanlarla yapılan konuşmalarda ek 'düşünme' süresi gerekiyor
- 1000 ms'nin altındaki gecikme, sohbeti daha gerçekçi hissettiriyor
Mimari kararlar
- Gecikme, ölçeklenebilirlik ve maliyet arasında denge kurmak büyük bir zorluktu
- Gecikmeyi azaltmak için sistemi en baştan yeniden inşa etmek gerekti
- Aynı anda binlerce konuşmayı desteklerken hesaplama maliyetlerini de düşürmek gerekiyordu
İlk geliştirme
- İlk geliştirme aşamasında her konuşmanın ayrı bir H100 üzerinde çalışması gerekiyordu
- Bu yaklaşım ölçeklenebilir değildi ve maliyeti yüksekti
Phoenix-2 modelinin geliştirilmesi
- Birçok iyileştirme içeren yeni model Phoenix-2 geliştirildi
- NeRF tabanlı omurgadan Gaussian Splatting'e geçilerek karelerin gerçek zamandan daha hızlı üretilmesi sağlandı
- Bellek ve GPU çekirdeği kullanımı optimize edilerek düşük özellikli donanımlarda da çalışması mümkün hale getirildi
- Zaman ve maliyeti azaltmak için streaming ile batching, süreç paralelleştirme gibi başka yöntemler de kullanıldı
Optimizasyon
- Her bileşenin (görüntü, ASR, LLM, TTS, video üretimi) son derece hızlı olacak şekilde optimize edilmesi gerekiyordu
- En büyük sorun LLM'di
- Saniye başına token hızı (t/s) yüksek olsa bile ilk token'a kadar geçen süre (ttft) yavaşsa bu sorun yaratıyordu
- Çoğu sağlayıcı çok yavaştı
Konuşma sonu algılama
- Konuşmanın bittiğini algılamak zordu
- Temel çözümler, sessizlikten sonra geçen süreyi kullanarak konuşmanın bittiğine 'karar' veriyor, ancak bu da ek gecikme yaratıyordu
- Yapay zeka ajanının kullanıcının sözünü kesmemesi için doğru zamanlamayı tutturmak önemliydi
Sonuçlar
- Bu optimizasyonlarla gecikme 3-5 saniyeden 1 saniyenin altına (en fazla 600 ms) indirildi
- Düşük özellikli donanımlarda da 1 saniyenin altında gecikme elde edildi
- Delphi gibi çeşitli müşterileri bulunuyor ve dijital ikizlerle yapılan konuşmalar birkaç dakikadan 4 saate kadar sürebiliyor
GN⁺ özeti
- Tavus'un yapay zeka video modeli, insanlarla doğal sohbetleri hedefliyor
- Gecikmeyi azaltmak için mimariyi baştan kurup optimize ettiler
- Phoenix-2 modeli, düşük özellikli donanımlarda bile kareleri gerçek zamandan daha hızlı üretebiliyor
- Bu teknoloji, insan-bilgisayar arayüzünün önemli bir unsuru olma potansiyeli taşıyor
- Benzer özelliklere sahip diğer projeler arasında Google'ın Duplex'i bulunuyor
1 yorum
Hacker News yorumları