- Agent framework'ü ile gerçek zamanlı olarak görebilen, duyabilen ve konuşabilen yapay zeka tabanlı sunucu programları oluşturulabiliyor
- Kullanıcının cihazı ile LiveKit oturumu üzerinden bağlanır; metin, ses, görsel ve video akışını işler ve yapay zeka modelinin ürettiği sonuçları kullanıcıya akış halinde iletir
- OpenAI ile iş birliği içinde MultimodalAgent API sunuluyor
- OpenAI'nin Realtime API'sini tamamen sarmalayarak Raw Wire protokolünü soyutlar ve GPT-4o ile cihazlar arasında ultra düşük gecikmeli WebRTC aktarımı sağlar
- ChatGPT uygulamasındaki Advanced Voice özelliğinde kullanılan teknoloji yığınıdır
- Sunulan özellikler
- Popüler LLM'ler, transkripsiyon ve metinden sese dönüştürme servisleri ile RAG veritabanları için eklentiler
- Otomatik sıra algılama, kesinti işleme, function calling ve transkripsiyon özelliklerine sahip ses ajanları veya asistanları oluşturmak için yüksek seviyeli soyutlamalar sağlar
- LiveKit'in telephony stack'i ile uyumludur; böylece operatörler telefonla arama yapabilir veya çağrı kabul edebilir
- Edge tabanlı dispatch, izleme ve şeffaf failover ile ajan havuzlarını yöneten entegre bir load balancing sistemi
- Ajan çalıştırma; localhost, self-hosted ve LiveKit Cloud ortamlarında aynı şekilde gerçekleşir
1 yorum
LiveKit - gerçek zamanlı iletişim platformu, açık kaynak
LiveKit’i 2021’de bir kez paylaşmıştım. Agents özelliğiyle genişlerken ChatGPT’de de kullanılmaya başlanmış gibi görünüyor.
Aslında 10 ila 1000 kişi ölçeğinde gerçek zamanlı sesli/görüntülü toplantı işlevleri için bir ürün.
ClubHouse’un kullandığı Agora’ya açık kaynaklı bir alternatif olabileceği için o dönemde epey dikkat çekmişti.
Biraz araştırınca Agora’nın da
Conversational AI SDKadıyla tamamen aynı işlevi sunduğunu gördüm.https://www.agora.io/en/products/agora-openai-conversational-ai-sdk/