13 puan yazan xguru 2024-10-07 | 1 yorum | WhatsApp'ta paylaş
  • Agent framework'ü ile gerçek zamanlı olarak görebilen, duyabilen ve konuşabilen yapay zeka tabanlı sunucu programları oluşturulabiliyor
  • Kullanıcının cihazı ile LiveKit oturumu üzerinden bağlanır; metin, ses, görsel ve video akışını işler ve yapay zeka modelinin ürettiği sonuçları kullanıcıya akış halinde iletir
  • OpenAI ile iş birliği içinde MultimodalAgent API sunuluyor
    • OpenAI'nin Realtime API'sini tamamen sarmalayarak Raw Wire protokolünü soyutlar ve GPT-4o ile cihazlar arasında ultra düşük gecikmeli WebRTC aktarımı sağlar
    • ChatGPT uygulamasındaki Advanced Voice özelliğinde kullanılan teknoloji yığınıdır
  • Sunulan özellikler
    • Popüler LLM'ler, transkripsiyon ve metinden sese dönüştürme servisleri ile RAG veritabanları için eklentiler
    • Otomatik sıra algılama, kesinti işleme, function calling ve transkripsiyon özelliklerine sahip ses ajanları veya asistanları oluşturmak için yüksek seviyeli soyutlamalar sağlar
    • LiveKit'in telephony stack'i ile uyumludur; böylece operatörler telefonla arama yapabilir veya çağrı kabul edebilir
    • Edge tabanlı dispatch, izleme ve şeffaf failover ile ajan havuzlarını yöneten entegre bir load balancing sistemi
    • Ajan çalıştırma; localhost, self-hosted ve LiveKit Cloud ortamlarında aynı şekilde gerçekleşir

1 yorum

 
xguru 2024-10-07

LiveKit - gerçek zamanlı iletişim platformu, açık kaynak

LiveKit’i 2021’de bir kez paylaşmıştım. Agents özelliğiyle genişlerken ChatGPT’de de kullanılmaya başlanmış gibi görünüyor.
Aslında 10 ila 1000 kişi ölçeğinde gerçek zamanlı sesli/görüntülü toplantı işlevleri için bir ürün.
ClubHouse’un kullandığı Agora’ya açık kaynaklı bir alternatif olabileceği için o dönemde epey dikkat çekmişti.
Biraz araştırınca Agora’nın da Conversational AI SDK adıyla tamamen aynı işlevi sunduğunu gördüm.

https://www.agora.io/en/products/agora-openai-conversational-ai-sdk/