1 puan yazan GN⁺ 2024-06-28 | 1 yorum | WhatsApp'ta paylaş

Dünyanın en hızlı sesli bot demosu

Demo tanıtımı

  • Hızın önemi: Sesli yapay zeka arayüzlerinde hız çok önemlidir. İnsanlar normal bir konuşmada hızlı yanıt bekler.
  • Hedef: Bu demo, 500 ms altı sesli yanıt süresini hedefleyen düşük gecikmeli LLM etkileşimini gösterir.
  • Teknoloji: Bu bot, Pipecat adlı açık kaynaklı bir framework kullanılarak oluşturuldu.

Demoyu deneyin

  • Demoyu dene: Demoyu doğrudan kendiniz deneyebilirsiniz.
  • Kaynak kodunu görüntüle: Kaynak kodunu inceleyebilirsiniz.
  • Kendiniz dağıtın: Kendi ortamınıza dağıtabileceğiniz bir seçenek sunulur.

GN⁺ görüşü

  • Hızın önemi: Sesli arayüzlerde hızlı yanıt, kullanıcı deneyimini büyük ölçüde iyileştirir.
  • Açık kaynağın avantajı: Pipecat gibi açık kaynaklı framework'ler, geliştiricilerin kolayca erişip değişiklik yapabilmesi açısından faydalıdır.
  • Teknoloji benimsemede dikkat edilmesi gerekenler: Yeni bir teknolojiyi devreye alırken mevcut sistemlerle uyumluluk, bakım maliyeti gibi unsurlar dikkate alınmalıdır.
  • Benzer projeler: Google'ın Dialogflow'u veya Amazon'un Lex'i gibi başka sesli yapay zeka çözümleri de vardır.

1 yorum

 
GN⁺ 2024-06-28
Hacker News görüşü
  • Hız: Müşteri hizmetleri yapay zekasında yanıt süresi birkaç saniyeye indirildi. Hız her şeyin önüne geçiyor.
  • Sesli çıkarım: OpenAI'nin gpt4o çıkışından önce WebSocket Faster Whisper uygulanmış. VAD güvenilirlik sorunları nedeniyle Push to talk kullanılmış.
  • Çapraz platform VAD: Silero'nun VAD ağını ONNX'e portlayan çapraz platform bir tarayıcı VAD modülü tanıtılıyor. Firefox'ta da çalışıyor.
  • Tarayıcı TTS: Tarayıcı metin-konuşma motorları giderek hızlanıyor ve kalite artıyor. GPT-4o, düşük gecikme için otomatik konuşma tanıma, anlama ve yanıt üretimi modellerini tek bir yapıda birleştiriyor.
  • Uygulama potansiyeli: Bu, Cerebrium'un tanıtım uygulaması gibi görünüyor. iPad'de yapılan testte gecikme 1400 ms ile 400 ms arasında değişmiş.
  • Konuşma deneyimi: Hızlı yanıtlar konuşma deneyimini daha iyi hale getiriyor. Kısa bağlam korunarak kısa yanıt süreleri elde ediliyor.
  • Whisper-dictation: llama-70b ile birlikte Whisper-dictation kullanılıyor. Web sitesi yüklenirken konuşma tamamlanıyor.
  • Doğal konuşma: VAD ve kesinti ayarı oldukça doğal. En doğal konuşma deneyimi.
  • Paylaşım: Başkalarının da çözümlerini paylaşması teşvik ediliyor. Hafta sonunda farklı uygulama yöntemlerine bakmayı planlıyor.
  • Pazarlama ve matematik: Pazarlamada 500 deniyor ama matematiksel olarak bunun 759 olduğu belirtiliyor.
  • Hızlı arayüz: Arayüz çok hızlı ve insanla neredeyse ayırt edilemez. Cerebrium.ai övülüyor.