Smart-turn - Açık kaynak sesli sıra algılama modeli

(github.com/pipecat-ai)

8 puan yazan GN⁺ 2025-03-10 | 1 yorum | WhatsApp'ta paylaş

Sıra algılama, sesli yapay zeka yığınındaki en önemli işlevlerden biridir; bir insan konuşurken sesli ajanın ne zaman yanıt vermesi gerektiğini belirleyen teknolojidir
Çoğu sesli ajan, VAD (Voice Activity Detection) tabanlı olarak sesi konuşma ve konuşma dışı segmentlere ayırır; bu nedenle akustik ve dilsel anlam yansıtılmaz
İnsanlar dilbilgisi, tonlama, konuşma hızı gibi karmaşık sinyaller üzerinden sıra algılama yapar
- Hedef: VAD tabanlı yaklaşımdan daha çok insan beklentilerine yakın bir model kurmak
Açık kaynak temelli, topluluk odaklı bir sesli sıra algılama modeli geliştirme projesi
- BSD 2-clause lisansı → herkes kullanabilir, fork edebilir, katkıda bulunabilir
- Proje, Pipecat ekosisteminde başladı
- Pipecat: açık kaynak, tedarikçiden bağımsız sesli ve çok modlu yapay zeka framework'ü
Projenin hedefleri
- Yüksek seviyeli hedefler
  - Herkesin kolayca kullanabilmesi
  - Prodüksiyonda kolayca dağıtılabilmesi
  - Belirli uygulamalara göre kolayca fine-tune edilebilmesi
- Mevcut model sınırlamaları
  - Yalnızca İngilizceyi destekliyor
  - Görece yavaş çıkarım süresi: GPU'da yaklaşık 150 ms, CPU'da yaklaşık 1500 ms
  - Eğitim verisi ağırlıklı olarak segment sonlarında görülen tamamlanmamış konuşmalar (filler words) üzerine kurulu
- Orta vadeli hedefler
  - Çeşitli dilleri desteklemek
  - Çıkarım süresi: GPU'da 50 ms altı, CPU'da 500 ms altı
  - Daha geniş ses nüanslarını kapsayan eğitim verisini yansıtmak
  - Tamamen sentetik veri üretim pipeline'ı kurmak
  - Metin tabanlı conditioning desteği (ör. kredi kartı, telefon numarası, adres girişi vb.)
Model mimarisi
- Meta AI'ın Wav2Vec2-BERT backbone'u temel alınıyor (parametre sayısı: 580M)
  - 143 dil ve 4,5 milyon saatlik denetimsiz öğrenme ses verisi kullanıldı
- Mevcut model yapısı:
  - Wav2Vec2-BERT → 2 katmanlı sınıflandırıcı (classification head)
  - Hugging Face'in Wav2Vec2BertForSequenceClassification modeli kullanılıyor
- Üzerinde deney yapılan mimari:
  - Basit bir sınıflandırıcının veri seti büyüdüğünde de etkili olup olmayacağı test ediliyor
  - Daha karmaşık bir yapının eklenme olasılığı değerlendiriliyor

1 yorum

GN⁺ 2025-03-10

Hacker News görüşü

pipecat kullandım ve beğendim. Ancak yerel olarak derlenebilen ve edge cihazlarda çalışabilen sherpa-onnx'e geçtim
- Google Çeviri uygulamasını kullanırken uzun cümleler söylerken sık sık duraksıyorum veya yavaşlıyorum, bu yüzden konuşma modundan kaçınıyorum
- Bu sorun, düşük gecikmeli turn algılama ve konuşma kesintisi algılama ile birlikte çok hızlı, düşük gecikmeli bir LLM gerektiriyor
- Sistemin önceki sesi atmayıp son cümleyi sürdürebilmesi için iyi bir kurtarma özelliğine ihtiyaç var
- G/Ç gecikmesini iyileştirmek için düşük gecikmeli ses API'leri, çok kısa ses tamponları, ayrılmış ses kategorileri ve modlarının kullanılması gerekiyor
- TTS'nin streaming modunda kullanılıp kullanılamadığından emin değilim
- İyi tasarlanmış bir push-to-talk iyi bir çözüm olabilir
Bugün birkaç ilginç güncelleme vardı
- CoreML ile 100 ms çıkarım
- Verinin bir alt kümesiyle eğitilmiş LSTM modeli
README'den cevapların çoğunu aldım. İyi yazılmış
Wav2Vec2-BERT'ü fine-tune etmek için gereken kaynakları ve veri miktarını paylaşıp paylaşamayacağınızı merak ediyorum
Turn algılamanın ne olduğunu merak ediyorum
Bu teknolojinin daha da geliştiğini görmek sevindirici
- Siri gibi en kötü ses sistemlerinden ChatGPT ses moduna kadar, bilgisayarlar bu işi iyi yapamıyor
- 'Ajanlar'ın basit ama faydalı görevleri yerine getirmesinin önündeki en büyük engel bu olabilir
- Yapay zekanın hâlâ zorlandığı birçok durum var ve bu tür hatalar konuşmanın verimliliğini yok edebilir veya ciddi işlev hatalarına yol açabilir
HF otizm tanısı almış biri olarak bu teknolojiyi bir kulak içi cihaza uygulamak isterdim
Birkaç turn tabanlı modeli inceledim; uygulamaları oldukça tutarlı. Bu teknolojinin nasıl gelişeceğini merakla bekliyorum
Vedal'ın bu teknolojiyi Neuro-sama'nın modeline entegre etmesini isterdim. osu botundan AI Vtuber'a dönüşen örnek
Birden fazla konuşmacıyı destekleyip desteklemediğini merak ediyorum
Forkluyorum

Smart-turn - Açık kaynak sesli sıra algılama modeli

İlgili okumalar

1 yorum

Hacker News görüşü