- Sıra algılama, sesli yapay zeka yığınındaki en önemli işlevlerden biridir; bir insan konuşurken sesli ajanın ne zaman yanıt vermesi gerektiğini belirleyen teknolojidir
- Çoğu sesli ajan, VAD (Voice Activity Detection) tabanlı olarak sesi konuşma ve konuşma dışı segmentlere ayırır; bu nedenle akustik ve dilsel anlam yansıtılmaz
- İnsanlar dilbilgisi, tonlama, konuşma hızı gibi karmaşık sinyaller üzerinden sıra algılama yapar
- Hedef: VAD tabanlı yaklaşımdan daha çok insan beklentilerine yakın bir model kurmak
- Açık kaynak temelli, topluluk odaklı bir sesli sıra algılama modeli geliştirme projesi
- BSD 2-clause lisansı → herkes kullanabilir, fork edebilir, katkıda bulunabilir
- Proje, Pipecat ekosisteminde başladı
- Pipecat: açık kaynak, tedarikçiden bağımsız sesli ve çok modlu yapay zeka framework'ü
- Projenin hedefleri
- Yüksek seviyeli hedefler
- Herkesin kolayca kullanabilmesi
- Prodüksiyonda kolayca dağıtılabilmesi
- Belirli uygulamalara göre kolayca fine-tune edilebilmesi
- Mevcut model sınırlamaları
- Yalnızca İngilizceyi destekliyor
- Görece yavaş çıkarım süresi: GPU'da yaklaşık 150 ms, CPU'da yaklaşık 1500 ms
- Eğitim verisi ağırlıklı olarak segment sonlarında görülen tamamlanmamış konuşmalar (filler words) üzerine kurulu
- Orta vadeli hedefler
- Çeşitli dilleri desteklemek
- Çıkarım süresi: GPU'da 50 ms altı, CPU'da 500 ms altı
- Daha geniş ses nüanslarını kapsayan eğitim verisini yansıtmak
- Tamamen sentetik veri üretim pipeline'ı kurmak
- Metin tabanlı conditioning desteği (ör. kredi kartı, telefon numarası, adres girişi vb.)
- Model mimarisi
- Meta AI'ın Wav2Vec2-BERT backbone'u temel alınıyor (parametre sayısı: 580M)
- 143 dil ve 4,5 milyon saatlik denetimsiz öğrenme ses verisi kullanıldı
- Mevcut model yapısı:
- Wav2Vec2-BERT → 2 katmanlı sınıflandırıcı (classification head)
- Hugging Face'in Wav2Vec2BertForSequenceClassification modeli kullanılıyor
- Üzerinde deney yapılan mimari:
- Basit bir sınıflandırıcının veri seti büyüdüğünde de etkili olup olmayacağı test ediliyor
- Daha karmaşık bir yapının eklenme olasılığı değerlendiriliyor
1 yorum
Hacker News görüşü
pipecatkullandım ve beğendim. Ancak yerel olarak derlenebilen ve edge cihazlarda çalışabilensherpa-onnx'e geçtimBugün birkaç ilginç güncelleme vardı
README'den cevapların çoğunu aldım. İyi yazılmış
Wav2Vec2-BERT'ü fine-tune etmek için gereken kaynakları ve veri miktarını paylaşıp paylaşamayacağınızı merak ediyorum
Turn algılamanın ne olduğunu merak ediyorum
Bu teknolojinin daha da geliştiğini görmek sevindirici
HF otizm tanısı almış biri olarak bu teknolojiyi bir kulak içi cihaza uygulamak isterdim
Birkaç turn tabanlı modeli inceledim; uygulamaları oldukça tutarlı. Bu teknolojinin nasıl gelişeceğini merakla bekliyorum
Vedal'ın bu teknolojiyi Neuro-sama'nın modeline entegre etmesini isterdim. osu botundan AI Vtuber'a dönüşen örnek
Birden fazla konuşmacıyı destekleyip desteklemediğini merak ediyorum
Forkluyorum