8 puan yazan GN⁺ 2025-03-10 | 1 yorum | WhatsApp'ta paylaş
  • Sıra algılama, sesli yapay zeka yığınındaki en önemli işlevlerden biridir; bir insan konuşurken sesli ajanın ne zaman yanıt vermesi gerektiğini belirleyen teknolojidir
  • Çoğu sesli ajan, VAD (Voice Activity Detection) tabanlı olarak sesi konuşma ve konuşma dışı segmentlere ayırır; bu nedenle akustik ve dilsel anlam yansıtılmaz
  • İnsanlar dilbilgisi, tonlama, konuşma hızı gibi karmaşık sinyaller üzerinden sıra algılama yapar
    • Hedef: VAD tabanlı yaklaşımdan daha çok insan beklentilerine yakın bir model kurmak
  • Açık kaynak temelli, topluluk odaklı bir sesli sıra algılama modeli geliştirme projesi
    • BSD 2-clause lisansı → herkes kullanabilir, fork edebilir, katkıda bulunabilir
    • Proje, Pipecat ekosisteminde başladı
    • Pipecat: açık kaynak, tedarikçiden bağımsız sesli ve çok modlu yapay zeka framework'ü
  • Projenin hedefleri
    • Yüksek seviyeli hedefler
      • Herkesin kolayca kullanabilmesi
      • Prodüksiyonda kolayca dağıtılabilmesi
      • Belirli uygulamalara göre kolayca fine-tune edilebilmesi
    • Mevcut model sınırlamaları
      • Yalnızca İngilizceyi destekliyor
      • Görece yavaş çıkarım süresi: GPU'da yaklaşık 150 ms, CPU'da yaklaşık 1500 ms
      • Eğitim verisi ağırlıklı olarak segment sonlarında görülen tamamlanmamış konuşmalar (filler words) üzerine kurulu
    • Orta vadeli hedefler
      • Çeşitli dilleri desteklemek
      • Çıkarım süresi: GPU'da 50 ms altı, CPU'da 500 ms altı
      • Daha geniş ses nüanslarını kapsayan eğitim verisini yansıtmak
      • Tamamen sentetik veri üretim pipeline'ı kurmak
      • Metin tabanlı conditioning desteği (ör. kredi kartı, telefon numarası, adres girişi vb.)
  • Model mimarisi
    • Meta AI'ın Wav2Vec2-BERT backbone'u temel alınıyor (parametre sayısı: 580M)
      • 143 dil ve 4,5 milyon saatlik denetimsiz öğrenme ses verisi kullanıldı
    • Mevcut model yapısı:
      • Wav2Vec2-BERT → 2 katmanlı sınıflandırıcı (classification head)
      • Hugging Face'in Wav2Vec2BertForSequenceClassification modeli kullanılıyor
    • Üzerinde deney yapılan mimari:
      • Basit bir sınıflandırıcının veri seti büyüdüğünde de etkili olup olmayacağı test ediliyor
      • Daha karmaşık bir yapının eklenme olasılığı değerlendiriliyor

1 yorum

 
GN⁺ 2025-03-10
Hacker News görüşü
  • pipecat kullandım ve beğendim. Ancak yerel olarak derlenebilen ve edge cihazlarda çalışabilen sherpa-onnx'e geçtim

    • Google Çeviri uygulamasını kullanırken uzun cümleler söylerken sık sık duraksıyorum veya yavaşlıyorum, bu yüzden konuşma modundan kaçınıyorum
    • Bu sorun, düşük gecikmeli turn algılama ve konuşma kesintisi algılama ile birlikte çok hızlı, düşük gecikmeli bir LLM gerektiriyor
    • Sistemin önceki sesi atmayıp son cümleyi sürdürebilmesi için iyi bir kurtarma özelliğine ihtiyaç var
    • G/Ç gecikmesini iyileştirmek için düşük gecikmeli ses API'leri, çok kısa ses tamponları, ayrılmış ses kategorileri ve modlarının kullanılması gerekiyor
    • TTS'nin streaming modunda kullanılıp kullanılamadığından emin değilim
    • İyi tasarlanmış bir push-to-talk iyi bir çözüm olabilir
  • Bugün birkaç ilginç güncelleme vardı

    • CoreML ile 100 ms çıkarım
    • Verinin bir alt kümesiyle eğitilmiş LSTM modeli
  • README'den cevapların çoğunu aldım. İyi yazılmış

  • Wav2Vec2-BERT'ü fine-tune etmek için gereken kaynakları ve veri miktarını paylaşıp paylaşamayacağınızı merak ediyorum

  • Turn algılamanın ne olduğunu merak ediyorum

  • Bu teknolojinin daha da geliştiğini görmek sevindirici

    • Siri gibi en kötü ses sistemlerinden ChatGPT ses moduna kadar, bilgisayarlar bu işi iyi yapamıyor
    • 'Ajanlar'ın basit ama faydalı görevleri yerine getirmesinin önündeki en büyük engel bu olabilir
    • Yapay zekanın hâlâ zorlandığı birçok durum var ve bu tür hatalar konuşmanın verimliliğini yok edebilir veya ciddi işlev hatalarına yol açabilir
  • HF otizm tanısı almış biri olarak bu teknolojiyi bir kulak içi cihaza uygulamak isterdim

  • Birkaç turn tabanlı modeli inceledim; uygulamaları oldukça tutarlı. Bu teknolojinin nasıl gelişeceğini merakla bekliyorum

  • Vedal'ın bu teknolojiyi Neuro-sama'nın modeline entegre etmesini isterdim. osu botundan AI Vtuber'a dönüşen örnek

  • Birden fazla konuşmacıyı destekleyip desteklemediğini merak ediyorum

  • Forkluyorum