Open AI'ın Whisper'ını da kullandım, NCP'nin Clova'sını da denedim ama Korecede çoklu konuşmacı ayrımının düşündüğümden epey daha zor olduğunu görüyorum.
Acaba kullanıp memnun kaldığınız, yerel veya bulut tabanlı ya da ticari modeller arasında önerebileceğiniz seçenekler var mı?
Öngördüğüm süreç şu şekilde:
- İçerik toplama > ses ayrıştırma (Music, Effect ve Voice) > ses dalga biçimi analizi > ses içindeki çoklu konuşmacıların ayrılması > çoklu konuşmacı bazında STT yürütülmesi > zaman kodu bilgisine dayalı metin oluşturma.
Ortaya çıkacak sonuca göre bunu dublaj/altyazı üretimine kadar genişletmek de mümkün görünüyor.
Benim değerlendirme ölçütlerim şunlar:
- Ses ayrıştırma çıktısının kalitesi nasıl?
- Ses üzerinden aynı kişinin sesini tanıyıp ayırt etmek mümkün mü?
Değerli görüşlerinizi bekliyorum!
5 yorum
Benim son zamanlarda çeşitli denemelerimde, çoklu konuşmacı konusunda Cloava iyi iş çıkarıyor.
Orta düzey bir kalite yeterliyse, yukarıda önerilen Return Zero da gayet uygun.
STT’nin kalitesi biraz düşük olsa bile, çıktıyı performansı yüksek bir LLM’e iletirseniz belli ölçüde tatmin edici sonuçlar veriyor.
Benim durumumda konuşmacı tanıma önemli olmadığı için Gemini’yi tercih ettim.
Her çözümün artıları ve eksileri olduğundan, sonuçta çözmek istediğiniz verilerden birkaç örnek seçip ona göre karar vermenizi öneririm.
https://developers.rtzr.ai/docs/stt-file/diarization/
Yalnızca çoklu konuşmacı ayrımını tek başına kullanamazsınız, ancak STT ile birlikte API olarak sunuluyor. (OpenAI veya Clova da benzer)
Konuşmacı ayrımını Daglo'nun iyi yaptığını düşünüyorum.
Aa! Öyle mi?! Bu bir platform mu? Ben local LLM ya da API tabanlı çalışan bir yapı arıyorum!
Evet, ne yazık ki Daglo şu anda yerel LLM sunmuyor gibi görünüyor!
Ücretli olsa da API de sağlıyor gibi görünüyor. (https://developers.daglo.ai/guide/)