Korece çoklu konuşmacı ayrımını iyi yapan bir model var mı??

2 puan yazan somang04 2026-05-12 | 5 yorum | WhatsApp'ta paylaş

Open AI'ın Whisper'ını da kullandım, NCP'nin Clova'sını da denedim ama Korecede çoklu konuşmacı ayrımının düşündüğümden epey daha zor olduğunu görüyorum.
Acaba kullanıp memnun kaldığınız, yerel veya bulut tabanlı ya da ticari modeller arasında önerebileceğiniz seçenekler var mı?

Öngördüğüm süreç şu şekilde:

İçerik toplama > ses ayrıştırma (Music, Effect ve Voice) > ses dalga biçimi analizi > ses içindeki çoklu konuşmacıların ayrılması > çoklu konuşmacı bazında STT yürütülmesi > zaman kodu bilgisine dayalı metin oluşturma.

Ortaya çıkacak sonuca göre bunu dublaj/altyazı üretimine kadar genişletmek de mümkün görünüyor.

Benim değerlendirme ölçütlerim şunlar:

Ses ayrıştırma çıktısının kalitesi nasıl?
Ses üzerinden aynı kişinin sesini tanıyıp ayırt etmek mümkün mü?

Değerli görüşlerinizi bekliyorum!

5 yorum

sungwoo 26 일 전

Benim son zamanlarda çeşitli denemelerimde, çoklu konuşmacı konusunda Cloava iyi iş çıkarıyor.
Orta düzey bir kalite yeterliyse, yukarıda önerilen Return Zero da gayet uygun.
STT’nin kalitesi biraz düşük olsa bile, çıktıyı performansı yüksek bir LLM’e iletirseniz belli ölçüde tatmin edici sonuçlar veriyor.

Benim durumumda konuşmacı tanıma önemli olmadığı için Gemini’yi tercih ettim.
Her çözümün artıları ve eksileri olduğundan, sonuçta çözmek istediğiniz verilerden birkaç örnek seçip ona göre karar vermenizi öneririm.

arthurk 27 일 전

https://developers.rtzr.ai/docs/stt-file/diarization/
Yalnızca çoklu konuşmacı ayrımını tek başına kullanamazsınız, ancak STT ile birlikte API olarak sunuluyor. (OpenAI veya Clova da benzer)

yunsub2 2026-05-12

Konuşmacı ayrımını Daglo'nun iyi yaptığını düşünüyorum.

somang04 2026-05-12

Aa! Öyle mi?! Bu bir platform mu? Ben local LLM ya da API tabanlı çalışan bir yapı arıyorum!

yunsub2 2026-05-13

Evet, ne yazık ki Daglo şu anda yerel LLM sunmuyor gibi görünüyor!
Ücretli olsa da API de sağlıyor gibi görünüyor. (https://developers.daglo.ai/guide/)

Korece çoklu konuşmacı ayrımını iyi yapan bir model var mı??

İlgili okumalar

5 yorum