Daha önce Korece çok konuşmacılı konuyla ilgili bir soru paylaşmıştım! Sonraki ilerleme güncellemesi!

3 puan yazan somang04 2026-05-28 | 5 yorum | WhatsApp'ta paylaş

Bunun ASK GN’ye uygun olup olmadığından emin değilim..! Ama haber ya da Show gibi görünmediği için buraya yazıyorum.

Daha önce verdiğiniz görüşlere dayanarak bir şeyler geliştirmeye çalışıyoruz.
Tesadüfen birlikte çalıştığım iş geliştirme tarafındaki bir arkadaşın da benzer bir fikri vardı; bu yüzden geliştirici olmayan iki kişi olarak bir MVP çıkarmaya uğraşıyoruz.
(Claude Code 5X + API maliyetlerinin tamamını cebimizden karşılıyoruz.. iş geliştirme tarafındaki arkadaş ise içki ve yemek sağlıyor.. haha)

Dizi/eğlence programı/film gibi içerikleri temel alarak geliştirdiğimiz için, kullanabileceğimiz modellerin seçenekleri sınırlı kalıyor.
Bu yüzden epey aradıktan sonra Whisper (OpenAI API), Pyannote ve Assembly AI kullanıyoruz.

pyannote için ücretsiz dönem bittiği için ödeme yapmak gerekiyor ama kullanım bazlı ücretlendirme değil de abonelik ($19/month) olduğu için bunu geçtik,
şu anda Deepgram Nova-3 ile test yapıyoruz. (Üye olunca $200 veriyorlar.)

Ama.. beklendiği gibi pyannote kullanmayınca konuşmacı ayrımı zorlaşıyor; bu yüzden replicate.com üzerindeki meronym/speaker-diarization ile konuşmacı ayrımı yapıyoruz.

Nihai sonuca bakınca yine de konuşmacı ayrımı kabaca çalışıyor.
Bunu Clova ile karşılaştırmayı planlıyorum; karşılaştırma sonucunu da paylaşırım!

Şimdi burada bir sonraki düşündüğüm konular şunlar:

Konuşmacı ayrımı ses tabanlı yapılıyor; buna yüz tanıma özelliği eklenirse daha hassas olur mu?
Yüz tanıma için gerekli metadata nasıl toplanmalı?
Dizi/film/eğlence programı gibi içerikleri temel alıyorsak, metayı nereden almalı? (Naver, Namuwiki vb.)
Meta toplamak, maliyet ve zamana kıyasla kaliteyi gerçekten artırır mı?

Bu tür konuları daha önce düşünmüş deneyimli kişiler varsa, çok sayıda tavsiyenizi duymak isterim...!!!

5 yorum

boradi 2026-05-29

Konuşmacı ayrımıyla ilgili araştırma yapmış biri olarak, bildiklerimi kısaca paylaşayım.

Evet, daha hassas hale gelir. Ancak teknik olarak zorluk seviyesi biraz yüksek olacaktır. Çünkü ağız hareketlerindeki değişimi ses senkronuyla da eşleştirmek gerekir. TalkNet-ASD, 3D-Speaker-Toolkit gibi ilgili pek çok açık kaynak var; bunları incelemeniz faydalı olabilir. Ayrıca son dönemde LLM ile birleştirilip görüntü ve videonun birlikte girdi olarak verilmesiyle konuşmacı ayrımı ve altyazı üretimini aynı anda yapabilen SpeakerLM gibi çalışmalar da var.
Bunu, gönderiyi yazan kişinin yürüttüğü işin bağlamını tam bilmediğim için yalnızca yazılan bilgiler üzerinden söyleyebilirim: dizi, film, eğlence programı gibi içeriklerde görünen yüzler aynı kişiye ait olsa bile makyaj ya da koşullara göre farklı biçimlerde çıkarıldığı için, her içerikte görünen kişilerin yüzlerini ayrı ayrı toplamanız ve yüz bazında clustering yaparak bunu o içeriğin oyuncu kadrosuyla bire bir eşleştirmeniz gerekir. Bu, multimodal bir modelle de yapılabilir; ancak doğruluk için insanın etiketleme yapması gerekir ve bu yüzden maliyet ile zaman çok artar. İnsanlara ücret karşılığı bu işi yaptırmanın nedeni de budur. Bu arada yalnızca ses olan durumlarda da, bu ses verilerini önceden toplayıp insanlar tarafından etiketleyerek embedding hâline getirirseniz konuşmacı ayrımı kalitesi ciddi biçimde artar.
Bu tür içeriklerin veritabanı için tmdb, imdb, kmdb gibi ilgili birçok API bulunduğundan, ücretli ya da ücretsiz fark etmeksizin herkes belli ölçüde veri çekebilir. Bunu veritabanına dönüştürme kısmını ise kendiniz yapmanız gerekir. Crawling de bir yöntem sayılabilir.
Tam olarak ne yapmayı düşündüğünüzü bilmiyorum ama yukarıda anlattıklarım söylemesi kolay, pratikte ise doğruluğu yükseltmek için çok zaman ve maliyet gerektiren işlerdir. Benim yaptığım araştırmalar da çeşitli nedenlerle oldukça uzamıştı. %80~90 doğruluk elde etmek kolaydır ama bu herkesin yapabileceği bir şeydir. Bu yüzden kalan %10’luk detayı tamamlamak, ticarileşmenin özü ve temel değeridir. "Kalite artar mı?" diye sorarsanız, elbette artar. Ama "maliyet ve zamana değecek kadar artar mı?" derseniz, bundan çok emin değilim. Dediğim gibi, iyileşme yaklaşık %10 düzeyindedir.

Her ne olursa olsun, geliştirici olmayan kişilerin böyle bir meydan okumaya girişmesi etkileyici ve gerçekten güzel bir şey. Umarım iyi sonuçlanır.

somang04 2026-05-29

Teşekkür ederim!! Görünüşe göre otomasyonda gerçekten sınırlar var ve etiketleme ile eşlemeyi insan eliyle yapmak en doğrusuymuş..

Bir köle 1 kişi daha bulmam gerekecek sanırım.. Çok yardımcı oldunuz!!

Teşekkür ederim!!

hmmhmmhm 2026-05-29

Diarization iyi görünüyordu ama biraz eksik kalan tarafları var; bu yüzden herkese açık modeller arasında daha derine inmek isterseniz, aşağıdaki yorumda dendiği gibi iş tamamen araştırma alanına kayıyor gibi görünüyor.

somang04 2026-05-29

Ne yaptığımı çok da bilmeden dalmış durumdayım.. haha Sonuçta bilmeyince insan bir şekilde yapmaya girişiyor.
Aşağıdaki kişinin dediği gibi işin içine insan emeği koymak gerekiyor, ben de şu anda köle 1’i bulmaya çalışıyorum.. haha

hmmhmmhm 2026-05-29

Oo.... Bu işe girişmeniz harika... Ben de bundan sinerji alıp gidiyorum!! Fighting!!!

Daha önce Korece çok konuşmacılı konuyla ilgili bir soru paylaşmıştım! Sonraki ilerleme güncellemesi!

İlgili okumalar

5 yorum