1 puan yazan somang04 4 시간 전 | Henüz yorum yok. | WhatsApp'ta paylaş

Bunun ASK GN’ye uygun olup olmadığından emin değilim..! Ama haber ya da Show gibi görünmediği için buraya yazıyorum.

Daha önce verdiğiniz görüşlere dayanarak bir şeyler geliştirmeye çalışıyoruz.
Tesadüfen birlikte çalıştığım iş geliştirme tarafındaki bir arkadaşın da benzer bir fikri vardı; bu yüzden geliştirici olmayan iki kişi olarak bir MVP çıkarmaya uğraşıyoruz.
(Claude Code 5X + API maliyetlerinin tamamını cebimizden karşılıyoruz.. iş geliştirme tarafındaki arkadaş ise içki ve yemek sağlıyor.. haha)

Dizi/eğlence programı/film gibi içerikleri temel alarak geliştirdiğimiz için, kullanabileceğimiz modellerin seçenekleri sınırlı kalıyor.
Bu yüzden epey aradıktan sonra Whisper (OpenAI API), Pyannote ve Assembly AI kullanıyoruz.

pyannote için ücretsiz dönem bittiği için ödeme yapmak gerekiyor ama kullanım bazlı ücretlendirme değil de abonelik ($19/month) olduğu için bunu geçtik,
şu anda Deepgram Nova-3 ile test yapıyoruz. (Üye olunca $200 veriyorlar.)

Ama.. beklendiği gibi pyannote kullanmayınca konuşmacı ayrımı zorlaşıyor; bu yüzden replicate.com üzerindeki meronym/speaker-diarization ile konuşmacı ayrımı yapıyoruz.

Nihai sonuca bakınca yine de konuşmacı ayrımı kabaca çalışıyor.
Bunu Clova ile karşılaştırmayı planlıyorum; karşılaştırma sonucunu da paylaşırım!

Şimdi burada bir sonraki düşündüğüm konular şunlar:

  1. Konuşmacı ayrımı ses tabanlı yapılıyor; buna yüz tanıma özelliği eklenirse daha hassas olur mu?
  2. Yüz tanıma için gerekli metadata nasıl toplanmalı?
  3. Dizi/film/eğlence programı gibi içerikleri temel alıyorsak, metayı nereden almalı? (Naver, Namuwiki vb.)
  4. Meta toplamak, maliyet ve zamana kıyasla kaliteyi gerçekten artırır mı?

Bu tür konuları daha önce düşünmüş deneyimli kişiler varsa, çok sayıda tavsiyenizi duymak isterim...!!!

Henüz yorum yok.

Henüz yorum yok.