- Oyunda bir karakter yabancı bir dilde konuştuğunda, önce karakterin başının üstünde özgün dilde altyazı gösteriliyor, ardından bu altyazı gerçek zamanlı olarak oyuncunun diline çevriliyor
- Bu özelliği DL tabanlı konuşma tanıma/yüz tanıma vb. kullanarak uygulayan kodun ve çalışma biçiminin ayrıntılı tanıtımı
- OpenAI Whisper + NVDIA NeMo + DeepL + RetinaFace + DeepFace + Sckikit-learn + Gradio + Modal + PIL/OpenCV + ffpmpeg
Çalışma biçimi
yt-dlp ile YouTube videosu indiriliyor
ffmpeg ile video/ses ayrıştırılıyor
- Ses tarafında
- Whisper'a verilerek transkriptler üretiliyor ve DeepL ile çevriliyor
- NeMo'ya verilerek Speaker ID (konuşan kişi) çıkarılıyor
- Bu ikisi timestamp tabanında eşleştirilerek Speaker ID eklenmiş metin oluşturuluyor
- Video tarafında
- MTCNN/RetinaFace ile yüz konumları çıkarılıyor. Modal ile paralelleştirilerek hızlandırılıyor.
- DeepFace/Scikit-Learn ile her yüz için embedding çıkarılıyor ve benzersiz ID atanıyor
- Jaccard Index ile FaceID ve SpeakerID eşleştiriliyor
- Oluşturulan kare meta verileriyle PIL/OpenCV kullanılarak karelere anotasyon ekleniyor
ffmpeg Writer ile video oluşturuluyor
1 yorum
Çalışma biçimi tasarımı harika.