18 puan yazan xguru 2022-12-28 | 1 yorum | WhatsApp'ta paylaş
  • Oyunda bir karakter yabancı bir dilde konuştuğunda, önce karakterin başının üstünde özgün dilde altyazı gösteriliyor, ardından bu altyazı gerçek zamanlı olarak oyuncunun diline çevriliyor
  • Bu özelliği DL tabanlı konuşma tanıma/yüz tanıma vb. kullanarak uygulayan kodun ve çalışma biçiminin ayrıntılı tanıtımı
  • OpenAI Whisper + NVDIA NeMo + DeepL + RetinaFace + DeepFace + Sckikit-learn + Gradio + Modal + PIL/OpenCV + ffpmpeg

Çalışma biçimi

  • yt-dlp ile YouTube videosu indiriliyor
  • ffmpeg ile video/ses ayrıştırılıyor
  • Ses tarafında
    • Whisper'a verilerek transkriptler üretiliyor ve DeepL ile çevriliyor
    • NeMo'ya verilerek Speaker ID (konuşan kişi) çıkarılıyor
    • Bu ikisi timestamp tabanında eşleştirilerek Speaker ID eklenmiş metin oluşturuluyor
  • Video tarafında
    • MTCNN/RetinaFace ile yüz konumları çıkarılıyor. Modal ile paralelleştirilerek hızlandırılıyor.
    • DeepFace/Scikit-Learn ile her yüz için embedding çıkarılıyor ve benzersiz ID atanıyor
  • Jaccard Index ile FaceID ve SpeakerID eşleştiriliyor
  • Oluşturulan kare meta verileriyle PIL/OpenCV kullanılarak karelere anotasyon ekleniyor
  • ffmpeg Writer ile video oluşturuluyor

1 yorum

 
chicol 2022-12-28

Çalışma biçimi tasarımı harika.