31 puan yazan GN⁺ 2025-08-14 | Henüz yorum yok. | WhatsApp'ta paylaş
  • FFmpeg 8.0 sürümü, Whisper konuşma tanıma modeli desteğini resmî olarak ekledi
  • Whisper, OpenAI tarafından geliştirilen açık kaynaklı bir konuşma tanıma modeli olup farklı dillerde otomatik konuşma dönüştürme için kullanılıyor
  • Bu özelliğin eklenmesiyle video ve ses işleme görevlerinde doğrudan konuşmadan metne dönüştürme iş akışlarını otomatikleştirme olasılığı arttı
  • Geliştiriciler ve medya otomasyonu alanında FFmpeg'in kullanım alanı ve verimliliği önemli ölçüde güçlendi
  • En yeni konuşma tanıma özelliğini yerleşik olarak sunarken ek harici araçlara veya karmaşık entegrasyon süreçlerine duyulan yükü azaltıyor

FFmpeg 8.0'da Whisper desteğine genel bakış

  • FFmpeg 8.0 sürümü, Whisper konuşma tanıma modeli desteğini ekleyerek farklı dillerde ses verisini otomatik olarak metne dönüştürme işlevi sunuyor
  • Whisper, OpenAI tarafından geliştirilen derin öğrenme tabanlı algoritma kullanarak yüksek doğrulukta konuşmadan metne dönüştürme performansı sağlıyor
  • Mevcut FFmpeg kullanıcıları, harici araçlardan geçmeden yerleşik Whisper desteği sayesinde video ve ses dosyalarından altyazı üretebilir veya konuşma içeriğini çıkarabilir

Whisper entegrasyonunun başlıca avantajları

  • Whisper entegrasyonu sayesinde FFmpeg tabanlı medya işleme ve otomasyon pipeline'larında verimli ve ölçeklenebilir konuşma tanıma iş akışları kurulabiliyor
  • Konuşma tanıma algoritmasının yerleşik hale gelmesiyle geliştiriciler, karmaşık ek entegrasyonlar ya da ayrı script yazma yükü olmadan yalnızca basit komutlarla konuşmadan metne dönüştürme sonuçları alabiliyor

FFmpeg ve Whisper kombinasyonunun sektörel önemi

  • Büyük medya varlıklarının yönetimi, altyazı üretimi, video verisi arşivleme gibi çeşitli alanlarda FFmpeg + Whisper kombinasyonu maliyet verimliliği ve otomasyonu aynı anda gerçekleştirme avantajı sunuyor
  • Daha önce FFmpeg ile ayrı açık kaynak konuşma tanıma araçlarını entegre etmek gerekiyordu; artık doğrudan FFmpeg içinde işleme ile iş akışı sadeleşmesi ve işlem hızında artış beklenebiliyor

Teknik ayrıntılar

  • FFmpeg'e, Whisper.cpp kütüphanesi temel alınarak FFmpeg içinde doğrudan otomatik konuşma tanıma (ASR) gerçekleştiren bir ses filtresi eklendi
  • --enable-whisper seçeneğiyle etkinleştirilebiliyor ve model yolu (model) zorunlu olarak belirtilmeli
  • Başlıca seçenekler: dil ayarı (language), GPU kullanımı (use_gpu), kuyruk boyutu (queue), çıktı biçimi (format: text/srt/json), VAD (ses etkinliği algılama) modeli ve eşik ayarı vb.
    • queue değeri küçük olursa gerçek zamanlılık artar ancak doğruluk düşer ve CPU yükü yükselir; büyük olursa doğruluk artar ancak gecikme büyür
    • destination seçeneğiyle sonuçlar çıktı dosyasına, URL'ye veya metadata'ya kaydedilebilir; AVIO protokolü de desteklenir
  • Örnek olarak SRT altyazı üretimi, JSON biçiminde HTTP gönderimi, mikrofon girişinin gerçek zamanlı dökümü (VAD kullanarak) senaryoları yer alıyor
    • SRT altyazı dosyası oluşturma örneği
      ffmpeg -i input.mp4 -vn \  
      -af "whisper=model=../whisper.cpp/models/ggml-base.en.bin:language=en:queue=3:destination=output.srt:format=srt" \  
      -f null -  
      

Henüz yorum yok.

Henüz yorum yok.