- Gerçek zamanlı konuşma tanıma ve yüksek hassasiyetli konuşmacı ayırma özelliklerine sahip yeni nesil konuşmadan metne dönüştürme modeli
- İki modelden oluşuyor: Voxtral Mini Transcribe V2 toplu işleme için, Voxtral Realtime ise gerçek zamanlı uygulamalar için tasarlandı
- Realtime modeli konuşmayı 200 ms'nin altında gecikmeyle akış halinde işler ve Apache 2.0 açık ağırlıklarıyla yayımlandı
- Mini Transcribe V2, Türkçe dahil değil fakat Korece dahil 13 dili destekliyor; kelime düzeyinde zaman damgaları, bağlam yönlendirmesi ve konuşmacı ayırma gibi kurumsal özellikler sunuyor
- Her iki model de GDPR ve HIPAA uyumlu dağıtımı destekliyor; konuşma tabanlı uygulamalarda doğruluk, hız ve maliyet verimliliğini önemli ölçüde artırıyor
Voxtral Transcribe 2'ye genel bakış
- Voxtral Transcribe 2, en güncel konuşma tanıma kalitesi, hassas konuşmacı ayırma (diarization) ve ultra düşük gecikmeli işleme özellikleriyle öne çıkan iki modelden oluşuyor
- Voxtral Mini Transcribe V2: toplu transkripsiyon için
- Voxtral Realtime: gerçek zamanlı uygulamalar için
- Realtime modeli Apache 2.0 lisansı ile yayımlandığı için edge ortamlarda da dağıtılabiliyor
- Mistral Studio içindeki audio playground üzerinden anında transkripsiyon testi yapılabiliyor
Temel özellik özeti
- Voxtral Mini Transcribe V2: 13 dil desteği, konuşmacı ayırma, bağlam yönlendirmesi ve kelime düzeyinde zaman damgaları sunar
- Voxtral Realtime: 200 ms'nin altında gecikmeyle gerçek zamanlı transkripsiyon sağlar; sesli ajanlar ve gerçek zamanlı uygulamalar için uygundur
- Verimlilik: Sektördeki en düşük birim maliyetlerden biriyle üst düzey doğruluk sunar
- Açık ağırlıklar: Realtime modeli Apache 2.0 altında yayımlandığı için gizlilik odaklı dağıtıma uygundur
Voxtral Realtime
- Gecikmenin (latency) kritik olduğu uygulamalar için tasarlanan bu model, sesi parça parça işlemek yerine streaming mimarisiyle gerçek zamanlı transkripsiyon gerçekleştirir
- 200 ms'nin altında gecikme yapılandırılabilir; 2,4 saniye gecikmede toplu modelle aynı doğruluk, 480 ms gecikmede ise %1-2 hata oranı korunur
- 13 dili destekler (İngilizce, Çince, Hintçe, İspanyolca, Arapça, Fransızca, Portekizce, Rusça, Almanca, Japonca, Korece, İtalyanca, Hollandaca)
- 4B parametre ölçeği sayesinde edge cihazlarda verimli çalışır ve güvenlik ile gizliliği korur
- Model ağırlıkları Hugging Face Hub üzerinde yayımlandı
Voxtral Mini Transcribe V2
- Transkripsiyon ve konuşmacı ayırma kalitesi, diller ve alanlar genelinde önemli ölçüde iyileştirildi
- FLEURS benchmark'a göre yaklaşık %4 kelime hata oranı ve dakika başına $0.003 maliyetle üst düzey fiyat/performans sunar
- GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal ve Deepgram Nova'dan daha yüksek doğruluk sağlar; ElevenLabs Scribe v2'den 3 kat hızlıdır ve maliyeti onun 1/5'i düzeyindedir
Kurumsal özellikler
- Konuşmacı ayırma (Speaker diarization): Konuşan kişileri ayırt eder ve başlangıç/bitiş noktalarını gösterir; toplantılar, röportajlar ve çok taraflı aramalar için uygundur
- Bağlam yönlendirmesi (Context biasing): En fazla 100 kelime veya ifade belirtilebilir; özel adlar ve uzmanlık terimlerinin tanınmasını iyileştirir (İngilizce için optimize edilmiştir, diğer dillerde deneyseldir)
- Kelime düzeyinde zaman damgaları: Altyazı üretimi, ses içinde arama ve içerik hizalama için kullanılabilir
- Genişletilmiş dil desteği: 13 dil desteğiyle İngilizce dışı dillerde de rakip modellere kıyasla güçlü performans sunar
- Gürültü dayanıklılığı: Fabrika, çağrı merkezi gibi gürültülü ortamlarda da doğruluğu korur
- Uzun ses işleme: Tek istekte en fazla 3 saatlik kayıt dosyası işlenebilir
Audio playground
- Mistral Studio içinde Voxtral Transcribe 2 doğrudan test edilebilir
- En fazla 10 ses dosyası yüklenebilir; konuşmacı ayırma, zaman damgası birimi ve bağlam yönlendirmesi ayarları desteklenir
- Desteklenen formatlar: .mp3, .wav, .m4a, .flac, .ogg, dosya başına en fazla 1 GB
Çeşitli kullanım senaryoları
- Toplantı zekâsı: Çok dilli toplantıların transkripsiyonu ve konuşmacı ayrımıyla büyük ölçekli toplantı verileri analiz edilebilir
- Sesli ajanlar ve sanal asistanlar: 200 ms'nin altında gecikmeyle doğal konuşma tabanlı arayüzler oluşturulabilir
- İletişim merkezi otomasyonu: Gerçek zamanlı çağrı transkripsiyonuyla duygu analizi, yanıt önerileri ve CRM'e otomatik giriş desteklenir
- Medya ve yayıncılık: Gerçek zamanlı çok dilli altyazı üretimi ile özel ad ve teknik terim tanıma güçlendirilir
- Uyumluluk ve dokümantasyon: Konuşmacı bazlı zaman damgaları üzerinden denetim izi sağlanabilir
- Her iki model de GDPR ve HIPAA uyumlu dağıtımı destekler ve on-premise veya private cloud ortamlarında güvenli şekilde çalıştırılabilir
Kullanım ve fiyatlandırma
- Voxtral Mini Transcribe V2: API üzerinden kullanımda dakika başına $0.003, Mistral Studio veya Le Chat üzerinden kullanılabilir
- Voxtral Realtime: API üzerinden kullanımda dakika başına $0.006, Hugging Face üzerinden açık ağırlıklar sunulur
- Ek bilgiler için Mistral'ın audio ve transkripsiyon özellikleri dokümantasyonu incelenebilir
1 yorum
Hacker News yorumları
Bu demo gerçekten etkileyiciydi
Mikrofon olmadığı gösterilse bile kayıt düğmesine basınca tarayıcı izin istiyor ve hemen çalışıyor
Hızlı konuşup uzmanlık terimleri karıştırsanız bile doğru şekilde yazıya döküyor. WebAssembly yazımını bile kusursuz aldı
Üstelik open-weight olması da gerçekten büyük nimet
İki dili aynı anda konuşmayı denedim, onu bile doğru tanıdı. Gerçekten şaşırtıcı
İngilizce tanıma oldukça iyi ama Lehçe konuşunca bunu Rusça ya da Ukraynaca sanıyor
Avrupa merkezli bir şirketse başlıca Avrupa dillerini daha iyi desteklemesi gerektiğini düşünüyorum
İngilizce ve Lehçeyi karıştırarak konuştuğumda sonuç tamamen karma oldu
13 dili destekliyor; benzer köklere sahip diller çok olduğunda parametre sayısının ya da eğitim verisi gereksiniminin nasıl değişeceğini merak ediyorum
FLEURS ölçütünde %4 kelime hata oranı ve dakikası $0.003 gibi bir rakam etkileyici
Amazon Transcribe dakikada $0.024 istiyor, arada büyük fark var
Örneğin fal.ai’nin Whisper API’si “hesaplama saniyesi başına $0.00125” diyor ama 10 ila 25 kat gerçek zaman hızında çalıştığı için çok daha ucuz oluyor
Bu model 14 dili anlayan çok dilli bir model
Ama çoğu kullanım senaryosunda yalnızca tek dil gerekir, bu yüzden diğer diller sadece gecikmeyi artırıyor olabilir
İleride bu tür genel amaçlı modellerde gereksiz kısımları azaltma yönünde bir akım oluşacak gibi görünüyor
İlgili makaleye buradan bakabilirsiniz
Örn: “voila”, “el camino real” gibi ifadeler
Yine de içeride benzer bir LLM tabanlı mimari kullanıyor gibiler
Performansı Deepgram nova-3 ile rekabetçi, çoğu durumda da Assembly ve ElevenLabs’ten daha iyiydi
İç testlerde güçlü Britanya aksanına sahip 8kHz çağrı veri setiyle değerlendirildi ve fiilen SOTA seviyesindeydi
Ama gecikme dağılımı (latency) biraz dengesizdi. Yerelde çalıştırıldığında düzelecek gibi görünüyor
Ne tür donanım kaynakları gerektiğini merak ediyorum
Birden fazla üst seviye NVIDIA GPU mu gerekiyor, yoksa ESP32 gibi düşük güç cihazlarda çevrimdışı da mümkün mü, buna dair bir açıklama yoktu
Bunun Nvidia Parakeet V3’ten daha iyi olup olmadığını merak ediyorum. Şimdiye kadar yerelde benim için en iyi model oydu
model bağlantısı, inference portu ve GGUF sürümü burada
Konuşmacı ayrımı (diarization) özelliğinin varsayılan olarak geldiğini sanmıştım ama gerçek zamanlı sürümde yokmuş
Voxtral-Mini-4B-Realtime-2602 yaklaşık 9GB’lık bir model
Demoyu denedim; İngilizce tanıma harika ve dil geçişini de gerçek zamanlı algılıyor
Ama Ukraynacayı hiç tanımıyor, hep Rusça olarak yazıya döküyor
Diğer STT modelleri Ukraynacayı iyi işliyor; bunda ise eğitim verisinde büyük ölçüde sadece Rusça varmış gibi duruyor, bu da üzücü
Model iyi görünüyor ama önceki sürüm Parakeet’ten daha iyi değildi
Qwen3-ASR gibi yeni modellerle nesnel karşılaştırmalar görmek gerekiyor
Şirketlerin sunduğu özenle seçilmiş benchmark’lara artık güvenmek zor
Şu an benim kullanımım için Parakeet v3 en hızlı ve en verimli seçenek
Telefonda hangi uygulamayı kullandığını merak ediyorum