Voxtral Transcribe 2 modeli tanıtıldı

(mistral.ai)

13 puan yazan GN⁺ 2026-02-05 | 1 yorum | WhatsApp'ta paylaş

Gerçek zamanlı konuşma tanıma ve yüksek hassasiyetli konuşmacı ayırma özelliklerine sahip yeni nesil konuşmadan metne dönüştürme modeli
İki modelden oluşuyor: Voxtral Mini Transcribe V2 toplu işleme için, Voxtral Realtime ise gerçek zamanlı uygulamalar için tasarlandı
Realtime modeli konuşmayı 200 ms'nin altında gecikmeyle akış halinde işler ve Apache 2.0 açık ağırlıklarıyla yayımlandı
Mini Transcribe V2, Türkçe dahil değil fakat Korece dahil 13 dili destekliyor; kelime düzeyinde zaman damgaları, bağlam yönlendirmesi ve konuşmacı ayırma gibi kurumsal özellikler sunuyor
Her iki model de GDPR ve HIPAA uyumlu dağıtımı destekliyor; konuşma tabanlı uygulamalarda doğruluk, hız ve maliyet verimliliğini önemli ölçüde artırıyor

Voxtral Transcribe 2'ye genel bakış

Voxtral Transcribe 2, en güncel konuşma tanıma kalitesi, hassas konuşmacı ayırma (diarization) ve ultra düşük gecikmeli işleme özellikleriyle öne çıkan iki modelden oluşuyor
- Voxtral Mini Transcribe V2: toplu transkripsiyon için
- Voxtral Realtime: gerçek zamanlı uygulamalar için
Realtime modeli Apache 2.0 lisansı ile yayımlandığı için edge ortamlarda da dağıtılabiliyor
Mistral Studio içindeki audio playground üzerinden anında transkripsiyon testi yapılabiliyor

Temel özellik özeti

Voxtral Mini Transcribe V2: 13 dil desteği, konuşmacı ayırma, bağlam yönlendirmesi ve kelime düzeyinde zaman damgaları sunar
Voxtral Realtime: 200 ms'nin altında gecikmeyle gerçek zamanlı transkripsiyon sağlar; sesli ajanlar ve gerçek zamanlı uygulamalar için uygundur
Verimlilik: Sektördeki en düşük birim maliyetlerden biriyle üst düzey doğruluk sunar
Açık ağırlıklar: Realtime modeli Apache 2.0 altında yayımlandığı için gizlilik odaklı dağıtıma uygundur

Voxtral Realtime

Gecikmenin (latency) kritik olduğu uygulamalar için tasarlanan bu model, sesi parça parça işlemek yerine streaming mimarisiyle gerçek zamanlı transkripsiyon gerçekleştirir
200 ms'nin altında gecikme yapılandırılabilir; 2,4 saniye gecikmede toplu modelle aynı doğruluk, 480 ms gecikmede ise %1-2 hata oranı korunur
13 dili destekler (İngilizce, Çince, Hintçe, İspanyolca, Arapça, Fransızca, Portekizce, Rusça, Almanca, Japonca, Korece, İtalyanca, Hollandaca)
4B parametre ölçeği sayesinde edge cihazlarda verimli çalışır ve güvenlik ile gizliliği korur
Model ağırlıkları Hugging Face Hub üzerinde yayımlandı

Voxtral Mini Transcribe V2

Transkripsiyon ve konuşmacı ayırma kalitesi, diller ve alanlar genelinde önemli ölçüde iyileştirildi
FLEURS benchmark'a göre yaklaşık %4 kelime hata oranı ve dakika başına $0.003 maliyetle üst düzey fiyat/performans sunar
GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal ve Deepgram Nova'dan daha yüksek doğruluk sağlar; ElevenLabs Scribe v2'den 3 kat hızlıdır ve maliyeti onun 1/5'i düzeyindedir

Kurumsal özellikler

Konuşmacı ayırma (Speaker diarization): Konuşan kişileri ayırt eder ve başlangıç/bitiş noktalarını gösterir; toplantılar, röportajlar ve çok taraflı aramalar için uygundur
Bağlam yönlendirmesi (Context biasing): En fazla 100 kelime veya ifade belirtilebilir; özel adlar ve uzmanlık terimlerinin tanınmasını iyileştirir (İngilizce için optimize edilmiştir, diğer dillerde deneyseldir)
Kelime düzeyinde zaman damgaları: Altyazı üretimi, ses içinde arama ve içerik hizalama için kullanılabilir
Genişletilmiş dil desteği: 13 dil desteğiyle İngilizce dışı dillerde de rakip modellere kıyasla güçlü performans sunar
Gürültü dayanıklılığı: Fabrika, çağrı merkezi gibi gürültülü ortamlarda da doğruluğu korur
Uzun ses işleme: Tek istekte en fazla 3 saatlik kayıt dosyası işlenebilir

Audio playground

Mistral Studio içinde Voxtral Transcribe 2 doğrudan test edilebilir
En fazla 10 ses dosyası yüklenebilir; konuşmacı ayırma, zaman damgası birimi ve bağlam yönlendirmesi ayarları desteklenir
Desteklenen formatlar: .mp3, .wav, .m4a, .flac, .ogg, dosya başına en fazla 1 GB

Çeşitli kullanım senaryoları

Toplantı zekâsı: Çok dilli toplantıların transkripsiyonu ve konuşmacı ayrımıyla büyük ölçekli toplantı verileri analiz edilebilir
Sesli ajanlar ve sanal asistanlar: 200 ms'nin altında gecikmeyle doğal konuşma tabanlı arayüzler oluşturulabilir
İletişim merkezi otomasyonu: Gerçek zamanlı çağrı transkripsiyonuyla duygu analizi, yanıt önerileri ve CRM'e otomatik giriş desteklenir
Medya ve yayıncılık: Gerçek zamanlı çok dilli altyazı üretimi ile özel ad ve teknik terim tanıma güçlendirilir
Uyumluluk ve dokümantasyon: Konuşmacı bazlı zaman damgaları üzerinden denetim izi sağlanabilir

Her iki model de GDPR ve HIPAA uyumlu dağıtımı destekler ve on-premise veya private cloud ortamlarında güvenli şekilde çalıştırılabilir

Kullanım ve fiyatlandırma

Voxtral Mini Transcribe V2: API üzerinden kullanımda dakika başına $0.003, Mistral Studio veya Le Chat üzerinden kullanılabilir
Voxtral Realtime: API üzerinden kullanımda dakika başına $0.006, Hugging Face üzerinden açık ağırlıklar sunulur
Ek bilgiler için Mistral'ın audio ve transkripsiyon özellikleri dokümantasyonu incelenebilir

1 yorum

GN⁺ 2026-02-05

Hacker News yorumları

Bu demo gerçekten etkileyiciydi
Mikrofon olmadığı gösterilse bile kayıt düğmesine basınca tarayıcı izin istiyor ve hemen çalışıyor
Hızlı konuşup uzmanlık terimleri karıştırsanız bile doğru şekilde yazıya döküyor. WebAssembly yazımını bile kusursuz aldı
- Son 3 yılda neredeyse tüm ses modellerini denedim; bu açık ara şimdiye kadar gördüğüm en iyi seviye
  Üstelik open-weight olması da gerçekten büyük nimet
- Link için teşekkürler. Mistral’ın varsayılan playground’unda yalnızca dosya yükleme var, bu yüzden hız ve doğruluğu hissetmek zordu; bu bağlantı gerçek zamanlı performansı düzgün biçimde gösteriyor
  İki dili aynı anda konuşmayı denedim, onu bile doğru tanıdı. Gerçekten şaşırtıcı
- Benim ortamımda çalışmadı. Firefox ve Chromium’da dalga formu görünüyor ama yalnızca “Awaiting audio input” yazıyor
- Bu API bağlantısı 404 hatası veriyor. Arayüzün sağ üstünde kırmızı hata olarak görünüyor
- Hız o kadar etkileyici ki Eminem’in hızlı rap bölümlerini bile gerçek zamanlı yazıya dökebiliyor
İngilizce tanıma oldukça iyi ama Lehçe konuşunca bunu Rusça ya da Ukraynaca sanıyor
Avrupa merkezli bir şirketse başlıca Avrupa dillerini daha iyi desteklemesi gerektiğini düşünüyorum
İngilizce ve Lehçeyi karıştırarak konuştuğumda sonuç tamamen karma oldu
- Modelin Lehçeyi desteklemediği, Rusçayı desteklediği açıkça belirtilmiş
  13 dili destekliyor; benzer köklere sahip diller çok olduğunda parametre sayısının ya da eğitim verisi gereksiniminin nasıl değişeceğini merak ediyorum
- Yalnızca desteklenen dil listesinde bulunan dillerle test etmenizi öneririm
- Yalnızca belirli dillerde iyi performans vermesi üzücü. Resmî olarak yalnızca 13 dili güçlü biçimde destekliyor
- Lehçe ve Ukraynacayı karıştırınca sonuç Rusça çıkıyor. Yalnızca Ukraynaca konuşunca bile her zaman Rusça olarak yazıya dökülmesi hayal kırıklığı yaratıyor
- Lehçe, sesbilimsel yapısı gereği Kiril alfabesiyle yazılsa daha doğal olurdu ama tarihsel nedenlerle öyle değil. Sanırım bu tür şeyler yapay zekayı şaşırtıyor
FLEURS ölçütünde %4 kelime hata oranı ve dakikası $0.003 gibi bir rakam etkileyici
Amazon Transcribe dakikada $0.024 istiyor, arada büyük fark var
- Ama bu ücretin ses dakikası başına mı, yoksa hesaplama dakikası başına mı olduğunu merak ediyorum
  Örneğin fal.ai’nin Whisper API’si “hesaplama saniyesi başına $0.00125” diyor ama 10 ila 25 kat gerçek zaman hızında çalıştığı için çok daha ucuz oluyor
Bu model 14 dili anlayan çok dilli bir model
Ama çoğu kullanım senaryosunda yalnızca tek dil gerekir, bu yüzden diğer diller sadece gecikmeyi artırıyor olabilir
İleride bu tür genel amaçlı modellerde gereksiz kısımları azaltma yönünde bir akım oluşacak gibi görünüyor
İlgili makaleye buradan bakabilirsiniz
- Ama diller arası ödünç kelime çok olduğu için çok dilli model aslında faydalı da olabilir
  Örn: “voila”, “el camino real” gibi ifadeler
- Bu model verimlilik ve doğruluğu aynı anda kanıtlamış gibi görünüyor
- Azure, Google, Amazon gibi mevcut STT servisleri dili belirtmenizi istiyor ama kalite hâlâ yüksek
  Yine de içeride benzer bir LLM tabanlı mimari kullanıyor gibiler
- İnsanlar tek dil kullanmıyor. Kod değiştirme doğal bir şey, bu yüzden tek dilli modellerin sınırları var
- Komik olan şu ki yukarıdaki yorum dilleri azaltalım diyor, diğer yorumlar ise dil sayısının yetersiz olduğundan şikâyet ediyor
Performansı Deepgram nova-3 ile rekabetçi, çoğu durumda da Assembly ve ElevenLabs’ten daha iyiydi
İç testlerde güçlü Britanya aksanına sahip 8kHz çağrı veri setiyle değerlendirildi ve fiilen SOTA seviyesindeydi
Ama gecikme dağılımı (latency) biraz dengesizdi. Yerelde çalıştırıldığında düzelecek gibi görünüyor
Ne tür donanım kaynakları gerektiğini merak ediyorum
Birden fazla üst seviye NVIDIA GPU mu gerekiyor, yoksa ESP32 gibi düşük güç cihazlarda çevrimdışı da mümkün mü, buna dair bir açıklama yoktu
Bunun Nvidia Parakeet V3’ten daha iyi olup olmadığını merak ediyorum. Şimdiye kadar yerelde benim için en iyi model oydu
- Ben doğrudan Nemotron ASR portunu kullanıyorum ve memnunum
  model bağlantısı, inference portu ve GGUF sürümü burada
- Parakeet V3’ü yerelde denedim; his olarak bu model biraz daha yavaş ama doğruluk daha yüksek
- Parakeet v3’ü seviyordum ama bazen tüm cümleyi birden atlama sorunu oluyordu
- Parakeet 0.6B, yani edge cihazlarda da çalışıyor. Voxtral ise 4B, bu yüzden Orin ya da Hailo’da gerçek zamanlı çalıştırmak zor görünüyor
- Ben de aynı soruyu sormaya gelmiştim!
Konuşmacı ayrımı (diarization) özelliğinin varsayılan olarak geldiğini sanmıştım ama gerçek zamanlı sürümde yokmuş
Voxtral-Mini-4B-Realtime-2602 yaklaşık 9GB’lık bir model
- Konuşmacı ayrımı yalnızca Voxtral Mini Transcribe V2 sürümünde bulunuyor
Demoyu denedim; İngilizce tanıma harika ve dil geçişini de gerçek zamanlı algılıyor
Ama Ukraynacayı hiç tanımıyor, hep Rusça olarak yazıya döküyor
Diğer STT modelleri Ukraynacayı iyi işliyor; bunda ise eğitim verisinde büyük ölçüde sadece Rusça varmış gibi duruyor, bu da üzücü
- Model yalnızca Rusçayı desteklediği için, girilen Ukraynacayı en yakın Rusça kelimelere eşliyor
Model iyi görünüyor ama önceki sürüm Parakeet’ten daha iyi değildi
Qwen3-ASR gibi yeni modellerle nesnel karşılaştırmalar görmek gerekiyor
Şirketlerin sunduğu özenle seçilmiş benchmark’lara artık güvenmek zor
Şu an benim kullanımım için Parakeet v3 en hızlı ve en verimli seçenek
- Open ASR Leaderboard var ama yarım yıldır güncellenmedi
- Ben de Parakeet’i seviyorum, Mac’te Handy uygulamasıyla kullanıyorum.
  Telefonda hangi uygulamayı kullandığını merak ediyorum

Voxtral Transcribe 2 modeli tanıtıldı

Voxtral Transcribe 2'ye genel bakış

Temel özellik özeti

Voxtral Realtime

Voxtral Mini Transcribe V2

Kurumsal özellikler

Audio playground

Çeşitli kullanım senaryoları

Kullanım ve fiyatlandırma

İlgili okumalar

1 yorum

Hacker News yorumları