13 puan yazan GN⁺ 2026-02-05 | 1 yorum | WhatsApp'ta paylaş
  • Gerçek zamanlı konuşma tanıma ve yüksek hassasiyetli konuşmacı ayırma özelliklerine sahip yeni nesil konuşmadan metne dönüştürme modeli
  • İki modelden oluşuyor: Voxtral Mini Transcribe V2 toplu işleme için, Voxtral Realtime ise gerçek zamanlı uygulamalar için tasarlandı
  • Realtime modeli konuşmayı 200 ms'nin altında gecikmeyle akış halinde işler ve Apache 2.0 açık ağırlıklarıyla yayımlandı
  • Mini Transcribe V2, Türkçe dahil değil fakat Korece dahil 13 dili destekliyor; kelime düzeyinde zaman damgaları, bağlam yönlendirmesi ve konuşmacı ayırma gibi kurumsal özellikler sunuyor
  • Her iki model de GDPR ve HIPAA uyumlu dağıtımı destekliyor; konuşma tabanlı uygulamalarda doğruluk, hız ve maliyet verimliliğini önemli ölçüde artırıyor

Voxtral Transcribe 2'ye genel bakış

  • Voxtral Transcribe 2, en güncel konuşma tanıma kalitesi, hassas konuşmacı ayırma (diarization) ve ultra düşük gecikmeli işleme özellikleriyle öne çıkan iki modelden oluşuyor
    • Voxtral Mini Transcribe V2: toplu transkripsiyon için
    • Voxtral Realtime: gerçek zamanlı uygulamalar için
  • Realtime modeli Apache 2.0 lisansı ile yayımlandığı için edge ortamlarda da dağıtılabiliyor
  • Mistral Studio içindeki audio playground üzerinden anında transkripsiyon testi yapılabiliyor

Temel özellik özeti

  • Voxtral Mini Transcribe V2: 13 dil desteği, konuşmacı ayırma, bağlam yönlendirmesi ve kelime düzeyinde zaman damgaları sunar
  • Voxtral Realtime: 200 ms'nin altında gecikmeyle gerçek zamanlı transkripsiyon sağlar; sesli ajanlar ve gerçek zamanlı uygulamalar için uygundur
  • Verimlilik: Sektördeki en düşük birim maliyetlerden biriyle üst düzey doğruluk sunar
  • Açık ağırlıklar: Realtime modeli Apache 2.0 altında yayımlandığı için gizlilik odaklı dağıtıma uygundur

Voxtral Realtime

  • Gecikmenin (latency) kritik olduğu uygulamalar için tasarlanan bu model, sesi parça parça işlemek yerine streaming mimarisiyle gerçek zamanlı transkripsiyon gerçekleştirir
  • 200 ms'nin altında gecikme yapılandırılabilir; 2,4 saniye gecikmede toplu modelle aynı doğruluk, 480 ms gecikmede ise %1-2 hata oranı korunur
  • 13 dili destekler (İngilizce, Çince, Hintçe, İspanyolca, Arapça, Fransızca, Portekizce, Rusça, Almanca, Japonca, Korece, İtalyanca, Hollandaca)
  • 4B parametre ölçeği sayesinde edge cihazlarda verimli çalışır ve güvenlik ile gizliliği korur
  • Model ağırlıkları Hugging Face Hub üzerinde yayımlandı

Voxtral Mini Transcribe V2

  • Transkripsiyon ve konuşmacı ayırma kalitesi, diller ve alanlar genelinde önemli ölçüde iyileştirildi
  • FLEURS benchmark'a göre yaklaşık %4 kelime hata oranı ve dakika başına $0.003 maliyetle üst düzey fiyat/performans sunar
  • GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal ve Deepgram Nova'dan daha yüksek doğruluk sağlar; ElevenLabs Scribe v2'den 3 kat hızlıdır ve maliyeti onun 1/5'i düzeyindedir

Kurumsal özellikler

  • Konuşmacı ayırma (Speaker diarization): Konuşan kişileri ayırt eder ve başlangıç/bitiş noktalarını gösterir; toplantılar, röportajlar ve çok taraflı aramalar için uygundur
  • Bağlam yönlendirmesi (Context biasing): En fazla 100 kelime veya ifade belirtilebilir; özel adlar ve uzmanlık terimlerinin tanınmasını iyileştirir (İngilizce için optimize edilmiştir, diğer dillerde deneyseldir)
  • Kelime düzeyinde zaman damgaları: Altyazı üretimi, ses içinde arama ve içerik hizalama için kullanılabilir
  • Genişletilmiş dil desteği: 13 dil desteğiyle İngilizce dışı dillerde de rakip modellere kıyasla güçlü performans sunar
  • Gürültü dayanıklılığı: Fabrika, çağrı merkezi gibi gürültülü ortamlarda da doğruluğu korur
  • Uzun ses işleme: Tek istekte en fazla 3 saatlik kayıt dosyası işlenebilir

Audio playground

  • Mistral Studio içinde Voxtral Transcribe 2 doğrudan test edilebilir
  • En fazla 10 ses dosyası yüklenebilir; konuşmacı ayırma, zaman damgası birimi ve bağlam yönlendirmesi ayarları desteklenir
  • Desteklenen formatlar: .mp3, .wav, .m4a, .flac, .ogg, dosya başına en fazla 1 GB

Çeşitli kullanım senaryoları

  • Toplantı zekâsı: Çok dilli toplantıların transkripsiyonu ve konuşmacı ayrımıyla büyük ölçekli toplantı verileri analiz edilebilir
  • Sesli ajanlar ve sanal asistanlar: 200 ms'nin altında gecikmeyle doğal konuşma tabanlı arayüzler oluşturulabilir
  • İletişim merkezi otomasyonu: Gerçek zamanlı çağrı transkripsiyonuyla duygu analizi, yanıt önerileri ve CRM'e otomatik giriş desteklenir
  • Medya ve yayıncılık: Gerçek zamanlı çok dilli altyazı üretimi ile özel ad ve teknik terim tanıma güçlendirilir
  • Uyumluluk ve dokümantasyon: Konuşmacı bazlı zaman damgaları üzerinden denetim izi sağlanabilir
  • Her iki model de GDPR ve HIPAA uyumlu dağıtımı destekler ve on-premise veya private cloud ortamlarında güvenli şekilde çalıştırılabilir

Kullanım ve fiyatlandırma

  • Voxtral Mini Transcribe V2: API üzerinden kullanımda dakika başına $0.003, Mistral Studio veya Le Chat üzerinden kullanılabilir
  • Voxtral Realtime: API üzerinden kullanımda dakika başına $0.006, Hugging Face üzerinden açık ağırlıklar sunulur
  • Ek bilgiler için Mistral'ın audio ve transkripsiyon özellikleri dokümantasyonu incelenebilir

1 yorum

 
GN⁺ 2026-02-05
Hacker News yorumları
  • Bu demo gerçekten etkileyiciydi
    Mikrofon olmadığı gösterilse bile kayıt düğmesine basınca tarayıcı izin istiyor ve hemen çalışıyor
    Hızlı konuşup uzmanlık terimleri karıştırsanız bile doğru şekilde yazıya döküyor. WebAssembly yazımını bile kusursuz aldı

    • Son 3 yılda neredeyse tüm ses modellerini denedim; bu açık ara şimdiye kadar gördüğüm en iyi seviye
      Üstelik open-weight olması da gerçekten büyük nimet
    • Link için teşekkürler. Mistral’ın varsayılan playground’unda yalnızca dosya yükleme var, bu yüzden hız ve doğruluğu hissetmek zordu; bu bağlantı gerçek zamanlı performansı düzgün biçimde gösteriyor
      İki dili aynı anda konuşmayı denedim, onu bile doğru tanıdı. Gerçekten şaşırtıcı
    • Benim ortamımda çalışmadı. Firefox ve Chromium’da dalga formu görünüyor ama yalnızca “Awaiting audio input” yazıyor
    • Bu API bağlantısı 404 hatası veriyor. Arayüzün sağ üstünde kırmızı hata olarak görünüyor
    • Hız o kadar etkileyici ki Eminem’in hızlı rap bölümlerini bile gerçek zamanlı yazıya dökebiliyor
  • İngilizce tanıma oldukça iyi ama Lehçe konuşunca bunu Rusça ya da Ukraynaca sanıyor
    Avrupa merkezli bir şirketse başlıca Avrupa dillerini daha iyi desteklemesi gerektiğini düşünüyorum
    İngilizce ve Lehçeyi karıştırarak konuştuğumda sonuç tamamen karma oldu

    • Modelin Lehçeyi desteklemediği, Rusçayı desteklediği açıkça belirtilmiş
      13 dili destekliyor; benzer köklere sahip diller çok olduğunda parametre sayısının ya da eğitim verisi gereksiniminin nasıl değişeceğini merak ediyorum
    • Yalnızca desteklenen dil listesinde bulunan dillerle test etmenizi öneririm
    • Yalnızca belirli dillerde iyi performans vermesi üzücü. Resmî olarak yalnızca 13 dili güçlü biçimde destekliyor
    • Lehçe ve Ukraynacayı karıştırınca sonuç Rusça çıkıyor. Yalnızca Ukraynaca konuşunca bile her zaman Rusça olarak yazıya dökülmesi hayal kırıklığı yaratıyor
    • Lehçe, sesbilimsel yapısı gereği Kiril alfabesiyle yazılsa daha doğal olurdu ama tarihsel nedenlerle öyle değil. Sanırım bu tür şeyler yapay zekayı şaşırtıyor
  • FLEURS ölçütünde %4 kelime hata oranı ve dakikası $0.003 gibi bir rakam etkileyici
    Amazon Transcribe dakikada $0.024 istiyor, arada büyük fark var

    • Ama bu ücretin ses dakikası başına mı, yoksa hesaplama dakikası başına mı olduğunu merak ediyorum
      Örneğin fal.ai’nin Whisper API’si “hesaplama saniyesi başına $0.00125” diyor ama 10 ila 25 kat gerçek zaman hızında çalıştığı için çok daha ucuz oluyor
  • Bu model 14 dili anlayan çok dilli bir model
    Ama çoğu kullanım senaryosunda yalnızca tek dil gerekir, bu yüzden diğer diller sadece gecikmeyi artırıyor olabilir
    İleride bu tür genel amaçlı modellerde gereksiz kısımları azaltma yönünde bir akım oluşacak gibi görünüyor
    İlgili makaleye buradan bakabilirsiniz

    • Ama diller arası ödünç kelime çok olduğu için çok dilli model aslında faydalı da olabilir
      Örn: “voila”, “el camino real” gibi ifadeler
    • Bu model verimlilik ve doğruluğu aynı anda kanıtlamış gibi görünüyor
    • Azure, Google, Amazon gibi mevcut STT servisleri dili belirtmenizi istiyor ama kalite hâlâ yüksek
      Yine de içeride benzer bir LLM tabanlı mimari kullanıyor gibiler
    • İnsanlar tek dil kullanmıyor. Kod değiştirme doğal bir şey, bu yüzden tek dilli modellerin sınırları var
    • Komik olan şu ki yukarıdaki yorum dilleri azaltalım diyor, diğer yorumlar ise dil sayısının yetersiz olduğundan şikâyet ediyor
  • Performansı Deepgram nova-3 ile rekabetçi, çoğu durumda da Assembly ve ElevenLabs’ten daha iyiydi
    İç testlerde güçlü Britanya aksanına sahip 8kHz çağrı veri setiyle değerlendirildi ve fiilen SOTA seviyesindeydi
    Ama gecikme dağılımı (latency) biraz dengesizdi. Yerelde çalıştırıldığında düzelecek gibi görünüyor

  • Ne tür donanım kaynakları gerektiğini merak ediyorum
    Birden fazla üst seviye NVIDIA GPU mu gerekiyor, yoksa ESP32 gibi düşük güç cihazlarda çevrimdışı da mümkün mü, buna dair bir açıklama yoktu

  • Bunun Nvidia Parakeet V3’ten daha iyi olup olmadığını merak ediyorum. Şimdiye kadar yerelde benim için en iyi model oydu

    • Ben doğrudan Nemotron ASR portunu kullanıyorum ve memnunum
      model bağlantısı, inference portu ve GGUF sürümü burada
    • Parakeet V3’ü yerelde denedim; his olarak bu model biraz daha yavaş ama doğruluk daha yüksek
    • Parakeet v3’ü seviyordum ama bazen tüm cümleyi birden atlama sorunu oluyordu
    • Parakeet 0.6B, yani edge cihazlarda da çalışıyor. Voxtral ise 4B, bu yüzden Orin ya da Hailo’da gerçek zamanlı çalıştırmak zor görünüyor
    • Ben de aynı soruyu sormaya gelmiştim!
  • Konuşmacı ayrımı (diarization) özelliğinin varsayılan olarak geldiğini sanmıştım ama gerçek zamanlı sürümde yokmuş
    Voxtral-Mini-4B-Realtime-2602 yaklaşık 9GB’lık bir model

    • Konuşmacı ayrımı yalnızca Voxtral Mini Transcribe V2 sürümünde bulunuyor
  • Demoyu denedim; İngilizce tanıma harika ve dil geçişini de gerçek zamanlı algılıyor
    Ama Ukraynacayı hiç tanımıyor, hep Rusça olarak yazıya döküyor
    Diğer STT modelleri Ukraynacayı iyi işliyor; bunda ise eğitim verisinde büyük ölçüde sadece Rusça varmış gibi duruyor, bu da üzücü

    • Model yalnızca Rusçayı desteklediği için, girilen Ukraynacayı en yakın Rusça kelimelere eşliyor
  • Model iyi görünüyor ama önceki sürüm Parakeet’ten daha iyi değildi
    Qwen3-ASR gibi yeni modellerle nesnel karşılaştırmalar görmek gerekiyor
    Şirketlerin sunduğu özenle seçilmiş benchmark’lara artık güvenmek zor
    Şu an benim kullanımım için Parakeet v3 en hızlı ve en verimli seçenek

    • Open ASR Leaderboard var ama yarım yıldır güncellenmedi
    • Ben de Parakeet’i seviyorum, Mac’te Handy uygulamasıyla kullanıyorum.
      Telefonda hangi uygulamayı kullandığını merak ediyorum