Cohere Transcribe - SOTA açık kaynak konuşma tanıma modeli

(cohere.com)

3 puan yazan GN⁺ 26 일 전 | 2 yorum | WhatsApp'ta paylaş

İngilizce, Korece, Çince ve daha fazlası dahil 14 dili destekleyen, 2B (2 milyar) parametre ölçeğinde yeni nesil otomatik konuşma tanıma (ASR) modeli
Conformer tabanlı encoder-decoder mimarisi kullanıyor ve Apache 2.0 lisansı ile dağıtılıyor
İngilizce için ortalama kelime hata oranı (WER) %5,42 ile Whisper Large v3 gibi başlıca rakip modelleri geride bırakıyor ve Hugging Face Open ASR Leaderboard'da 1. sıraya yerleşiyor
Hem gerçek ortam değerlendirmelerinde hem de insan değerlendirmelerinde yüksek doğruluk ve tutarlılık gösterirken, çok dilli transkripsiyonda da istikrarlı performansını koruyor
Düşük gecikme ve yüksek işleme verimliliğini aynı anda sağlayarak gerçek zamanlı ürünler ve iş akışları için uygun hale geliyor

Cohere Transcribe'a genel bakış

Konuşma; toplantı kayıtları, ses analizi ve gerçek zamanlı müşteri desteği gibi alanlarda yapay zeka tabanlı iş otomasyonunun temel girdi biçimi olarak öne çıkıyor
Bu model, kelime hata oranını (WER) en aza indirmeyi hedefleyerek sıfırdan eğitildi ve araştırma yerine gerçek servis ortamlarında kullanım gözetilerek tasarlandı
GPU ve yerel ortamlarda da verimli çıkarım yapabiliyor; ayrıca Cohere'in yönetilen çıkarım platformu Model Vault üzerinden de kullanılabiliyor
Hugging Face'in Open ASR Leaderboard'unda doğrulukta 1. sıraya yerleşerek, gerçek ortam transkripsiyon performansı için yeni bir ölçüt ortaya koyuyor

Model mimarisi

Modelin adı cohere-transcribe-03-2026 ve Conformer tabanlı encoder-decoder mimarisi kullanıyor
- Girdi tarafında ses dalga formu log-Mel spektrograma dönüştürülüyor, çıktı tarafında ise transkribe edilmiş metin üretiliyor
- 2B (2 milyar) parametreli büyük bir Conformer encoder akustik temsilleri çıkarıyor, hafif bir Transformer decoder ise token'ları üretiyor
Standart çapraz entropi kaybı kullanılarak sıfırdan denetimli öğrenmeyle eğitildi
14 dil desteği
- Avrupa: İngilizce, Fransızca, Almanca, İtalyanca, İspanyolca, Portekizce, Yunanca, Felemenkçe, Lehçe
- Asya-Pasifik: Çince (Mandarin), Japonca, Korece, Vietnamca
- Orta Doğu ve Kuzey Afrika: Arapça
- Apache 2.0 lisansı ile açıklandı

Model performansı

İngilizce konuşma tanıma doğruluğunda yeni standart, ortalama %5,42 WER ile açık ve kapalı kaynak ASR modelleri arasında en yüksek performans
- Whisper Large v3, ElevenLabs Scribe v2, Qwen3-ASR-1.7B gibi başlıca rakip modelleri geride bırakıyor
Çeşitli gerçek ortam koşullarında da (çoklu konuşmacı, toplantı odası akustiği, farklı aksanlar) güçlü performansını koruyor
Başlıca benchmark sonuçları
- AMI: 8.13, LS clean: 1.25, LS other: 2.37, Voxpopuli: 5.87
- Ortalama WER 5.42 ile Zoom Scribe v1 (5.47), IBM Granite 4.0 (5.52), NVIDIA Canary Qwen 2.5B'den (5.63) daha iyi
Hugging Face Open ASR Leaderboard, birden çok veri setinde standartlaştırılmış WER ile değerlendirme yapıyor; düşük WER daha yüksek transkripsiyon doğruluğu anlamına geliyor

İnsan değerlendirme sonuçları

Benchmark dışındaki gerçek ortam değerlendirmelerinde de aynı üstün performans doğrulandı
- Deneyimli değerlendiriciler, gerçek ses transkripsiyonu sonuçlarını doğruluk, tutarlılık ve kullanılabilirlik ölçütleriyle değerlendirdi
- Hem otomatik değerlendirmelerde hem de insan değerlendirmelerinde tutarlı biçimde üstün performans gösterdi
İngilizce transkripsiyon kalitesi karşılaştırmalarında anlamın korunması, halüsinasyonun önlenmesi, özel isim tanıma ve biçimlendirme doğruluğu gibi alanlarda yüksek tercih oranı elde etti
Desteklenen dillere göre yapılan insan değerlendirmelerinde de %50'nin üzerinde tercih oranına ulaştı ve çok dilli ortamlarda istikrarlı performansını kanıtladı

İşleme hızı ve verimlilik

Gerçek servis ortamlarında gecikme (latency) ve iş hacmi (throughput) temel kısıtlar arasında yer alıyor
- Doğruluk yüksek olsa bile model yavaşsa ya da çok kaynak tüketiyorsa bu durum kullanıcı deneyimini ve maliyeti doğrudan etkiliyor
Cohere Transcribe, 1B+ parametreli model sınıfında en üst düzey işleme verimliliğini korurken, düşük WER ile yüksek RTFx'i (gerçek zamanlı işleme katsayısı) aynı anda sağlıyor
RTFx, ses girdisinin gerçek zamana kıyasla ne kadar hızlı işlendiğini gösteren bir metrik; Transcribe ise hem doğrulukta hem hızda Pareto sınırını genişletiyor
Radical Ventures değerlendirmesi
- Radical Ventures Başkan Yardımcısı Paige Dickie, Transcribe'ın hızını ve kalitesini yüksek değerlendirdi
- “Birkaç dakikalık sesi birkaç saniye içinde transkribe ediyor ve gerçek zamanlı ürünler ile iş akışları için yeni olanaklar açtı” dedi
- Günlük konuşmada da güçlü ve güvenilir transkripsiyon kalitesi sunduğunu, kullanım deneyiminin akıcı olduğunu belirtti

Gelecekteki gelişim yönü

Cohere, Transcribe'ı yapay zeka ajan orkestrasyon platformu North ile entegre etmeyi planlıyor
- Gelecekte Transcribe'ın basit bir transkripsiyon modelinin ötesine geçerek kurumsal ses zekası altyapısına dönüşmesi hedefleniyor

Kullanım ve dağıtım

Model Hugging Face üzerinden indirilebiliyor ve yerel ya da edge ortamlarda çalıştırılabiliyor
Cohere API üzerinden ücretsiz olarak denenebiliyor, ancak istek sınırı (rate limit) bulunuyor
- Kullanım yöntemi ve entegrasyon kılavuzu resmi dokümantasyonda sunuluyor
Model Vault ile altyapı yönetimine gerek kalmadan düşük gecikmeli, özel bulut çıkarımı mümkün
- Saatlik instance ücretlendirmesi uygulanıyor, uzun süreli kullanımda indirim sunuluyor
- Kurumsal dağıtım için Cohere satış ekibiyle iletişime geçilebiliyor

2 yorum

j2sus91 26 일 전

Açık kaynak değil de ücretli bir hizmet mi?

GN⁺ 26 일 전

Hacker News yorumları

ASR'nin (otomatik konuşma tanıma) sonunda OCR gibi olmasından endişe ediyorum
Çok modlu büyük yapay zeka modelleri yeterince hızlı hale gelir ve bağlamı derinlemesine anlarsa, mevcut teknolojilerin hepsini içine çekip yutacakmış gibi geliyor
OCR'de de karakterler bulanık taransa bile yapay zeka belgenin anlamını çıkarıp "sipariş ID'si genelde sipariş tarihinin altında olur" gibi kalıplardan hareketle çözebiliyor
ASR de bu şekilde bağlama dayanarak "tahmin" etmeye başlarsa, gerçek konuşmayı bozma riski doğar
- Bunun hem iyi hem kötü yanları var
  İyi bir ASR, benim anlayamadığım gürültülü konuşmayı bile anlayabilir, ama bazen fazla düzeltme yapıp nadir kelimeleri yaygın kelimelere dönüştürüyor
  OCR'de de Xerox vakası örneğinde olduğu gibi kulağa mantıklı gelen ama yanlış veriler üretilebiliyor
  Bu yüzden OCR'yi sadece arama amaçlı kullanıyorum ve orijinal taramaları hep saklıyorum
- Zaten gerçek dünya şimdiden bu yöne gidiyor
  gpt-4o-transcribe gibi çok modlu LLM'ler, basit konuşma tanımadan çok daha başarılı
  Şirketin uzmanlık terimlerini ya da organizasyon şemasını prompt'a ekleyebildiğiniz için, "PR incelemesini Kaitlyn'e yaptır" gibi cümlelerde bile kişileri doğru ayırt ediyor
  Yaptığım Mac için açık kaynaklı araç ile OpenAI API anahtarı ve özel prompt'lar kullanılabiliyor
- Neden endişelendiğini anlamıyorum
  Teknoloji ilerledikçe bazı teknolojiler ortadan kalksa bile sonuçta daha iyi bir yöne gidilmiş olmuyor mu?
- ASR zaten faydası kanıtlanmış bir teknoloji
  Whisper çıktıktan sonra yerelde çalışan konuşma tanıma modellerinin sayısı patladı
  Örnek: superwhisper.com, carelesswhisper.app, macwhisper.com
- STT'nin (konuşma→metin) bir süre daha yerel işleme tarafında avantajlı kalacağını düşünüyorum
  Mikrofonlu cihazda doğrudan işlenirse bant genişliği ciddi ölçüde azaltılabilir ve buluta gönderme gerekmeyebilir
Modelde timestamp ya da konuşmacı ayrımı (diarization) olmaması hayal kırıklığı yaratıyor
WhisperX'in hâlâ bu amaç için en iyi seçenek olup olmadığını merak ediyorum
- Ticari API'ler arasında bile konuşmacı ayrımı ve kelime düzeyinde timestamp'leri güvenilir şekilde destekleyen neredeyse yok
  Google Chirp'te segment atlama, halüsinasyon, timestamp uyuşmazlığı gibi pek çok sorun vardı
  AWS biraz daha iyi ama kelime düzeyinde senkronizasyon hâlâ kararsız
  Whisper'da da halüsinasyon sık görülüyor, OpenAI'nin yeni modeli ise doğru ama timestamp desteği sunmuyor
  Sonradan işleme ile çözmek mümkün ama keşke doğrudan güvenilip kullanılabilecek bir API olsa
- WhisperX bir model değil, Whisper ve başka modelleri bir araya getiren bir yazılım paketi
  Cohere Transcribe için entegre bir sürüm de yakında gelir gibi duruyor
- Qwen-ASR öneririm
  Sayfanın altında timestamp içeren örnekler var
- Mistral Voxtral, timestamp ve konuşmacı ayrımını destekliyor ve Almancada iyi performans gösterdi
- whisper-timestamped de var
  Ek bir model olmadan, Whisper'ın cross-attention ağırlıklarını kullanıp Dynamic Time Warping ile hizalama yapıyor
Cohere'in servisinden çok memnunum
Birkaç ay önce clip-style embedding modeline geçtim ve şimdiye kadar kullandığım harici servisler arasında P50 gecikmesi en istikrarlı olanı bu oldu
- Genel kalite nasıl, merak ediyorum
  Cohere modelleri genelde daha küçük ve daha düşük performanslı olma eğiliminde
Pek çok STT modeli yalnızca kusursuz telaffuzlu konuşmalarla eğitildiği için yabancı aksanlarda zayıf kalıyor
Fransız aksanlı İngilizce konuşan biri olarak bu modeli kesinlikle denemek istiyorum
Şimdiye kadar dil öğrenme uygulamamda (Copycat Cafe) en iyi çalışan Soniox oldu; Whisper tabanlı modeller ise daha çok halüsinasyon cümleleri üretme eğilimindeydi
Kendi iç veri setimizle (250 adet Birleşik Krallık posta kodu ses kaydı) test ettik ve oldukça rekabetçiydi
Soniox %71, ElevenLabs %68,5, AssemblyAI %66,9, Deepgram %63,7, Cohere %59,7, Speechmatics ise yaklaşık %54 aldı
- compare-stt.com'da Gladia'nın kör testte 1. olduğu söyleniyor
- Tablo render etmek için satırlar arasında iki boş satır bırakmak yeterli
- İnsan referansı 248/248 mi, merak ediyorum
Bu modelin özel kelime sözlüğü, word boosting ya da prompt ekleme desteklememesi üzücü
Büyük ihtimalle yine benchmark odaklı bir ASR modeli
Twitch yayın kesitlerini YouTube'a yüklerken altyazıları Whisper-large-v3 ile üretiyorum
İyi bir ASR'de aradıklarım şunlar:
1. timestamp desteği
2. eşzamanlı konuşmacı tanıma
3. doğru transkripsiyon
4. [öksürük], [gülme] gibi sözsüz ifadelerin dahil edilmesi
5. 10 bin kelimeden fazla bağlam enjekte edebilme
  WhisperX ile 5 dakikada transkripsiyon alabiliyorum ama en büyük sorun hâlâ cümlelerin atlanması
- 3 ve 4 numara, çoğu müşteri için aslında gereksiz özellikler de olabilir
"Açık kaynak" deniyorsa, gerçekten kaynak kodu mu var yoksa yalnızca model ağırlıkları mı yayımlandı, merak ediyorum
- Dosyalar Hugging Face'ten indirilebiliyor,
  ayrıca ONNX'e dönüştürülmüş sürüm de var; böylece CPU'da da çalıştırılabiliyor
- Çoğu durumda "açık kaynak" denince kastedilen şey ağırlıkların yayımlanması oluyor
  Model eğitimi çok pahalı olduğundan, sadece çıktının paylaşılması bile yeterince faydalı olabiliyor
- Muhtemelen ifade modelin kendisini kastetmek için kullanılmıştır
Bu modelin kendi boyut sınıfında SOTA olup olmadığını merak ediyorum
Parakeet'ten daha iyi mi, bilmek isterim
- Hugging Face ASR leaderboard'a bakılırsa
  Parakeet (0.6B) hızlı ama WER açısından ilk 10 civarında görünüyor
- Cohere modeli 2B parametreye sahip; yani Parakeet'ten (0.6B, 1.1B) daha büyük ve benchmark'larda da daha iyi sonuç veriyor
Eskiden Dragon Dictate kullanıyordum; eğitimi uzun sürüyor, sonuçları da pek iyi olmuyordu
Yakın zamanda bir podcast röportajı yaptım ve Apple Podcasts otomatik olarak yapay zeka transkripsiyonu oluşturdu
Hata sayısı çok değildi ama konuşmacı ayrımının olmaması en rahatsız edici kısımdı
- O zamanlarda 64MB RAM'de bile çalışan konuşma tanıma yazılımları vardı
  Çocukken böyle TTS/konuşma tanıma shareware yazılımlarını aşırı fazla indirirdim

Cohere Transcribe - SOTA açık kaynak konuşma tanıma modeli

Cohere Transcribe'a genel bakış

Model mimarisi

14 dil desteği

Model performansı

İnsan değerlendirme sonuçları

İşleme hızı ve verimlilik

Radical Ventures değerlendirmesi

Gelecekteki gelişim yönü

Kullanım ve dağıtım

İlgili okumalar

2 yorum

Hacker News yorumları