- İngilizce, Korece, Çince ve daha fazlası dahil 14 dili destekleyen, 2B (2 milyar) parametre ölçeğinde yeni nesil otomatik konuşma tanıma (ASR) modeli
- Conformer tabanlı encoder-decoder mimarisi kullanıyor ve Apache 2.0 lisansı ile dağıtılıyor
- İngilizce için ortalama kelime hata oranı (WER) %5,42 ile Whisper Large v3 gibi başlıca rakip modelleri geride bırakıyor ve Hugging Face Open ASR Leaderboard'da 1. sıraya yerleşiyor
- Hem gerçek ortam değerlendirmelerinde hem de insan değerlendirmelerinde yüksek doğruluk ve tutarlılık gösterirken, çok dilli transkripsiyonda da istikrarlı performansını koruyor
- Düşük gecikme ve yüksek işleme verimliliğini aynı anda sağlayarak gerçek zamanlı ürünler ve iş akışları için uygun hale geliyor
Cohere Transcribe'a genel bakış
- Konuşma; toplantı kayıtları, ses analizi ve gerçek zamanlı müşteri desteği gibi alanlarda yapay zeka tabanlı iş otomasyonunun temel girdi biçimi olarak öne çıkıyor
- Bu model, kelime hata oranını (WER) en aza indirmeyi hedefleyerek sıfırdan eğitildi ve araştırma yerine gerçek servis ortamlarında kullanım gözetilerek tasarlandı
- GPU ve yerel ortamlarda da verimli çıkarım yapabiliyor; ayrıca Cohere'in yönetilen çıkarım platformu Model Vault üzerinden de kullanılabiliyor
- Hugging Face'in Open ASR Leaderboard'unda doğrulukta 1. sıraya yerleşerek, gerçek ortam transkripsiyon performansı için yeni bir ölçüt ortaya koyuyor
Model mimarisi
- Modelin adı cohere-transcribe-03-2026 ve Conformer tabanlı encoder-decoder mimarisi kullanıyor
- Girdi tarafında ses dalga formu log-Mel spektrograma dönüştürülüyor, çıktı tarafında ise transkribe edilmiş metin üretiliyor
- 2B (2 milyar) parametreli büyük bir Conformer encoder akustik temsilleri çıkarıyor, hafif bir Transformer decoder ise token'ları üretiyor
- Standart çapraz entropi kaybı kullanılarak sıfırdan denetimli öğrenmeyle eğitildi
-
14 dil desteği
- Avrupa: İngilizce, Fransızca, Almanca, İtalyanca, İspanyolca, Portekizce, Yunanca, Felemenkçe, Lehçe
- Asya-Pasifik: Çince (Mandarin), Japonca, Korece, Vietnamca
- Orta Doğu ve Kuzey Afrika: Arapça
- Apache 2.0 lisansı ile açıklandı
Model performansı
- İngilizce konuşma tanıma doğruluğunda yeni standart, ortalama %5,42 WER ile açık ve kapalı kaynak ASR modelleri arasında en yüksek performans
- Whisper Large v3, ElevenLabs Scribe v2, Qwen3-ASR-1.7B gibi başlıca rakip modelleri geride bırakıyor
- Çeşitli gerçek ortam koşullarında da (çoklu konuşmacı, toplantı odası akustiği, farklı aksanlar) güçlü performansını koruyor
- Başlıca benchmark sonuçları
- AMI: 8.13, LS clean: 1.25, LS other: 2.37, Voxpopuli: 5.87
- Ortalama WER 5.42 ile Zoom Scribe v1 (5.47), IBM Granite 4.0 (5.52), NVIDIA Canary Qwen 2.5B'den (5.63) daha iyi
- Hugging Face Open ASR Leaderboard, birden çok veri setinde standartlaştırılmış WER ile değerlendirme yapıyor; düşük WER daha yüksek transkripsiyon doğruluğu anlamına geliyor
İnsan değerlendirme sonuçları
- Benchmark dışındaki gerçek ortam değerlendirmelerinde de aynı üstün performans doğrulandı
- Deneyimli değerlendiriciler, gerçek ses transkripsiyonu sonuçlarını doğruluk, tutarlılık ve kullanılabilirlik ölçütleriyle değerlendirdi
- Hem otomatik değerlendirmelerde hem de insan değerlendirmelerinde tutarlı biçimde üstün performans gösterdi
- İngilizce transkripsiyon kalitesi karşılaştırmalarında anlamın korunması, halüsinasyonun önlenmesi, özel isim tanıma ve biçimlendirme doğruluğu gibi alanlarda yüksek tercih oranı elde etti
- Desteklenen dillere göre yapılan insan değerlendirmelerinde de %50'nin üzerinde tercih oranına ulaştı ve çok dilli ortamlarda istikrarlı performansını kanıtladı
İşleme hızı ve verimlilik
- Gerçek servis ortamlarında gecikme (latency) ve iş hacmi (throughput) temel kısıtlar arasında yer alıyor
- Doğruluk yüksek olsa bile model yavaşsa ya da çok kaynak tüketiyorsa bu durum kullanıcı deneyimini ve maliyeti doğrudan etkiliyor
- Cohere Transcribe, 1B+ parametreli model sınıfında en üst düzey işleme verimliliğini korurken, düşük WER ile yüksek RTFx'i (gerçek zamanlı işleme katsayısı) aynı anda sağlıyor
- RTFx, ses girdisinin gerçek zamana kıyasla ne kadar hızlı işlendiğini gösteren bir metrik; Transcribe ise hem doğrulukta hem hızda Pareto sınırını genişletiyor
-
Radical Ventures değerlendirmesi
- Radical Ventures Başkan Yardımcısı Paige Dickie, Transcribe'ın hızını ve kalitesini yüksek değerlendirdi
- “Birkaç dakikalık sesi birkaç saniye içinde transkribe ediyor ve gerçek zamanlı ürünler ile iş akışları için yeni olanaklar açtı” dedi
- Günlük konuşmada da güçlü ve güvenilir transkripsiyon kalitesi sunduğunu, kullanım deneyiminin akıcı olduğunu belirtti
Gelecekteki gelişim yönü
- Cohere, Transcribe'ı yapay zeka ajan orkestrasyon platformu North ile entegre etmeyi planlıyor
- Gelecekte Transcribe'ın basit bir transkripsiyon modelinin ötesine geçerek kurumsal ses zekası altyapısına dönüşmesi hedefleniyor
Kullanım ve dağıtım
- Model Hugging Face üzerinden indirilebiliyor ve yerel ya da edge ortamlarda çalıştırılabiliyor
- Cohere API üzerinden ücretsiz olarak denenebiliyor, ancak istek sınırı (rate limit) bulunuyor
- Kullanım yöntemi ve entegrasyon kılavuzu resmi dokümantasyonda sunuluyor
- Model Vault ile altyapı yönetimine gerek kalmadan düşük gecikmeli, özel bulut çıkarımı mümkün
- Saatlik instance ücretlendirmesi uygulanıyor, uzun süreli kullanımda indirim sunuluyor
- Kurumsal dağıtım için Cohere satış ekibiyle iletişime geçilebiliyor
2 yorum
Açık kaynak değil de ücretli bir hizmet mi?
Hacker News yorumları
ASR'nin (otomatik konuşma tanıma) sonunda OCR gibi olmasından endişe ediyorum
Çok modlu büyük yapay zeka modelleri yeterince hızlı hale gelir ve bağlamı derinlemesine anlarsa, mevcut teknolojilerin hepsini içine çekip yutacakmış gibi geliyor
OCR'de de karakterler bulanık taransa bile yapay zeka belgenin anlamını çıkarıp "sipariş ID'si genelde sipariş tarihinin altında olur" gibi kalıplardan hareketle çözebiliyor
ASR de bu şekilde bağlama dayanarak "tahmin" etmeye başlarsa, gerçek konuşmayı bozma riski doğar
İyi bir ASR, benim anlayamadığım gürültülü konuşmayı bile anlayabilir, ama bazen fazla düzeltme yapıp nadir kelimeleri yaygın kelimelere dönüştürüyor
OCR'de de Xerox vakası örneğinde olduğu gibi kulağa mantıklı gelen ama yanlış veriler üretilebiliyor
Bu yüzden OCR'yi sadece arama amaçlı kullanıyorum ve orijinal taramaları hep saklıyorum
gpt-4o-transcribe gibi çok modlu LLM'ler, basit konuşma tanımadan çok daha başarılı
Şirketin uzmanlık terimlerini ya da organizasyon şemasını prompt'a ekleyebildiğiniz için, "PR incelemesini Kaitlyn'e yaptır" gibi cümlelerde bile kişileri doğru ayırt ediyor
Yaptığım Mac için açık kaynaklı araç ile OpenAI API anahtarı ve özel prompt'lar kullanılabiliyor
Teknoloji ilerledikçe bazı teknolojiler ortadan kalksa bile sonuçta daha iyi bir yöne gidilmiş olmuyor mu?
Whisper çıktıktan sonra yerelde çalışan konuşma tanıma modellerinin sayısı patladı
Örnek: superwhisper.com, carelesswhisper.app, macwhisper.com
Mikrofonlu cihazda doğrudan işlenirse bant genişliği ciddi ölçüde azaltılabilir ve buluta gönderme gerekmeyebilir
Modelde timestamp ya da konuşmacı ayrımı (diarization) olmaması hayal kırıklığı yaratıyor
WhisperX'in hâlâ bu amaç için en iyi seçenek olup olmadığını merak ediyorum
Google Chirp'te segment atlama, halüsinasyon, timestamp uyuşmazlığı gibi pek çok sorun vardı
AWS biraz daha iyi ama kelime düzeyinde senkronizasyon hâlâ kararsız
Whisper'da da halüsinasyon sık görülüyor, OpenAI'nin yeni modeli ise doğru ama timestamp desteği sunmuyor
Sonradan işleme ile çözmek mümkün ama keşke doğrudan güvenilip kullanılabilecek bir API olsa
Cohere Transcribe için entegre bir sürüm de yakında gelir gibi duruyor
Sayfanın altında timestamp içeren örnekler var
Ek bir model olmadan, Whisper'ın cross-attention ağırlıklarını kullanıp Dynamic Time Warping ile hizalama yapıyor
Cohere'in servisinden çok memnunum
Birkaç ay önce clip-style embedding modeline geçtim ve şimdiye kadar kullandığım harici servisler arasında P50 gecikmesi en istikrarlı olanı bu oldu
Cohere modelleri genelde daha küçük ve daha düşük performanslı olma eğiliminde
Pek çok STT modeli yalnızca kusursuz telaffuzlu konuşmalarla eğitildiği için yabancı aksanlarda zayıf kalıyor
Fransız aksanlı İngilizce konuşan biri olarak bu modeli kesinlikle denemek istiyorum
Şimdiye kadar dil öğrenme uygulamamda (Copycat Cafe) en iyi çalışan Soniox oldu; Whisper tabanlı modeller ise daha çok halüsinasyon cümleleri üretme eğilimindeydi
Kendi iç veri setimizle (250 adet Birleşik Krallık posta kodu ses kaydı) test ettik ve oldukça rekabetçiydi
Soniox %71, ElevenLabs %68,5, AssemblyAI %66,9, Deepgram %63,7, Cohere %59,7, Speechmatics ise yaklaşık %54 aldı
Bu modelin özel kelime sözlüğü, word boosting ya da prompt ekleme desteklememesi üzücü
Büyük ihtimalle yine benchmark odaklı bir ASR modeli
Twitch yayın kesitlerini YouTube'a yüklerken altyazıları Whisper-large-v3 ile üretiyorum
İyi bir ASR'de aradıklarım şunlar:
WhisperX ile 5 dakikada transkripsiyon alabiliyorum ama en büyük sorun hâlâ cümlelerin atlanması
"Açık kaynak" deniyorsa, gerçekten kaynak kodu mu var yoksa yalnızca model ağırlıkları mı yayımlandı, merak ediyorum
ayrıca ONNX'e dönüştürülmüş sürüm de var; böylece CPU'da da çalıştırılabiliyor
Model eğitimi çok pahalı olduğundan, sadece çıktının paylaşılması bile yeterince faydalı olabiliyor
Bu modelin kendi boyut sınıfında SOTA olup olmadığını merak ediyorum
Parakeet'ten daha iyi mi, bilmek isterim
Parakeet (0.6B) hızlı ama WER açısından ilk 10 civarında görünüyor
Eskiden Dragon Dictate kullanıyordum; eğitimi uzun sürüyor, sonuçları da pek iyi olmuyordu
Yakın zamanda bir podcast röportajı yaptım ve Apple Podcasts otomatik olarak yapay zeka transkripsiyonu oluşturdu
Hata sayısı çok değildi ama konuşmacı ayrımının olmaması en rahatsız edici kısımdı
Çocukken böyle TTS/konuşma tanıma shareware yazılımlarını aşırı fazla indirirdim