3 puan yazan GN⁺ 26 일 전 | 2 yorum | WhatsApp'ta paylaş
  • İngilizce, Korece, Çince ve daha fazlası dahil 14 dili destekleyen, 2B (2 milyar) parametre ölçeğinde yeni nesil otomatik konuşma tanıma (ASR) modeli
  • Conformer tabanlı encoder-decoder mimarisi kullanıyor ve Apache 2.0 lisansı ile dağıtılıyor
  • İngilizce için ortalama kelime hata oranı (WER) %5,42 ile Whisper Large v3 gibi başlıca rakip modelleri geride bırakıyor ve Hugging Face Open ASR Leaderboard'da 1. sıraya yerleşiyor
  • Hem gerçek ortam değerlendirmelerinde hem de insan değerlendirmelerinde yüksek doğruluk ve tutarlılık gösterirken, çok dilli transkripsiyonda da istikrarlı performansını koruyor
  • Düşük gecikme ve yüksek işleme verimliliğini aynı anda sağlayarak gerçek zamanlı ürünler ve iş akışları için uygun hale geliyor

Cohere Transcribe'a genel bakış

  • Konuşma; toplantı kayıtları, ses analizi ve gerçek zamanlı müşteri desteği gibi alanlarda yapay zeka tabanlı iş otomasyonunun temel girdi biçimi olarak öne çıkıyor
  • Bu model, kelime hata oranını (WER) en aza indirmeyi hedefleyerek sıfırdan eğitildi ve araştırma yerine gerçek servis ortamlarında kullanım gözetilerek tasarlandı
  • GPU ve yerel ortamlarda da verimli çıkarım yapabiliyor; ayrıca Cohere'in yönetilen çıkarım platformu Model Vault üzerinden de kullanılabiliyor
  • Hugging Face'in Open ASR Leaderboard'unda doğrulukta 1. sıraya yerleşerek, gerçek ortam transkripsiyon performansı için yeni bir ölçüt ortaya koyuyor

Model mimarisi

  • Modelin adı cohere-transcribe-03-2026 ve Conformer tabanlı encoder-decoder mimarisi kullanıyor
    • Girdi tarafında ses dalga formu log-Mel spektrograma dönüştürülüyor, çıktı tarafında ise transkribe edilmiş metin üretiliyor
    • 2B (2 milyar) parametreli büyük bir Conformer encoder akustik temsilleri çıkarıyor, hafif bir Transformer decoder ise token'ları üretiyor
  • Standart çapraz entropi kaybı kullanılarak sıfırdan denetimli öğrenmeyle eğitildi
  • 14 dil desteği

    • Avrupa: İngilizce, Fransızca, Almanca, İtalyanca, İspanyolca, Portekizce, Yunanca, Felemenkçe, Lehçe
    • Asya-Pasifik: Çince (Mandarin), Japonca, Korece, Vietnamca
    • Orta Doğu ve Kuzey Afrika: Arapça
    • Apache 2.0 lisansı ile açıklandı

Model performansı

  • İngilizce konuşma tanıma doğruluğunda yeni standart, ortalama %5,42 WER ile açık ve kapalı kaynak ASR modelleri arasında en yüksek performans
    • Whisper Large v3, ElevenLabs Scribe v2, Qwen3-ASR-1.7B gibi başlıca rakip modelleri geride bırakıyor
  • Çeşitli gerçek ortam koşullarında da (çoklu konuşmacı, toplantı odası akustiği, farklı aksanlar) güçlü performansını koruyor
  • Başlıca benchmark sonuçları
    • AMI: 8.13, LS clean: 1.25, LS other: 2.37, Voxpopuli: 5.87
    • Ortalama WER 5.42 ile Zoom Scribe v1 (5.47), IBM Granite 4.0 (5.52), NVIDIA Canary Qwen 2.5B'den (5.63) daha iyi
  • Hugging Face Open ASR Leaderboard, birden çok veri setinde standartlaştırılmış WER ile değerlendirme yapıyor; düşük WER daha yüksek transkripsiyon doğruluğu anlamına geliyor

İnsan değerlendirme sonuçları

  • Benchmark dışındaki gerçek ortam değerlendirmelerinde de aynı üstün performans doğrulandı
    • Deneyimli değerlendiriciler, gerçek ses transkripsiyonu sonuçlarını doğruluk, tutarlılık ve kullanılabilirlik ölçütleriyle değerlendirdi
    • Hem otomatik değerlendirmelerde hem de insan değerlendirmelerinde tutarlı biçimde üstün performans gösterdi
  • İngilizce transkripsiyon kalitesi karşılaştırmalarında anlamın korunması, halüsinasyonun önlenmesi, özel isim tanıma ve biçimlendirme doğruluğu gibi alanlarda yüksek tercih oranı elde etti
  • Desteklenen dillere göre yapılan insan değerlendirmelerinde de %50'nin üzerinde tercih oranına ulaştı ve çok dilli ortamlarda istikrarlı performansını kanıtladı

İşleme hızı ve verimlilik

  • Gerçek servis ortamlarında gecikme (latency) ve iş hacmi (throughput) temel kısıtlar arasında yer alıyor
    • Doğruluk yüksek olsa bile model yavaşsa ya da çok kaynak tüketiyorsa bu durum kullanıcı deneyimini ve maliyeti doğrudan etkiliyor
  • Cohere Transcribe, 1B+ parametreli model sınıfında en üst düzey işleme verimliliğini korurken, düşük WER ile yüksek RTFx'i (gerçek zamanlı işleme katsayısı) aynı anda sağlıyor
  • RTFx, ses girdisinin gerçek zamana kıyasla ne kadar hızlı işlendiğini gösteren bir metrik; Transcribe ise hem doğrulukta hem hızda Pareto sınırını genişletiyor
  • Radical Ventures değerlendirmesi

    • Radical Ventures Başkan Yardımcısı Paige Dickie, Transcribe'ın hızını ve kalitesini yüksek değerlendirdi
    • “Birkaç dakikalık sesi birkaç saniye içinde transkribe ediyor ve gerçek zamanlı ürünler ile iş akışları için yeni olanaklar açtı” dedi
    • Günlük konuşmada da güçlü ve güvenilir transkripsiyon kalitesi sunduğunu, kullanım deneyiminin akıcı olduğunu belirtti

Gelecekteki gelişim yönü

  • Cohere, Transcribe'ı yapay zeka ajan orkestrasyon platformu North ile entegre etmeyi planlıyor
    • Gelecekte Transcribe'ın basit bir transkripsiyon modelinin ötesine geçerek kurumsal ses zekası altyapısına dönüşmesi hedefleniyor

Kullanım ve dağıtım

  • Model Hugging Face üzerinden indirilebiliyor ve yerel ya da edge ortamlarda çalıştırılabiliyor
  • Cohere API üzerinden ücretsiz olarak denenebiliyor, ancak istek sınırı (rate limit) bulunuyor
    • Kullanım yöntemi ve entegrasyon kılavuzu resmi dokümantasyonda sunuluyor
  • Model Vault ile altyapı yönetimine gerek kalmadan düşük gecikmeli, özel bulut çıkarımı mümkün
    • Saatlik instance ücretlendirmesi uygulanıyor, uzun süreli kullanımda indirim sunuluyor
    • Kurumsal dağıtım için Cohere satış ekibiyle iletişime geçilebiliyor

2 yorum

 
j2sus91 26 일 전

Açık kaynak değil de ücretli bir hizmet mi?

 
GN⁺ 26 일 전
Hacker News yorumları
  • ASR'nin (otomatik konuşma tanıma) sonunda OCR gibi olmasından endişe ediyorum
    Çok modlu büyük yapay zeka modelleri yeterince hızlı hale gelir ve bağlamı derinlemesine anlarsa, mevcut teknolojilerin hepsini içine çekip yutacakmış gibi geliyor
    OCR'de de karakterler bulanık taransa bile yapay zeka belgenin anlamını çıkarıp "sipariş ID'si genelde sipariş tarihinin altında olur" gibi kalıplardan hareketle çözebiliyor
    ASR de bu şekilde bağlama dayanarak "tahmin" etmeye başlarsa, gerçek konuşmayı bozma riski doğar

    • Bunun hem iyi hem kötü yanları var
      İyi bir ASR, benim anlayamadığım gürültülü konuşmayı bile anlayabilir, ama bazen fazla düzeltme yapıp nadir kelimeleri yaygın kelimelere dönüştürüyor
      OCR'de de Xerox vakası örneğinde olduğu gibi kulağa mantıklı gelen ama yanlış veriler üretilebiliyor
      Bu yüzden OCR'yi sadece arama amaçlı kullanıyorum ve orijinal taramaları hep saklıyorum
    • Zaten gerçek dünya şimdiden bu yöne gidiyor
      gpt-4o-transcribe gibi çok modlu LLM'ler, basit konuşma tanımadan çok daha başarılı
      Şirketin uzmanlık terimlerini ya da organizasyon şemasını prompt'a ekleyebildiğiniz için, "PR incelemesini Kaitlyn'e yaptır" gibi cümlelerde bile kişileri doğru ayırt ediyor
      Yaptığım Mac için açık kaynaklı araç ile OpenAI API anahtarı ve özel prompt'lar kullanılabiliyor
    • Neden endişelendiğini anlamıyorum
      Teknoloji ilerledikçe bazı teknolojiler ortadan kalksa bile sonuçta daha iyi bir yöne gidilmiş olmuyor mu?
    • ASR zaten faydası kanıtlanmış bir teknoloji
      Whisper çıktıktan sonra yerelde çalışan konuşma tanıma modellerinin sayısı patladı
      Örnek: superwhisper.com, carelesswhisper.app, macwhisper.com
    • STT'nin (konuşma→metin) bir süre daha yerel işleme tarafında avantajlı kalacağını düşünüyorum
      Mikrofonlu cihazda doğrudan işlenirse bant genişliği ciddi ölçüde azaltılabilir ve buluta gönderme gerekmeyebilir
  • Modelde timestamp ya da konuşmacı ayrımı (diarization) olmaması hayal kırıklığı yaratıyor
    WhisperX'in hâlâ bu amaç için en iyi seçenek olup olmadığını merak ediyorum

    • Ticari API'ler arasında bile konuşmacı ayrımı ve kelime düzeyinde timestamp'leri güvenilir şekilde destekleyen neredeyse yok
      Google Chirp'te segment atlama, halüsinasyon, timestamp uyuşmazlığı gibi pek çok sorun vardı
      AWS biraz daha iyi ama kelime düzeyinde senkronizasyon hâlâ kararsız
      Whisper'da da halüsinasyon sık görülüyor, OpenAI'nin yeni modeli ise doğru ama timestamp desteği sunmuyor
      Sonradan işleme ile çözmek mümkün ama keşke doğrudan güvenilip kullanılabilecek bir API olsa
    • WhisperX bir model değil, Whisper ve başka modelleri bir araya getiren bir yazılım paketi
      Cohere Transcribe için entegre bir sürüm de yakında gelir gibi duruyor
    • Qwen-ASR öneririm
      Sayfanın altında timestamp içeren örnekler var
    • Mistral Voxtral, timestamp ve konuşmacı ayrımını destekliyor ve Almancada iyi performans gösterdi
    • whisper-timestamped de var
      Ek bir model olmadan, Whisper'ın cross-attention ağırlıklarını kullanıp Dynamic Time Warping ile hizalama yapıyor
  • Cohere'in servisinden çok memnunum
    Birkaç ay önce clip-style embedding modeline geçtim ve şimdiye kadar kullandığım harici servisler arasında P50 gecikmesi en istikrarlı olanı bu oldu

    • Genel kalite nasıl, merak ediyorum
      Cohere modelleri genelde daha küçük ve daha düşük performanslı olma eğiliminde
  • Pek çok STT modeli yalnızca kusursuz telaffuzlu konuşmalarla eğitildiği için yabancı aksanlarda zayıf kalıyor
    Fransız aksanlı İngilizce konuşan biri olarak bu modeli kesinlikle denemek istiyorum
    Şimdiye kadar dil öğrenme uygulamamda (Copycat Cafe) en iyi çalışan Soniox oldu; Whisper tabanlı modeller ise daha çok halüsinasyon cümleleri üretme eğilimindeydi

  • Kendi iç veri setimizle (250 adet Birleşik Krallık posta kodu ses kaydı) test ettik ve oldukça rekabetçiydi
    Soniox %71, ElevenLabs %68,5, AssemblyAI %66,9, Deepgram %63,7, Cohere %59,7, Speechmatics ise yaklaşık %54 aldı

    • compare-stt.com'da Gladia'nın kör testte 1. olduğu söyleniyor
    • Tablo render etmek için satırlar arasında iki boş satır bırakmak yeterli
    • İnsan referansı 248/248 mi, merak ediyorum
  • Bu modelin özel kelime sözlüğü, word boosting ya da prompt ekleme desteklememesi üzücü

  • Büyük ihtimalle yine benchmark odaklı bir ASR modeli
    Twitch yayın kesitlerini YouTube'a yüklerken altyazıları Whisper-large-v3 ile üretiyorum
    İyi bir ASR'de aradıklarım şunlar:

    1. timestamp desteği
    2. eşzamanlı konuşmacı tanıma
    3. doğru transkripsiyon
    4. [öksürük], [gülme] gibi sözsüz ifadelerin dahil edilmesi
    5. 10 bin kelimeden fazla bağlam enjekte edebilme
      WhisperX ile 5 dakikada transkripsiyon alabiliyorum ama en büyük sorun hâlâ cümlelerin atlanması
    • 3 ve 4 numara, çoğu müşteri için aslında gereksiz özellikler de olabilir
  • "Açık kaynak" deniyorsa, gerçekten kaynak kodu mu var yoksa yalnızca model ağırlıkları mı yayımlandı, merak ediyorum

    • Dosyalar Hugging Face'ten indirilebiliyor,
      ayrıca ONNX'e dönüştürülmüş sürüm de var; böylece CPU'da da çalıştırılabiliyor
    • Çoğu durumda "açık kaynak" denince kastedilen şey ağırlıkların yayımlanması oluyor
      Model eğitimi çok pahalı olduğundan, sadece çıktının paylaşılması bile yeterince faydalı olabiliyor
    • Muhtemelen ifade modelin kendisini kastetmek için kullanılmıştır
  • Bu modelin kendi boyut sınıfında SOTA olup olmadığını merak ediyorum
    Parakeet'ten daha iyi mi, bilmek isterim

    • Hugging Face ASR leaderboard'a bakılırsa
      Parakeet (0.6B) hızlı ama WER açısından ilk 10 civarında görünüyor
    • Cohere modeli 2B parametreye sahip; yani Parakeet'ten (0.6B, 1.1B) daha büyük ve benchmark'larda da daha iyi sonuç veriyor
  • Eskiden Dragon Dictate kullanıyordum; eğitimi uzun sürüyor, sonuçları da pek iyi olmuyordu
    Yakın zamanda bir podcast röportajı yaptım ve Apple Podcasts otomatik olarak yapay zeka transkripsiyonu oluşturdu
    Hata sayısı çok değildi ama konuşmacı ayrımının olmaması en rahatsız edici kısımdı

    • O zamanlarda 64MB RAM'de bile çalışan konuşma tanıma yazılımları vardı
      Çocukken böyle TTS/konuşma tanıma shareware yazılımlarını aşırı fazla indirirdim