Apple’ın yeni Speech API’si, Whisper’dan çok daha hızlı gerçek zamanlı konuşma-metin dönüşümü sunuyor

(macstories.net)

16 puan yazan GN⁺ 2025-06-21 | 6 yorum | WhatsApp'ta paylaş

Apple’ın SpeechAnalyzer ve SpeechTranscriber’ı, OpenAI’nin Whisper’ına kıyasla çok daha yüksek hızda ve aynı kalitede gerçek zamanlı konuşma-metin dönüşümünü destekliyor
Gerçek bir 34 dakikalık, 7 GB’lık video dosyası Yap komut satırı aracı ile dönüştürüldüğünde yalnızca 45 saniyede SRT dosyasına çevrildi; bu, MacWhisper’a göre 2,2 kat daha hızlı bir sonuç
MacWhisper, VidCap ve diğer araçlarla kalite farkı neredeyse yok, ancak hepsinde özel isimler ve birleşik sözcüklerin işlenmesinde küçük hatalar görülüyor
Uzun geliştirici videoları, dersler, podcast’ler gibi tekrar eden işlerde birikimli zaman tasarrufu etkisi çok büyük
macOS Tahoe beta’da (geliştirici hesabı gerekli) Yap kurulduktan sonra hemen kullanılabiliyor; gelecekte Apple’ın tüm platformlarında (iPhone, iPad, Mac, Vision Pro) Whisper’ın yerini alması bekleniyor

Apple Speech API vs Whisper: yeni bir hız devrimi

Yakın zamanda WWDC’de tanıtılan SpeechAnalyzer ve SpeechTranscriber, macOS, iOS, iPadOS ve Vision Pro’nun en güncel betalarına dahil edildi
Yazar, mevcut Whisper tabanlı araçların yavaşlığından uzun süredir rahatsızdı; yeni API ise gerçek kullanımda oyun değiştirici seviyede performans gösteriyor
Basit bir komut satırı aracı olan Yap ile ses/video dosyaları hızlıca SRT ve TXT’ye dönüştürülebiliyor
34 dakika, 7 GB 4K video → Yap: 45 saniye / MacWhisper (V3 Turbo): 1 dakika 41 saniye / VidCap: 1 dakika 55 saniye / MacWhisper (V2): 3 dakika 55 saniye
CamelCase (ör. AppStories) ve özel isim tanıma sorunları hepsinde benzer şekilde görülüyor (sonradan işleme ile kolayca düzeltilebiliyor)

Gerçek hız karşılaştırması ve iş akışı kullanımı

Tek bir videoda 1-2 dakikalık fark küçük görünebilir, ancak saatlerce süren video işleme söz konusu olduğunda birikimli zaman tasarrufu çok büyük
YouTube videoları gibi büyük toplu dönüştürme işlerinde yt-dlp gibi araçlarla birlikte verimli otomasyon kurulabiliyor
Üreticiler, YouTuber’lar, öğrenciler ve farklı kullanıcılar için altyazı, ders, özet gibi alanlarda hızlı iş akışları sunuyor
SpeechAnalyzer/SpeechTranscriber kombinasyonunun Whisper’ın yerini hızla alması bekleniyor

Gerçek kullanım ve kurulum yöntemi

macOS Tahoe betayı kurun (şu an için geliştirici hesabı gerekiyor)
Yap GitHub deposu üzerinden komut satırı aracını indirip kurun
Yap çalıştırıldıktan sonra ses/video dosyasını girin → SRT/TXT dönüştürme dosyası hemen oluşturulur
Ek teknik bilgiler için Apple’ın resmi Speech API belgelerine ve WWDC videosuna (277) bakılabilir

Sonuç ve beklentiler

Apple Speech API, Whisper’a kıyasla hızda ezici bir üstünlük gösterirken kaliteyi de aynı seviyede koruyor
Apple platformlarında ağırlıklı olarak konuşma tanıma/dönüştürme iş akışları kullanan kullanıcılar için standart model haline gelme olasılığı yüksek
Sık tekrarlanan otomasyon işlerinde birikimli verimliliği en üst düzeye çıkarma ve iş üretkenliğini artırma etkisi bekleniyor

6 yorum

brainer 2025-06-21

Daha sonra Koreceyi de bir test etmek gerekecek gibi görünüyor.

howudoin 2025-06-21

Apple platformunun kendisi zaten kapalı bir zihniyete sahip olduğu için hiç elim gitmiyor.

gera1d 2025-06-21

Samimi dilde yazılmış yorumları görmek istemiyorum ama engelleme seçeneği yok.

jk34011 2025-06-23

Bu mantıkla bakarsak sizin yazdığınız yorum da samimi üslupla yazılmış;;

crawler 2025-06-22

Apple'ı eleştirmenin hoşuna gitmemesi anlaşılabilir ama o üslup laubali konuşma değil. Bu, 음슴체; ayrıca GeekNews'in varsayılan özetleri de zaten bu tarzda yazılıyor, yazılara nasıl baktığınızı merak ediyorum...

2025-06-23

[Bu yorum gizlendi.]