- Apple’ın SpeechAnalyzer ve SpeechTranscriber’ı, OpenAI’nin Whisper’ına kıyasla çok daha yüksek hızda ve aynı kalitede gerçek zamanlı konuşma-metin dönüşümünü destekliyor
- Gerçek bir 34 dakikalık, 7 GB’lık video dosyası Yap komut satırı aracı ile dönüştürüldüğünde yalnızca 45 saniyede SRT dosyasına çevrildi; bu, MacWhisper’a göre 2,2 kat daha hızlı bir sonuç
- MacWhisper, VidCap ve diğer araçlarla kalite farkı neredeyse yok, ancak hepsinde özel isimler ve birleşik sözcüklerin işlenmesinde küçük hatalar görülüyor
- Uzun geliştirici videoları, dersler, podcast’ler gibi tekrar eden işlerde birikimli zaman tasarrufu etkisi çok büyük
- macOS Tahoe beta’da (geliştirici hesabı gerekli) Yap kurulduktan sonra hemen kullanılabiliyor; gelecekte Apple’ın tüm platformlarında (iPhone, iPad, Mac, Vision Pro) Whisper’ın yerini alması bekleniyor
Apple Speech API vs Whisper: yeni bir hız devrimi
- Yakın zamanda WWDC’de tanıtılan SpeechAnalyzer ve SpeechTranscriber, macOS, iOS, iPadOS ve Vision Pro’nun en güncel betalarına dahil edildi
- Yazar, mevcut Whisper tabanlı araçların yavaşlığından uzun süredir rahatsızdı; yeni API ise gerçek kullanımda oyun değiştirici seviyede performans gösteriyor
- Basit bir komut satırı aracı olan Yap ile ses/video dosyaları hızlıca SRT ve TXT’ye dönüştürülebiliyor
- 34 dakika, 7 GB 4K video → Yap: 45 saniye / MacWhisper (V3 Turbo): 1 dakika 41 saniye / VidCap: 1 dakika 55 saniye / MacWhisper (V2): 3 dakika 55 saniye
- CamelCase (ör. AppStories) ve özel isim tanıma sorunları hepsinde benzer şekilde görülüyor (sonradan işleme ile kolayca düzeltilebiliyor)
Gerçek hız karşılaştırması ve iş akışı kullanımı
- Tek bir videoda 1-2 dakikalık fark küçük görünebilir, ancak saatlerce süren video işleme söz konusu olduğunda birikimli zaman tasarrufu çok büyük
- YouTube videoları gibi büyük toplu dönüştürme işlerinde yt-dlp gibi araçlarla birlikte verimli otomasyon kurulabiliyor
- Üreticiler, YouTuber’lar, öğrenciler ve farklı kullanıcılar için altyazı, ders, özet gibi alanlarda hızlı iş akışları sunuyor
- SpeechAnalyzer/SpeechTranscriber kombinasyonunun Whisper’ın yerini hızla alması bekleniyor
Gerçek kullanım ve kurulum yöntemi
- macOS Tahoe betayı kurun (şu an için geliştirici hesabı gerekiyor)
- Yap GitHub deposu üzerinden komut satırı aracını indirip kurun
- Yap çalıştırıldıktan sonra ses/video dosyasını girin → SRT/TXT dönüştürme dosyası hemen oluşturulur
- Ek teknik bilgiler için Apple’ın resmi Speech API belgelerine ve WWDC videosuna (277) bakılabilir
Sonuç ve beklentiler
- Apple Speech API, Whisper’a kıyasla hızda ezici bir üstünlük gösterirken kaliteyi de aynı seviyede koruyor
- Apple platformlarında ağırlıklı olarak konuşma tanıma/dönüştürme iş akışları kullanan kullanıcılar için standart model haline gelme olasılığı yüksek
- Sık tekrarlanan otomasyon işlerinde birikimli verimliliği en üst düzeye çıkarma ve iş üretkenliğini artırma etkisi bekleniyor
6 yorum
Daha sonra Koreceyi de bir test etmek gerekecek gibi görünüyor.
Apple platformunun kendisi zaten kapalı bir zihniyete sahip olduğu için hiç elim gitmiyor.
Samimi dilde yazılmış yorumları görmek istemiyorum ama engelleme seçeneği yok.
Bu mantıkla bakarsak sizin yazdığınız yorum da samimi üslupla yazılmış;;
Apple'ı eleştirmenin hoşuna gitmemesi anlaşılabilir ama o üslup laubali konuşma değil. Bu,
음슴체; ayrıca GeekNews'in varsayılan özetleri de zaten bu tarzda yazılıyor, yazılara nasıl baktığınızı merak ediyorum...