Ghost Pepper – macOS için yerel konuşmadan metne dönüştürme uygulaması
(github.com/matthartman)- macOS'te Control tuşuna basıp konuştuğunuzda, otomatik olarak metne dönüştürüp yapıştıran yerel konuşma tanıma uygulaması
- Tüm konuşma tanıma ve metin temizleme işlemleri yalnızca yerelde gerçekleştirildiği için, buluta gönderim olmadan gizlilik sağlanır
- WhisperKit ve LLM.swift tabanlıdır; Hugging Face modellerini otomatik indirip önbelleğe alır
- Akıllı temizleme özelliği ile gereksiz ifadeleri kaldırır ve kendini düzeltme kalıplarını düzenler; menü çubuğu uygulaması olarak arka planda çalışır
- MIT lisanslı açık kaynak olarak sunulmuştur ve Apple Silicon macOS 14 ve üzeri sürümlerde çalışır
Genel bakış
- Ghost Pepper, macOS için tamamen yerel bir konuşmadan metne dönüştürme uygulamasıdır; Control tuşuna basıp konuştuktan sonra bıraktığınızda otomatik olarak metne dönüştürüp yapıştırma özelliği sunar
- Bulut API'leri kullanmaz ve tüm veri ile modeller yalnızca yerelde işlenir
- Apple Silicon (M1 ve üzeri) tabanlı macOS 14.0 ve üzeri sürümlerde çalışır
- Menü çubuğu uygulaması olarak çalışır ve oturum açıldığında otomatik başlatılabilir
- MIT lisansı ile yayımlanan açık kaynak bir projedir
Başlıca özellikler
- Control tuşuna basıp konuşun → tuşu bıraktığınızda otomatik olarak metne dönüştürür ve yapıştırır
- Yerel çalışma yapısı sayesinde konuşma tanıma ve son işleme modellerinin tamamı Mac üzerinde çalışır
- Akıllı temizleme özelliği, gereksiz ifadeleri (uh, um vb.) kaldırır ve kendini düzeltme ifadelerini otomatik olarak düzeltir
- Yalnızca menü çubuğu arayüzü ile Dock simgesi olmadan arka planda çalışır
- Kullanıcı ayarlarını destekler: temizleme istemini değiştirme, mikrofon seçme, özellikleri açma/kapatma
Nasıl çalışır
- Tüm modeller açık kaynak tabanlıdır; ilk çalıştırmada otomatik olarak indirilir ve yerel önbelleğe kaydedilir
- Konuşma tanıma WhisperKit, metin temizleme ise LLM.swift üzerinden gerçekleştirilir
- Model dosyaları Hugging Face tarafından sağlanır
-
Konuşma tanıma modelleri
- Whisper tiny.en (~75MB): en hızlı, yalnızca İngilizce model
- Whisper small.en (~466MB): varsayılan, yüksek doğruluklu yalnızca İngilizce model
- Whisper small (multilingual): çok dilli destek
- Parakeet v3 (~1.4GB): 25 dili destekler, FluidAudio tabanlıdır
-
Metin temizleme modelleri
- Qwen 3.5 0.8B (~535MB): varsayılan, yaklaşık 1~2 saniyede işler
- Qwen 3.5 2B (~1.3GB): hızlı işleme süresi (yaklaşık 4~5 saniye)
- Qwen 3.5 4B (~2.8GB): en yüksek kalite (yaklaşık 5~7 saniye)
Kurulum ve çalıştırma
-
Uygulama kurulumu
- GhostPepper.dmg dosyasını indirin
- DMG'yi açtıktan sonra Applications klasörüne sürükleyin
- Mikrofon ve Erişilebilirlik izinlerini verin
- Control tuşuna basıp konuşarak kullanmaya başlayın
-
Kaynaktan derleme
- Depoyu klonlayın
GhostPepper.xcodeprojdosyasını Xcode'da açın- Cmd+R ile derleyip çalıştırın
İzin gereksinimleri
| İzin | Amaç |
|---|---|
| Microphone | Ses kaydı |
| Accessibility | Global kısayol ve otomatik yapıştırma işlemini gerçekleştirmek |
Ek bilgiler
- Oturum açıldığında otomatik başlatma varsayılan olarak etkindir; ayarlardan devre dışı bırakılabilir
- Diske günlük kaydı yazılmaz — dönüştürülen metin dosyaya kaydedilmez ve hata ayıklama günlükleri yalnızca bellekte tutulur, uygulama kapandığında silinir
Teknik yapı ve bağımlılıklar
- WhisperKit: konuşma tanıma motoru
- LLM.swift: metin temizleme için yerel LLM
- Hugging Face: model barındırma
- Sparkle: macOS uygulama güncelleme yönetimi
İsmin anlamı
- Tüm modeller yalnızca yerelde çalıştığı için kişisel veriler dışarıya gönderilmez
- Ghost Pepper (acı biber) adı, ücretsiz sunulan güçlü özellikleri simgeler
Kurumsal ve yönetilen cihaz desteği
- Uygulama Erişilebilirlik (Accessibility) izni gerektirir ve genellikle yönetici yetkisi istenir
- MDM ortamlarında (Jamf, Kandji, Mosaic vb.) PPPC (Privacy Preferences Policy Control) profili üzerinden önceden onay verilebilir
- Bundle ID:
com.github.matthartman.ghostpepper - Team ID:
BBVMGXR9AY - Permission: Accessibility (
com.apple.security.accessibility)
- Bundle ID:
1 yorum
Hacker News yorumları
Bu uygulama gerçekten harika. Ama her gördüğümde aklıma Pixel 6 geliyor
2021 modeli ama çevrimdışıyken bile sesi metne dönüştürüyor ve bağlama göre otomatik düzeltmeler yapıyor. Hatta konuşmaya devam edersem cümlenin baş taraflarını bile tekrar düzeltiyor.
Google'ın Whisper ya da Qwen'den 5 yıl önce böyle bir teknolojiyi sunmuş olması şaşırtıcı. Ama neden şimdi daha güçlü platformlarda 1 GB'lık transformer modellere ihtiyaç duyulduğunu merak ediyorum
Google yaklaşık 10 yıl önce bu modelin eğitimini destekledi ve hâlâ oldukça iyi.
Webkit ya da Blink tabanlı tarayıcılara gömülü olduğu için birçok web sitesi bunu basit bir frontend olarak kullanıyor.
Ama modelin kendisi kapalı bir blob olduğu için Firefox'ta desteklenmiyor
MDN belgeleri / Chrome demosu
O zaman ekipteydim; bakım yapacak kimse olmadığı için çevrimdışı modeli bırakıp sadece çevrimiçi çalışacak şekilde geçtik.
Bunun nedeni teknik değil, yalnızca bakım personeli eksikliğiydi
Android'de Futo, macOS'ta MacWhisper kullanıyorum. Varsayılan Apple modelinden çok daha iyi
Buna karşılık açık kaynaklı Whisper ya da Parakeet gibi yerel STT modelleri çok daha güçlü.
Arka plan gürültüsü ya da mırıldanmalardan daha az etkileniyorlar.
Ben Voice AI alanında çalışıyorum ve bu modelleri her gün kullanıyorum; hissedilen fark gerçekten büyük
Uygulama gerçekten iyi yapılmış. Geri bildirim verecek olursam,
birincisi, otomatik panoya yapıştırma özelliği kesinlikle gerekli. Kısayol tuşuna basmayı gerektirmemesi ya da yapılandırılabilir olması iyi olurdu
ikincisi, diğer çözümlere göre biraz yavaş. Bu kullanılabilirliği ciddi biçimde etkiliyor
üçüncüsü, biçimlendirme kontrolü olsa iyi olurdu. Mesela "new line" dendiğinde bunu gerçek bir satır sonu olarak algılaması güzel olurdu
Bu başlık, kendi macOS ses→metin uygulamasını yapan insanların toplandığı bir destek grubu gibi
Kısa süre önce Ghost Pepper'ı da ekledim; ayrıca ihtiyacınız olan özellikleri içeren bir skill.md hazırlayıp uygulamayı kendiniz de oluşturabilirsiniz
Doymuş kategorilerde mevcut uygulamalardan nasıl ayrıştığını net biçimde anlatmak gerekiyor
İlgili yazı
KeyVox GitHub
Performansı Wispr Flow ile neredeyse aynı ve tamamen yerelde çalışıyor
Bir Linux kullanıcısı olarak Hyprwhspr geliştirdim
En yeni Cohere Transcribe modelini GPU'da çalıştırınca performans çok iyi oluyor.
WhisperKit'i faster-whisper ya da turbov3 ile karşılaştırıp karşılaştırmadığınızı merak ediyorum.
Apple'ın yakında yerel STT sunacağını umuyorum
Ayrıca mevcut projeyi geliştirmek yerine neden sıfırdan yenisini yaptığınızı da bilmek isterim
Doğruluğu yeterince iyi olduğu için ayrıca bir temizleme modeline ihtiyaç duymadım.
Ama 30 saniyeden uzun seslerde gecikme hissediliyor. WhisperKit'in uzun sesleri nasıl ele aldığını merak ediyorum
Acaba ayak pedallı PTT (Push-To-Talk) özelliğini hiç düşündünüz mü?
Apple'da zaten STT var ama model kalitesi hâlâ biraz yetersiz
Speech-to-text, geliştirme akışımın temel parçası.
Özellikle LLM'lere ya da kodlama ajanlarına prompt'u sesle vermek için çok kullanışlı.
Platformlara göre en iyi açık kaynak sesle yazma araçlarını bu GitHub deposunda topladım
Ben dakikada 120 kelime yazıyorum; bu yüzden konuşmaktan çok daha hızlıyım.
Erişilebilirlik dışında, bunun yavaş yazanlar için mi yoksa koltuğa uzanıp kod yazmak için mi olduğunu gerçekten merak ediyorum
Handy gibi uygulamalar zaten yok mu?
Paylaşım için teşekkürler. Yerel hız ve gizliliğe odaklanmasını beğendim
Ben benzer hedefleri olan Hex kullanıyorum; iki uygulama arasındaki farklar hakkında ne düşündüğünüzü merak ediyorum
Bugünlerde local-first LLM'ler küçüldükçe uygulama geliştirmenin temel altyapısı hâline gelecek gibi görünüyor
Eskiden Electron'ın güzel uygulamaları kolayca yapmayı mümkün kılması gibi, şimdi bunun karşılığında sadece biraz RAM feda etmek yetiyor
İlgili blog yazısı
Whisper ile ilgili proje çok ama bunun eski OpenAI modeli mi yoksa güncellenmiş bir sürüm mü olduğunu merak ediyorum
Ben Parakeet v3 kullanıyorum; küçük ve harika. Ama neden hâlâ bu kadar çok Whisper olduğunu anlamıyorum
Daha yeni modellere göre daha az halüsinasyon üretiyor ve AMD GPU'larda da kolayca çalışıyor.
Parakeet'i bizzat port etmeyi denedim ama sonunda yine Whisper'a döndüm
Ama ben çok fazla Lehçe ve alan terimi kullanıyorum, bu yüzden Whisper v3 bana daha uygun geliyor
Bu yüzden sistem ortamına göre ayarlanabilmesi en büyük avantajlarından biri
GrapheneOS telefonumda da Parakeet sunucusunu bağlıyorum
İlgili yazı
Projeyi gerçekten beğendim ve bunu iş akışıma entegre etmeyi denemek istiyorum.
Ama "80 milyon dolar yatırım almış büyük AI laboratuvarlarıyla karşılaştırıp bunu ücretsiz sunuyoruz" ifadesi biraz rahatsız edici geldi.
Bu, asi olmaktan çok zaten mevcut araştırmaların devamı niteliğinde bir çalışma.
Buna "spicy" demek biraz abartılı geliyor