Ghost Pepper – macOS için yerel konuşmadan metne dönüştürme uygulaması

(github.com/matthartman)

4 puan yazan GN⁺ 2026-04-07 | 1 yorum | WhatsApp'ta paylaş

macOS'te Control tuşuna basıp konuştuğunuzda, otomatik olarak metne dönüştürüp yapıştıran yerel konuşma tanıma uygulaması
Tüm konuşma tanıma ve metin temizleme işlemleri yalnızca yerelde gerçekleştirildiği için, buluta gönderim olmadan gizlilik sağlanır
WhisperKit ve LLM.swift tabanlıdır; Hugging Face modellerini otomatik indirip önbelleğe alır
Akıllı temizleme özelliği ile gereksiz ifadeleri kaldırır ve kendini düzeltme kalıplarını düzenler; menü çubuğu uygulaması olarak arka planda çalışır
MIT lisanslı açık kaynak olarak sunulmuştur ve Apple Silicon macOS 14 ve üzeri sürümlerde çalışır

Genel bakış

Ghost Pepper, macOS için tamamen yerel bir konuşmadan metne dönüştürme uygulamasıdır; Control tuşuna basıp konuştuktan sonra bıraktığınızda otomatik olarak metne dönüştürüp yapıştırma özelliği sunar
Bulut API'leri kullanmaz ve tüm veri ile modeller yalnızca yerelde işlenir
Apple Silicon (M1 ve üzeri) tabanlı macOS 14.0 ve üzeri sürümlerde çalışır
Menü çubuğu uygulaması olarak çalışır ve oturum açıldığında otomatik başlatılabilir
MIT lisansı ile yayımlanan açık kaynak bir projedir

Başlıca özellikler

Control tuşuna basıp konuşun → tuşu bıraktığınızda otomatik olarak metne dönüştürür ve yapıştırır
Yerel çalışma yapısı sayesinde konuşma tanıma ve son işleme modellerinin tamamı Mac üzerinde çalışır
Akıllı temizleme özelliği, gereksiz ifadeleri (uh, um vb.) kaldırır ve kendini düzeltme ifadelerini otomatik olarak düzeltir
Yalnızca menü çubuğu arayüzü ile Dock simgesi olmadan arka planda çalışır
Kullanıcı ayarlarını destekler: temizleme istemini değiştirme, mikrofon seçme, özellikleri açma/kapatma

Nasıl çalışır

Tüm modeller açık kaynak tabanlıdır; ilk çalıştırmada otomatik olarak indirilir ve yerel önbelleğe kaydedilir
Konuşma tanıma WhisperKit, metin temizleme ise LLM.swift üzerinden gerçekleştirilir
Model dosyaları Hugging Face tarafından sağlanır
Konuşma tanıma modelleri
- Whisper tiny.en (~75MB): en hızlı, yalnızca İngilizce model
- Whisper small.en (~466MB): varsayılan, yüksek doğruluklu yalnızca İngilizce model
- Whisper small (multilingual): çok dilli destek
- Parakeet v3 (~1.4GB): 25 dili destekler, FluidAudio tabanlıdır
Metin temizleme modelleri
- Qwen 3.5 0.8B (~535MB): varsayılan, yaklaşık 1~2 saniyede işler
- Qwen 3.5 2B (~1.3GB): hızlı işleme süresi (yaklaşık 4~5 saniye)
- Qwen 3.5 4B (~2.8GB): en yüksek kalite (yaklaşık 5~7 saniye)
Reklam

Kurulum ve çalıştırma

Uygulama kurulumu
1. GhostPepper.dmg dosyasını indirin
2. DMG'yi açtıktan sonra Applications klasörüne sürükleyin
3. Mikrofon ve Erişilebilirlik izinlerini verin
4. Control tuşuna basıp konuşarak kullanmaya başlayın
Kaynaktan derleme
1. Depoyu klonlayın
2. GhostPepper.xcodeproj dosyasını Xcode'da açın
3. Cmd+R ile derleyip çalıştırın

İzin gereksinimleri

İzin	Amaç
Microphone	Ses kaydı
Accessibility	Global kısayol ve otomatik yapıştırma işlemini gerçekleştirmek

Ek bilgiler

Oturum açıldığında otomatik başlatma varsayılan olarak etkindir; ayarlardan devre dışı bırakılabilir
Diske günlük kaydı yazılmaz — dönüştürülen metin dosyaya kaydedilmez ve hata ayıklama günlükleri yalnızca bellekte tutulur, uygulama kapandığında silinir

Teknik yapı ve bağımlılıklar

WhisperKit: konuşma tanıma motoru
LLM.swift: metin temizleme için yerel LLM
Hugging Face: model barındırma
Sparkle: macOS uygulama güncelleme yönetimi

İsmin anlamı

Tüm modeller yalnızca yerelde çalıştığı için kişisel veriler dışarıya gönderilmez
Ghost Pepper (acı biber) adı, ücretsiz sunulan güçlü özellikleri simgeler

Kurumsal ve yönetilen cihaz desteği

Uygulama Erişilebilirlik (Accessibility) izni gerektirir ve genellikle yönetici yetkisi istenir
MDM ortamlarında (Jamf, Kandji, Mosaic vb.) PPPC (Privacy Preferences Policy Control) profili üzerinden önceden onay verilebilir
- Bundle ID: com.github.matthartman.ghostpepper
- Team ID: BBVMGXR9AY
- Permission: Accessibility (com.apple.security.accessibility)

1 yorum

GN⁺ 2026-04-07

Hacker News yorumları

Bu uygulama gerçekten harika. Ama her gördüğümde aklıma Pixel 6 geliyor
2021 modeli ama çevrimdışıyken bile sesi metne dönüştürüyor ve bağlama göre otomatik düzeltmeler yapıyor. Hatta konuşmaya devam edersem cümlenin baş taraflarını bile tekrar düzeltiyor.
Google'ın Whisper ya da Qwen'den 5 yıl önce böyle bir teknolojiyi sunmuş olması şaşırtıcı. Ama neden şimdi daha güçlü platformlarda 1 GB'lık transformer modellere ihtiyaç duyulduğunu merak ediyorum
- Bu, WebSpeech API'de kullanılan modelin aynısı. Tamamen çevrimdışı da çalışıyor
  Google yaklaşık 10 yıl önce bu modelin eğitimini destekledi ve hâlâ oldukça iyi.
  Webkit ya da Blink tabanlı tarayıcılara gömülü olduğu için birçok web sitesi bunu basit bir frontend olarak kullanıyor.
  Ama modelin kendisi kapalı bir blob olduğu için Firefox'ta desteklenmiyor
  MDN belgeleri / Chrome demosu
- Microsoft OneNote'ta da 2007 civarında benzer bir özellik vardı.
  O zaman ekipteydim; bakım yapacak kimse olmadığı için çevrimdışı modeli bırakıp sadece çevrimiçi çalışacak şekilde geçtik.
  Bunun nedeni teknik değil, yalnızca bakım personeli eksikliğiydi
- Doğruluk oranı çok daha düşük.
  Android'de Futo, macOS'ta MacWhisper kullanıyorum. Varsayılan Apple modelinden çok daha iyi
- macOS ve iOS'ta da yerleşik dikte özelliği ile yapılabiliyor. Mac'te Globe tuşu + D
- Benim Pixel 7 ise tam tersine tanıma oranı çok düşük olduğu için neredeyse kullanılamıyor.
  Buna karşılık açık kaynaklı Whisper ya da Parakeet gibi yerel STT modelleri çok daha güçlü.
  Arka plan gürültüsü ya da mırıldanmalardan daha az etkileniyorlar.
  Ben Voice AI alanında çalışıyorum ve bu modelleri her gün kullanıyorum; hissedilen fark gerçekten büyük
Uygulama gerçekten iyi yapılmış. Geri bildirim verecek olursam,
birincisi, otomatik panoya yapıştırma özelliği kesinlikle gerekli. Kısayol tuşuna basmayı gerektirmemesi ya da yapılandırılabilir olması iyi olurdu
ikincisi, diğer çözümlere göre biraz yavaş. Bu kullanılabilirliği ciddi biçimde etkiliyor
üçüncüsü, biçimlendirme kontrolü olsa iyi olurdu. Mesela "new line" dendiğinde bunu gerçek bir satır sonu olarak algılaması güzel olurdu
Bu başlık, kendi macOS ses→metin uygulamasını yapan insanların toplandığı bir destek grubu gibi
- Yaptığım tüm uygulamaları burada topladım.
  Kısa süre önce Ghost Pepper'ı da ekledim; ayrıca ihtiyacınız olan özellikleri içeren bir skill.md hazırlayıp uygulamayı kendiniz de oluşturabilirsiniz
- /r/macapps subreddit'inde de whisper dictation uygulaması fazlasıyla var.
  Doymuş kategorilerde mevcut uygulamalardan nasıl ayrıştığını net biçimde anlatmak gerekiyor
  İlgili yazı
- Ben de bir tane yaptım; sonra KeyVox'u görüp geliştiricisiyle konuşmaya başladım.
  KeyVox GitHub
- Ben bunu nixOS üzerinde Noctalia'ya bir gösterge ekleyerek yaptım.
  Performansı Wispr Flow ile neredeyse aynı ve tamamen yerelde çalışıyor
- Klasik Apple tarzıyla, bunun macOS 27 ya da 28 civarında yerleşik özellik olarak geleceğini bekliyorum
Bir Linux kullanıcısı olarak Hyprwhspr geliştirdim
En yeni Cohere Transcribe modelini GPU'da çalıştırınca performans çok iyi oluyor.
WhisperKit'i faster-whisper ya da turbov3 ile karşılaştırıp karşılaştırmadığınızı merak ediyorum.
Apple'ın yakında yerel STT sunacağını umuyorum
- Handy ile karşılaştırınca nasıl olduğunu merak ediyorum.
  Ayrıca mevcut projeyi geliştirmek yerine neden sıfırdan yenisini yaptığınızı da bilmek isterim
- Ben Whisper large-v3 modelini M2 Max'te self-hosted olarak çalıştırıyorum.
  Doğruluğu yeterince iyi olduğu için ayrıca bir temizleme modeline ihtiyaç duymadım.
  Ama 30 saniyeden uzun seslerde gecikme hissediliyor. WhisperKit'in uzun sesleri nasıl ele aldığını merak ediyorum
- Omarchy üzerinde Hyprwhspr'yi her gün kullanıyorum. Gerçekten harika
- Ben de benzer bir şey yapmayı düşünüyordum ama sayenizde yapmama gerek kalmadı.
  Acaba ayak pedallı PTT (Push-To-Talk) özelliğini hiç düşündünüz mü?
  Apple'da zaten STT var ama model kalitesi hâlâ biraz yetersiz
Speech-to-text, geliştirme akışımın temel parçası.
Özellikle LLM'lere ya da kodlama ajanlarına prompt'u sesle vermek için çok kullanışlı.
Platformlara göre en iyi açık kaynak sesle yazma araçlarını bu GitHub deposunda topladım
- Geliştirmede dikteyi nasıl kullandığınızı merak ediyorum.
  Ben dakikada 120 kelime yazıyorum; bu yüzden konuşmaktan çok daha hızlıyım.
  Erişilebilirlik dışında, bunun yavaş yazanlar için mi yoksa koltuğa uzanıp kod yazmak için mi olduğunu gerçekten merak ediyorum
Handy gibi uygulamalar zaten yok mu?
- Birkaç eksik tarafı var.
  1. Linux'ta FTP hesabı, curlftpfs ve SVN/CVS ile benzer bir sistemi kolayca kurabilirsiniz
  2. USB sürücülerin yerini tamamen alamıyor. Çevrimdışı sunumlar için hâlâ yanımda USB taşıyorum
  3. Gelir modeli belirsiz. Ücretsiz sunarken para kazanmanın mümkün olup olmadığı şüpheli
- Handy gerçekten çok iyi yapılmış bir araç
- Aynı sorunu çözen birden fazla çözüm olabilir
- Evet, speech-to-text zaten var
- Benim kullanım senaryoma tam uyuyor. Diğer uygulamaların arayüzüne dokunmak gerekmiyor
Paylaşım için teşekkürler. Yerel hız ve gizliliğe odaklanmasını beğendim
Ben benzer hedefleri olan Hex kullanıyorum; iki uygulama arasındaki farklar hakkında ne düşündüğünüzü merak ediyorum
Bugünlerde local-first LLM'ler küçüldükçe uygulama geliştirmenin temel altyapısı hâline gelecek gibi görünüyor
Eskiden Electron'ın güzel uygulamaları kolayca yapmayı mümkün kılması gibi, şimdi bunun karşılığında sadece biraz RAM feda etmek yetiyor
- Aynen, sonunda her şey ClaudeVM gibi olacak gibi duruyor
  İlgili blog yazısı
Whisper ile ilgili proje çok ama bunun eski OpenAI modeli mi yoksa güncellenmiş bir sürüm mü olduğunu merak ediyorum
Ben Parakeet v3 kullanıyorum; küçük ve harika. Ama neden hâlâ bu kadar çok Whisper olduğunu anlamıyorum
- Whisper hâlâ istikrarlı ve güvenilir bir model.
  Daha yeni modellere göre daha az halüsinasyon üretiyor ve AMD GPU'larda da kolayca çalışıyor.
  Parakeet'i bizzat port etmeyi denedim ama sonunda yine Whisper'a döndüm
- Ben de Parakeet'e geçmeyi düşünüyorum.
  Ama ben çok fazla Lehçe ve alan terimi kullanıyorum, bu yüzden Whisper v3 bana daha uygun geliyor
- Whisper birçok dili destekliyor ve tiny'den turbo'ya kadar farklı sürümleri var.
  Bu yüzden sistem ortamına göre ayarlanabilmesi en büyük avantajlarından biri
- Ben de macOS'ta Parakeet'i Voice Ink ile kullanıyorum, evde ise Kokoro ile ses→metin çalıştırıyorum.
  GrapheneOS telefonumda da Parakeet sunucusunu bağlıyorum
  İlgili yazı
Projeyi gerçekten beğendim ve bunu iş akışıma entegre etmeyi denemek istiyorum.
Ama "80 milyon dolar yatırım almış büyük AI laboratuvarlarıyla karşılaştırıp bunu ücretsiz sunuyoruz" ifadesi biraz rahatsız edici geldi.
Bu, asi olmaktan çok zaten mevcut araştırmaların devamı niteliğinde bir çalışma.
Buna "spicy" demek biraz abartılı geliyor

Ghost Pepper – macOS için yerel konuşmadan metne dönüştürme uygulaması

Genel bakış

Başlıca özellikler

Nasıl çalışır

Konuşma tanıma modelleri

Metin temizleme modelleri

Kurulum ve çalıştırma

Uygulama kurulumu

Kaynaktan derleme

İzin gereksinimleri

Ek bilgiler

Teknik yapı ve bağımlılıklar

İsmin anlamı

Kurumsal ve yönetilen cihaz desteği

İlgili okumalar

1 yorum

Hacker News yorumları