4 puan yazan GN⁺ 22 일 전 | 1 yorum | WhatsApp'ta paylaş
  • macOS'te Control tuşuna basıp konuştuğunuzda, otomatik olarak metne dönüştürüp yapıştıran yerel konuşma tanıma uygulaması
  • Tüm konuşma tanıma ve metin temizleme işlemleri yalnızca yerelde gerçekleştirildiği için, buluta gönderim olmadan gizlilik sağlanır
  • WhisperKit ve LLM.swift tabanlıdır; Hugging Face modellerini otomatik indirip önbelleğe alır
  • Akıllı temizleme özelliği ile gereksiz ifadeleri kaldırır ve kendini düzeltme kalıplarını düzenler; menü çubuğu uygulaması olarak arka planda çalışır
  • MIT lisanslı açık kaynak olarak sunulmuştur ve Apple Silicon macOS 14 ve üzeri sürümlerde çalışır

Genel bakış

  • Ghost Pepper, macOS için tamamen yerel bir konuşmadan metne dönüştürme uygulamasıdır; Control tuşuna basıp konuştuktan sonra bıraktığınızda otomatik olarak metne dönüştürüp yapıştırma özelliği sunar
  • Bulut API'leri kullanmaz ve tüm veri ile modeller yalnızca yerelde işlenir
  • Apple Silicon (M1 ve üzeri) tabanlı macOS 14.0 ve üzeri sürümlerde çalışır
  • Menü çubuğu uygulaması olarak çalışır ve oturum açıldığında otomatik başlatılabilir
  • MIT lisansı ile yayımlanan açık kaynak bir projedir

Başlıca özellikler

  • Control tuşuna basıp konuşun → tuşu bıraktığınızda otomatik olarak metne dönüştürür ve yapıştırır
  • Yerel çalışma yapısı sayesinde konuşma tanıma ve son işleme modellerinin tamamı Mac üzerinde çalışır
  • Akıllı temizleme özelliği, gereksiz ifadeleri (uh, um vb.) kaldırır ve kendini düzeltme ifadelerini otomatik olarak düzeltir
  • Yalnızca menü çubuğu arayüzü ile Dock simgesi olmadan arka planda çalışır
  • Kullanıcı ayarlarını destekler: temizleme istemini değiştirme, mikrofon seçme, özellikleri açma/kapatma

Nasıl çalışır

  • Tüm modeller açık kaynak tabanlıdır; ilk çalıştırmada otomatik olarak indirilir ve yerel önbelleğe kaydedilir
  • Konuşma tanıma WhisperKit, metin temizleme ise LLM.swift üzerinden gerçekleştirilir
  • Model dosyaları Hugging Face tarafından sağlanır
  • Konuşma tanıma modelleri

    • Whisper tiny.en (~75MB): en hızlı, yalnızca İngilizce model
    • Whisper small.en (~466MB): varsayılan, yüksek doğruluklu yalnızca İngilizce model
    • Whisper small (multilingual): çok dilli destek
    • Parakeet v3 (~1.4GB): 25 dili destekler, FluidAudio tabanlıdır
  • Metin temizleme modelleri

    • Qwen 3.5 0.8B (~535MB): varsayılan, yaklaşık 1~2 saniyede işler
    • Qwen 3.5 2B (~1.3GB): hızlı işleme süresi (yaklaşık 4~5 saniye)
    • Qwen 3.5 4B (~2.8GB): en yüksek kalite (yaklaşık 5~7 saniye)

Kurulum ve çalıştırma

  • Uygulama kurulumu

    1. GhostPepper.dmg dosyasını indirin
    2. DMG'yi açtıktan sonra Applications klasörüne sürükleyin
    3. Mikrofon ve Erişilebilirlik izinlerini verin
    4. Control tuşuna basıp konuşarak kullanmaya başlayın
  • Kaynaktan derleme

    1. Depoyu klonlayın
    2. GhostPepper.xcodeproj dosyasını Xcode'da açın
    3. Cmd+R ile derleyip çalıştırın

İzin gereksinimleri

İzin Amaç
Microphone Ses kaydı
Accessibility Global kısayol ve otomatik yapıştırma işlemini gerçekleştirmek

Ek bilgiler

  • Oturum açıldığında otomatik başlatma varsayılan olarak etkindir; ayarlardan devre dışı bırakılabilir
  • Diske günlük kaydı yazılmaz — dönüştürülen metin dosyaya kaydedilmez ve hata ayıklama günlükleri yalnızca bellekte tutulur, uygulama kapandığında silinir

Teknik yapı ve bağımlılıklar

  • WhisperKit: konuşma tanıma motoru
  • LLM.swift: metin temizleme için yerel LLM
  • Hugging Face: model barındırma
  • Sparkle: macOS uygulama güncelleme yönetimi

İsmin anlamı

  • Tüm modeller yalnızca yerelde çalıştığı için kişisel veriler dışarıya gönderilmez
  • Ghost Pepper (acı biber) adı, ücretsiz sunulan güçlü özellikleri simgeler

Kurumsal ve yönetilen cihaz desteği

  • Uygulama Erişilebilirlik (Accessibility) izni gerektirir ve genellikle yönetici yetkisi istenir
  • MDM ortamlarında (Jamf, Kandji, Mosaic vb.) PPPC (Privacy Preferences Policy Control) profili üzerinden önceden onay verilebilir
    • Bundle ID: com.github.matthartman.ghostpepper
    • Team ID: BBVMGXR9AY
    • Permission: Accessibility (com.apple.security.accessibility)

1 yorum

 
GN⁺ 22 일 전
Hacker News yorumları
  • Bu uygulama gerçekten harika. Ama her gördüğümde aklıma Pixel 6 geliyor
    2021 modeli ama çevrimdışıyken bile sesi metne dönüştürüyor ve bağlama göre otomatik düzeltmeler yapıyor. Hatta konuşmaya devam edersem cümlenin baş taraflarını bile tekrar düzeltiyor.
    Google'ın Whisper ya da Qwen'den 5 yıl önce böyle bir teknolojiyi sunmuş olması şaşırtıcı. Ama neden şimdi daha güçlü platformlarda 1 GB'lık transformer modellere ihtiyaç duyulduğunu merak ediyorum

    • Bu, WebSpeech API'de kullanılan modelin aynısı. Tamamen çevrimdışı da çalışıyor
      Google yaklaşık 10 yıl önce bu modelin eğitimini destekledi ve hâlâ oldukça iyi.
      Webkit ya da Blink tabanlı tarayıcılara gömülü olduğu için birçok web sitesi bunu basit bir frontend olarak kullanıyor.
      Ama modelin kendisi kapalı bir blob olduğu için Firefox'ta desteklenmiyor
      MDN belgeleri / Chrome demosu
    • Microsoft OneNote'ta da 2007 civarında benzer bir özellik vardı.
      O zaman ekipteydim; bakım yapacak kimse olmadığı için çevrimdışı modeli bırakıp sadece çevrimiçi çalışacak şekilde geçtik.
      Bunun nedeni teknik değil, yalnızca bakım personeli eksikliğiydi
    • Doğruluk oranı çok daha düşük.
      Android'de Futo, macOS'ta MacWhisper kullanıyorum. Varsayılan Apple modelinden çok daha iyi
    • macOS ve iOS'ta da yerleşik dikte özelliği ile yapılabiliyor. Mac'te Globe tuşu + D
    • Benim Pixel 7 ise tam tersine tanıma oranı çok düşük olduğu için neredeyse kullanılamıyor.
      Buna karşılık açık kaynaklı Whisper ya da Parakeet gibi yerel STT modelleri çok daha güçlü.
      Arka plan gürültüsü ya da mırıldanmalardan daha az etkileniyorlar.
      Ben Voice AI alanında çalışıyorum ve bu modelleri her gün kullanıyorum; hissedilen fark gerçekten büyük
  • Uygulama gerçekten iyi yapılmış. Geri bildirim verecek olursam,
    birincisi, otomatik panoya yapıştırma özelliği kesinlikle gerekli. Kısayol tuşuna basmayı gerektirmemesi ya da yapılandırılabilir olması iyi olurdu
    ikincisi, diğer çözümlere göre biraz yavaş. Bu kullanılabilirliği ciddi biçimde etkiliyor
    üçüncüsü, biçimlendirme kontrolü olsa iyi olurdu. Mesela "new line" dendiğinde bunu gerçek bir satır sonu olarak algılaması güzel olurdu

  • Bu başlık, kendi macOS ses→metin uygulamasını yapan insanların toplandığı bir destek grubu gibi

    • Yaptığım tüm uygulamaları burada topladım.
      Kısa süre önce Ghost Pepper'ı da ekledim; ayrıca ihtiyacınız olan özellikleri içeren bir skill.md hazırlayıp uygulamayı kendiniz de oluşturabilirsiniz
    • /r/macapps subreddit'inde de whisper dictation uygulaması fazlasıyla var.
      Doymuş kategorilerde mevcut uygulamalardan nasıl ayrıştığını net biçimde anlatmak gerekiyor
      İlgili yazı
    • Ben de bir tane yaptım; sonra KeyVox'u görüp geliştiricisiyle konuşmaya başladım.
      KeyVox GitHub
    • Ben bunu nixOS üzerinde Noctalia'ya bir gösterge ekleyerek yaptım.
      Performansı Wispr Flow ile neredeyse aynı ve tamamen yerelde çalışıyor
    • Klasik Apple tarzıyla, bunun macOS 27 ya da 28 civarında yerleşik özellik olarak geleceğini bekliyorum
  • Bir Linux kullanıcısı olarak Hyprwhspr geliştirdim
    En yeni Cohere Transcribe modelini GPU'da çalıştırınca performans çok iyi oluyor.
    WhisperKit'i faster-whisper ya da turbov3 ile karşılaştırıp karşılaştırmadığınızı merak ediyorum.
    Apple'ın yakında yerel STT sunacağını umuyorum

    • Handy ile karşılaştırınca nasıl olduğunu merak ediyorum.
      Ayrıca mevcut projeyi geliştirmek yerine neden sıfırdan yenisini yaptığınızı da bilmek isterim
    • Ben Whisper large-v3 modelini M2 Max'te self-hosted olarak çalıştırıyorum.
      Doğruluğu yeterince iyi olduğu için ayrıca bir temizleme modeline ihtiyaç duymadım.
      Ama 30 saniyeden uzun seslerde gecikme hissediliyor. WhisperKit'in uzun sesleri nasıl ele aldığını merak ediyorum
    • Omarchy üzerinde Hyprwhspr'yi her gün kullanıyorum. Gerçekten harika
    • Ben de benzer bir şey yapmayı düşünüyordum ama sayenizde yapmama gerek kalmadı.
      Acaba ayak pedallı PTT (Push-To-Talk) özelliğini hiç düşündünüz mü?
      Apple'da zaten STT var ama model kalitesi hâlâ biraz yetersiz
  • Speech-to-text, geliştirme akışımın temel parçası.
    Özellikle LLM'lere ya da kodlama ajanlarına prompt'u sesle vermek için çok kullanışlı.
    Platformlara göre en iyi açık kaynak sesle yazma araçlarını bu GitHub deposunda topladım

    • Geliştirmede dikteyi nasıl kullandığınızı merak ediyorum.
      Ben dakikada 120 kelime yazıyorum; bu yüzden konuşmaktan çok daha hızlıyım.
      Erişilebilirlik dışında, bunun yavaş yazanlar için mi yoksa koltuğa uzanıp kod yazmak için mi olduğunu gerçekten merak ediyorum
  • Handy gibi uygulamalar zaten yok mu?

    • Birkaç eksik tarafı var.
      1. Linux'ta FTP hesabı, curlftpfs ve SVN/CVS ile benzer bir sistemi kolayca kurabilirsiniz
      2. USB sürücülerin yerini tamamen alamıyor. Çevrimdışı sunumlar için hâlâ yanımda USB taşıyorum
      3. Gelir modeli belirsiz. Ücretsiz sunarken para kazanmanın mümkün olup olmadığı şüpheli
    • Handy gerçekten çok iyi yapılmış bir araç
    • Aynı sorunu çözen birden fazla çözüm olabilir
    • Evet, speech-to-text zaten var
    • Benim kullanım senaryoma tam uyuyor. Diğer uygulamaların arayüzüne dokunmak gerekmiyor
  • Paylaşım için teşekkürler. Yerel hız ve gizliliğe odaklanmasını beğendim
    Ben benzer hedefleri olan Hex kullanıyorum; iki uygulama arasındaki farklar hakkında ne düşündüğünüzü merak ediyorum

  • Bugünlerde local-first LLM'ler küçüldükçe uygulama geliştirmenin temel altyapısı hâline gelecek gibi görünüyor
    Eskiden Electron'ın güzel uygulamaları kolayca yapmayı mümkün kılması gibi, şimdi bunun karşılığında sadece biraz RAM feda etmek yetiyor

  • Whisper ile ilgili proje çok ama bunun eski OpenAI modeli mi yoksa güncellenmiş bir sürüm mü olduğunu merak ediyorum
    Ben Parakeet v3 kullanıyorum; küçük ve harika. Ama neden hâlâ bu kadar çok Whisper olduğunu anlamıyorum

    • Whisper hâlâ istikrarlı ve güvenilir bir model.
      Daha yeni modellere göre daha az halüsinasyon üretiyor ve AMD GPU'larda da kolayca çalışıyor.
      Parakeet'i bizzat port etmeyi denedim ama sonunda yine Whisper'a döndüm
    • Ben de Parakeet'e geçmeyi düşünüyorum.
      Ama ben çok fazla Lehçe ve alan terimi kullanıyorum, bu yüzden Whisper v3 bana daha uygun geliyor
    • Whisper birçok dili destekliyor ve tiny'den turbo'ya kadar farklı sürümleri var.
      Bu yüzden sistem ortamına göre ayarlanabilmesi en büyük avantajlarından biri
    • Ben de macOS'ta Parakeet'i Voice Ink ile kullanıyorum, evde ise Kokoro ile ses→metin çalıştırıyorum.
      GrapheneOS telefonumda da Parakeet sunucusunu bağlıyorum
      İlgili yazı
  • Projeyi gerçekten beğendim ve bunu iş akışıma entegre etmeyi denemek istiyorum.
    Ama "80 milyon dolar yatırım almış büyük AI laboratuvarlarıyla karşılaştırıp bunu ücretsiz sunuyoruz" ifadesi biraz rahatsız edici geldi.
    Bu, asi olmaktan çok zaten mevcut araştırmaların devamı niteliğinde bir çalışma.
    Buna "spicy" demek biraz abartılı geliyor