Handy – Ücretsiz açık kaynaklı konuşma tanıma uygulaması

(github.com/cjpais)

2 puan yazan GN⁺ 2026-01-17 | 1 yorum | WhatsApp'ta paylaş

Handy, tamamen çevrimdışı çalışan ücretsiz, açık kaynaklı bir konuşmadan metne dönüştürme masaüstü uygulamasıdır ve gizlilik odaklı bir tasarıma sahiptir
Tauri(Rust + React/TypeScript) tabanlı olarak geliştirilmiştir; kısayol tuşuna basıp konuştuğunuzda ses doğrudan metin alanına girilir
Whisper ve Parakeet V3 modellerini destekler; GPU hızlandırmalı veya CPU tabanlı olarak yerel konuşma tanıma gerçekleştirir
Windows, macOS ve Linux'ta çalışır; genişletilebilirlik ve kolay fork edilebilirlik odaklı yapısıyla geliştirici katkılarını teşvik eder
Buluta aktarım olmadan yerelde çalışan gizlilik odaklı bir sesli giriş aracıdır; erişilebilirlik ve özelleştirme potansiyeli yüksektir

Genel Bakış

Handy, internet bağlantısı olmadan tamamen çevrimdışı çalışan ücretsiz, açık kaynaklı ve genişletilebilir bir konuşma tanıma uygulamasıdır
Tauri framework temelinde kuruludur; Rust arka ucu ile React/TypeScript ön ucunu birleştirir
Kullanıcı kısayol tuşuna basıp konuşur, bıraktığında Whisper veya Parakeet V3 modeli sesi metne dönüştürüp etkin uygulamaya yapıştırır
Tüm ses verileri yerelde işlendiği için kişisel verilerin sızma riski yoktur

Handy'nin felsefesi

Ücretsiz: Erişilebilirlik araçları herkes tarafından kullanılabilmelidir
Açık kaynaklı: Herkes özellikleri genişletebilir ve iyileştirebilir
Gizlilik garantisi: Ses verileri buluta gönderilmez
Basitlik: Tek bir amaca, yani sesi metne dönüştürmeye odaklanır
Amaç “en mükemmel” uygulamayı değil, “fork etmesi en kolay” uygulamayı yapmaktır

Nasıl çalışır

Kullanıcı kısayol tuşu ile kaydı başlatıp durdurabilir veya push-to-talk modu kullanabilir
Silero VAD ile sessizlik bölümleri filtrelenir ve Whisper veya Parakeet V3 modeliyle ses dönüştürülür
- Whisper modelleri: Small, Medium, Turbo, Large sürümleri sunulur, GPU hızlandırmayı destekler
- Parakeet V3: CPU için optimize edilmiştir, otomatik dil algılama içerir
Dönüştürülen metin, kullanılan uygulamanın giriş alanına otomatik olarak eklenir
Windows, macOS, Linux desteklenir

Mimari

Ön uç: React + TypeScript + Tailwind CSS
Arka uç: Rust tabanlıdır, ses işleme ve makine öğrenimi çıkarımından sorumludur
Temel kütüphaneler
- whisper-rs: Whisper modelinin yerel konuşma tanıması
- transcription-rs: Parakeet modelinin CPU üzerinde tanınması
- cpal: Ses giriş/çıkışı
- vad-rs: Ses etkinliği algılama
- rdev: Global kısayollar ve sistem olaylarının işlenmesi
- rubato: Ses yeniden örnekleme
Debug modu: Cmd+Shift+D(macOS) veya Ctrl+Shift+D(Windows/Linux) ile erişilebilir

Bilinen sorunlar ve kısıtlamalar

Whisper model çakışmaları: Bazı Windows/Linux ortamlarında modelin çökmesine yol açan sorunlar vardır
Wayland desteği sınırlı: Linux Wayland ortamında wtype veya dotool kurulumu gerekir
Metin giriş araçları
- X11: xdotool
- Wayland: wtype veya dotool
- Bu araçlar kurulu değilse enigo ile değiştirilebilir, ancak uyumluluk sınırlıdır
Linux overlay varsayılan olarak devre dışıdır: Odak çakışmalarını önlemek için varsayılan olarak kapalıdır

Sistem gereksinimleri

Whisper modelleri için
- macOS: M serisi veya Intel Mac
- Windows/Linux: Intel, AMD, NVIDIA GPU (Ubuntu 22.04/24.04 önerilir)
Reklam
Parakeet V3 modeli için
- Yalnızca CPU, Intel Skylake (6. nesil) ve üzeri önerilir
- Orta seviye donanımda gerçek zamanın yaklaşık 5 katı hız
- Otomatik dil algılama içerir

Geliştirme yol haritası

Devam eden özellikler
- Debug log dosyası ekleme
- macOS kısayol iyileştirmeleri (Globe tuşu desteği, global kısayol işleme mantığının yeniden yazılması)
- İsteğe bağlı analitik özelliği: anonim kullanım verisi toplama, açık rıza temelinde
- Ayar sisteminin refactor edilmesi ve soyutlamaların iyileştirilmesi
- Tauri komut yapısının düzenlenmesi ve tip güvenliğinin artırılması

Sorun giderme ve manuel model kurulumu

Ağ kısıtlaması olan ortamlarda modeller manuel olarak indirilebilir ve kurulabilir
Uygulama veri dizininde models klasörü oluşturup model dosyalarını yerleştirin
- Whisper modelleri: .bin dosyalarını doğrudan kopyalayın
- Parakeet modelleri: .tar.gz arşivini açıp belirtilen klasör adını koruyun
Kurulumdan sonra uygulama yeniden başlatıldığında modeller otomatik olarak algılanır

Nasıl katkı sağlanır

GitHub issue'larını kontrol ettikten sonra fork edip branch oluşturun
Hedef platformda yeterince test ettikten sonra Pull Request gönderin
E-posta(contact@handy.computer) veya Discord üzerinden topluluğa katılabilirsiniz
Amaç, topluluğun geliştirebileceği bir temel sunmak için basit ve iyi yapılandırılmış bir kod tabanı sağlamaktır

İlgili projeler ve lisans

Handy CLI: Python tabanlı komut satırı sürümü
handy.computer: Resmi web sitesi ve demo sunar
MIT lisansı ile dağıtılır
Whisper(OpenAI), Silero, Tauri gibi açık kaynak projeleri temel alır

Alıntı

“Handy, mükemmel olduğu için değil, onu sizin mükemmel hale getirebileceğiniz için konuşma tanıma arayışınızı sona erdirebilir.”

1 yorum

GN⁺ 2026-01-17

Hacker News yorumları

Birçok STT uygulaması denedim ama sonunda VoiceInk'te karar kıldım (yerel, tek seferlik ödeme)
Parakeet V3 ile birlikte kullanınca neredeyse anında tepki veriyor ve doğruluğu da fazlasıyla yeterli
CLI ajanına konuşup sık sık “beni nasıl anladığını söyle” diye isteme rutinim var
Bu şekilde hem anladığını doğruluyorum hem de bir nevi şartname görevi görüyor
Son zamanlarda Handy + Parakeet v3 kombinasyonunu da denedim; çok iyi çalışıyor, birkaç gün bunu kullanmayı planlıyorum
Cmd‑Shift‑D ile “debug” arayüzünü açarsanız son işleme (post‑processing) veya boşluk ekleme gibi ek seçenekleri de görebilirsiniz
- Bu modellerden birinin programlamaya özel olması güzel olurdu
  “cd ~/projects” veya “git push --force” gibi komutları sesle söylemek istiyorum
Bende distoni (dystonia) var; kollarım kasıldığında klavyede yazamıyorum
Bu yüzden SuperWhisper gibi TTS uygulamaları çok yardımcı oldu
Handy'nin de benzer bir deneyim sunmasını umuyorum
Ama bir sonraki aşamaya geçmesi için, sadece sesi metne dönüştürmenin ötesine geçip bağlam tabanlı genişleme gerektiğini düşünüyorum
Örneğin IDE içinde kodu söyleyince gerçekten kod üretilmesi gibi
Sonuçta gidişat, TTS ile bilgisayar kullanımını birleştirmek yönünde
- ultraplan adında bir CLI aracı yaptım
  Yerel Whisper ile sesi kaydediyor; ekran görüntüleri, pano içeriği gibi şeyleri zaman çizelgesi biçiminde saklıyor
  Sonrasında Claude Code gibi bir ajan bu zaman çizelgesini okuyup işe devam ediyor
  “marco” dediğimde ekran görüntüsü alması gibi eller serbest kontrol de mümkün
  İstersen bunu GitHub'da düzenleyip paylaşabilirim
- Söylediğine katılıyorum. Bu yüzden Handy'yi açık kaynak olarak yayımladım
  Küçük yerel modelleri (moondream, qwen vb.) kullanarak bilgisayar bağlamını anlamaya yönelik deneyler de var
  Eskiden parmağım kırıldığında kısayolları Handy'ye eşleyerek basit bir bağlam kontrolü uygulamıştım
- “Sesle kod yazma” konusu LLM'lerden önce de çok araştırılmıştı
  Örneğin Using Voice to Code Faster than Keyboard gibi 2013 tarihli bir örnek var
  Daha yeni araştırmalar arasında şu makale da var
- Bahsettiğin işlev zaten mümkün
  STT çıktısını LLM'e verirsen niyeti anlayıp komut seti üretebilir
  CLI'da sesli komutları doğrudan shell komutlarına çevirmek kolay
  GUI'de ise ekran durumunu bilmek gerektiği için biraz daha karmaşık
  macOS'taki MacWhisper, dikte edilmiş metni OpenAI uyumlu bir endpoint'e gönderebiliyor
Çeşitli sesli transkripsiyon uygulamaları hakkında kısa bir değerlendirme
Superwhisper ücretli ama ömür boyu abonelik seçeneği var ve özellik açısından zengin. Tek geliştirici tarafından sürdürüldüğü için ara sıra hatalar olabiliyor
Hex, en hafif ve en temiz ücretsiz seçenek
Fluid Voice, konuşurken metni gerçek zamanlı göstermesiyle öne çıkan benzersiz bir özelliğe sahip
Handy'nin pembe arayüzü tatlı ve geçmiş penceresini beğeniyorum. Pano geri yükleme ayarı biraz alışılmadık
Birden fazla uygulamayı sırayla kurup kaldırınca biraz çakışma yaşadım
Nvidia'nın Parakeet'i açık kaynak yapması sayesinde hepsi çok hızlı
Ben gerçek zamanlı transkripsiyon akışını tercih ediyorum. Kalite düşük olsa bile anında görmek, sonra bunun daha yüksek kaliteli sürümle değiştirilmesi hoşuma gidiyor
Haftalardır STT uygulaması ararken Handy'yi buldum
Çoğu ücretli ya da abonelik tabanlıydı; ben de kendim yapmayı düşünüyordum ama Handy hızlı, sade ve rahatsız etmiyor
Üstelik düzenli olarak güncelleniyor; bu da beni gerçekten memnun ediyor
Son işleme (post‑processing) özelliği de harika olabilir
Wispr Flow kullanıyorum ama geçiş yapmam için sık sık yanlış tanınan kelimeler (şirket adları, kişi isimleri, kütüphane adları vb.) için kullanıcı sözlüğü özelliği lazım
- Sanırım “Custom Words” denen özellikten bahsediyorsun. Henüz düzgün test edemedim
- İlgili PR yakında birleştirilecek, istersen önceden derleyip kullanabilirsin
- Bazı modeller kelime bazında güven skoru (confidence) gösteriyor
  Kelimeleri elle eklemek de iyi ama belirsiz kelimeleri işaretlerse tamamlamak daha kolay olabilir
Dikkat edilmesi gereken bir nokta var
Varsayılan kısayol Ctrl+Space ve tuşu bıraktığınız anda transkripsiyon ekleniyor
Bu sırada Ctrl hâlâ basılıysa yazıya dökülen metin Ctrl karakteri olarak işleniyor
Test ortamı Linux x64, X11 ve Emacs'tı
Parakeet v3 ile birlikte Handy kullanıyorum ve gerçekten harika
Monologue, Superwhisper ve Aqua'yı da denedim ama Handy yerel çalışıyor ve abonelik ücreti de yok
Kesinlikle tavsiye ederim
OpenWhispr ile karşılaştıran biri olup olmadığını merak ediyorum
Açıklamaya göre benzer görünüyorlar. Handy'nin ilk sürümü 2025 Haziran'da, OpenWhispr ise bir ay sonra çıkmış
Handy'nin GitHub'da 11k yıldızı var, OpenWhispr'ün ise yaklaşık 730
- İkisini de kullandım; Handy'yi doğrudan macOS uygulaması olarak kurabildiğim için çok daha basitti
  O sırada OpenWhispr'de Parakeet modeli yoktu ve arayüzü de yeterince akıcı değildi
  Handy, minimal arayüzü sayesinde kullanımı sezgisel hale getiriyor
  Gelişmiş özellikleri eksik ama iki aydır kullanıyorum ve başka bir STT uygulaması aramayı düşünmüyorum
MacBook M1 Air cihazımda Handy çok hızlı ve macOS'un varsayılan STT'sinden daha doğru
Ayarlar da yeterince sade olduğu için kullanımı rahat
“discharging the model” seçeneğinin ne olduğunu merak etmiştim; RAM veya CPU üzerinde bir etkisi yok gibi görünüyordu
- Bu, modeli RAM'de hazır tutup hızlı erişim sağlamaya yarıyor
  Bellekten indirirsen başlatma hızı yavaşlıyor
Parakeet V3 modeli gerçekten mükemmel

Handy – Ücretsiz açık kaynaklı konuşma tanıma uygulaması

Genel Bakış

Handy'nin felsefesi

Nasıl çalışır

Mimari

Bilinen sorunlar ve kısıtlamalar

Sistem gereksinimleri

Geliştirme yol haritası

Sorun giderme ve manuel model kurulumu

Nasıl katkı sağlanır

İlgili projeler ve lisans

Alıntı

İlgili okumalar

1 yorum

Hacker News yorumları