- Handy, tamamen çevrimdışı çalışan ücretsiz, açık kaynaklı bir konuşmadan metne dönüştürme masaüstü uygulamasıdır ve gizlilik odaklı bir tasarıma sahiptir
- Tauri(Rust + React/TypeScript) tabanlı olarak geliştirilmiştir; kısayol tuşuna basıp konuştuğunuzda ses doğrudan metin alanına girilir
- Whisper ve Parakeet V3 modellerini destekler; GPU hızlandırmalı veya CPU tabanlı olarak yerel konuşma tanıma gerçekleştirir
- Windows, macOS ve Linux'ta çalışır; genişletilebilirlik ve kolay fork edilebilirlik odaklı yapısıyla geliştirici katkılarını teşvik eder
- Buluta aktarım olmadan yerelde çalışan gizlilik odaklı bir sesli giriş aracıdır; erişilebilirlik ve özelleştirme potansiyeli yüksektir
Genel Bakış
- Handy, internet bağlantısı olmadan tamamen çevrimdışı çalışan ücretsiz, açık kaynaklı ve genişletilebilir bir konuşma tanıma uygulamasıdır
- Tauri framework temelinde kuruludur; Rust arka ucu ile React/TypeScript ön ucunu birleştirir
- Kullanıcı kısayol tuşuna basıp konuşur, bıraktığında Whisper veya Parakeet V3 modeli sesi metne dönüştürüp etkin uygulamaya yapıştırır
- Tüm ses verileri yerelde işlendiği için kişisel verilerin sızma riski yoktur
Handy'nin felsefesi
- Ücretsiz: Erişilebilirlik araçları herkes tarafından kullanılabilmelidir
- Açık kaynaklı: Herkes özellikleri genişletebilir ve iyileştirebilir
- Gizlilik garantisi: Ses verileri buluta gönderilmez
- Basitlik: Tek bir amaca, yani sesi metne dönüştürmeye odaklanır
- Amaç “en mükemmel” uygulamayı değil, “fork etmesi en kolay” uygulamayı yapmaktır
Nasıl çalışır
- Kullanıcı kısayol tuşu ile kaydı başlatıp durdurabilir veya push-to-talk modu kullanabilir
- Silero VAD ile sessizlik bölümleri filtrelenir ve Whisper veya Parakeet V3 modeliyle ses dönüştürülür
- Whisper modelleri: Small, Medium, Turbo, Large sürümleri sunulur, GPU hızlandırmayı destekler
- Parakeet V3: CPU için optimize edilmiştir, otomatik dil algılama içerir
- Dönüştürülen metin, kullanılan uygulamanın giriş alanına otomatik olarak eklenir
- Windows, macOS, Linux desteklenir
Mimari
- Ön uç: React + TypeScript + Tailwind CSS
- Arka uç: Rust tabanlıdır, ses işleme ve makine öğrenimi çıkarımından sorumludur
- Temel kütüphaneler
whisper-rs: Whisper modelinin yerel konuşma tanıması
transcription-rs: Parakeet modelinin CPU üzerinde tanınması
cpal: Ses giriş/çıkışı
vad-rs: Ses etkinliği algılama
rdev: Global kısayollar ve sistem olaylarının işlenmesi
rubato: Ses yeniden örnekleme
- Debug modu:
Cmd+Shift+D(macOS) veya Ctrl+Shift+D(Windows/Linux) ile erişilebilir
Bilinen sorunlar ve kısıtlamalar
- Whisper model çakışmaları: Bazı Windows/Linux ortamlarında modelin çökmesine yol açan sorunlar vardır
- Wayland desteği sınırlı: Linux Wayland ortamında
wtype veya dotool kurulumu gerekir
- Metin giriş araçları
- X11:
xdotool
- Wayland:
wtype veya dotool
- Bu araçlar kurulu değilse
enigo ile değiştirilebilir, ancak uyumluluk sınırlıdır
- Linux overlay varsayılan olarak devre dışıdır: Odak çakışmalarını önlemek için varsayılan olarak kapalıdır
Sistem gereksinimleri
- Whisper modelleri için
- macOS: M serisi veya Intel Mac
- Windows/Linux: Intel, AMD, NVIDIA GPU (Ubuntu 22.04/24.04 önerilir)
- Parakeet V3 modeli için
- Yalnızca CPU, Intel Skylake (6. nesil) ve üzeri önerilir
- Orta seviye donanımda gerçek zamanın yaklaşık 5 katı hız
- Otomatik dil algılama içerir
Geliştirme yol haritası
- Devam eden özellikler
- Debug log dosyası ekleme
- macOS kısayol iyileştirmeleri (Globe tuşu desteği, global kısayol işleme mantığının yeniden yazılması)
- İsteğe bağlı analitik özelliği: anonim kullanım verisi toplama, açık rıza temelinde
- Ayar sisteminin refactor edilmesi ve soyutlamaların iyileştirilmesi
- Tauri komut yapısının düzenlenmesi ve tip güvenliğinin artırılması
Sorun giderme ve manuel model kurulumu
- Ağ kısıtlaması olan ortamlarda modeller manuel olarak indirilebilir ve kurulabilir
- Uygulama veri dizininde
models klasörü oluşturup model dosyalarını yerleştirin
- Whisper modelleri:
.bin dosyalarını doğrudan kopyalayın
- Parakeet modelleri:
.tar.gz arşivini açıp belirtilen klasör adını koruyun
- Kurulumdan sonra uygulama yeniden başlatıldığında modeller otomatik olarak algılanır
Nasıl katkı sağlanır
- GitHub issue'larını kontrol ettikten sonra fork edip branch oluşturun
- Hedef platformda yeterince test ettikten sonra Pull Request gönderin
- E-posta(contact@handy.computer) veya Discord üzerinden topluluğa katılabilirsiniz
- Amaç, topluluğun geliştirebileceği bir temel sunmak için basit ve iyi yapılandırılmış bir kod tabanı sağlamaktır
İlgili projeler ve lisans
- Handy CLI: Python tabanlı komut satırı sürümü
- handy.computer: Resmi web sitesi ve demo sunar
- MIT lisansı ile dağıtılır
- Whisper(OpenAI), Silero, Tauri gibi açık kaynak projeleri temel alır
Alıntı
- “Handy, mükemmel olduğu için değil, onu sizin mükemmel hale getirebileceğiniz için konuşma tanıma arayışınızı sona erdirebilir.”
1 yorum
Hacker News yorumları
Parakeet V3 ile birlikte kullanınca neredeyse anında tepki veriyor ve doğruluğu da fazlasıyla yeterli
CLI ajanına konuşup sık sık “beni nasıl anladığını söyle” diye isteme rutinim var
Bu şekilde hem anladığını doğruluyorum hem de bir nevi şartname görevi görüyor
Son zamanlarda Handy + Parakeet v3 kombinasyonunu da denedim; çok iyi çalışıyor, birkaç gün bunu kullanmayı planlıyorum
Cmd‑Shift‑D ile “debug” arayüzünü açarsanız son işleme (post‑processing) veya boşluk ekleme gibi ek seçenekleri de görebilirsiniz
“cd ~/projects” veya “git push --force” gibi komutları sesle söylemek istiyorum
Bu yüzden SuperWhisper gibi TTS uygulamaları çok yardımcı oldu
Handy'nin de benzer bir deneyim sunmasını umuyorum
Ama bir sonraki aşamaya geçmesi için, sadece sesi metne dönüştürmenin ötesine geçip bağlam tabanlı genişleme gerektiğini düşünüyorum
Örneğin IDE içinde kodu söyleyince gerçekten kod üretilmesi gibi
Sonuçta gidişat, TTS ile bilgisayar kullanımını birleştirmek yönünde
ultraplanadında bir CLI aracı yaptımYerel Whisper ile sesi kaydediyor; ekran görüntüleri, pano içeriği gibi şeyleri zaman çizelgesi biçiminde saklıyor
Sonrasında Claude Code gibi bir ajan bu zaman çizelgesini okuyup işe devam ediyor
“marco” dediğimde ekran görüntüsü alması gibi eller serbest kontrol de mümkün
İstersen bunu GitHub'da düzenleyip paylaşabilirim
Küçük yerel modelleri (moondream, qwen vb.) kullanarak bilgisayar bağlamını anlamaya yönelik deneyler de var
Eskiden parmağım kırıldığında kısayolları Handy'ye eşleyerek basit bir bağlam kontrolü uygulamıştım
Örneğin Using Voice to Code Faster than Keyboard gibi 2013 tarihli bir örnek var
Daha yeni araştırmalar arasında şu makale da var
STT çıktısını LLM'e verirsen niyeti anlayıp komut seti üretebilir
CLI'da sesli komutları doğrudan shell komutlarına çevirmek kolay
GUI'de ise ekran durumunu bilmek gerektiği için biraz daha karmaşık
macOS'taki MacWhisper, dikte edilmiş metni OpenAI uyumlu bir endpoint'e gönderebiliyor
Superwhisper ücretli ama ömür boyu abonelik seçeneği var ve özellik açısından zengin. Tek geliştirici tarafından sürdürüldüğü için ara sıra hatalar olabiliyor
Hex, en hafif ve en temiz ücretsiz seçenek
Fluid Voice, konuşurken metni gerçek zamanlı göstermesiyle öne çıkan benzersiz bir özelliğe sahip
Handy'nin pembe arayüzü tatlı ve geçmiş penceresini beğeniyorum. Pano geri yükleme ayarı biraz alışılmadık
Birden fazla uygulamayı sırayla kurup kaldırınca biraz çakışma yaşadım
Nvidia'nın Parakeet'i açık kaynak yapması sayesinde hepsi çok hızlı
Ben gerçek zamanlı transkripsiyon akışını tercih ediyorum. Kalite düşük olsa bile anında görmek, sonra bunun daha yüksek kaliteli sürümle değiştirilmesi hoşuma gidiyor
Çoğu ücretli ya da abonelik tabanlıydı; ben de kendim yapmayı düşünüyordum ama Handy hızlı, sade ve rahatsız etmiyor
Üstelik düzenli olarak güncelleniyor; bu da beni gerçekten memnun ediyor
Son işleme (post‑processing) özelliği de harika olabilir
Kelimeleri elle eklemek de iyi ama belirsiz kelimeleri işaretlerse tamamlamak daha kolay olabilir
Varsayılan kısayol Ctrl+Space ve tuşu bıraktığınız anda transkripsiyon ekleniyor
Bu sırada Ctrl hâlâ basılıysa yazıya dökülen metin Ctrl karakteri olarak işleniyor
Test ortamı Linux x64, X11 ve Emacs'tı
Monologue, Superwhisper ve Aqua'yı da denedim ama Handy yerel çalışıyor ve abonelik ücreti de yok
Kesinlikle tavsiye ederim
Açıklamaya göre benzer görünüyorlar. Handy'nin ilk sürümü 2025 Haziran'da, OpenWhispr ise bir ay sonra çıkmış
Handy'nin GitHub'da 11k yıldızı var, OpenWhispr'ün ise yaklaşık 730
O sırada OpenWhispr'de Parakeet modeli yoktu ve arayüzü de yeterince akıcı değildi
Handy, minimal arayüzü sayesinde kullanımı sezgisel hale getiriyor
Gelişmiş özellikleri eksik ama iki aydır kullanıyorum ve başka bir STT uygulaması aramayı düşünmüyorum
Ayarlar da yeterince sade olduğu için kullanımı rahat
“discharging the model” seçeneğinin ne olduğunu merak etmiştim; RAM veya CPU üzerinde bir etkisi yok gibi görünüyordu
Bellekten indirirsen başlatma hızı yavaşlıyor