2 puan yazan GN⁺ 2026-01-17 | 1 yorum | WhatsApp'ta paylaş
  • Handy, tamamen çevrimdışı çalışan ücretsiz, açık kaynaklı bir konuşmadan metne dönüştürme masaüstü uygulamasıdır ve gizlilik odaklı bir tasarıma sahiptir
  • Tauri(Rust + React/TypeScript) tabanlı olarak geliştirilmiştir; kısayol tuşuna basıp konuştuğunuzda ses doğrudan metin alanına girilir
  • Whisper ve Parakeet V3 modellerini destekler; GPU hızlandırmalı veya CPU tabanlı olarak yerel konuşma tanıma gerçekleştirir
  • Windows, macOS ve Linux'ta çalışır; genişletilebilirlik ve kolay fork edilebilirlik odaklı yapısıyla geliştirici katkılarını teşvik eder
  • Buluta aktarım olmadan yerelde çalışan gizlilik odaklı bir sesli giriş aracıdır; erişilebilirlik ve özelleştirme potansiyeli yüksektir

Genel Bakış

  • Handy, internet bağlantısı olmadan tamamen çevrimdışı çalışan ücretsiz, açık kaynaklı ve genişletilebilir bir konuşma tanıma uygulamasıdır
  • Tauri framework temelinde kuruludur; Rust arka ucu ile React/TypeScript ön ucunu birleştirir
  • Kullanıcı kısayol tuşuna basıp konuşur, bıraktığında Whisper veya Parakeet V3 modeli sesi metne dönüştürüp etkin uygulamaya yapıştırır
  • Tüm ses verileri yerelde işlendiği için kişisel verilerin sızma riski yoktur

Handy'nin felsefesi

  • Ücretsiz: Erişilebilirlik araçları herkes tarafından kullanılabilmelidir
  • Açık kaynaklı: Herkes özellikleri genişletebilir ve iyileştirebilir
  • Gizlilik garantisi: Ses verileri buluta gönderilmez
  • Basitlik: Tek bir amaca, yani sesi metne dönüştürmeye odaklanır
  • Amaç “en mükemmel” uygulamayı değil, “fork etmesi en kolay” uygulamayı yapmaktır

Nasıl çalışır

  • Kullanıcı kısayol tuşu ile kaydı başlatıp durdurabilir veya push-to-talk modu kullanabilir
  • Silero VAD ile sessizlik bölümleri filtrelenir ve Whisper veya Parakeet V3 modeliyle ses dönüştürülür
    • Whisper modelleri: Small, Medium, Turbo, Large sürümleri sunulur, GPU hızlandırmayı destekler
    • Parakeet V3: CPU için optimize edilmiştir, otomatik dil algılama içerir
  • Dönüştürülen metin, kullanılan uygulamanın giriş alanına otomatik olarak eklenir
  • Windows, macOS, Linux desteklenir

Mimari

  • Ön uç: React + TypeScript + Tailwind CSS
  • Arka uç: Rust tabanlıdır, ses işleme ve makine öğrenimi çıkarımından sorumludur
  • Temel kütüphaneler
    • whisper-rs: Whisper modelinin yerel konuşma tanıması
    • transcription-rs: Parakeet modelinin CPU üzerinde tanınması
    • cpal: Ses giriş/çıkışı
    • vad-rs: Ses etkinliği algılama
    • rdev: Global kısayollar ve sistem olaylarının işlenmesi
    • rubato: Ses yeniden örnekleme
  • Debug modu: Cmd+Shift+D(macOS) veya Ctrl+Shift+D(Windows/Linux) ile erişilebilir

Bilinen sorunlar ve kısıtlamalar

  • Whisper model çakışmaları: Bazı Windows/Linux ortamlarında modelin çökmesine yol açan sorunlar vardır
  • Wayland desteği sınırlı: Linux Wayland ortamında wtype veya dotool kurulumu gerekir
  • Metin giriş araçları
    • X11: xdotool
    • Wayland: wtype veya dotool
    • Bu araçlar kurulu değilse enigo ile değiştirilebilir, ancak uyumluluk sınırlıdır
  • Linux overlay varsayılan olarak devre dışıdır: Odak çakışmalarını önlemek için varsayılan olarak kapalıdır

Sistem gereksinimleri

  • Whisper modelleri için
    • macOS: M serisi veya Intel Mac
    • Windows/Linux: Intel, AMD, NVIDIA GPU (Ubuntu 22.04/24.04 önerilir)
  • Parakeet V3 modeli için
    • Yalnızca CPU, Intel Skylake (6. nesil) ve üzeri önerilir
    • Orta seviye donanımda gerçek zamanın yaklaşık 5 katı hız
    • Otomatik dil algılama içerir

Geliştirme yol haritası

  • Devam eden özellikler
    • Debug log dosyası ekleme
    • macOS kısayol iyileştirmeleri (Globe tuşu desteği, global kısayol işleme mantığının yeniden yazılması)
    • İsteğe bağlı analitik özelliği: anonim kullanım verisi toplama, açık rıza temelinde
    • Ayar sisteminin refactor edilmesi ve soyutlamaların iyileştirilmesi
    • Tauri komut yapısının düzenlenmesi ve tip güvenliğinin artırılması

Sorun giderme ve manuel model kurulumu

  • Ağ kısıtlaması olan ortamlarda modeller manuel olarak indirilebilir ve kurulabilir
  • Uygulama veri dizininde models klasörü oluşturup model dosyalarını yerleştirin
    • Whisper modelleri: .bin dosyalarını doğrudan kopyalayın
    • Parakeet modelleri: .tar.gz arşivini açıp belirtilen klasör adını koruyun
  • Kurulumdan sonra uygulama yeniden başlatıldığında modeller otomatik olarak algılanır

Nasıl katkı sağlanır

  • GitHub issue'larını kontrol ettikten sonra fork edip branch oluşturun
  • Hedef platformda yeterince test ettikten sonra Pull Request gönderin
  • E-posta(contact@handy.computer) veya Discord üzerinden topluluğa katılabilirsiniz
  • Amaç, topluluğun geliştirebileceği bir temel sunmak için basit ve iyi yapılandırılmış bir kod tabanı sağlamaktır

İlgili projeler ve lisans

  • Handy CLI: Python tabanlı komut satırı sürümü
  • handy.computer: Resmi web sitesi ve demo sunar
  • MIT lisansı ile dağıtılır
  • Whisper(OpenAI), Silero, Tauri gibi açık kaynak projeleri temel alır

Alıntı

  • Handy, mükemmel olduğu için değil, onu sizin mükemmel hale getirebileceğiniz için konuşma tanıma arayışınızı sona erdirebilir.”

1 yorum

 
GN⁺ 2026-01-17
Hacker News yorumları
  • Birçok STT uygulaması denedim ama sonunda VoiceInk'te karar kıldım (yerel, tek seferlik ödeme)
    Parakeet V3 ile birlikte kullanınca neredeyse anında tepki veriyor ve doğruluğu da fazlasıyla yeterli
    CLI ajanına konuşup sık sık “beni nasıl anladığını söyle” diye isteme rutinim var
    Bu şekilde hem anladığını doğruluyorum hem de bir nevi şartname görevi görüyor
    Son zamanlarda Handy + Parakeet v3 kombinasyonunu da denedim; çok iyi çalışıyor, birkaç gün bunu kullanmayı planlıyorum
    Cmd‑Shift‑D ile “debug” arayüzünü açarsanız son işleme (post‑processing) veya boşluk ekleme gibi ek seçenekleri de görebilirsiniz
    • Bu modellerden birinin programlamaya özel olması güzel olurdu
      “cd ~/projects” veya “git push --force” gibi komutları sesle söylemek istiyorum
  • Bende distoni (dystonia) var; kollarım kasıldığında klavyede yazamıyorum
    Bu yüzden SuperWhisper gibi TTS uygulamaları çok yardımcı oldu
    Handy'nin de benzer bir deneyim sunmasını umuyorum
    Ama bir sonraki aşamaya geçmesi için, sadece sesi metne dönüştürmenin ötesine geçip bağlam tabanlı genişleme gerektiğini düşünüyorum
    Örneğin IDE içinde kodu söyleyince gerçekten kod üretilmesi gibi
    Sonuçta gidişat, TTS ile bilgisayar kullanımını birleştirmek yönünde
    • ultraplan adında bir CLI aracı yaptım
      Yerel Whisper ile sesi kaydediyor; ekran görüntüleri, pano içeriği gibi şeyleri zaman çizelgesi biçiminde saklıyor
      Sonrasında Claude Code gibi bir ajan bu zaman çizelgesini okuyup işe devam ediyor
      “marco” dediğimde ekran görüntüsü alması gibi eller serbest kontrol de mümkün
      İstersen bunu GitHub'da düzenleyip paylaşabilirim
    • Söylediğine katılıyorum. Bu yüzden Handy'yi açık kaynak olarak yayımladım
      Küçük yerel modelleri (moondream, qwen vb.) kullanarak bilgisayar bağlamını anlamaya yönelik deneyler de var
      Eskiden parmağım kırıldığında kısayolları Handy'ye eşleyerek basit bir bağlam kontrolü uygulamıştım
    • “Sesle kod yazma” konusu LLM'lerden önce de çok araştırılmıştı
      Örneğin Using Voice to Code Faster than Keyboard gibi 2013 tarihli bir örnek var
      Daha yeni araştırmalar arasında şu makale da var
    • Bahsettiğin işlev zaten mümkün
      STT çıktısını LLM'e verirsen niyeti anlayıp komut seti üretebilir
      CLI'da sesli komutları doğrudan shell komutlarına çevirmek kolay
      GUI'de ise ekran durumunu bilmek gerektiği için biraz daha karmaşık
      macOS'taki MacWhisper, dikte edilmiş metni OpenAI uyumlu bir endpoint'e gönderebiliyor
  • Çeşitli sesli transkripsiyon uygulamaları hakkında kısa bir değerlendirme
    Superwhisper ücretli ama ömür boyu abonelik seçeneği var ve özellik açısından zengin. Tek geliştirici tarafından sürdürüldüğü için ara sıra hatalar olabiliyor
    Hex, en hafif ve en temiz ücretsiz seçenek
    Fluid Voice, konuşurken metni gerçek zamanlı göstermesiyle öne çıkan benzersiz bir özelliğe sahip
    Handy'nin pembe arayüzü tatlı ve geçmiş penceresini beğeniyorum. Pano geri yükleme ayarı biraz alışılmadık
    Birden fazla uygulamayı sırayla kurup kaldırınca biraz çakışma yaşadım
    Nvidia'nın Parakeet'i açık kaynak yapması sayesinde hepsi çok hızlı
    Ben gerçek zamanlı transkripsiyon akışını tercih ediyorum. Kalite düşük olsa bile anında görmek, sonra bunun daha yüksek kaliteli sürümle değiştirilmesi hoşuma gidiyor
  • Haftalardır STT uygulaması ararken Handy'yi buldum
    Çoğu ücretli ya da abonelik tabanlıydı; ben de kendim yapmayı düşünüyordum ama Handy hızlı, sade ve rahatsız etmiyor
    Üstelik düzenli olarak güncelleniyor; bu da beni gerçekten memnun ediyor
    Son işleme (post‑processing) özelliği de harika olabilir
  • Wispr Flow kullanıyorum ama geçiş yapmam için sık sık yanlış tanınan kelimeler (şirket adları, kişi isimleri, kütüphane adları vb.) için kullanıcı sözlüğü özelliği lazım
    • Sanırım “Custom Words” denen özellikten bahsediyorsun. Henüz düzgün test edemedim
    • İlgili PR yakında birleştirilecek, istersen önceden derleyip kullanabilirsin
    • Bazı modeller kelime bazında güven skoru (confidence) gösteriyor
      Kelimeleri elle eklemek de iyi ama belirsiz kelimeleri işaretlerse tamamlamak daha kolay olabilir
  • Dikkat edilmesi gereken bir nokta var
    Varsayılan kısayol Ctrl+Space ve tuşu bıraktığınız anda transkripsiyon ekleniyor
    Bu sırada Ctrl hâlâ basılıysa yazıya dökülen metin Ctrl karakteri olarak işleniyor
    Test ortamı Linux x64, X11 ve Emacs'tı
  • Parakeet v3 ile birlikte Handy kullanıyorum ve gerçekten harika
    Monologue, Superwhisper ve Aqua'yı da denedim ama Handy yerel çalışıyor ve abonelik ücreti de yok
    Kesinlikle tavsiye ederim
  • OpenWhispr ile karşılaştıran biri olup olmadığını merak ediyorum
    Açıklamaya göre benzer görünüyorlar. Handy'nin ilk sürümü 2025 Haziran'da, OpenWhispr ise bir ay sonra çıkmış
    Handy'nin GitHub'da 11k yıldızı var, OpenWhispr'ün ise yaklaşık 730
    • İkisini de kullandım; Handy'yi doğrudan macOS uygulaması olarak kurabildiğim için çok daha basitti
      O sırada OpenWhispr'de Parakeet modeli yoktu ve arayüzü de yeterince akıcı değildi
      Handy, minimal arayüzü sayesinde kullanımı sezgisel hale getiriyor
      Gelişmiş özellikleri eksik ama iki aydır kullanıyorum ve başka bir STT uygulaması aramayı düşünmüyorum
  • MacBook M1 Air cihazımda Handy çok hızlı ve macOS'un varsayılan STT'sinden daha doğru
    Ayarlar da yeterince sade olduğu için kullanımı rahat
    “discharging the model” seçeneğinin ne olduğunu merak etmiştim; RAM veya CPU üzerinde bir etkisi yok gibi görünüyordu
    • Bu, modeli RAM'de hazır tutup hızlı erişim sağlamaya yarıyor
      Bellekten indirirsen başlatma hızı yavaşlıyor
  • Parakeet V3 modeli gerçekten mükemmel