21 puan yazan GN⁺ 2025-08-19 | 2 yorum | WhatsApp'ta paylaş
  • Whispering, bir kısayol tuşuna bastıktan sonra ses → metin dönüşümü yapıp sonucu doğrudan panoya yapıştıran önce yerel çalışan bir ses transkripsiyon aracıdır
  • Mevcut birçok aracın kapalı ve ücretli hizmetler olmasının aksine, Whispering şeffaf veri işleme ve açık kaynak erişilebilirliği sunar
  • Kullanıcılar yerel (Whisper C++, Speaches vb.) veya bulut (Groq, OpenAI, ElevenLabs vb.) seçenekleri arasından seçim yapabilir ve istedikleri yapay zeka dönüşüm özelliklerini ayarlayabilir
  • Uygulama 22MB ile hafif ve hızlı başlatma sunar; özel kısayollar, ses etkinleştirme modu, metni otomatik biçimlendirme gibi gelişmiş özellikler içerir
  • Veri sahipliği ile maliyet tasarrufunu aynı anda sağlayarak, kapalı transkripsiyon SaaS çözümlerine anlamlı bir alternatif oluşturur

Whispering'e genel bakış

  • Whispering, ücretsiz ve açık kaynaklı bir ses transkripsiyon uygulamasıdır; kısayol tuşuna basıp konuştuğunuzda sesi metne çevirir ve otomatik olarak kopyalar
    • Kişisel veriler varsayılan olarak yerelde saklanır ve dışarı gönderilmez
    • İstenirse OpenAI, Groq, ElevenLabs gibi harici API'ler doğrudan bağlanabilir
  • Temel değerleri olarak şeffaflık ve veri sahipliğini garanti etmeyi öne çıkarır

Başlıca özellikler ve öne çıkanlar

  • Ses etkinleştirme modu (Voice Activity Detection, VAD) desteği
    • Kullanıcı konuşmaya başladığında kayıt otomatik başlar, durduğunda otomatik biter
  • Yapay zeka tabanlı dönüşümler (Transformations) özelliği
    • Dilbilgisi düzeltme, çeviri, özetleme, biçim uygulama gibi çeşitli yapay zeka iş akışları yapılandırılabilir
    • OpenAI, Anthropic, Google Gemini, Groq gibi çeşitli LLM sağlayıcıları seçilebilir
    Reklam
  • Özel kısayol desteğiyle kullanıcı ortamına göre özelleştirme yapılabilir
  • Düşük maliyetli yapı: Sağlayıcıya ödeme, doğrudan kendi API anahtarınızla yapılır
    • Örnek: Groq modeli kullanıldığında saat başına 0.02$ → aylık yaklaşık 0.20$ seviyesi (geleneksel SaaS'e kıyasla 100 kat daha ucuz)

Kurulum ve kullanım

  • macOS, Windows, Linux için ikili dosyalar sunulur
    • macOS: Apple Silicon/Intel sürümleri ayrı sunulur
    • Windows: MSI/EXE kurulum seçenekleri sunulur
    • Linux: AppImage, DEB, RPM desteklenir
  • Kurulumla uğraşmak istemeyenler için web uygulaması sürümü de vardır (ancak global kısayollar desteklenmez)
Reklam

Veri işleme yöntemi

  • Tüm kayıtlar ve transkripsiyon sonuçları IndexedDB içinde saklanır ve yerel olarak yönetilir
  • Harici bir transkripsiyon hizmeti seçildiğinde yalnızca API anahtarıyla doğrudan çağrı yapılır
    • Sunucu aracılığı yoktur, veri toplama yoktur
  • Dönüşüm hizmetleri de yalnızca kullanıcının seçtiği LLM sağlayıcısına gönderilir
    • Dönüşüm iş akışları, istemler ve ayar değerleri yerelde saklanır

Farklılaştığı noktalar ve avantajlar

  • Mevcut transkripsiyon uygulamaları arada bir sunucu kullanıp aylık 15~30 dolar ücret alır
  • Whispering, aracısız yapısı sayesinde doğrudan sağlayıcıya bağlanarak maliyeti düşürür
  • Yerel seçenek tercih edildiğinde tamamen çevrimdışı, ücretsiz ve sınırsız kullanım mümkündür

Geliştirme ve mimari

  • Svelte 5 + Tauri tabanlıdır; hem masaüstü hem web desteği sunar
    • Yaklaşık 22MB boyut, hızlı açılış, minimum kaynak kullanımı
    Reklam
  • Kod tabanı servis katmanı, sorgu katmanı ve UI katmanı olarak ayrılmış bir 3 katmanlı mimariye sahiptir
    • Web ve masaüstü sürümleri arasında %97 kod paylaşımı vardır
  • Tarayıcı eklentisi (React + shadcn/ui) şu anda geçici olarak durdurulmuş durumda; odak masaüstü uygulamasını kararlı hale getirmekte

Katkı ve topluluk

  • Herkes kaynak kodunu inceleyebilir, özellik katkısı yapabilir, yeni transkripsiyon / yapay zeka hizmeti bağdaştırıcıları ekleyebilir
  • Geliştirme yönergeleri: TypeScript/Svelte kalıplarını koruma, WellCrafted kütüphanesi tabanlı hata işleme
  • Kullanıcı geri bildirimi ve iş birliği, Discord topluluğu ve GitHub Issues üzerinden yürütülür
  • MIT lisansı ile özgürce fork edilebilir, değiştirilebilir ve yeniden dağıtılabilir

SSS'den öne çıkan yanıtlar

  • Çevrimdışı kullanım mümkün mü?: Speaches yerel moduyla tamamen çevrimdışı desteklenir
  • Gerçek maliyet nedir?: Groq ile aylık 0.2~3$, OpenAI ile aylık 1.8~16.2$, yerelde ücretsiz
  • Güvenlik/gizlilik: Kayıtlar yerelde tutulur; dışarı aktarım yalnızca kullanıcının doğrudan seçtiği sağlayıcının API'sine yapılır
  • Desteklenen platformlar: macOS, Windows, Linux masaüstü + web tarayıcısı

2 yorum

 
wedding 2025-08-21

Kapalı ağda ses tanıma işlevini gerçekleştirmek için whisper ile STT yapan hafif bir web sunucusu oluşturup kullanıyorum.
Her şey çevrimdışı çalışıyormuş gibi anlatılıyor ama transkripsiyon dışında dönüşüm gibi şeylerde buluta bağımlı olmak gerekiyorsa, farkı ve avantajlarının ne anlamı var pek emin değilim.

 
GN⁺ 2025-08-19
Hacker News yorumları
  • Parakeet modelinin yerelde kullanılıp kullanılamayacağını merak ediyorum; MacWhisper kullanıyorum ve Parakeet, cihaz üstü transkripsiyon performansında Whisper'dan çok daha hızlı ve doğru olduğu için çok memnunum. Uzun süredir MacWhisper + Parakeet kombinasyonunu push-to-transcribe için kullanıyorum; gerçekten büyü gibi bir deneyim.
    • Henüz desteklenmiyor ama benim de kesinlikle istediğim bir özellik. Parakeet'in liderlik tablosunda harika sonuçlar verdiğini gördüm; şu anda önce whisper.cpp entegrasyonunu istikrarlı hale getirip ardından Parakeet desteği eklemeyi düşünüyorum. Biri PR ile bir bağlayıcı hazırlarsa hemen merge etmeye hazırım.
    • Parakeet gerçekten inanılmaz. A100 GPU'da gerçek zamanın 3000 katı hızda, dizüstü CPU'sunda ise gerçek zamanın 5 katı hızda çalışıyor. whisper-large-v3'ten daha doğru. huggingface ASR liderlik tablosuna bakabilirsiniz. Yalnız NeMo framework'ü biraz zahmetli olabilir. Mac'te (MacWhisper ile) yerel çalışması etkileyici.
  • Bu sabah repoya bakanlar için bilgi: whisper C++ desteğini ekleyen bir sürüm hazırlıyoruz. İlerleme PR bağlantısına bakabilirsiniz. Bu yayınlanınca çok daha güçlü yerel transkripsiyon desteği sunacağız. Sadece birkaç küçük düzeltme kaldı.
  • Keşke açık kaynak temelli, yerel öncelikli uygulamalar her türde olsa ve hepsi birbiriyle iyi çalışsa. Epicenter'ın fikri, tüm verileri klasörlerde metin ve SQLite olarak saklayarak sistemi şeffaf ve güvenilir kılmak. Bunun üstüne birlikte çalışabilir yerel öncelikli araçlar yerleştiriliyor. Bu tür bir şeffaflığın güven vermesi gerçekten hoşuma gidiyor. TTS konusunda neredeyse hiç deneyimim yok ama bu alanı kurcalamaya başladığımda Epicenter sayesinde Whispering ile başlayacağım. Repoya yıldız verdim, hatta katkı sunulabilecek uygulama fikirleri de düşüneceğim. YC'ye kabulünüz kutlu olsun, teşekkürler.
    • Destek için çok teşekkürler; bu tür geri bildirimler çok değerli. Açık kaynak ve verinin kullanıcıda kalmasının değerini paylaşan biriyle konuşmak güzel. YC sürecinde daha fazla OSS geliştiricisini desteklemek için elimizden geleni yapacağız. İletişimde kalalım.
    • Burada TTS'den değil, STT'den söz ediliyor gibi görünüyor.
    • İleride bir bulut sürümü de isterseniz, AgentDB API ile sadece ilgili veriyi yükleyip sorguları bulutta çalıştırabilirsiniz.
  • Harika ürünü paylaştığınız için teşekkürler. Geçen hafta ticari ürünler yavaş olduğu için ben de benzer bir uygulamayı yerelde çalışacak şekilde geliştirdim. Tek tuşla tüm sesi kaydedip yazıya döküyor ve uygulamaya ekliyor. Ana dilimde konuşunca otomatik olarak İngilizceye çeviren ikinci bir mod da yaptım. Virgül ve tırnak işareti gibi biçimlendirmeyi korumayı da düzgün şekilde uyguladım. Böyle bir şeyin MacOS'un varsayılan dikte uygulamasında hâlâ olmaması şaşırtıcı.
    • Destek için çok teşekkürler; çeviride de işe yaramasına sevindim. MacOS'un varsayılan dikte özelliğinin bu kadar ilerlememiş olması gerçekten tuhaf. O boşluğu açık kaynak dolduruyor.
  • Bunun iOS'ta da olup olmadığını merak ediyorum. Parakeet veya Whisper'ı saran özel bir iOS klavye uygulaması istiyorum; böylece dikte klavyesine geçip bir düğmeye basınca tüm uygulamalara (1. ve 3. parti dahil) anında transkripsiyon metnini girebilsin. MacOS'ta MacWhisper gerçekten harika ama iOS'ta henüz aynı işlev yok. iOS'un varsayılan diktesi iyi olsa da teknik terimler ve kısaltmaları Whisper cpp çok daha iyi anlıyor.
    • superwhisper bu özelliği sunuyor.
  • Yerelde ses işleyen dikte özellikleriyle ilgileniyordum. Sesi uzak API'lere göndermek istemiyorum; her şey tamamen yerelde ve veri sızmadan çalışmalı. FUTO Keyboard'da kullanılan model gibi birkaç şeyi denedim ama hâlâ yetersiz geliyor. Özellikle gürültü yönetimi, "hım...", "ee..." gibi dolgu sesleri ve konuşurken yapılan orta cümle düzeltmelerini iyi takip edemiyor. Bu sorunları iyi çözen açık bir model çıkmasını umuyorum. Sorunun uygulamada mı yoksa modelin sınırlarında mı olduğunu anlamak zor ama bu konuda yeni bir model olup olmadığını merak ediyorum. O zamana kadar zahmetli olsa da not almak için yazmaya devam etmem gerekecek gibi.
    • Whisper'ın kendisini denediniz mi, tavsiye ederim. Açık ağırlıklarla kullanılabiliyor ve yukarıda tanıtılan Epicenter'ın özelliklerinden biri de "transkripsiyon dönüştürme". Metni bir LLM'e verip daha temiz hale getirebilirsiniz. Token maliyetini karşılayabiliyorsanız sadece dolgu ifadeleri kaldırmakla kalmaz, cümleleri anlam birimlerine göre otomatik olarak da düzeltebilir.
  • Bu alanda yerel öncelikli yaklaşım ile kendi yedekleme aracını birleştirme fikri giderek daha çok hoşuma gidiyor. Yakın zamanda hyprnote Hacker News'te ilgi görmüştü; gerçekten çok iyi yapılmış ve yerel öncelikli olsa da tercih ettiğiniz araçlarla da kullanılabiliyor.
    • Hyprnote'un da büyük hayranıyım. İki ürün biraz farklı ama teknoloji yığını açısından örtüşen çok şey var ve misyonları da oldukça benziyor.
  • whispering'i bir yıldan uzun süredir kullanıyorum ve bilgisayarla etkileşim biçimimi tamamen değiştirdi. Mutlaka programlanabilir tuşları olan bir fare ve klavye alın, whispering kısayolunu atayın. Artık normal yazmaya geri dönemeyecek kadar tuşla giriş yapmak verimsiz geliyor.
    • Desteğiniz için çok teşekkürler; böyle geri bildirimler büyük motivasyon kaynağı. İleride bir sorun yaşarsanız lütfen her zaman ulaşın.
  • Bunun çocuk seslerinde ne kadar iyi çalıştığını merak ediyorum. Eğitim uygulamalarında gizliliğin önemli olduğu yerel tabanlı modellere ciddi talep var. Ama bildiğim kadarıyla Whisper şu an küçük yaştaki çocukları iyi anlayamıyor.
    • Doğru, Whisper çocuk seslerinde zayıf kalıyor. Parakeet veya diğer modelleri henüz test etmedim ama eğitim tarafında gizliliğin önemli olması çok iyi bir kullanım örneği. Hyprnote'u da önermek isterim; yakın zamanda OWhisper gibi model genişletmelerine yöneliyorlar. Hyprnote tanıtımı, OWhisper ayrıntıları bağlantılarına bakabilirsiniz.
  • Yerel öncelikli açık kaynak yazılıma takıntılıyım; bence herkes öyle olmalı.
    • Kesinlikle katılıyorum.