Whispering - Açık kaynak ses transkripsiyon uygulaması
(github.com/epicenter-so)- Whispering, bir kısayol tuşuna bastıktan sonra ses → metin dönüşümü yapıp sonucu doğrudan panoya yapıştıran önce yerel çalışan bir ses transkripsiyon aracıdır
- Mevcut birçok aracın kapalı ve ücretli hizmetler olmasının aksine, Whispering şeffaf veri işleme ve açık kaynak erişilebilirliği sunar
- Kullanıcılar yerel (Whisper C++, Speaches vb.) veya bulut (Groq, OpenAI, ElevenLabs vb.) seçenekleri arasından seçim yapabilir ve istedikleri yapay zeka dönüşüm özelliklerini ayarlayabilir
- Uygulama 22MB ile hafif ve hızlı başlatma sunar; özel kısayollar, ses etkinleştirme modu, metni otomatik biçimlendirme gibi gelişmiş özellikler içerir
- Veri sahipliği ile maliyet tasarrufunu aynı anda sağlayarak, kapalı transkripsiyon SaaS çözümlerine anlamlı bir alternatif oluşturur
Whispering'e genel bakış
- Whispering, ücretsiz ve açık kaynaklı bir ses transkripsiyon uygulamasıdır; kısayol tuşuna basıp konuştuğunuzda sesi metne çevirir ve otomatik olarak kopyalar
- Kişisel veriler varsayılan olarak yerelde saklanır ve dışarı gönderilmez
- İstenirse OpenAI, Groq, ElevenLabs gibi harici API'ler doğrudan bağlanabilir
- Temel değerleri olarak şeffaflık ve veri sahipliğini garanti etmeyi öne çıkarır
Başlıca özellikler ve öne çıkanlar
- Ses etkinleştirme modu (Voice Activity Detection, VAD) desteği
- Kullanıcı konuşmaya başladığında kayıt otomatik başlar, durduğunda otomatik biter
- Yapay zeka tabanlı dönüşümler (Transformations) özelliği
- Dilbilgisi düzeltme, çeviri, özetleme, biçim uygulama gibi çeşitli yapay zeka iş akışları yapılandırılabilir
- OpenAI, Anthropic, Google Gemini, Groq gibi çeşitli LLM sağlayıcıları seçilebilir
- Özel kısayol desteğiyle kullanıcı ortamına göre özelleştirme yapılabilir
- Düşük maliyetli yapı: Sağlayıcıya ödeme, doğrudan kendi API anahtarınızla yapılır
- Örnek: Groq modeli kullanıldığında saat başına 0.02$ → aylık yaklaşık 0.20$ seviyesi (geleneksel SaaS'e kıyasla 100 kat daha ucuz)
Kurulum ve kullanım
- macOS, Windows, Linux için ikili dosyalar sunulur
- macOS: Apple Silicon/Intel sürümleri ayrı sunulur
- Windows: MSI/EXE kurulum seçenekleri sunulur
- Linux: AppImage, DEB, RPM desteklenir
- Kurulumla uğraşmak istemeyenler için web uygulaması sürümü de vardır (ancak global kısayollar desteklenmez)
Veri işleme yöntemi
- Tüm kayıtlar ve transkripsiyon sonuçları IndexedDB içinde saklanır ve yerel olarak yönetilir
- Harici bir transkripsiyon hizmeti seçildiğinde yalnızca API anahtarıyla doğrudan çağrı yapılır
- Sunucu aracılığı yoktur, veri toplama yoktur
- Dönüşüm hizmetleri de yalnızca kullanıcının seçtiği LLM sağlayıcısına gönderilir
- Dönüşüm iş akışları, istemler ve ayar değerleri yerelde saklanır
Farklılaştığı noktalar ve avantajlar
- Mevcut transkripsiyon uygulamaları arada bir sunucu kullanıp aylık 15~30 dolar ücret alır
- Whispering, aracısız yapısı sayesinde doğrudan sağlayıcıya bağlanarak maliyeti düşürür
- Yerel seçenek tercih edildiğinde tamamen çevrimdışı, ücretsiz ve sınırsız kullanım mümkündür
Geliştirme ve mimari
- Svelte 5 + Tauri tabanlıdır; hem masaüstü hem web desteği sunar
- Yaklaşık 22MB boyut, hızlı açılış, minimum kaynak kullanımı
- Kod tabanı servis katmanı, sorgu katmanı ve UI katmanı olarak ayrılmış bir 3 katmanlı mimariye sahiptir
- Web ve masaüstü sürümleri arasında %97 kod paylaşımı vardır
- Tarayıcı eklentisi (React + shadcn/ui) şu anda geçici olarak durdurulmuş durumda; odak masaüstü uygulamasını kararlı hale getirmekte
Katkı ve topluluk
- Herkes kaynak kodunu inceleyebilir, özellik katkısı yapabilir, yeni transkripsiyon / yapay zeka hizmeti bağdaştırıcıları ekleyebilir
- Geliştirme yönergeleri: TypeScript/Svelte kalıplarını koruma, WellCrafted kütüphanesi tabanlı hata işleme
- Kullanıcı geri bildirimi ve iş birliği, Discord topluluğu ve GitHub Issues üzerinden yürütülür
- MIT lisansı ile özgürce fork edilebilir, değiştirilebilir ve yeniden dağıtılabilir
SSS'den öne çıkan yanıtlar
- Çevrimdışı kullanım mümkün mü?: Speaches yerel moduyla tamamen çevrimdışı desteklenir
- Gerçek maliyet nedir?: Groq ile aylık 0.2~3$, OpenAI ile aylık 1.8~16.2$, yerelde ücretsiz
- Güvenlik/gizlilik: Kayıtlar yerelde tutulur; dışarı aktarım yalnızca kullanıcının doğrudan seçtiği sağlayıcının API'sine yapılır
- Desteklenen platformlar: macOS, Windows, Linux masaüstü + web tarayıcısı
2 yorum
Kapalı ağda ses tanıma işlevini gerçekleştirmek için whisper ile STT yapan hafif bir web sunucusu oluşturup kullanıyorum.
Her şey çevrimdışı çalışıyormuş gibi anlatılıyor ama transkripsiyon dışında dönüşüm gibi şeylerde buluta bağımlı olmak gerekiyorsa, farkı ve avantajlarının ne anlamı var pek emin değilim.
Hacker News yorumları