MimikaStudio - Mac için ses klonlama ve TTS açık kaynak projesi

xguru · 2026-03-19T09:31:02+09:00

Ses klonlama, metinden sese dönüştürme, belge seslendirme ve sesli kitap üretimi özelliklerini entegre olarak sunar MLX tabanlı Metal hızlandırma ile macOS ortamında yerel performans sağlar (Windows desteği planlanıyor) 3 saniyelik örnekle ses klonlama yapabilen Qwen3-TTS ve Chatterbox motorlarını entegre eder Türkçe dahil çok dilli (23 dil) ses klonlama ve duygu ifadesi desteği sunar Kokoro TTS, Supertonic-2 ve CosyVoice3 ONNX gibi en yeni konuşma sentezi modellerini içerir Belge seslendirme okuyucusu özelliği: PDF, DOCX, EPUB, Markdown ve TXT dosyalarını cümle bazında okuma desteği Sesli kitap oluşturucu: Tüm belgeyi WAV/MP3/M4B biçimlerine dönüştürür. Bölüm bazlı kuyruk yönetimi, ilerleme takibi ve ses önayarlarının yeniden kullanımı Agentic Voice Cloning Server olarak çalışır ve gelişmiş iş kuyruğu orkestrasyonu ile paralel işleme desteği sunar UI, API ve CLI'nin tamamını sunar; bu sayede yerel otomasyon ve harici entegrasyon mümkündür, ayrıca MCP sunucusu da dahildir Paylaşımlı ses kütüphanesi sayesinde yüklenen sesler tüm motorlarda yeniden kullanılabilir Model yöneticisi yerleşiktir: HuggingFace modellerini indirme ve durum kontrolü yapılabilir Multi-LLM entegrasyonu (Claude, OpenAI, Ollama vb.) desteklenir Yaklaşık 18.600 satırlık bir kod tabanından oluşur; FastAPI backend ve Flutter masaüstü UI kullanır Python backend yaklaşık 8.500 satır, Dart UI yaklaşık 10.100 satır Yalnızca macOS için binary sunulur; Windows/Linux tarafında yalnızca kod uyumluluğu vardır (derlemeler daha sonra gelecek) Kaynak kodu Business Source License 1.1 (BSL-1.1) altında yayımlanır, binary'ler için ayrı bir dağıtım lisansı uygulanır

(github.com/BoltzmannEntropy)

42 puan yazan xguru 2026-03-19 | 2 yorum | WhatsApp'ta paylaş

Ses klonlama, metinden sese dönüştürme, belge seslendirme ve sesli kitap üretimi özelliklerini entegre olarak sunar
MLX tabanlı Metal hızlandırma ile macOS ortamında yerel performans sağlar (Windows desteği planlanıyor)
3 saniyelik örnekle ses klonlama yapabilen Qwen3-TTS ve Chatterbox motorlarını entegre eder
- Türkçe dahil çok dilli (23 dil) ses klonlama ve duygu ifadesi desteği sunar
Kokoro TTS, Supertonic-2 ve CosyVoice3 ONNX gibi en yeni konuşma sentezi modellerini içerir
Belge seslendirme okuyucusu özelliği: PDF, DOCX, EPUB, Markdown ve TXT dosyalarını cümle bazında okuma desteği
Sesli kitap oluşturucu: Tüm belgeyi WAV/MP3/M4B biçimlerine dönüştürür. Bölüm bazlı kuyruk yönetimi, ilerleme takibi ve ses önayarlarının yeniden kullanımı
Agentic Voice Cloning Server olarak çalışır ve gelişmiş iş kuyruğu orkestrasyonu ile paralel işleme desteği sunar
UI, API ve CLI'nin tamamını sunar; bu sayede yerel otomasyon ve harici entegrasyon mümkündür, ayrıca MCP sunucusu da dahildir
Paylaşımlı ses kütüphanesi sayesinde yüklenen sesler tüm motorlarda yeniden kullanılabilir
Model yöneticisi yerleşiktir: HuggingFace modellerini indirme ve durum kontrolü yapılabilir
Multi-LLM entegrasyonu (Claude, OpenAI, Ollama vb.) desteklenir
Yaklaşık 18.600 satırlık bir kod tabanından oluşur; FastAPI backend ve Flutter masaüstü UI kullanır
- Python backend yaklaşık 8.500 satır, Dart UI yaklaşık 10.100 satır
Yalnızca macOS için binary sunulur; Windows/Linux tarafında yalnızca kod uyumluluğu vardır (derlemeler daha sonra gelecek)
Kaynak kodu Business Source License 1.1 (BSL-1.1) altında yayımlanır, binary'ler için ayrı bir dağıtım lisansı uygulanır

2 yorum

neocode24 2026-03-19

Bu, mlx-audio'nun GUI sürümü mü? Kalite kesinlikle oldukça iyi görünüyor.

jhk0530 2026-03-19

Denedim, gerçekten müthiş.

MimikaStudio - Mac için ses klonlama ve TTS açık kaynak projesi

İlgili okumalar

2 yorum