- Ses klonlama, metinden sese dönüştürme, belge seslendirme ve sesli kitap üretimi özelliklerini entegre olarak sunar
- MLX tabanlı Metal hızlandırma ile macOS ortamında yerel performans sağlar (Windows desteği planlanıyor)
- 3 saniyelik örnekle ses klonlama yapabilen Qwen3-TTS ve Chatterbox motorlarını entegre eder
- Türkçe dahil çok dilli (23 dil) ses klonlama ve duygu ifadesi desteği sunar
- Kokoro TTS, Supertonic-2 ve CosyVoice3 ONNX gibi en yeni konuşma sentezi modellerini içerir
- Belge seslendirme okuyucusu özelliği: PDF, DOCX, EPUB, Markdown ve TXT dosyalarını cümle bazında okuma desteği
- Sesli kitap oluşturucu: Tüm belgeyi WAV/MP3/M4B biçimlerine dönüştürür. Bölüm bazlı kuyruk yönetimi, ilerleme takibi ve ses önayarlarının yeniden kullanımı
- Agentic Voice Cloning Server olarak çalışır ve gelişmiş iş kuyruğu orkestrasyonu ile paralel işleme desteği sunar
- UI, API ve CLI'nin tamamını sunar; bu sayede yerel otomasyon ve harici entegrasyon mümkündür, ayrıca MCP sunucusu da dahildir
- Paylaşımlı ses kütüphanesi sayesinde yüklenen sesler tüm motorlarda yeniden kullanılabilir
- Model yöneticisi yerleşiktir: HuggingFace modellerini indirme ve durum kontrolü yapılabilir
- Multi-LLM entegrasyonu (Claude, OpenAI, Ollama vb.) desteklenir
- Yaklaşık 18.600 satırlık bir kod tabanından oluşur; FastAPI backend ve Flutter masaüstü UI kullanır
- Python backend yaklaşık 8.500 satır, Dart UI yaklaşık 10.100 satır
- Yalnızca macOS için binary sunulur; Windows/Linux tarafında yalnızca kod uyumluluğu vardır (derlemeler daha sonra gelecek)
- Kaynak kodu Business Source License 1.1 (BSL-1.1) altında yayımlanır, binary'ler için ayrı bir dağıtım lisansı uygulanır
2 yorum
Bu, mlx-audio'nun GUI sürümü mü? Kalite kesinlikle oldukça iyi görünüyor.
Denedim, gerçekten müthiş.