- Yüksek sadakatli (High Fidelity) gerçek zamanlı akış konuşma çevirisi (Speech-to-Speech Translation) modeli
- Genel çevrimdışı çeviriden farklı olarak, kullanıcı konuşurken "gerçek zamanlı olarak çevrilmiş konuşma" üretir
- Metin çevirisini de birlikte sunar ve özgün konuşmanın stilini koruyan bir ses dönüştürme özelliğini de içerir
Mimari
- Eşzamanlı konuşma çevirisi için tasarlanmış bir "decoder-only model"dir
- Moshi'nin multistream mimarisini kullanarak özgün ve çevrilmiş konuşmayı aynı anda modeller
- Saniyede 12.5Hz sabit kare hızıyla sürekli çıktı akışı üretir ve zaman damgalı metin çevirisi de sağlar
Eğitim yöntemi
- Özgün ve çevrilmiş konuşma ile metnin hizalandığı veriler gerekir, ancak pratikte bu tür veriler çok azdır
- Bu yüzden eğitim için sentetik veri üretilir
- MADLAD makine çevirisi sistemi kullanılarak özgün ve çevrilmiş metin zayıf denetimli öğrenme yöntemiyle hizalanır
- Kelimelerin yalnızca çevirinin özgün konuşmadan tahmin edilebilir hale geldiği anda görünmesi için hizalama kuralları uygulanır
- Yöntem 1: sessizlik ekleme (silence insertion)
- Yöntem 2: hizalama farkındalıklı konuşma sentezi (alignment-aware TTS)
Çıkarım (Inference)
- Hibiki, gerçek zamanlı olarak özgün konuşmayı kodlar ve çevrilmiş konuşma üretir
- Karmaşık çıkarım yöntemleri olmadan temperature sampling kullanır ve toplu işlemeyle uyumludur
- Classifier-Free Guidance katsayısı ayarlanarak ses benzerliği kontrol edilebilir
- Katsayı yükseldikçe özgününe daha benzer bir ses üretilir, ancak çok yükselirse çeviri kalitesi düşebilir
- Şu anda Hibiki yalnızca Fransızca → İngilizce çeviriyi destekler
- Hafif model olan Hibiki-M, akıllı telefonlarda da çalışabilir
Modeli çalıştırma yöntemi
- PyTorch, Rust, MLX(macOS), MLX-Swift(iOS) üzerinde çalıştırılabilir
- Hibiki'nin kodu Moshi projesiyle neredeyse aynıdır; gerçek uygulama kyutai-labs/moshi deposunda görülebilir
- Şu anda Fransızca → İngilizce (FR → EN) çeviri destekleyen yalnızca iki model sunulmaktadır
- Hibiki 2B: daha derin Transformer yapısı, akış başına 16 RVQ
- Hibiki 1B: hafif sürüm, akış başına 8 RVQ, cihaz üzerinde çalıştırılabilir
2 yorum
Rust dağıtımında candle kullanılıyor gibi görünüyor. (Cargo.toml)
Kelime dizilişi tamamen farklı olan dillerde gerçek zamanlı çeviri biraz zor olacak gibi görünüyor; sanırım makaleye bir göz atmak gerekecek.