13 puan yazan xguru 2025-02-11 | 2 yorum | WhatsApp'ta paylaş
  • Yüksek sadakatli (High Fidelity) gerçek zamanlı akış konuşma çevirisi (Speech-to-Speech Translation) modeli
  • Genel çevrimdışı çeviriden farklı olarak, kullanıcı konuşurken "gerçek zamanlı olarak çevrilmiş konuşma" üretir
  • Metin çevirisini de birlikte sunar ve özgün konuşmanın stilini koruyan bir ses dönüştürme özelliğini de içerir

Mimari

  • Eşzamanlı konuşma çevirisi için tasarlanmış bir "decoder-only model"dir
  • Moshi'nin multistream mimarisini kullanarak özgün ve çevrilmiş konuşmayı aynı anda modeller
  • Saniyede 12.5Hz sabit kare hızıyla sürekli çıktı akışı üretir ve zaman damgalı metin çevirisi de sağlar

Eğitim yöntemi

  • Özgün ve çevrilmiş konuşma ile metnin hizalandığı veriler gerekir, ancak pratikte bu tür veriler çok azdır
  • Bu yüzden eğitim için sentetik veri üretilir
  • MADLAD makine çevirisi sistemi kullanılarak özgün ve çevrilmiş metin zayıf denetimli öğrenme yöntemiyle hizalanır
  • Kelimelerin yalnızca çevirinin özgün konuşmadan tahmin edilebilir hale geldiği anda görünmesi için hizalama kuralları uygulanır
    • Yöntem 1: sessizlik ekleme (silence insertion)
    • Yöntem 2: hizalama farkındalıklı konuşma sentezi (alignment-aware TTS)

Çıkarım (Inference)

  • Hibiki, gerçek zamanlı olarak özgün konuşmayı kodlar ve çevrilmiş konuşma üretir
  • Karmaşık çıkarım yöntemleri olmadan temperature sampling kullanır ve toplu işlemeyle uyumludur
  • Classifier-Free Guidance katsayısı ayarlanarak ses benzerliği kontrol edilebilir
    • Katsayı yükseldikçe özgününe daha benzer bir ses üretilir, ancak çok yükselirse çeviri kalitesi düşebilir
  • Şu anda Hibiki yalnızca Fransızca → İngilizce çeviriyi destekler
  • Hafif model olan Hibiki-M, akıllı telefonlarda da çalışabilir

Modeli çalıştırma yöntemi

  • PyTorch, Rust, MLX(macOS), MLX-Swift(iOS) üzerinde çalıştırılabilir
  • Hibiki'nin kodu Moshi projesiyle neredeyse aynıdır; gerçek uygulama kyutai-labs/moshi deposunda görülebilir
  • Şu anda Fransızca → İngilizce (FR → EN) çeviri destekleyen yalnızca iki model sunulmaktadır
    • Hibiki 2B: daha derin Transformer yapısı, akış başına 16 RVQ
    • Hibiki 1B: hafif sürüm, akış başına 8 RVQ, cihaz üzerinde çalıştırılabilir

2 yorum

 
sftblw 2025-02-11

Rust dağıtımında candle kullanılıyor gibi görünüyor. (Cargo.toml)

 
dbs0829 2025-02-11

Kelime dizilişi tamamen farklı olan dillerde gerçek zamanlı çeviri biraz zor olacak gibi görünüyor; sanırım makaleye bir göz atmak gerekecek.