2 puan yazan GN⁺ 2024-09-20 | 1 yorum | WhatsApp'ta paylaş
  • Düşük gecikmeli, yüksek kaliteli uçtan uca sesli etkileşim modeli
  • Llama-3.1-8B-Instruct temel alınarak geliştirildi ve GPT-4o düzeyinde ses yeteneklerine ulaşmayı hedefliyor
  • 226 ms gibi düşük gecikme süresi
  • Metin ve sesli yanıtları aynı anda üretir

GN⁺ özeti

  • LLaMA-Omni, Llama-3.1-8B-Instruct tabanlı bir konuşma-dil modelidir; düşük gecikme ve yüksek kaliteli sesli etkileşimi destekler
  • Metin ve sesli yanıtları aynı anda üretebildiği için çeşitli uygulama alanlarında kullanışlıdır
  • Eğitim, 4 GPU ile 3 gün içinde tamamlanarak verimli bir yapı sunar
  • Gradio demosu üzerinden kolayca etkileşim kurulabilir ve yerel çıkarım da mümkündür
  • Benzer işlevlere sahip projeler arasında OpenAI'nin Whisper'ı ve Google'ın Speech-to-Text API'si bulunur

1 yorum

 
GN⁺ 2024-09-20
Hacker News görüşleri
  • "metinle ifade edilemeyen sesleri çalıp çalamayacağı"na dair soru
  • saf metin modellerine kıyasla bu modelin avantajı veya potansiyeli hakkında şüphe
    • model geliştikçe, TTS'de kaybolan tonlama, ritim ve duyguyu doğru şekilde yorumlayıp üretebileceğine dair beklenti
  • bunun "STT -> LLM -> TTS" olup olmadığına dair soru
    • Chewbacca sesi girildiğinde modelin bunu anlamsız bir ses olarak mı algılayacağı, yoksa kötü bir STT ile rastgele kelimeler olarak mı yorumlayacağına dair merak
  • Ollama, LM Studio, llama.cpp gibi model operatörlerinin bunu destekleyip desteklemediğine dair soru
  • demo klipteki TTS sesinin Valve seslendirme sanatçısı Ellen McLain'e çok benzediği
  • hız çok iyi görünüyor
    • kısa süre önce LMStudio + AnythingLLM kurup yerel sesli sohbet denedim ama hâlâ istediğimden daha yavaş
    • PiperTTS sesi daha iyi
  • ticari kullanım için ses ince ayarının önemli bir gereksinim gibi göründüğü
    • eğitim veya ince ayar kodu olsaydı iyi olurdu
  • ek ince ayarın mümkün olup olmadığına dair merak
  • performansı gösteren bir demo olup olmadığına dair soru
  • GitHub deposunda yıldız geçmişi grafiği olduğunda bunun güvenilirliği düşürdüğünü hissedip hissetmediklerine dair merak