- Düşük gecikmeli, yüksek kaliteli uçtan uca sesli etkileşim modeli
- Llama-3.1-8B-Instruct temel alınarak geliştirildi ve GPT-4o düzeyinde ses yeteneklerine ulaşmayı hedefliyor
- 226 ms gibi düşük gecikme süresi
- Metin ve sesli yanıtları aynı anda üretir
GN⁺ özeti
- LLaMA-Omni, Llama-3.1-8B-Instruct tabanlı bir konuşma-dil modelidir; düşük gecikme ve yüksek kaliteli sesli etkileşimi destekler
- Metin ve sesli yanıtları aynı anda üretebildiği için çeşitli uygulama alanlarında kullanışlıdır
- Eğitim, 4 GPU ile 3 gün içinde tamamlanarak verimli bir yapı sunar
- Gradio demosu üzerinden kolayca etkileşim kurulabilir ve yerel çıkarım da mümkündür
- Benzer işlevlere sahip projeler arasında OpenAI'nin Whisper'ı ve Google'ın Speech-to-Text API'si bulunur
1 yorum
Hacker News görüşleri