2 puan yazan GN⁺ 2023-11-03 | 1 yorum | WhatsApp'ta paylaş
  • Kullanıcının terminalde yapay zeka ile konuşmasını sağlayan Talk-Llama adlı bir yapay zeka aracı tanıtılıyor
  • Whisper Medium ve LLaMA v2 13B Q8_0 modellerini kullanan araç için 2 Kasım 2023 tarihli en güncel performans güncellemesi sunuluyor
  • Talk-Llama, mikrofondan ses yakalamak için SDL2 kütüphanesine bağımlı
  • Linux ve Mac OS için SDL2 kurulum yönergeleri ile talk-llama çalıştırılabilir dosyasını derleme ve çalıştırma yöntemleri veriliyor
  • Kullanıcılar, kullanmak istedikleri Whisper ve LLaMA modellerini -mw ve -ml argümanlarıyla belirleyebiliyor
  • Araç, önceki etkileşimlerin bağlamını koruyarak daha tutarlı ve kesintisiz konuşmalar sağlayan oturum yönetimi desteği sunuyor
  • Kullanıcılar, --session FILE komut satırı seçeneğiyle oturum desteğini etkinleştirebiliyor; her etkileşimden sonra model durumu kaydediliyor ve önceki oturumlar sürdürülebiliyor
  • En iyi deneyim için, üretilen metin yanıtlarını sese dönüştüren bir Text-to-Speech (TTS) aracı öneriliyor
  • Kullanıcılar tercih ettikleri TTS motorunu kullanabiliyor ve speak betiğini gerektiği gibi düzenleyebiliyor
  • Araç geri bildirimlere açık ve kullanıcıları süren tartışmalara katılmaya teşvik ediyor

1 yorum

 
GN⁺ 2023-11-03
Hacker News görüşleri
  • Apple Silicon performansı, whisper.cpp’yi tam hızda çalıştırıp llama.cpp üretim hızını önemli ölçüde artırınca büyük ölçüde iyileşti.
  • Llama’nın proje için açık kaynaklı bir TTS modeliyle başarıyla entegre edildiği gösterildi; bu da çok yönlülüğünü vurguladı.
  • Karmaşık sorunları çözmeye çalışmak yerine manuel ek yükü azaltan bir kodlama yardımcı aracı en faydalı yaklaşım olarak görülüyor.
  • Konuşmayı bağlam vektörlerine gömen bir aracın fikri, geleceğe dönük ve potansiyel olarak faydalı bir kavram olarak önerildi.
  • talk-llamayı Arch ve Debian’da çalıştırırken "floating point exception" sorunu bildirildi; bu da uyumluluk sorunları olabileceğine işaret ediyor.
  • Gecikmeyi azaltmak için, LLM yanıtı tamamen başlamadan önce TTS’ye bunun yerine yaklaşık 6’şar tokenlık gruplar halinde akış sağlama önerisi sunuldu.
  • Açık ağırlık önerileri hayata geçerse bu teknolojinin yasaklanabileceğine dair endişeler dile getirildi.
  • Metin akışı alabilen bir text-to-talk çözümünün olasılığı tartışıldı; bu, llama’nın üretimi tamamlamasını beklemeden yanıtları seslendirmeyi mümkün kılacaktır.
  • llama için en iyi sohbet arayüzünün ne olduğu soruldu; ayrıca hızlı kodlama işleri için modellerden birini terminalde çalıştırma isteği dile getirildi.
  • ElevenLabs seslerinin pahalı olduğu ve tek bir konuşmanın maliyetinin 20 dolara ulaşabileceği belirtildi.
  • whisper/SOTA OS tts modelleri için ollama’ya denk gelen aracın ne olduğu soruldu; ayrıca whisperı yerelde çalıştırmak için basit bir kurulum istendi.
  • Bu teknolojinin neler yapabildiğine dair sade İngilizce bir açıklama talep edildi; özellikle sohbetin bağlamını öğrenip koruyamayacağı ve uzun vadeli hafıza oluşturup oluşturamayacağı merak edildi.