11 puan yazan xguru 2024-01-31 | 3 yorum | WhatsApp'ta paylaş
  • WhisperLive ve WhisperSpeech yeteneklerini temel alarak Mistral LLM ile entegre olur ve yapay zeka ile akıcı bir sohbet sunar
    • WhisperLive: OpenAI'nin Whisper'ını neredeyse gerçek zamanlı çalışacak şekilde uygulayarak sesi metne dönüştürür
    • WhisperSpeech: Whisper'ın tersine çevrilmesiyle oluşturulmuş bir TTS sistemi
  • Hem LLM hem de Whisper, performansı ve gerçek zamanlı işleme yeteneklerini en üst düzeye çıkarmak için TensorRT motorlarıyla verimli çalışacak şekilde optimize edilmiştir; WhisperSpeech ise torch.compile ile optimize edilmiştir

3 yorum

 
kleinstein 2024-02-02

Gerçek zamanlı çeviri olursa hızlı ve iyi olur.

 
xguru 2024-01-31

Hacker News yorumu

  • Konuşmaya dayalı senaryoların iyi çalışması için gereken iki özellik:
    • Kesme özelliği: Kullanıcı "bir saniye" dediğinde LLM duraklayabilmeli.
    • Belirli sinyallere tepki verme: Kullanıcı "sen ne düşünüyorsun?" gibi belirli bir sinyali bekleyip ardından yanıt verebilmeli.
    • Bu iki özelliğe ek olarak düşük gecikme önemli; sanki başka bir insanla konuşuyormuş gibi hissettirmeli.
  • WhisperFusion, WhisperLive ve WhisperSpeech gibi projelere ilgi duyduğunu ifade ediyor; her sistemin gecikme sürelerini ve WhisperLive'ın WER (Word Error Rate) değerlerini merak ediyor. Bu modeller hakkında önemli bilgilerin eksik göründüğünü belirtiyor.
  • Projenin harika olduğunu ama bunun esasen bir paketleme sorunu olduğunu söylüyor:
    • Birçok Python uygulamasının setuptools'un yarısını yavaş ve hatalı bir şekilde yeniden uyguladığını eleştiriyor.
    • TensorRT'nin çekirdek işlevselliği examples dizininde dağıtmasını sorguluyor.
    • huggingface_cli için, isimle bir şeyi indirmenin zaten yolları olduğunu (PyPi indeksi vb.) ve bunun modellere uygulanmasının daha iyi olabileceğini söylüyor.
  • Vocode projesiyle ilgili bir tartışmayı hatırlıyor; 10 ay önce bunun üzerine konuşulduğunu ve demoyu denediğinde etkilendiğini belirtiyor. Şu anda bunu geliştirme ya da üretim ortamında kullanan biri olup olmadığını merak ediyor.
  • Bir kullanıcı, bu teknolojinin özel bir uygulamaya taşınıp ekrandaki içerik ve metni algılayarak neredeyse gerçek zamanlı yardım sunan bir asistana dönüşmesini hayal ediyor.
  • Whisper'ın streaming transcription için nasıl iyi kullanılabileceğini merak ediyor ve benzer hedeflere sahip bir proje tanıtıyor.
  • LLM kısmının TGWUI+llama.cpp kurulumundan nasıl farklı ya da benzer olduğuna dair bir özet istiyor. Özellikle kullanıcının donanımında "ultra düşük gecikme"nin neden gerçekleşmediğini sorguluyor.
  • Kullanıcı, projenin tamamen lokal çalışıp çalışmadığını ya da OpenAI'nin uzak sistemlerine API erişimi gerektirip gerektirmediğini soruyor. OpenAI kullanarak TTS ve STT kurduğunu, ancak tek bir komutu beklemek için sürekli olarak OpenAI'ye ses akışı göndermek istemediğini ifade ediyor.
  • Bunun Siri ve Alexa'nın olması gereken şey olduğunu düşünüyor ve önümüzdeki birkaç yılda bu tür teknolojilerin daha fazla ortaya çıkmasını bekliyor. Eğer lokal çalışır ve kalıcı kayıt bırakmazsa, arka planda dinleme sorununu da çözebileceğini söylüyor.
  • TensorRT kullanıldığından bahsederek hangi GPU'ların desteklendiğini ve Jetson üzerinde çalışıp çalışamayacağını merak ediyor.