Etkileşimli ses için ilk açık kaynak tabanlı model: Hertz-dev

(si.inc)

2 puan yazan GN⁺ 2024-11-04 | 1 yorum | WhatsApp'ta paylaş

hertz-dev, iki kişinin aynı anda konuştuğu durumları bile ele alan 8.5B parametreli, full-duplex, yalnızca sese yönelik bir temel model olarak yayımlandı ve gerçek zamanlı sesli ajan araştırmaları için bir başlangıç noktası oldu
Yapı hertz-codec ve hertz-ar olarak ikiye ayrılıyor; 16kHz sesi 8Hz latent temsile dönüştürdükten sonra geçmiş latent değerlere dayanarak bir sonraki ses latent değerini otoregresif biçimde tahmin ediyor
Tek bir RTX 4090 üzerinde gerçek ortalama gecikme 120ms olarak benchmark edildi; teorik ortalama gecikmenin ise 80ms olduğu ve önceki en iyi seviyeden 2 kat düşük olduğu belirtiliyor
hertz-codec her 125ms’lik frame için 32 boyutlu bir latent değer üretiyor; hertz-ar ise 40 katmanlı, 8.4B parametreli decoder-only transformer ve yaklaşık 4.5 dakikalık context kullanıyor
Pekiştirmeli öğrenme ayarıyla yanıt dağılımı daraltılmış ürün tipi bir model değil, eğitim verisi dağılımını tahmin eden bir temel model olduğu için araştırmacıların etkileşimli ses görevlerine göre ince ayar yapması kolay

Hertz-dev’in hedeflediği etkileşimli ses problemi

Doğal etkileşimli ajanlar için metinden çok anlık ses modalitesi önemlidir
Üretken ses yaklaşımları genel olarak diffusion tabanlı yöntemler ve otoregresif yöntemler olarak ikiye ayrılır; müzik üretimi veya kısa örneklerde diffusion modelleri güçlü olsa da gerçek etkileşimli ses için otoregresif yöntem daha uygundur
Etkileşimli bir modelin çözmesi gereken iki temel zorluk vardır
- İnsan gibi duyulan ses üretimi ve doğal kesinti yönetimi
- Tipik insan konuşmalarında olduğu gibi iki gerçek zamanlı kanalın aynı anda bilgi ürettiği durumları işleme

Yayımlanan model ve gecikme

hertz-dev, 8.5B parametreli, full-duplex, yalnızca sese yönelik bir temel modeldir
İki konuşmacılı formata göre tasarlandığı için üst üste binen iki konuşmacının sesini parse edip üretebilir
Nicemlenmiş fonetik bitler kullanan latent uzayda çalışır ve her timestep’te yalnızca tek bir latent değer sample eder
Gecikme şu şekilde sunuluyor
- Teorik ortalama gecikme: 80ms
- Tek RTX 4090 gerçek benchmark: 120ms
- Önceki en iyi seviyeden 2 kat düşük değer

Model yapısı: hertz-codec ve hertz-ar

hertz-dev iki bileşene ayrılır
- hertz-codec: Sesi latent değerlere encode eder ve yeniden sese reconstruct eder
- hertz-ar: Geçmiş latent değerleri koşul olarak kullanıp gelecekteki latent değerleri tahmin eder
Ses latent değerleri, çeşitli downstream görevlerde kullanılabilecek zengin ön temsiller olarak ele alınır
hertz-codec
- hertz-codec, mono 16kHz sesi alıp 8Hz latent temsile encode eden convolutional bir ses VAE’sidir
- KL ile düzenlenmiş 1kbps bitrate kullanır
- Streaming inference için causal convolution kullanır ve işlevsel olarak dizinin sol tarafına padding ekler
- Codec, ortalama ve varyans için Gaussian parametreleri üretir ve her 125ms frame’de tek bir 32 boyutlu latent değer sample eder
- Öznel değerlendirmelerde hertz-codec, 6kbps Soundstream ve Encodec’i geride bırakıyor; 8kbps DAC ile benzer seviyede değerlendiriliyor
- Popüler tokenizer’lara göre saniye başına token sayısı daha düşük olduğu için dil modelleme açısından avantajlıdır
- Parametre yapısı
  - Encoder: 5M parametre
  - Decoder: 95M parametre
- Açık checkpoint’ler
  - inference_apatosaurus_95000.pt: karma reconstruction, adversarial loss ve KL regularization loss ile eğitilmiş hertz-codec ağırlıkları
  - inference_volcano_3.pt: her latent değerden fonetik açıdan önemli 15 biti distill eden hertz-codec quantizer
hertz-ar
- hertz-ar, 40 katmanlı, 8.4B parametreli decoder-only transformer’dır
- Giriş context’i 2048 token’dır ve yaklaşık 4.5 dakikaya karşılık gelir
- Çıkış latent değerleri hertz-codec’e iletilebilir
- İlk 32 katman latent geçmişini giriş olarak alır ve bir sonraki ses latent token’ının 15 bitlik nicemlenmiş projeksiyon değerini tahmin eder
- Bu 32 katmanlı bölüm hertz-lm olarak adlandırılır; bağımsız olarak eğitilebilir veya dil modeli ağırlıklarından initialize edilebilir
- Son 8 katman, latent geçmişi ve 15 bitlik nicemlenmiş latent değerleri kullanarak gelecekteki ses latent token’ını tahmin eder
- Duplex ses, sonradan eğitim görevi olarak işlenir
  - İki projection head birbirine eklenir ve ardından ayrılır
  - Kendi residual’ını koşul olarak kullanan iki nicemlenmiş projection pipeline ile işlenir
- Açık checkpoint’ler
  - inference_caraway_112000.pt: 2T token ile eğitilmiş dil modelinden initialize edilmiş hertz-lm ağırlıkları
  - inference_syrup_110000.pt: rastgele initialize edildikten sonra ses latent değerleriyle tamamen eğitilmiş hertz-lm ağırlıkları
  - inference_whip_72000.pt: son 8 katman için hertz-ar ağırlıkları
  - inference_care_50000.pt, inference_scion_54000.pt: hertz-ar için duplex checkpoint’ler

Örnek üretimi ve eğitim tercihleri

Modelin ses modelleme yeteneğini göstermek için tek kanallı üretim, iki kanallı üretim ve insan ile model arasında canlı konuşma örnekleri sunuluyor
Etkileşimli örneklerde 9 saniyelik prompt bulunuyor
Başlıca eğitim tercihleri şunlar
- hertz-codec’te paralel decoding ve latent üretimin daha ince kontrolü için Causal ConvNets kullanılıyor
- 15 bitlik nicemlenmiş latent değerler fonetik bilgiyi taşıyacak şekilde önceden eğitiliyor; bu da modelin sözdizimsel olarak doğru konuşmalar üretmesini teşvik ediyor
- Nicemleme, MLP projection’ın Finite Scalar Quantization layer içine yerleştirilmesiyle yapılıyor
- hertz-lm için iki initialization stratejisi üzerinde ablasyon deneyi yapıldığı ve metin modeli initialization’ı olsun ya da olmasın linguistics’i etkili biçimde öğrendiği belirtiliyor

Gerçek zamanlı inference yöntemi

Canlı inference sırasında model saniyede 8 forward pass gerçekleştirir ve otoregresif üretimi sürekli sürdürür
Giriş iki ayrı kanal olsa da konuşmada yalnızca tek bir kanal döndürülür
Her step’te insanın sesi latent değerlere tokenize edilir, modelin en son ürettiği latent değerle birleştirilir ve hertz-ar’a giriş olarak verilir
Gecikme, kullanıcının konuşması ile modelin yanıtı arasındaki ortalama süre olarak ölçülür
Hesaplamaya göre ortalama gecikme 62.5ms’dir; rastgele bir konuşma ile bir token’ın bitişi arasındaki ortalama süreyi, forward pass süresini ve gidiş-dönüş internet gecikmesini içerir
Yerel RTX 4090’da çalıştırıldığında gerçek ortalama gecikme genellikle 120ms’dir
Düşük gecikme, gecikmeli ve kesilen bir telefon görüşmesi gibi hissettirmeyen, insan gibi etkileşen modeller oluşturmak için bir koşuldur

Açıklık niteliği ve kullanım yeri

hertz-dev, etkileşimli ses için ilk açık temel model olarak tanıtılıyor
Burada temel model, pekiştirmeli öğrenme ayarıyla üretim dağılımı önemli ölçüde daraltılmış bir model değil; eğitim verisinin dağılımını doğru tahmin eden bir model anlamına geliyor
Bu niteliği sayesinde çeşitli downstream görevler için ince ayar başlangıç noktası olarak kullanılmaya uygundur
İlgili kaynaklar

1 yorum

GN⁺ 2024-11-04

Hacker News yorumları

Bu gerçekten harika. Not olarak, mevcut açık kaynak ses sentezi motorları burada gösterilenlerle karşılaştırıldığında epey zayıf; şu an ses-sese olsa da metin de alabilen çok modlu bir yapıya genişletilirse büyük talep göreceğini düşünüyorum.
Fiilen harika bir ses-sese modelin yanında çok iyi bir TTS modeli de olmuş olur. Birileri Piper gibi çıktıları daha doğal prozodi ve tonlamayla oynatacak şekilde ince ayar yapıp bunu dolaylı yoldan çözebilir ama metin LLM → Piper → Hertz-dev şeklinde bir boru hattı kurmaktansa metni yerel olarak alma özelliği çok daha faydalı olur gibi.
- Ekip 4 kişiyse, birçok yöne dağılmaktansa tek bir şeye odaklanmaları daha iyi bence.
- Evet, tam olarak bu. Piper zaten oldukça iyi; buna bir de bu model eklenirse güzel olur.
  Ancak bunu illa bu ekibin doğrudan yapması gerekmeyebilir.
Hertz ilk olduğunu söylüyor ama bu yılın başında çıkan Moshi de benzer şekilde çalışan çift yönlü bir ses modeli ve MacBook’ta da çalışıyor: https://github.com/kyutai-labs/moshi
- Moshi temel modeli yayımlamadı; yalnızca sohbet için ince ayar yapılmış 2 modeli yayımladı. Codec dışında eğitim kodunu da yayımlamadı.
  Hertz’de de yalnızca 3 çıkarım notebook’u ve no_grad ile dolu model kodu görünüyor; eğitim kodu görünmüyor. Makale de olmadığı için nasıl eğitildiğini ve mimarisinin nasıl olduğunu anlamak zor; bir şeyi kaçırmıyorsam araştırma dostu demek biraz zor.
- LLaMA-Omni https://github.com/ictnlp/LLaMA-Omni Llama-3.1-8B-Instruct tabanlı, metin ve sesi aynı anda üreten bir ses-dil modeli.
  moshi https://github.com/kyutai-labs/moshi en yeni akış destekli sinir ağı ses codec’i Mimi’yi kullanan ses-metin tabanlı bir model; Mini-Omni https://github.com/gpt-omni/mini-omni ise Qwen2 tabanlı, ses girişi/çıkışı sağlayan çok modlu bir LLM. Ichigo https://github.com/homebrewltd/ichigo erken füzyon tekniğiyle metin tabanlı LLM’lere yerel dinleme yeteneği kazandırmayı amaçlayan açık bir araştırma projesi.
- Moshi bir sohbet uygulaması yapmak için iyi bir model, ama bu daha çok temel modellemenin kendine özgü tuhaflığına, doğallığına ve araştırma dostu oluşuna sahip, daha düzgün bir temel model gibi tasarlanmış görünüyor.
Tesla’nın lidar ve diğer sensörleri şimdilik dışarıda bırakıp tamamen görme tabanlı otonom sürüşe odaklanması, teknolojiyi daha erişilebilir ve ölçeklenebilir kılmaya yönelik bir strateji gibi görünüyor.
Yalnızca görme tabanlı modele odaklanmak benimsemeyi hızlandırabilir, büyük ölçekli veri toplamayı ve yinelemeli iyileştirmeyi de hızlandırabilir. Görme tabanlı sistemler yeterince olgunlaştığında Tesla, otonom sürüş ürün ailesini daha sağlam ve eksiksiz hâle getirmek için lidar veya radar gibi sensör verilerini yeniden entegre edebilir gibi.
Sesli etkileşim sistemleri için de benzer bir fikir düşündüm. Şu anda çoğu sistem sesi metne çeviriyor, metin yanıtı oluşturuyor, sonra bunu tekrar sese dönüştürüyor. Ama metinden geçmeden doğrudan sesle yanıt verecek şekilde eğitilebilse, daha doğal ve doğaçlama yanıtlar mümkün olabilir. Doğal konuşmanın kendine özgü söz dizimi ve ritmi, lehçe ve ton farkları olduğundan, saf sesle eğitilmiş sistemler daha insansı ve ilginç olabilir.
Mevcut sesli etkileşim modellerinin standart ses→metin→ses sürecini mi izlediğini, yoksa ses-sese işlemeyi mi araştırdığını merak ediyorum.
- Geliştiricilerden biriyim. Modelimiz tamamen ses-sese ve hertz-dev’i oluştururken tam da bu nedenle hiç metin kullanmadık.
- İkinci paragraf ChatGPT Advanced Voice Mode veya Realtime API’yi anlatıyor gibi.
Gerçekten harika. Şu sıralar VUI’leri (sesli kullanıcı arayüzleri) inceliyorum; işe yarayabilir.
VUI’lerin insanları nasıl ikna ettiğini araştırarak doktora yaptığım için biraz önyargılı olabilirim ama VUI’lerin bilgisayar etkileşiminin geleceği olduğunu düşünüyorum. Gelecek olmasa bile çocuklar ve yaşlılar gibi yeni kullanıcı gruplarının önünü açabilir.
- Sesli kullanıcı arayüzleriyle gerçekten çok ilgileniyorum. Ne yaptığını ve bir bağlantı olup olmadığını merak ediyorum.
- Evet, görme engelliler de var.
Ses modeli yapan yazarlar ya da ilgili işlerle uğraşan biri varsa, sistemden çıkan sesin ürkütücü geldiğini veya fizyolojik etki yaptığını hissettiğiniz oldu mu merak ediyorum.
Bir tür LLM ama istemi de ses, üretilen çıktısı da ses olan bir ses LLM’i gibi mi düşünmeliyiz?
- Evet. Bana göre tam olarak öyle çalışıyor gibi.
“Üretim dağılımı çökmesi” fikrinin araştırılmış bir konu olup olmadığını merak ediyorum. Öyleyse hangi adla anıldığını bilmek isterim.
Temel modelin eğitim verisi dağılımını doğru biçimde modellemesine karşılık, yoğun pekiştirmeli öğrenme ayarı görmüş modellerde üretim dağılımının katlanması nedeniyle, çeşitli görevlere ince ayar yapmak için başlangıç noktası olarak temel modelin daha iyi olduğu fikri ilginç. Sürekli öğrenme veya doğru ince ayar yöntemleriyle de ilişkili görünüyor.
hertz-dev temel modelini başka dillerde önceden eğitmek için ne yapmak gerekir? İlgili bilgiyi nereden bulabileceğimi merak ediyorum.
Ses biraz bozuk duyuluyor ve arka planda sık sık gürültü var. Özellikle konuşma durduğunda bu gürültünün kaybolduğu oldukça fark ediliyor.
Bunun model sınırlaması mı, yoksa eğitim verisi kalitesiyle ilgili bir sorun mu olduğunu merak ediyorum.
Yazıdaki şu cümlenin gerçekte ne anlama geldiğini yazarlardan biri açıklayabilir mi?
hertz-vae: Ses VAE’sinin öğrenilmiş ön dağılımı olarak görev yapan 1,8 milyar parametreli transformer decoder. 8192 örneklenmiş latent gösterim, yani 17 dakikalık bağlam kullanır ve sonraki kodlanmış ses karesini Gauss karışımı olarak tahmin eder. Sonraki token’ın 15 bitlik niceleme bilgisinin, akışa uygun şekilde üretimi yönlendiren anlamsal bir iskele görevi gördüğü anlatılıyor.
- Benim tahminim şu. Önce codec, 16k örnekleme hızlı sesi konvolüsyonla saniyede 8 örneğe sıkıştırıyor, ardından 128 bit ile vektör niceleme yaparak codec’i elde ediyor gibi.
  Bu bit sayısı gerçek sesi temsil etmek için çok yetersiz; muhtemelen daha çok fonem gibi şeyleri temsil etmeye yönelik. vae, codec’i istem olarak kullanan VAE tabanlı bir difüzyon modeli gibi görünüyor; dev ise sonraki codec’i tahmin eden model gibi.
  Genel akış büyük olasılıkla istemi codec ile token’lara ayırmak, s saniyelik daha fazla sese ihtiyaç varsa dev ile 8 * s adet token daha tahmin etmek, ardından bunları vae difüzyon modeliyle tekrar sese dönüştürmek şeklinde.

Etkileşimli ses için ilk açık kaynak tabanlı model: Hertz-dev

Hertz-dev’in hedeflediği etkileşimli ses problemi

Yayımlanan model ve gecikme

Model yapısı: hertz-codec ve hertz-ar

hertz-codec

hertz-ar

Örnek üretimi ve eğitim tercihleri

Gerçek zamanlı inference yöntemi

Açıklık niteliği ve kullanım yeri

İlgili okumalar

1 yorum

Hacker News yorumları