- hertz-dev, iki kişinin aynı anda konuştuğu durumları bile ele alan 8.5B parametreli, full-duplex, yalnızca sese yönelik bir temel model olarak yayımlandı ve gerçek zamanlı sesli ajan araştırmaları için bir başlangıç noktası oldu
- Yapı hertz-codec ve hertz-ar olarak ikiye ayrılıyor; 16kHz sesi 8Hz latent temsile dönüştürdükten sonra geçmiş latent değerlere dayanarak bir sonraki ses latent değerini otoregresif biçimde tahmin ediyor
- Tek bir RTX 4090 üzerinde gerçek ortalama gecikme 120ms olarak benchmark edildi; teorik ortalama gecikmenin ise 80ms olduğu ve önceki en iyi seviyeden 2 kat düşük olduğu belirtiliyor
- hertz-codec her 125ms’lik frame için 32 boyutlu bir latent değer üretiyor; hertz-ar ise 40 katmanlı, 8.4B parametreli decoder-only transformer ve yaklaşık 4.5 dakikalık context kullanıyor
- Pekiştirmeli öğrenme ayarıyla yanıt dağılımı daraltılmış ürün tipi bir model değil, eğitim verisi dağılımını tahmin eden bir temel model olduğu için araştırmacıların etkileşimli ses görevlerine göre ince ayar yapması kolay
Hertz-dev’in hedeflediği etkileşimli ses problemi
- Doğal etkileşimli ajanlar için metinden çok anlık ses modalitesi önemlidir
- Üretken ses yaklaşımları genel olarak diffusion tabanlı yöntemler ve otoregresif yöntemler olarak ikiye ayrılır; müzik üretimi veya kısa örneklerde diffusion modelleri güçlü olsa da gerçek etkileşimli ses için otoregresif yöntem daha uygundur
- Etkileşimli bir modelin çözmesi gereken iki temel zorluk vardır
- İnsan gibi duyulan ses üretimi ve doğal kesinti yönetimi
- Tipik insan konuşmalarında olduğu gibi iki gerçek zamanlı kanalın aynı anda bilgi ürettiği durumları işleme
Yayımlanan model ve gecikme
- hertz-dev, 8.5B parametreli, full-duplex, yalnızca sese yönelik bir temel modeldir
- İki konuşmacılı formata göre tasarlandığı için üst üste binen iki konuşmacının sesini parse edip üretebilir
- Nicemlenmiş fonetik bitler kullanan latent uzayda çalışır ve her timestep’te yalnızca tek bir latent değer sample eder
- Gecikme şu şekilde sunuluyor
- Teorik ortalama gecikme: 80ms
- Tek RTX 4090 gerçek benchmark: 120ms
- Önceki en iyi seviyeden 2 kat düşük değer
Model yapısı: hertz-codec ve hertz-ar
- hertz-dev iki bileşene ayrılır
- hertz-codec: Sesi latent değerlere encode eder ve yeniden sese reconstruct eder
- hertz-ar: Geçmiş latent değerleri koşul olarak kullanıp gelecekteki latent değerleri tahmin eder
- Ses latent değerleri, çeşitli downstream görevlerde kullanılabilecek zengin ön temsiller olarak ele alınır
-
hertz-codec
- hertz-codec, mono 16kHz sesi alıp 8Hz latent temsile encode eden convolutional bir ses VAE’sidir
- KL ile düzenlenmiş 1kbps bitrate kullanır
- Streaming inference için causal convolution kullanır ve işlevsel olarak dizinin sol tarafına padding ekler
- Codec, ortalama ve varyans için Gaussian parametreleri üretir ve her 125ms frame’de tek bir 32 boyutlu latent değer sample eder
- Öznel değerlendirmelerde hertz-codec, 6kbps Soundstream ve Encodec’i geride bırakıyor; 8kbps DAC ile benzer seviyede değerlendiriliyor
- Popüler tokenizer’lara göre saniye başına token sayısı daha düşük olduğu için dil modelleme açısından avantajlıdır
- Parametre yapısı
- Encoder: 5M parametre
- Decoder: 95M parametre
- Açık checkpoint’ler
- inference_apatosaurus_95000.pt: karma reconstruction, adversarial loss ve KL regularization loss ile eğitilmiş
hertz-codecağırlıkları - inference_volcano_3.pt: her latent değerden fonetik açıdan önemli 15 biti distill eden
hertz-codec quantizer
- inference_apatosaurus_95000.pt: karma reconstruction, adversarial loss ve KL regularization loss ile eğitilmiş
-
hertz-ar
- hertz-ar, 40 katmanlı, 8.4B parametreli decoder-only transformer’dır
- Giriş context’i 2048 token’dır ve yaklaşık 4.5 dakikaya karşılık gelir
- Çıkış latent değerleri hertz-codec’e iletilebilir
- İlk 32 katman latent geçmişini giriş olarak alır ve bir sonraki ses latent token’ının 15 bitlik nicemlenmiş projeksiyon değerini tahmin eder
- Bu 32 katmanlı bölüm
hertz-lmolarak adlandırılır; bağımsız olarak eğitilebilir veya dil modeli ağırlıklarından initialize edilebilir - Son 8 katman, latent geçmişi ve 15 bitlik nicemlenmiş latent değerleri kullanarak gelecekteki ses latent token’ını tahmin eder
- Duplex ses, sonradan eğitim görevi olarak işlenir
- İki projection head birbirine eklenir ve ardından ayrılır
- Kendi residual’ını koşul olarak kullanan iki nicemlenmiş projection pipeline ile işlenir
- Açık checkpoint’ler
- inference_caraway_112000.pt: 2T token ile eğitilmiş dil modelinden initialize edilmiş
hertz-lmağırlıkları - inference_syrup_110000.pt: rastgele initialize edildikten sonra ses latent değerleriyle tamamen eğitilmiş
hertz-lmağırlıkları - inference_whip_72000.pt: son 8 katman için
hertz-arağırlıkları - inference_care_50000.pt, inference_scion_54000.pt:
hertz-ariçin duplex checkpoint’ler
- inference_caraway_112000.pt: 2T token ile eğitilmiş dil modelinden initialize edilmiş
Örnek üretimi ve eğitim tercihleri
- Modelin ses modelleme yeteneğini göstermek için tek kanallı üretim, iki kanallı üretim ve insan ile model arasında canlı konuşma örnekleri sunuluyor
- Etkileşimli örneklerde 9 saniyelik prompt bulunuyor
- Başlıca eğitim tercihleri şunlar
- hertz-codec’te paralel decoding ve latent üretimin daha ince kontrolü için Causal ConvNets kullanılıyor
- 15 bitlik nicemlenmiş latent değerler fonetik bilgiyi taşıyacak şekilde önceden eğitiliyor; bu da modelin sözdizimsel olarak doğru konuşmalar üretmesini teşvik ediyor
- Nicemleme, MLP projection’ın Finite Scalar Quantization layer içine yerleştirilmesiyle yapılıyor
hertz-lmiçin iki initialization stratejisi üzerinde ablasyon deneyi yapıldığı ve metin modeli initialization’ı olsun ya da olmasın linguistics’i etkili biçimde öğrendiği belirtiliyor
Gerçek zamanlı inference yöntemi
- Canlı inference sırasında model saniyede 8 forward pass gerçekleştirir ve otoregresif üretimi sürekli sürdürür
- Giriş iki ayrı kanal olsa da konuşmada yalnızca tek bir kanal döndürülür
- Her step’te insanın sesi latent değerlere tokenize edilir, modelin en son ürettiği latent değerle birleştirilir ve
hertz-ar’a giriş olarak verilir - Gecikme, kullanıcının konuşması ile modelin yanıtı arasındaki ortalama süre olarak ölçülür
- Hesaplamaya göre ortalama gecikme 62.5ms’dir; rastgele bir konuşma ile bir token’ın bitişi arasındaki ortalama süreyi, forward pass süresini ve gidiş-dönüş internet gecikmesini içerir
- Yerel RTX 4090’da çalıştırıldığında gerçek ortalama gecikme genellikle 120ms’dir
- Düşük gecikme, gecikmeli ve kesilen bir telefon görüşmesi gibi hissettirmeyen, insan gibi etkileşen modeller oluşturmak için bir koşuldur
Açıklık niteliği ve kullanım yeri
- hertz-dev, etkileşimli ses için ilk açık temel model olarak tanıtılıyor
- Burada temel model, pekiştirmeli öğrenme ayarıyla üretim dağılımı önemli ölçüde daraltılmış bir model değil; eğitim verisinin dağılımını doğru tahmin eden bir model anlamına geliyor
- Bu niteliği sayesinde çeşitli downstream görevler için ince ayar başlangıç noktası olarak kullanılmaya uygundur
- İlgili kaynaklar
1 yorum
Hacker News yorumları
Bu gerçekten harika. Not olarak, mevcut açık kaynak ses sentezi motorları burada gösterilenlerle karşılaştırıldığında epey zayıf; şu an ses-sese olsa da metin de alabilen çok modlu bir yapıya genişletilirse büyük talep göreceğini düşünüyorum.
Fiilen harika bir ses-sese modelin yanında çok iyi bir TTS modeli de olmuş olur. Birileri Piper gibi çıktıları daha doğal prozodi ve tonlamayla oynatacak şekilde ince ayar yapıp bunu dolaylı yoldan çözebilir ama metin LLM → Piper → Hertz-dev şeklinde bir boru hattı kurmaktansa metni yerel olarak alma özelliği çok daha faydalı olur gibi.
Ancak bunu illa bu ekibin doğrudan yapması gerekmeyebilir.
Hertz ilk olduğunu söylüyor ama bu yılın başında çıkan Moshi de benzer şekilde çalışan çift yönlü bir ses modeli ve MacBook’ta da çalışıyor: https://github.com/kyutai-labs/moshi
Hertz’de de yalnızca 3 çıkarım notebook’u ve
no_gradile dolu model kodu görünüyor; eğitim kodu görünmüyor. Makale de olmadığı için nasıl eğitildiğini ve mimarisinin nasıl olduğunu anlamak zor; bir şeyi kaçırmıyorsam araştırma dostu demek biraz zor.moshi https://github.com/kyutai-labs/moshi en yeni akış destekli sinir ağı ses codec’i Mimi’yi kullanan ses-metin tabanlı bir model; Mini-Omni https://github.com/gpt-omni/mini-omni ise Qwen2 tabanlı, ses girişi/çıkışı sağlayan çok modlu bir LLM. Ichigo https://github.com/homebrewltd/ichigo erken füzyon tekniğiyle metin tabanlı LLM’lere yerel dinleme yeteneği kazandırmayı amaçlayan açık bir araştırma projesi.
Tesla’nın lidar ve diğer sensörleri şimdilik dışarıda bırakıp tamamen görme tabanlı otonom sürüşe odaklanması, teknolojiyi daha erişilebilir ve ölçeklenebilir kılmaya yönelik bir strateji gibi görünüyor.
Yalnızca görme tabanlı modele odaklanmak benimsemeyi hızlandırabilir, büyük ölçekli veri toplamayı ve yinelemeli iyileştirmeyi de hızlandırabilir. Görme tabanlı sistemler yeterince olgunlaştığında Tesla, otonom sürüş ürün ailesini daha sağlam ve eksiksiz hâle getirmek için lidar veya radar gibi sensör verilerini yeniden entegre edebilir gibi.
Sesli etkileşim sistemleri için de benzer bir fikir düşündüm. Şu anda çoğu sistem sesi metne çeviriyor, metin yanıtı oluşturuyor, sonra bunu tekrar sese dönüştürüyor. Ama metinden geçmeden doğrudan sesle yanıt verecek şekilde eğitilebilse, daha doğal ve doğaçlama yanıtlar mümkün olabilir. Doğal konuşmanın kendine özgü söz dizimi ve ritmi, lehçe ve ton farkları olduğundan, saf sesle eğitilmiş sistemler daha insansı ve ilginç olabilir.
Mevcut sesli etkileşim modellerinin standart ses→metin→ses sürecini mi izlediğini, yoksa ses-sese işlemeyi mi araştırdığını merak ediyorum.
Gerçekten harika. Şu sıralar VUI’leri (sesli kullanıcı arayüzleri) inceliyorum; işe yarayabilir.
VUI’lerin insanları nasıl ikna ettiğini araştırarak doktora yaptığım için biraz önyargılı olabilirim ama VUI’lerin bilgisayar etkileşiminin geleceği olduğunu düşünüyorum. Gelecek olmasa bile çocuklar ve yaşlılar gibi yeni kullanıcı gruplarının önünü açabilir.
Ses modeli yapan yazarlar ya da ilgili işlerle uğraşan biri varsa, sistemden çıkan sesin ürkütücü geldiğini veya fizyolojik etki yaptığını hissettiğiniz oldu mu merak ediyorum.
Bir tür LLM ama istemi de ses, üretilen çıktısı da ses olan bir ses LLM’i gibi mi düşünmeliyiz?
“Üretim dağılımı çökmesi” fikrinin araştırılmış bir konu olup olmadığını merak ediyorum. Öyleyse hangi adla anıldığını bilmek isterim.
Temel modelin eğitim verisi dağılımını doğru biçimde modellemesine karşılık, yoğun pekiştirmeli öğrenme ayarı görmüş modellerde üretim dağılımının katlanması nedeniyle, çeşitli görevlere ince ayar yapmak için başlangıç noktası olarak temel modelin daha iyi olduğu fikri ilginç. Sürekli öğrenme veya doğru ince ayar yöntemleriyle de ilişkili görünüyor.
hertz-dev temel modelini başka dillerde önceden eğitmek için ne yapmak gerekir? İlgili bilgiyi nereden bulabileceğimi merak ediyorum.
Ses biraz bozuk duyuluyor ve arka planda sık sık gürültü var. Özellikle konuşma durduğunda bu gürültünün kaybolduğu oldukça fark ediliyor.
Bunun model sınırlaması mı, yoksa eğitim verisi kalitesiyle ilgili bir sorun mu olduğunu merak ediyorum.
Yazıdaki şu cümlenin gerçekte ne anlama geldiğini yazarlardan biri açıklayabilir mi?
hertz-vae: Ses VAE’sinin öğrenilmiş ön dağılımı olarak görev yapan 1,8 milyar parametreli transformer decoder. 8192 örneklenmiş latent gösterim, yani 17 dakikalık bağlam kullanır ve sonraki kodlanmış ses karesini Gauss karışımı olarak tahmin eder. Sonraki token’ın 15 bitlik niceleme bilgisinin, akışa uygun şekilde üretimi yönlendiren anlamsal bir iskele görevi gördüğü anlatılıyor.codec, 16k örnekleme hızlı sesi konvolüsyonla saniyede 8 örneğe sıkıştırıyor, ardından 128 bit ile vektör niceleme yaparak codec’i elde ediyor gibi.Bu bit sayısı gerçek sesi temsil etmek için çok yetersiz; muhtemelen daha çok fonem gibi şeyleri temsil etmeye yönelik.
vae, codec’i istem olarak kullanan VAE tabanlı bir difüzyon modeli gibi görünüyor;devise sonraki codec’i tahmin eden model gibi.Genel akış büyük olasılıkla istemi
codecile token’lara ayırmak, s saniyelik daha fazla sese ihtiyaç varsadevile 8 * s adet token daha tahmin etmek, ardından bunlarıvaedifüzyon modeliyle tekrar sese dönüştürmek şeklinde.