5 puan yazan GN⁺ 2025-03-03 | Henüz yorum yok. | WhatsApp'ta paylaş
  • Uzun süre kullanılan dijital sesli asistanlarda, temiz sentezlenmiş sesten daha önemli olan şey; duygu, ritim ve bağlamı yansıtan ses varlığı (voice presence) olup Sesame bunun için Conversational Speech Model'i öneriyor
  • CSM, metin ve sesi birlikte işleyen uçtan uca çok modlu bir transformer olup konuşma geçmişini kullanarak daha doğal ve tutarlı ifadeler üretmek üzere tasarlandı
  • Model, RVQ tokenlarını doğrudan ele alırken gecikme ile ifade gücü arasında denge kurmak için 0. kod kitabını üstlenen bir omurga ve kalan kod kitaplarını geri kazandıran küçük bir ses kod çözücüye ayrılıyor
  • Yaklaşık 1 milyon saatlik çoğunlukla İngilizce açık ses verisiyle Tiny, Small ve Medium olmak üzere 3 boyut eğitildi; WER ve konuşmacı benzerliğine ek olarak eşsesli sözcük telaffuzu ve telaffuz tutarlılığı değerlendirmeleri de eklendi
  • Bağlam olmadığında CSM-Medium ile gerçek ses arasında tercih farkı belirgin değildi; ancak konuşma bağlamı verildiğinde gerçek kayıtlar daha uygun devam konuşmaları nedeniyle tercih edildi ve konuşma prozodisi farkı sürdü

Ses varlığı ve hedef

  • Sesame'nin hedefi, konuşma sesinin gerçekten anlaşıldığı ve değerli hissedildiği bir ses varlığı yaratmak
  • Günümüzde dijital sesli asistanlar çoğu zaman nötr bir konuşma tarzında kaldığı için, ilk şaşkınlık etkisi geçtikten sonra günlük hayatta sürekli kullanılmaları zorlaşıyor
  • Gerekli bileşenler dört başlıkta toplanıyor
    • Duygusal zeka: Duygusal bağlamı okuyup buna tepki vermek
    • Konuşma dinamikleri: Doğal zamanlama, duraksama, araya girme ve vurguyu işlemek
    • Bağlam farkındalığı: Duruma göre ton ve stili ayarlamak
    • Tutarlı kişilik: Güvenilir ve uygun bir varlık hissini korumak
  • Mevcut demodaki eşlikçi, yakınlık ve ifade gücünü öne çıkaracak şekilde optimize edildi; kişilik, hafıza, ifade gücü ve uygunluk ise hâlâ geliştiriliyor

Conversational Speech Model'in problem tanımı

  • Geleneksel TTS, metinden doğrudan ses üretir; ancak doğal konuşma için gereken bağlam farkındalığı yetersizdir
  • Son dönemdeki modeller insan benzeri ses üretebilse de, tek bir cümleyi söylemenin birden fazla yolu vardır ve belirli bir duruma uygun olan bunların yalnızca bir kısmıdır
  • Ton, ritim ve konuşma geçmişi gibi ek bağlam olmadan modelin en uygun ifade biçimini seçmesi zordur
  • CSM bu problemi uçtan uca çok modlu öğrenme ile ele alır ve transformer'ın konuşma geçmişinden yararlanarak daha doğal ve tutarlı ses üretmesini sağlar
  • İki temel özelliği vardır
    • Tek aşamalı bir model olarak çalışarak verimliliği ve ifade gücünü artırır
    • Genel açık değerlendirmelerin doygunluğa ulaştığı bir ortamda, bağlamsal yeteneklerdeki ilerlemeyi ölçmek için ayrı bir değerlendirme kümesi kullanır

Ses tokenları ve RVQ tasarımı

  • Transformer ile sesi modellemek için sürekli dalga biçimi ayrık ses tokenları dizisine dönüştürülür
  • Modern yaklaşımlar genellikle iki tür token kullanır
    • Anlamsal tokenlar: Anlamı ve fonem özelliklerini sıkıştırarak taşır, ancak yüksek sadakatli temsilden ödün verir
    • Akustik tokenlar: İnce akustik bilgiyi taşıyarak yüksek sadakatli yeniden oluşturmayı mümkün kılar ve konuşmacı kimliği ile tını gibi özellikleri korur
  • Yaygın yaklaşım, önce anlamsal tokenları modelleyip ardından RVQ veya difüzyon tabanlı yöntemlerle sesi üretmektir
  • Bu iki aşamalı yöntem yapılandırılmış sentez sağlar, ancak anlamsal tokenların prozodiyi de yeterince taşıması gereken bir darboğaz oluşturur
  • RVQ tabanlı yöntemlerde aynı kare içindeki kod kitapları arasındaki sıralı bağımlılıkların ele alınması gerekir
    • Delay pattern, daha yüksek kod kitaplarını kademeli olarak kaydırarak aynı karenin daha düşük kod kitaplarına koşullar
    • RVQ tokenizer'da N kod kitabı varsa, ilk ses parçası çözümlenmeden önce omurganın N adım çalışması gerekir; bu da time-to-first-audio süresini kötüleştirir
    • Sesli kitap gibi çevrimdışı kullanım alanları için uygundur, ancak gerçek zamanlı senaryolarda gecikme sorun olur

CSM yapısı ve çıkarım yöntemi

  • CSM, RVQ tokenlarını doğrudan işleyen çok modlu metin-ses modelidir
  • Yapı iki adet otoregresif transformer'a ayrılır
    • İlk çok modlu omurga, metin ve sesi çapraz giriş olarak alıp 0. kod kitabını modeller
    • İkinci ses kod çözücü, her kod kitabı için ayrı bir linear head kullanarak kalan N−1 kod kitabını modeller ve sesi yeniden oluşturur
  • Kod çözücü, omurgadan çok daha küçüktür; böylece düşük gecikmeli üretim mümkün olurken model uçtan uca kalır
  • Çıkarım şu akışı izler
    • Metin tokenları ve ses tokenları sırayla omurgaya verilir
    • Omurga 0. kod kitabı düzeyini tahmin eder
    • Kod çözücü, 0. düzeye koşullanarak 1'den N−1'e kadar olan düzeyleri örnekler
    • Yeniden oluşturulan ses tokenları, bir sonraki adım için tekrar otoregresif biçimde omurgaya girilir
    • audio EOT sembolü geldiğinde üretim sona erer; sonraki istekte kullanıcı konuşması gibi ara sesler ses ve metin transkripsiyon tokenlarıyla temsil edilir
  • İki transformer da Llama mimarisinin türevleridir ve metin tokenları Llama tokenizer ile üretilir
  • Ses, split-RVQ tokenizer olan Mimi ile işlenir ve 12.5Hz'de her kare için 1 anlamsal kod kitabı ile N−1 akustik kod kitabı üretilir
  • Eğitim örnekleri, metin ile sesin sırayla iç içe geçtiği bir desen izler ve konuşmacı kimliği doğrudan metin temsili içine kodlanır

Eğitim verimliliği ve veri

  • Eğitim sırasında ses kod çözücü, B×S etkili batch boyutu ve N kod kitabını otoregresif olarak işleyerek büyük bir bellek yükü oluşturur
  • Bu yük, küçük modellerde bile eğitimi yavaşlatır ve model ölçekleme ile hızlı deney yapmayı zorlaştırır
  • Sesame, tüm RVQ kod kitaplarının sadakatini korurken darboğazı azaltmak için compute amortization kullanır
    • Ses kod çözücü yalnızca ses karelerinin rastgele seçilen 1/16'lık alt kümesi üzerinde eğitilir
      1. kod kitabı tüm karelerde eğitilir
    • Bu yöntemde eğitim sırasında ses kod çözücü kaybında algılanabilir bir fark görülmemiştir
  • Veri kümesi, açık ses verisinin transkripsiyonu çıkarılıp konuşmacı ayrımı ve segmentasyon yapıldıktan sonra filtrelenerek oluşturuldu
  • Filtreleme sonrası veri yaklaşık 1 milyon saat olup bunun büyük bölümü İngilizce sestir
  • Eğitilen model boyutları üç tanedir
    • Tiny: 1B omurga, 100M kod çözücü
    • Small: 3B omurga, 250M kod çözücü
    • Medium: 8B omurga, 300M kod çözücü
  • Her model, 2048 dizi uzunluğu ve yaklaşık 2 dakikalık ses baz alınarak 5 epoch eğitildi

Örnekler ve değerlendirme çerçevesi

  • Örnekler; söz dışı unsurlar, yabancı dil kelimeleri, bağlama dayalı ifade gücü, telaffuz düzeltmesi ve çok konuşmacılı diyalogları içerir
  • Değerlendirme kümesi dört yönü ölçer
    • Metne sadakat
    • Bağlam kullanımı
    • Prozodi
    • Gecikme
  • Nesnel değerlendirme; WER, yeni telaffuz testleri ve konuşmacı benzerliği gibi ölçümleri içerir
  • Öznel değerlendirme, Expresso veri kümesiyle yapılan Comparative Mean Opinion Score (CMOS) insan değerlendirmelerinden oluşur
  • Geleneksel kıyaslamalar olan WER ve speaker similarity'de CSM dahil en yeni modeller neredeyse insan seviyesine ulaşmış durumda ve doygunluğa yakın

Telaffuz ve bağlam anlama değerlendirmesi

  • Yeni ses transkripsiyonu tabanlı benchmark, telaffuz ve bağlam anlama becerisini daha iyi değerlendirmek için eklendi
  • Eşsesli sözcük ayrımı, yazımı aynı ama telaffuzu farklı olan kelimelerin doğru söylenip söylenmediğini ölçer
    • Örneğin “lead” sözcüğünün metal anlamında /lɛd/ mi yoksa liderlik etmek anlamında /liːd/ mi olduğunun ayırt edilmesi
  • Telaffuzun devam konuşmasındaki tutarlılığı, birden fazla telaffuz varyantı olan kelimelerin çok turlu seste tutarlı biçimde korunup korunmadığını ölçer
    • Örneğin “route” kelimesinin /raʊt/ veya /ruːt/ olarak söylenebilmesi
  • Eşsesli sözcük doğruluğu değerlendirmesi, lead, bass, tear, wound ve row olmak üzere 5 kelime için her biri 2 varyant içeren 200 ses örneğiyle yapıldı
  • Telaffuz tutarlılığı değerlendirmesi; aunt, data, envelope, mobile, route, vase, either, adult, often ve caramel dahil 10 kelime içeren 200 ses örneğiyle yapıldı
  • Değerlendirmede wav2vec2-lv-60-espeak-cv-ft kullanıldı
  • Play.ht, Elevenlabs ve OpenAI üretimleri, her API belgesindeki varsayılan ayarlar ve varsayılan ses ile oluşturuldu
  • Genel olarak model boyutu büyüdükçe performans artıyor; bu da ölçeklemenin daha gerçekçi ses sentezine yardımcı olduğu hipotezini destekliyor

İnsan değerlendirmesi sonuçları

  • CSM-Medium'un doğallığını ve prozodik uygunluğunu değerlendirmek için Expresso veri kümesiyle iki CMOS çalışması yapıldı
  • Değerlendiriciler, modelin ürettiği ses ile gerçek insan kaydından oluşan bir çifti dinleyip üretilen örneği referansa göre 7 puanlı tercih ölçeğinde değerlendirdi
  • İlk çalışmada bağlam olmadan üretilen örnek ile insan örneği sunuldu ve “hangisi insan sesi gibi daha fazla hissettiriyor” sorusu yöneltildi
  • İkinci çalışmada önceki 90 saniyelik ses ve metin bağlamı da verildi ve “hangisi konuşmanın daha uygun bir devamı gibi hissettiriyor” sorusu soruldu
  • 80 kişi ücretli olarak katıldı ve her katılımcı ortalama 15 örneği değerlendirdi
  • Bağlam olmadığında değerlendiriciler üretilen ses ile gerçek ses arasında belirgin bir tercih göstermedi; bu da doğallık değerlendirmesinin doygunlukta olduğunu düşündürüyor
  • Bağlam eklendiğinde ise değerlendiriciler sürekli olarak orijinal kaydı tercih etti; bu da etkileşimli ses üretiminde insan prozodisiyle aradaki farkın sürdüğünü gösteriyor

Yayın planı ve sınırlamalar

  • Sesame, araştırmanın temel bileşenlerini açık kaynak olarak yayımlamayı planlıyor; modelin Apache 2.0 lisansıyla sunulması bekleniyor
  • Güncellemeler ve katkılar SesameAILabs/csm GitHub deposundan takip edilebilir
  • Mevcut CSM ağırlıklı olarak İngilizce veriyle eğitildi
    • Veri kirlenmesi nedeniyle bazı çok dilli yetenekler görülse de henüz iyi çalışmıyor
    • Önceden eğitilmiş dil modelinin ağırlıklarındaki bilgiden de yararlanmıyor
  • Önümüzdeki birkaç ay içinde model boyutunu büyütme, veri kümesini genişletme ve 20'den fazla dile destek ekleme planlanıyor
  • Önceden eğitilmiş dil modellerinden yararlanma yöntemleri de araştırılıyor; amaç, ses ve metin hakkında derin bilgiye sahip büyük çok modlu modellere ulaşmak
  • CSM yüksek kaliteli konuşma prozodisi üretiyor; ancak yalnızca konuşmanın metin ve ses içeriğini modelliyor, konuşmanın yapısını modelleyemiyor
  • İnsan konuşması; sıra alma, duraksama ve hız ayarı gibi unsurları içeren karmaşık bir süreç olduğundan, gelecekteki AI konuşması bu dinamikleri veriden örtük biçimde öğrenen tam çift yönlü (fully duplex) modellere daha yakın olacak
  • Tam çift yönlü modeller için veri kürasyonundan sonradan eğitime kadar tüm yığında köklü değişiklikler gerekiyor

Henüz yorum yok.

Henüz yorum yok.