Etkileşimli seste tekinsiz vadiyi aşmak

(sesame.com)

5 puan yazan GN⁺ 2025-03-03 | Henüz yorum yok. | WhatsApp'ta paylaş

Uzun süre kullanılan dijital sesli asistanlarda, temiz sentezlenmiş sesten daha önemli olan şey; duygu, ritim ve bağlamı yansıtan ses varlığı (voice presence) olup Sesame bunun için Conversational Speech Model'i öneriyor
CSM, metin ve sesi birlikte işleyen uçtan uca çok modlu bir transformer olup konuşma geçmişini kullanarak daha doğal ve tutarlı ifadeler üretmek üzere tasarlandı
Model, RVQ tokenlarını doğrudan ele alırken gecikme ile ifade gücü arasında denge kurmak için 0. kod kitabını üstlenen bir omurga ve kalan kod kitaplarını geri kazandıran küçük bir ses kod çözücüye ayrılıyor
Yaklaşık 1 milyon saatlik çoğunlukla İngilizce açık ses verisiyle Tiny, Small ve Medium olmak üzere 3 boyut eğitildi; WER ve konuşmacı benzerliğine ek olarak eşsesli sözcük telaffuzu ve telaffuz tutarlılığı değerlendirmeleri de eklendi
Bağlam olmadığında CSM-Medium ile gerçek ses arasında tercih farkı belirgin değildi; ancak konuşma bağlamı verildiğinde gerçek kayıtlar daha uygun devam konuşmaları nedeniyle tercih edildi ve konuşma prozodisi farkı sürdü

Ses varlığı ve hedef

Sesame'nin hedefi, konuşma sesinin gerçekten anlaşıldığı ve değerli hissedildiği bir ses varlığı yaratmak
Günümüzde dijital sesli asistanlar çoğu zaman nötr bir konuşma tarzında kaldığı için, ilk şaşkınlık etkisi geçtikten sonra günlük hayatta sürekli kullanılmaları zorlaşıyor
Gerekli bileşenler dört başlıkta toplanıyor
- Duygusal zeka: Duygusal bağlamı okuyup buna tepki vermek
- Konuşma dinamikleri: Doğal zamanlama, duraksama, araya girme ve vurguyu işlemek
- Bağlam farkındalığı: Duruma göre ton ve stili ayarlamak
- Tutarlı kişilik: Güvenilir ve uygun bir varlık hissini korumak
Mevcut demodaki eşlikçi, yakınlık ve ifade gücünü öne çıkaracak şekilde optimize edildi; kişilik, hafıza, ifade gücü ve uygunluk ise hâlâ geliştiriliyor

Conversational Speech Model'in problem tanımı

Geleneksel TTS, metinden doğrudan ses üretir; ancak doğal konuşma için gereken bağlam farkındalığı yetersizdir
Son dönemdeki modeller insan benzeri ses üretebilse de, tek bir cümleyi söylemenin birden fazla yolu vardır ve belirli bir duruma uygun olan bunların yalnızca bir kısmıdır
Ton, ritim ve konuşma geçmişi gibi ek bağlam olmadan modelin en uygun ifade biçimini seçmesi zordur
CSM bu problemi uçtan uca çok modlu öğrenme ile ele alır ve transformer'ın konuşma geçmişinden yararlanarak daha doğal ve tutarlı ses üretmesini sağlar
İki temel özelliği vardır
- Tek aşamalı bir model olarak çalışarak verimliliği ve ifade gücünü artırır
- Genel açık değerlendirmelerin doygunluğa ulaştığı bir ortamda, bağlamsal yeteneklerdeki ilerlemeyi ölçmek için ayrı bir değerlendirme kümesi kullanır

Ses tokenları ve RVQ tasarımı

Transformer ile sesi modellemek için sürekli dalga biçimi ayrık ses tokenları dizisine dönüştürülür
Modern yaklaşımlar genellikle iki tür token kullanır
- Anlamsal tokenlar: Anlamı ve fonem özelliklerini sıkıştırarak taşır, ancak yüksek sadakatli temsilden ödün verir
- Akustik tokenlar: İnce akustik bilgiyi taşıyarak yüksek sadakatli yeniden oluşturmayı mümkün kılar ve konuşmacı kimliği ile tını gibi özellikleri korur
Yaygın yaklaşım, önce anlamsal tokenları modelleyip ardından RVQ veya difüzyon tabanlı yöntemlerle sesi üretmektir
Bu iki aşamalı yöntem yapılandırılmış sentez sağlar, ancak anlamsal tokenların prozodiyi de yeterince taşıması gereken bir darboğaz oluşturur
RVQ tabanlı yöntemlerde aynı kare içindeki kod kitapları arasındaki sıralı bağımlılıkların ele alınması gerekir
- Delay pattern, daha yüksek kod kitaplarını kademeli olarak kaydırarak aynı karenin daha düşük kod kitaplarına koşullar
- RVQ tokenizer'da N kod kitabı varsa, ilk ses parçası çözümlenmeden önce omurganın N adım çalışması gerekir; bu da time-to-first-audio süresini kötüleştirir
- Sesli kitap gibi çevrimdışı kullanım alanları için uygundur, ancak gerçek zamanlı senaryolarda gecikme sorun olur

CSM yapısı ve çıkarım yöntemi

CSM, RVQ tokenlarını doğrudan işleyen çok modlu metin-ses modelidir
Yapı iki adet otoregresif transformer'a ayrılır
- İlk çok modlu omurga, metin ve sesi çapraz giriş olarak alıp 0. kod kitabını modeller
- İkinci ses kod çözücü, her kod kitabı için ayrı bir linear head kullanarak kalan N−1 kod kitabını modeller ve sesi yeniden oluşturur
Kod çözücü, omurgadan çok daha küçüktür; böylece düşük gecikmeli üretim mümkün olurken model uçtan uca kalır
Çıkarım şu akışı izler
- Metin tokenları ve ses tokenları sırayla omurgaya verilir
- Omurga 0. kod kitabı düzeyini tahmin eder
- Kod çözücü, 0. düzeye koşullanarak 1'den N−1'e kadar olan düzeyleri örnekler
- Yeniden oluşturulan ses tokenları, bir sonraki adım için tekrar otoregresif biçimde omurgaya girilir
- audio EOT sembolü geldiğinde üretim sona erer; sonraki istekte kullanıcı konuşması gibi ara sesler ses ve metin transkripsiyon tokenlarıyla temsil edilir
İki transformer da Llama mimarisinin türevleridir ve metin tokenları Llama tokenizer ile üretilir
Ses, split-RVQ tokenizer olan Mimi ile işlenir ve 12.5Hz'de her kare için 1 anlamsal kod kitabı ile N−1 akustik kod kitabı üretilir
Eğitim örnekleri, metin ile sesin sırayla iç içe geçtiği bir desen izler ve konuşmacı kimliği doğrudan metin temsili içine kodlanır

Eğitim verimliliği ve veri

Eğitim sırasında ses kod çözücü, B×S etkili batch boyutu ve N kod kitabını otoregresif olarak işleyerek büyük bir bellek yükü oluşturur
Bu yük, küçük modellerde bile eğitimi yavaşlatır ve model ölçekleme ile hızlı deney yapmayı zorlaştırır
Sesame, tüm RVQ kod kitaplarının sadakatini korurken darboğazı azaltmak için compute amortization kullanır
- Ses kod çözücü yalnızca ses karelerinin rastgele seçilen 1/16'lık alt kümesi üzerinde eğitilir
- 1. kod kitabı tüm karelerde eğitilir
- Bu yöntemde eğitim sırasında ses kod çözücü kaybında algılanabilir bir fark görülmemiştir
Veri kümesi, açık ses verisinin transkripsiyonu çıkarılıp konuşmacı ayrımı ve segmentasyon yapıldıktan sonra filtrelenerek oluşturuldu
Filtreleme sonrası veri yaklaşık 1 milyon saat olup bunun büyük bölümü İngilizce sestir
Eğitilen model boyutları üç tanedir
- Tiny: 1B omurga, 100M kod çözücü
- Small: 3B omurga, 250M kod çözücü
- Medium: 8B omurga, 300M kod çözücü
Her model, 2048 dizi uzunluğu ve yaklaşık 2 dakikalık ses baz alınarak 5 epoch eğitildi

Örnekler ve değerlendirme çerçevesi

Örnekler; söz dışı unsurlar, yabancı dil kelimeleri, bağlama dayalı ifade gücü, telaffuz düzeltmesi ve çok konuşmacılı diyalogları içerir
Değerlendirme kümesi dört yönü ölçer
- Metne sadakat
- Bağlam kullanımı
- Prozodi
- Gecikme
Nesnel değerlendirme; WER, yeni telaffuz testleri ve konuşmacı benzerliği gibi ölçümleri içerir
Öznel değerlendirme, Expresso veri kümesiyle yapılan Comparative Mean Opinion Score (CMOS) insan değerlendirmelerinden oluşur
Geleneksel kıyaslamalar olan WER ve speaker similarity'de CSM dahil en yeni modeller neredeyse insan seviyesine ulaşmış durumda ve doygunluğa yakın

Telaffuz ve bağlam anlama değerlendirmesi

Yeni ses transkripsiyonu tabanlı benchmark, telaffuz ve bağlam anlama becerisini daha iyi değerlendirmek için eklendi
Eşsesli sözcük ayrımı, yazımı aynı ama telaffuzu farklı olan kelimelerin doğru söylenip söylenmediğini ölçer
- Örneğin “lead” sözcüğünün metal anlamında /lɛd/ mi yoksa liderlik etmek anlamında /liːd/ mi olduğunun ayırt edilmesi
Telaffuzun devam konuşmasındaki tutarlılığı, birden fazla telaffuz varyantı olan kelimelerin çok turlu seste tutarlı biçimde korunup korunmadığını ölçer
- Örneğin “route” kelimesinin /raʊt/ veya /ruːt/ olarak söylenebilmesi
Eşsesli sözcük doğruluğu değerlendirmesi, lead, bass, tear, wound ve row olmak üzere 5 kelime için her biri 2 varyant içeren 200 ses örneğiyle yapıldı
Telaffuz tutarlılığı değerlendirmesi; aunt, data, envelope, mobile, route, vase, either, adult, often ve caramel dahil 10 kelime içeren 200 ses örneğiyle yapıldı
Değerlendirmede wav2vec2-lv-60-espeak-cv-ft kullanıldı
Play.ht, Elevenlabs ve OpenAI üretimleri, her API belgesindeki varsayılan ayarlar ve varsayılan ses ile oluşturuldu
Genel olarak model boyutu büyüdükçe performans artıyor; bu da ölçeklemenin daha gerçekçi ses sentezine yardımcı olduğu hipotezini destekliyor

İnsan değerlendirmesi sonuçları

CSM-Medium'un doğallığını ve prozodik uygunluğunu değerlendirmek için Expresso veri kümesiyle iki CMOS çalışması yapıldı
Değerlendiriciler, modelin ürettiği ses ile gerçek insan kaydından oluşan bir çifti dinleyip üretilen örneği referansa göre 7 puanlı tercih ölçeğinde değerlendirdi
İlk çalışmada bağlam olmadan üretilen örnek ile insan örneği sunuldu ve “hangisi insan sesi gibi daha fazla hissettiriyor” sorusu yöneltildi
İkinci çalışmada önceki 90 saniyelik ses ve metin bağlamı da verildi ve “hangisi konuşmanın daha uygun bir devamı gibi hissettiriyor” sorusu soruldu
80 kişi ücretli olarak katıldı ve her katılımcı ortalama 15 örneği değerlendirdi
Bağlam olmadığında değerlendiriciler üretilen ses ile gerçek ses arasında belirgin bir tercih göstermedi; bu da doğallık değerlendirmesinin doygunlukta olduğunu düşündürüyor
Bağlam eklendiğinde ise değerlendiriciler sürekli olarak orijinal kaydı tercih etti; bu da etkileşimli ses üretiminde insan prozodisiyle aradaki farkın sürdüğünü gösteriyor

Yayın planı ve sınırlamalar

Sesame, araştırmanın temel bileşenlerini açık kaynak olarak yayımlamayı planlıyor; modelin Apache 2.0 lisansıyla sunulması bekleniyor
Güncellemeler ve katkılar SesameAILabs/csm GitHub deposundan takip edilebilir
Mevcut CSM ağırlıklı olarak İngilizce veriyle eğitildi
- Veri kirlenmesi nedeniyle bazı çok dilli yetenekler görülse de henüz iyi çalışmıyor
- Önceden eğitilmiş dil modelinin ağırlıklarındaki bilgiden de yararlanmıyor
Önümüzdeki birkaç ay içinde model boyutunu büyütme, veri kümesini genişletme ve 20'den fazla dile destek ekleme planlanıyor
Önceden eğitilmiş dil modellerinden yararlanma yöntemleri de araştırılıyor; amaç, ses ve metin hakkında derin bilgiye sahip büyük çok modlu modellere ulaşmak
CSM yüksek kaliteli konuşma prozodisi üretiyor; ancak yalnızca konuşmanın metin ve ses içeriğini modelliyor, konuşmanın yapısını modelleyemiyor
İnsan konuşması; sıra alma, duraksama ve hız ayarı gibi unsurları içeren karmaşık bir süreç olduğundan, gelecekteki AI konuşması bu dinamikleri veriden örtük biçimde öğrenen tam çift yönlü (fully duplex) modellere daha yakın olacak
Tam çift yönlü modeller için veri kürasyonundan sonradan eğitime kadar tüm yığında köklü değişiklikler gerekiyor

Etkileşimli seste tekinsiz vadiyi aşmak

Ses varlığı ve hedef

Conversational Speech Model'in problem tanımı

Ses tokenları ve RVQ tasarımı

CSM yapısı ve çıkarım yöntemi

Eğitim verimliliği ve veri

Örnekler ve değerlendirme çerçevesi

Telaffuz ve bağlam anlama değerlendirmesi

İnsan değerlendirmesi sonuçları

Yayın planı ve sınırlamalar

İlgili okumalar

Henüz yorum yok.