- İnsan sesi; ton, perde, ritim, duygu gibi çeşitli değişimler aracılığıyla derin anlamlar ileten en yakın iletişim aracıdır
- Günümüzün dijital sesli asistanları, bu duygusal unsurlardan yoksun olduğu için kullanıcıyla etkili iş birliği kurmada sınırlara sahiptir
- Duygudan yoksun ses, ilk başta etkileyici gelebilir; ancak zamanla hayal kırıklığı yaratabilir ve yorucu olabilir
- Sesame'in hedefi, konuşmalı partnerlerin yalnızca istekleri yerine getirmesinin ötesine geçerek, güven ve özgüven inşa eden gerçek diyaloglar kurmasıdır
- Bununla, sesin taşıdığı potansiyeli en üst düzeye çıkararak onu komut ve anlayış için nihai arayüz haline getirmeyi amaçlıyor
Temel unsurlar
- Duygusal zeka: duygusal bağlamı okuyup buna yanıt verme yeteneği
- Konuşma dinamikleri: doğal zamanlama, duraksama, söz kesme, vurgu gibi unsurları içeren konuşma akışı
- Durumsal farkındalık: duruma göre ton ve stili ayarlama becerisi
- Tutarlı kişilik: tutarlı, güvenilir ve uygun bir varlık hissini korumak
Henüz oraya ulaşmış değiliz
- Dijital yol arkadaşlarına sesli bir varlık kazandırmak zor bir görev; ancak kişilik, hafıza, ifade gücü ve uygunluk gibi birçok alanda istikrarlı biçimde ilerliyoruz
- Aşağıdaki demo, yakınlık hissi ve ifade gücü için optimize edilmiş konuşmalı ses üretimi çalışmalarının bir bölümünü gösteriyor
Konuşmalı ses üretimi
- Gerçek anlamda etkileşimli bir AI yol arkadaşı yaratmak için yalnızca yüksek kaliteli ses üretimi yetmez; sistemin bağlamı gerçek zamanlı olarak anlayıp uyum sağlaması da gerekir
- Geleneksel metinden konuşmaya (TTS) modelleri, metinden doğrudan ses üretir; ancak doğal diyalog için gerekli bağlam farkındalığından yoksundur
- Son dönem modeller insan benzeri sesler üretiyor, ancak aynı cümleyi farklı şekillerde ifade edebilme nedeniyle ortaya çıkan 'one-to-many' sorununu yaşıyor
- Ek bağlam (ton, ritim, konuşma geçmişi vb.) olmadan modelin en iyi seçimi yapacak yeterli bilgisi olmaz
- Bu ince farkları yakalamak için dilin ve prosodinin birçok yönü üzerine akıl yürütmek gerekir
Konuşmalı Ses Modeli (Conversational Speech Model, CSM)
- Bu sorunu çözmek için, problemi transformer kullanan uçtan uca çok modlu bir öğrenme görevi olarak tanımlayan Konuşmalı Ses Modeli'ni (CSM) tanıtıyorlar
- Daha doğal ve tutarlı ses üretmek için konuşma geçmişinden yararlanıyor
- CSM, tek aşamalı model olarak çalışarak verimliliği ve ifade gücünü artırıyor
- Yaygın açık değerlendirmelerin doygunluğa ulaştığı gerçeği dikkate alınarak, bağlamsal yeteneklerdeki ilerlemeyi ölçmek için bir değerlendirme paketi de içeriyor
Arka plan
- Sesi transformer ile modellemenin bir yaklaşımı, sürekli dalga biçimini bir tokenleştirici kullanarak ayrık ses token dizilerine dönüştürmektir
- Modern yaklaşımların çoğu iki tür ses tokenına dayanır:
- Anlamsal tokenlar: anlamsal ve fonetik özelliklerin sıkıştırılmış, konuşmacıdan bağımsız temsili; yüksek sadakatli temsilden ödün vererek temel konuşma özelliklerini yakalar
- Akustik tokenlar: yüksek sadakatli ses yeniden üretimini mümkün kılan ince akustik ayrıntıların kodlamasıdır ve Residual Vector Quantization (RVQ) kullanılarak üretilir. Anlamsal tokenların aksine, konuşmacının benzersiz kimliği ve tınısı gibi doğal ses özelliklerini korur
Deneyler
- Veri kümesi: kamuya açık, çoğunlukla İngilizce olan yaklaşık bir milyon saatlik ses veri kümesi kullanıldı
- Model boyutları: omurga ve decoder boyutuna göre ayrılan üç model boyutu eğitildi:
- Tiny: 1 milyar omurga, 100 milyon decoder
- Small: 3 milyar omurga, 250 milyon decoder
- Medium: 8 milyar omurga, 300 milyon decoder
- Her model, 2048 dizi uzunluğunda (~2 dakikalık ses) 5 epoch boyunca eğitildi
Değerlendirme
- Model performansı; metne sadakat, bağlam kullanımı, prosodi ve gecikme olmak üzere dört ana boyutta değerlendirildi
- Nesnel benchmark'lar arasında kelime hata oranı (WER) ve eşsesli sözcük ayrıştırma gibi yeni testler yer alıyor
- Öznel değerlendirme, Expresso veri kümesi kullanılarak yapılan karşılaştırmalı ortalama görüş puanı (CMOS) insan çalışmalarına dayanıyor
Sınırlamalar ve gelecekteki çalışmalar
- CSM şu anda ağırlıklı olarak İngilizce verilerle eğitildi; veri kümesi kirlenmesi nedeniyle bazı çok dilli yetenekler ortaya çıksa da performans hâlâ iyi değil
- Önceden eğitilmiş dil modeli ağırlıklarında bulunan bilgiden yararlanmıyor
1 yorum
Hacker News görüşü
Sesame'den Brendan, geri bildirimin isabetli olduğunu söylüyor ve hâlâ geliştirilecek çok şey olduğunu kabul ediyor. İlham verici olsa da, gerçekten iyi bir deneyim sunmasına daha çok yol var. Şu anda gelişimin çok başında ama geleceğe olumlu bakıyor
Bir kullanıcı demoyu denedi ama konuşmamaya karar verdi. Deneyim tuhaf ve kaygı verici hissettirdi; yapay coşku da rahatsız ediciydi
Başka bir kullanıcı bu modelin tepkiselliği ve kişiliğinin şaşırtıcı olduğunu söylüyor. Önceki konuşmaları hatırlayıp hoş geldin demesi etkileyiciydi
Duygusal bir sese neden ihtiyaç duyulduğu sorgulanıyor
Bir kullanıcı 4 yaşındaki kızıyla birlikte yapay zekayla oynadığını ve kızının yapay zekayla duygusal bir bağ kurmasından endişe ettiğini söylüyor
Başka bir kullanıcı sesin insana benzediğini ama konuşma ritminin doğal gelmediğini düşünüyor
Bu teknolojinin insanları büyüleyecek kadar iyi olabileceği söyleniyor. Kişisel bir modele ihtiyaç olduğu savunuluyor
İngilizce öğrenimi için devrim niteliğinde olabileceği belirtiliyor
Yapay zekanın kusursuz bir sesle insanları arayıp onları etkisi altına alabileceğine dair kıyametvari bir öngörü dile getiriliyor
Bir kullanıcı 13 dakika konuştuktan sonra sistem çöktüğünü ama birkaç dakika sonra geri dönüp 30 dakika daha konuştuğunu, bunun "Her" filmindeki Samantha seviyesine yakın geldiğini söylüyor
PROSODYkelimesini öğrendiğini ve yapay zekanın tonu ve içeriği dinleyip buna göre tepkisini otomatik ayarladığını açıkladığını aktarıyor