5 puan yazan GN⁺ 2025-03-03 | 1 yorum | WhatsApp'ta paylaş
  • İnsan sesi; ton, perde, ritim, duygu gibi çeşitli değişimler aracılığıyla derin anlamlar ileten en yakın iletişim aracıdır
  • Günümüzün dijital sesli asistanları, bu duygusal unsurlardan yoksun olduğu için kullanıcıyla etkili iş birliği kurmada sınırlara sahiptir
  • Duygudan yoksun ses, ilk başta etkileyici gelebilir; ancak zamanla hayal kırıklığı yaratabilir ve yorucu olabilir
  • Sesame'in hedefi, konuşmalı partnerlerin yalnızca istekleri yerine getirmesinin ötesine geçerek, güven ve özgüven inşa eden gerçek diyaloglar kurmasıdır
  • Bununla, sesin taşıdığı potansiyeli en üst düzeye çıkararak onu komut ve anlayış için nihai arayüz haline getirmeyi amaçlıyor

Temel unsurlar

  • Duygusal zeka: duygusal bağlamı okuyup buna yanıt verme yeteneği
  • Konuşma dinamikleri: doğal zamanlama, duraksama, söz kesme, vurgu gibi unsurları içeren konuşma akışı
  • Durumsal farkındalık: duruma göre ton ve stili ayarlama becerisi
  • Tutarlı kişilik: tutarlı, güvenilir ve uygun bir varlık hissini korumak

Henüz oraya ulaşmış değiliz

  • Dijital yol arkadaşlarına sesli bir varlık kazandırmak zor bir görev; ancak kişilik, hafıza, ifade gücü ve uygunluk gibi birçok alanda istikrarlı biçimde ilerliyoruz
  • Aşağıdaki demo, yakınlık hissi ve ifade gücü için optimize edilmiş konuşmalı ses üretimi çalışmalarının bir bölümünü gösteriyor

Konuşmalı ses üretimi

  • Gerçek anlamda etkileşimli bir AI yol arkadaşı yaratmak için yalnızca yüksek kaliteli ses üretimi yetmez; sistemin bağlamı gerçek zamanlı olarak anlayıp uyum sağlaması da gerekir​
  • Geleneksel metinden konuşmaya (TTS) modelleri, metinden doğrudan ses üretir; ancak doğal diyalog için gerekli bağlam farkındalığından yoksundur​
  • Son dönem modeller insan benzeri sesler üretiyor, ancak aynı cümleyi farklı şekillerde ifade edebilme nedeniyle ortaya çıkan 'one-to-many' sorununu yaşıyor​
  • Ek bağlam (ton, ritim, konuşma geçmişi vb.) olmadan modelin en iyi seçimi yapacak yeterli bilgisi olmaz​
  • Bu ince farkları yakalamak için dilin ve prosodinin birçok yönü üzerine akıl yürütmek gerekir

Konuşmalı Ses Modeli (Conversational Speech Model, CSM)

  • Bu sorunu çözmek için, problemi transformer kullanan uçtan uca çok modlu bir öğrenme görevi olarak tanımlayan Konuşmalı Ses Modeli'ni (CSM) tanıtıyorlar​
  • Daha doğal ve tutarlı ses üretmek için konuşma geçmişinden yararlanıyor​
  • CSM, tek aşamalı model olarak çalışarak verimliliği ve ifade gücünü artırıyor​
  • Yaygın açık değerlendirmelerin doygunluğa ulaştığı gerçeği dikkate alınarak, bağlamsal yeteneklerdeki ilerlemeyi ölçmek için bir değerlendirme paketi de içeriyor

Arka plan

  • Sesi transformer ile modellemenin bir yaklaşımı, sürekli dalga biçimini bir tokenleştirici kullanarak ayrık ses token dizilerine dönüştürmektir
  • Modern yaklaşımların çoğu iki tür ses tokenına dayanır:
    • Anlamsal tokenlar: anlamsal ve fonetik özelliklerin sıkıştırılmış, konuşmacıdan bağımsız temsili; yüksek sadakatli temsilden ödün vererek temel konuşma özelliklerini yakalar
    • Akustik tokenlar: yüksek sadakatli ses yeniden üretimini mümkün kılan ince akustik ayrıntıların kodlamasıdır ve Residual Vector Quantization (RVQ) kullanılarak üretilir. Anlamsal tokenların aksine, konuşmacının benzersiz kimliği ve tınısı gibi doğal ses özelliklerini korur

Deneyler

  • Veri kümesi: kamuya açık, çoğunlukla İngilizce olan yaklaşık bir milyon saatlik ses veri kümesi kullanıldı
  • Model boyutları: omurga ve decoder boyutuna göre ayrılan üç model boyutu eğitildi:
    • Tiny: 1 milyar omurga, 100 milyon decoder
    • Small: 3 milyar omurga, 250 milyon decoder
    • Medium: 8 milyar omurga, 300 milyon decoder
  • Her model, 2048 dizi uzunluğunda (~2 dakikalık ses) 5 epoch boyunca eğitildi

Değerlendirme

  • Model performansı; metne sadakat, bağlam kullanımı, prosodi ve gecikme olmak üzere dört ana boyutta değerlendirildi
  • Nesnel benchmark'lar arasında kelime hata oranı (WER) ve eşsesli sözcük ayrıştırma gibi yeni testler yer alıyor
  • Öznel değerlendirme, Expresso veri kümesi kullanılarak yapılan karşılaştırmalı ortalama görüş puanı (CMOS) insan çalışmalarına dayanıyor

Sınırlamalar ve gelecekteki çalışmalar

  • CSM şu anda ağırlıklı olarak İngilizce verilerle eğitildi; veri kümesi kirlenmesi nedeniyle bazı çok dilli yetenekler ortaya çıksa da performans hâlâ iyi değil
  • Önceden eğitilmiş dil modeli ağırlıklarında bulunan bilgiden yararlanmıyor

1 yorum

 
GN⁺ 2025-03-03
Hacker News görüşü
  • Sesame'den Brendan, geri bildirimin isabetli olduğunu söylüyor ve hâlâ geliştirilecek çok şey olduğunu kabul ediyor. İlham verici olsa da, gerçekten iyi bir deneyim sunmasına daha çok yol var. Şu anda gelişimin çok başında ama geleceğe olumlu bakıyor

    • Dilsel iletişim karmaşık ve çözülmesi gereken pek çok ilginç sorun var
    • Tepki zamanlaması sık sık uygunsuz oluyor ve konuşmaya doğal biçimde karışamıyor
    • Söz kesilmelerini iyi yönetemiyor ve tutarlı bir kişilik sürdüremiyor
    • Halüsinasyon, zayıf hafıza ve zaman farkındalığı eksikliği gibi sorunlar da var
    • Topluluğun bu sorunları çözebileceğine inanıyor
    • Hedef, duygusal bir arkadaşlıktan ziyade doğal şekilde birlikte çalışılabilen bir arayüz oluşturmak
    • Uygulama bir uzman gibi konuşabildiğinde daha sezgisel ve verimli olacak
  • Bir kullanıcı demoyu denedi ama konuşmamaya karar verdi. Deneyim tuhaf ve kaygı verici hissettirdi; yapay coşku da rahatsız ediciydi

    • Yapay zeka ürünleri kullanıcıya net bir amaç sunmalı
    • Sırf sohbet etmek için var olan bir yapay zeka toplum üzerinde olumsuz etki yaratabilir
  • Başka bir kullanıcı bu modelin tepkiselliği ve kişiliğinin şaşırtıcı olduğunu söylüyor. Önceki konuşmaları hatırlayıp hoş geldin demesi etkileyiciydi

    • Demo etkileşimleri kaydediliyor ve geçmiş konuşmalar modelin bağlamına dahil ediliyor
    • Mikrofon izni gerekiyor; görüşmeler kalite incelemesi için kaydediliyor ama 30 gün içinde siliniyor
  • Duygusal bir sese neden ihtiyaç duyulduğu sorgulanıyor

    • Duygusal ses sadece bir arkadaşlık yanılsaması veriyor, gerçekten yardımcı olmuyor
    • Akıllı ve nötr bir sesli asistan daha faydalı olabilir
  • Bir kullanıcı 4 yaşındaki kızıyla birlikte yapay zekayla oynadığını ve kızının yapay zekayla duygusal bir bağ kurmasından endişe ettiğini söylüyor

  • Başka bir kullanıcı sesin insana benzediğini ama konuşma ritminin doğal gelmediğini düşünüyor

  • Bu teknolojinin insanları büyüleyecek kadar iyi olabileceği söyleniyor. Kişisel bir modele ihtiyaç olduğu savunuluyor

  • İngilizce öğrenimi için devrim niteliğinde olabileceği belirtiliyor

    • Gelişmekte olan ülkelerde İngilizce öğretmeni az; iyi öğretmenler ise pahalı ve erişmesi zor
    • Bu model OpenAI modellerine benzer ya da daha iyi performans sunuyor ve maliyeti daha düşük
  • Yapay zekanın kusursuz bir sesle insanları arayıp onları etkisi altına alabileceğine dair kıyametvari bir öngörü dile getiriliyor

  • Bir kullanıcı 13 dakika konuştuktan sonra sistem çöktüğünü ama birkaç dakika sonra geri dönüp 30 dakika daha konuştuğunu, bunun "Her" filmindeki Samantha seviyesine yakın geldiğini söylüyor

    • Konuşma sırasında PROSODY kelimesini öğrendiğini ve yapay zekanın tonu ve içeriği dinleyip buna göre tepkisini otomatik ayarladığını açıkladığını aktarıyor
    • Geleceğin zaten geldiğini ama eşit dağılmadığını hissettiğini söylüyor