1 puan yazan GN⁺ 2025-10-22 | 1 yorum | WhatsApp'ta paylaş
  • Nöral ses kodekleri, ses verisini Büyük Dil Modelleri (LLM)'e etkili biçimde girdi olarak vermek için önemli bir araçtır
  • Mevcut LLM ses arayüzleri çoğunlukla metin tabanlı bir sarıcı olduğu için gerçek ses anlama ve duygu algılama konusunda sınırlıdır
  • Ses modelleme, metinden farklı olarak çok sayıda örnek içermesi ve uzun süreli tutarlılığı korumanın zor olması nedeniyle verimli sıkıştırma ve tokenleştirme gerektirir
  • Residual Vector Quantization (RVQ) gibi modern nöral ses kodek teknikleriyle ses, LLM dostu ayrık tokenlara dönüştürülerek işlenir
  • Kyutai'nin Mimi gibi son teknoloji nöral ses kodekleri uygulanarak, ses LLM'lerinin ifade gücü ve kalitesi giderek artmaktadır

Nöral Ses Kodekleri ve Ses LLM'lere Girişin Arka Planı

  • LLM tabanlı çoğu ses modeli, gerçek sesi anlamaktan çok metne dönüştürme–yanıt üretme–sentezleme yöntemini kullanır
  • Gerçek ses anlama için duyguların, vurgu ve tonlamanın, alaycılığın ve sözel olmayan nüansların yakalanması gerekir
  • Bazı modeller (Gemini, ChatGPT Advanced Voice Mode, Qwen, Moshi) ses girişi sunmasına rağmen pratikte derin ses anlama becerisine sahip değildir
  • Metin LLM'leri sadece yeterli veri, algoritma ve hesap gücüyle hızla yüksek performansa ulaşabilirken, ses verisi işleme zorluğu çok daha yüksektir

Metin ve Sesin Tokenleştirme Yaklaşımı Arasındaki Fark

  • Metin, byte-pair encoding gibi nispeten basit ve sabit tokenleştiricilerle dahi yüksek başarı verebilir
  • Erken dönem LSTM ve RNN'ler bile örnek–tek karakter tahminiyle akla yatkın sonuçlar alabilmişti
  • Ses ise saniyede on binlerce örnek üretir; 10 saniyede bile yüzbinlerce zaman serisi tahmini gerekir
  • WaveNet benzeri bir modelde örnek bazlı ses üretimi ses kalitesini yükseltse de anlam iletimi açısından zorluklar doğurur

Ses Modelleme Darboğazı ve Örnek Bazlı Tahmin Sınırları

  • Örnek bazlı üretim pratikte son derece yavaş ilerler ve gerçek anlam birimlerinin bağlamsal sürekliliğini garanti edemez
  • Deneysel bir çalışma (151M parametre, 1000 saat veri) gürültülü konuşma ve tutarsızlık gibi sorunlar nedeniyle kullanışlılıktan uzaktır
  • Sesin yüksek örnekleme hızı (16kHz referansında, 2048 bağlam = 128ms), LLM'nin bağlam işleme sınırını doğurur
  • Gerçek zamanlı ses işleme için etkili sıkıştırma şarttır

Nöral Ses Kodekleri: Otokodlayıcı ve RVQ

Otokodlayıcı ve Vektör Kantifikasyonu (VQ-VAE) Temel İlkeleri

  • Girdi (ses, görüntü vb.) küçük bir gizli uzay (latent space)'a sıkıştırılıp yeniden üretilen bir sinir ağı yapısıdır
  • Gömme vektörleri vektör kantifikasyonu (ör. k-means) ile ayrık tokenlara dönüştürülerek LLM'ye giriş verecek biçimde tasarlanır
  • Straight-through estimator tekniği, türetilmesi zor özelliklerin dolaylı şekilde öğrenilebilmesini sağlar
  • Commitment loss eklenerek gömme ile küme merkezleri arasındaki mesafe en aza indirilir
  • VQ-VAE model yapısı, kuantizasyona uyumlu hale gelmiş bir otokodlayıcıdır

Residual Vector Quantization (RVQ) Kavramı

  • Birçok kuantizasyon seviyesi gerektiğinde, tek bir kümeleme yapısını yönetmenin zorlukları nedeniyle artık (residual) token seviyeleri eklenir
  • İlk gömme seviyesi kuantize edilir ve ardından artık bileşeni ek olarak kuantize edilerek sıkıştırma verimliliği maksimize edilir
  • Gerekirse iki veya daha fazla çok seviyeli kuantizasyon uygulanabilir; mimari oldukça sade bir döngüyle genişleyebilir (for level in range(levels))
  • RVQ, SoundStream (2021) gibi modern nöral ses kodeklerinin temel bileşenidir

Ses Tokenleştirme ve LLM Uygulaması

  • CNN tabanlı otokodlayıcıyla sesi downsample edildikten sonra (ör. 128x, 32 boyutlu vektör), her gömme için bağımsız RVQ kuantizasyonu yapılır
  • RVQ çıktısı (ör. 8 seviyeli RVQ) doğrudan ardışık bir 1D token dizisine açılıp LLM girişi olarak kullanılır
  • Düzleştirme (flattening) uygulanırsa, zaman sıkıştırmasının bir kısmı kaybolur (ör. 128x downsampling → 8x yeniden genişleme)
  • Kod defteri seviyesi, seviye sayısı ve FLATTEN sırası kalite ile sıkıştırma oranını etkiler

Gerçek Nöral Ses Kodekleri Eğitimi ve Kalite İyileştirme

  • Deneysel sonuçlar, RVQ seviyeleri arttıkça yeniden yapılandırma kaybının azaldığını ve ses kalitesinin yükseldiğini gösterir
  • Ancak kendi geliştirdiğimiz basit bir kodek dahi bir miktar gürültü ve tını bozulması barındırmaktadır
  • Kyutai'nin Mimi gibi son teknoloji sinir ağı ses kodekleri, GAN tabanlı kayıp fonksiyonları ve RVQ dropout gibi yeniliklerle kaliteyi en iyi hale getirir
    • GAN ayrıştırıcısıyla gerçek/yanlış ses örnekleri ayırt edilerek eğitim yapılır
    • Farklı RVQ seviyelerinde rastgele bazı seviyelerin kullanılması (dropout), hangi sıkıştırma seviyesinde olursa olsun kaliteyi korur

Mimi Kodekinde Gerçek LLM Performans Değişimi

  • Mimi, 24kHz örnekleme hızı ve 12.5 fps ile daha agresif downsampling ve verimli sıkıştırmayı mümkün kılar
  • Aynı Libri-Light 10k saat verisi Mimi ile tokenleştirildiğinde, depolama alanı yaklaşık 1/2 oranında azalır, eğitim verimliliği ve kalite artar
  • Model, şarkı, şiir gibi anlam odaklı ses üretiminde daha yüksek metin tutarlılığı sağlar

Anlamsal Token (Semantic Token) Kavramı

  • Mimi'nin üst seviyesi, WavLM gibi ses odaklı BERT modellerinden çıkarılan anlamsal tokenlardır
  • Anlamsal tokenlar ses içeriğini, alt seviye RVQ tokenları ise tını ve ses rengine ilişkin akustik bilgiyi taşır
  • Anlamsal tokenlar sabitlendikten sonra kalan tokenları LLM'nin yeniden üretmesiyle, aynı cümleyi farklı bir sesle söyleyen sonuçlar üretilebilir

Anlam–Akustik Kalite Dengeleme

  • RVQ seviye sayısı düştükçe anlamsal token oranı artar ve anlam tutarlılığı yükselir; ayrıca LLM'nin şiirsel cümle oluşturma becerisi gelişir
  • Pratikte, 'Librivox' yönlendirme cümleleri gibi eğitim verisinin bir bölümünün ezberlenmesi düzeyine kadar çıkılabilir
  • Anlamsal odaklı kayıp fonksiyonu ağırlığı ile akustik kalite ağırlığı arasında denge kurularak farklı kullanım senaryoları elde edilir (Moshi, anlamsal kaybı 100 kat önceler)

Güncel Ses LLM Modelleri ve Araştırma Eğilimleri

  • Yıllar süren gelişmelerle Kyutai'nin Moshi, Sesame'in CSM'si ve Alibaba'nın Qwen3-Omni'si ses odaklı yerel LLM araştırmalarını liderlik ediyor
  • Çoğu model hâlâ metin akışı eşliğinde bir yaklaşımı kullanır; bağlam çıkarımı genellikle metin üzerinde gerçekleşir
  • Metin ve ses tokenlarının birlikte ya da çapraz kullanılmasına ek olarak, sürekli gizli uzay üretimi (diffusion, consistency modelleri) gibi alternatifler de yoğun biçimde incelenmektedir

Sonuç ve Öngörüler

  • Nöral ses kodekleri, ses LLM'lerinin temel altyapısıdır; anlam ve akustik bilgiyi dengeli tokenleştirerek ses üretim kalitesini ciddi şekilde artırır
  • Buna rağmen metin LLM'leriyle karşılaştırıldığında çıkarım ve ses anlama bakımından hâlâ bir modalite açığı (modality gap) vardır
  • Kyutai Moshi gibi modeller, uçtan uca sesli yapay zeka girişimlerinin ilk örnekleri arasında yer alıyor ve önümüzdeki dönemde de ses ML gelişimi bekleniyor

Referans Makaleler ve Ek Okuma

  • WaveNet (2016), SampleRNN (2016), MelGAN (2019), HiFi-GAN (2020) gibi ses üretim modeli tarihçesi ve temel kavramlar
  • Neural Discrete Representation Learning, SoundStream, EnCodec, WavLM, MiMo-Audio gibi kodek/model uygulama çalışmaları
  • Sürekli ses üretimi için Diffusion/Consistency modellerinin uygulanabilirliği sunulur

2025 Durumuna Göre Güncel Ses Tabanlı LLM Örnekleri

  • Moshi (Kyutai)
  • CSM (Sesame)
  • Qwen3-Omni (Alibaba)
  • MiMo-Audio (Xiaomi)
  • LFM2-Audio (Liquid AI)

1 yorum

 
GN⁺ 2025-10-22
Hacker News Yorumları
  • Yüksek ses tonuyla “Ben alçak bir ses mi, yoksa yüksek bir ses mi kullanıyorum?” diye LLM'e sorduğunda bunu doğru ayırt edemediğinden bahsediyor; bunun modelin bir sınırlaması mı yoksa güvenlik nedeniyle aşırı uydurma mı olduğundan emin olamıyor. ChatGPT Voice modunda müzik oluşturma engeli, aksanı taklit etmeme (ör. Hint aksanını taklit etmemesi), ırk veya önyargı tahminini önleme gibi pek çok koruma katmanı olduğunu vurguluyor ve bu özelliklerin modelde tamamen kaldırılmış olabileceğini düşünüyor.

    • Yazar olarak gördükleri bunun güvenlik eksikliği değil, model kapasitesinin sınırı olduğunu; ses öğreniminin metin öğreniminden hâlâ daha zor olduğunu ve bu yüzden genellemenin zayıf kaldığını söylüyor. Bu yüzden ses modelleri genelde metin ve sesi birleştirme yaklaşımını kullanıyor (ör. metin ile ses tokenlarını birlikte girdi/çıktı alan tek model), yani ses tokenları sonunda birleşik bir konuşma-metin dönüştürücü gibi çalışıyor. Moshi'de çalışan arkadaşlarının deneyimleri de aynı, diğer modellerde de benzer. Sentetik verinin etkisi olduğunu da düşünüyor: TTS ile üretilmiş veride ton bilgisi yoksa model bunun göz ardı edilmesini öğreniyor.

    • “Aksan eşleme” (karşı taraf Hint aksanıysa LLM'in de Hint aksanıyla konuşmaması) neden olmadığını gerçekten merak ediyor; benzer bir aksana taklit etmek karşılıklı anlaşmayı ciddi biçimde artırıyor. Aksanı ayarlayabilen birinin ayarlayamayana uyum sağlamasının avantaj olduğu durumların çoğunda işe yaradığını gördüğünü, eğer kendisinin de Hint İngilizcesi aksanı kullanabilseydi dış kaynaklı müşteri destek ekibine erişimde çok işine yarayacağını ekliyor.

    • LLM'lerin ırka göre farklı tepki verdiği bir deneyim olup olmadığını soruyor; eğitildikleri veri metin sohbet ağırlıklıysa böyle önyargıları öğrenmeye temel pek az olmasına rağmen bunun beklenmedik olduğunu söylüyor.

    • Qwen3 Omni transcriber'ın ses ve duyguyu çok iyi tarif ettiğini paylaşıyor.

    • Sadece güvenlik önlemlerinden kaynaklanmadığını düşünüyor; ses yüksekliğini anlamada eksik hissettiriyor. ChatGPT'nin ileri ses modunda mırıldadığım bir melodiyi tanımasını istediğimde sürekli “Beethoven 5” demekten öteye gidemedi; benim mırıldanmamı dül-dül-dül-dül~ gibi tokenleştirmiş olabilir.

  • Ses alanında uzun-kapsam bağlam çok kritik olmadığı için linear-space, constant-time modeller (RWKV, S4 vb.) daha iyi olabilir mi diye sorguluyor. Transformerların düşük frekanslı/yoğunluklu paralel çalışıp, lineer modelin ise saniyede bir kez özet token’ı (metin+duygu vb.) göndererek geri bildirim aldığı bir yapı hayal ediliyor. İki modeli paralel eğitince bu özet tokenlarının anlamı önceden tanımlı olmuyor, öğrenme sırasında ortaya çıkıyor. Bu, tamamen fonetik temelli uçtan uca (e2e) bir yöntem ve metin çevirisi yok. Anlamı az veya bilgi yoğunluğu düşük kısımlar daha küçük token gösterimlerine sıkıştırılabilir. Mantık veya kod tarafında metin LLM'lerinin gerisinde kalınabilir ama insanın da doğal dille algoritmayı ayrıntıyla anlatmasının zor olduğunu ekliyor.

    • Lineer model konusunda çok şey bilmiyorum ama böyle hiyerarşik modelleme fikri ses araştırmalarında çok yaygın bir fikir. Örneğin OpenAI'nin Jukebox'u (2020), üç katmanlı bir ses codec'inde dil modelinin en kaba seviyede bir sonraki adımı kestirip sonrasında ince ayrıntı seviyelerine kadar geri ürettiğini anlatıyor; son dönemde MiMo-audio ise 4 zaman adımını bir patch olarak tahmin ediyor. Referans için OpenAI Jukebox makalesi ve MiMo-Audio teknik raporu linklerini paylaşıyor.

    • Cartesia'nın, ses için sabit-zaman modeli geliştirdiğini web sitesi bağlantısında bildiriyor.

    • “Bunu mutlaka makale olarak yaz!” diye de teşvik ediyor.

  • Genel ses codec'lerini (JPEG, MP3 vb.) neden kullanmıyor sorusuna yanıt verirken; MP3'ün her çerçeveyi bağımsız olarak onlarca milisaniyelik sesi tamamen yeniden üretebildiğini, 128 kbps seviyesinde 418 bayta 26 ms karşılığıyla orijinalden 10-11 kat daha az bilgi sunduğunu ve gereksiz bilgiyi attığını anlatıyor. Bir dönüştürücüyle bunları token olarak kullanmak mümkün olur muydu diye düşünüyor.

    • JPEG'i doğrudan derin öğrenme girdisi olarak kullanan bir makale özeti paylaşıyor: DCT katsayıları ile CNN eğitildiğinde önce pikseli üretip sonra tekrar dönüştürme adımı atlanabiliyor. ResNet-50'de denendiğinde eğitim hızı en fazla 1.77 kat arttı ve doğruluk iyileşti. İlgili makale bağlantısı paylaşıyor ve MP3'ün de iyi bir fikir olabileceğini düşünüyor.

    • Yazar olarak en büyük farkın sıkıştırma oranı olduğunu vurguluyor: ilk dönem Neural Audio Codec SoundStream, 3 kbps'de dahi iyi kalite veriyordu; MP3 ise 128 kbps seviyesinde. SoundStream aslında Google Meet için ses sıkıştırma amacıyla geliştirilmişti, bugün kullanılan Neural Audio Codec'ler de çok daha verimli. Opus gibi MP3'ün modern alternatifi 12 kbps'e inebiliyor ama hâlâ Neural Audio Codec kadar verimli değil; klasik codec'lerin avantajıysa CPU yükünün düşük olması.

    • 400 baytlık MP3 çerçevesini LLM için bir embedding'e çeviren bir adaptor eğitilebilir diyor ama sinir ağının aldığı bilginin sindirilebilir bir yapıda olması gerekiyor. Ağlar, yüksek tekrarlı/tokenize edilmiş metin gibi verileri sever, GZIP benzeri çok sıkıştırılmış veriyi ise sevmez. Yani kolayca denenebilir ama başarı belirsiz; bazen beklenmedik şeylerin de çalışabildiği oldu.

    • TFA yaklaşımı veriyi 32 boyuta kodluyor; bu psikoakustik tabanlı sıkıştırmalardan çok daha iyi. Ayrıca neredeyse algılanamaz bilgileri kaldırmak, özellikle ses sentezi gibi yeni üretim hedefleri için büyük anlam taşımıyor.

    • İnsan sesi frekans bileşenlerine dayanarak algılıyor; iç kulakta farklı rezonans frekanslı bir filtre bankası var (kıl hücresi uzunluklarına göre farklı titreşim frekansları gibi). Konuşma algısı, formantlara bakarak hangi artikülasyon hareketlerinin yapıldığını çözüyor. MP3 çerçevelerini tokenleştirirseniz frekans bilgisi kuantizasyon, Huffman kodlama ve çerçeve yapısı nedeniyle kara kutu oluyor. Bu mimariyle metin tahmini yapılabilir ama giriş ne kadar önemli bilgiyi saklarsa o kadar zorlaşır; formant bilgisine doğrudan erişemiyorsanız genelleme zorlaşır ve LLM yalnızca belirli bir konuşmacıyla eğitildiyse çocuk/ sentetik sesleri iyi tanıyıp tanımaması da soru işareti olur.

  • En görsel olarak en anlaşılır anlatım olduğunu söyleyip teşekkür ediyor. Kendisinin de VQ-VAE ile rendered text tokenizasyonu konusunda deneme yaptığını paylaşıyor: 10pt font ve PDF kaynağıyla tamamlanmış metin görüntüsü üreten bir diffusion modeli; belge türü ve dili dâhil tutan latent representation öğrenimi denemiş. Çok şey öğrendiğini ve bu yazının ne kadar güzel açıklandığını belirtiyor.

  • “Neden sesi tokenize edip doğrudan LLM yapmıyor, neden her zaman metin transkriptine dayanıyoruz?” sorusunu paylaşıyor ve kullanılabilir ses verisinin çok fazla olduğunu vurguluyor.

    • Bu yazının tam olarak o konudan — ses dalgasını ayrık tokenlara çevirme sorunsalından — bahsettiğini söylüyor. Bir ses penceresinin 10~100 ms olduğu düşünüldüğünde bunu tek bir tokena sığdırmak zor. Residual vector quantization, bir zaman diliminin birden fazla sözlükten geçerek defalarca kuantize edilmesiyle temizlik anlamına geliyor. Yazının son kısmında Mimi ses codec'inde LLM eğitimi örnekleri de görüneceğini ekliyor.

    • Metin verisi çok temizlenmiş ve standartlaşmış olsa da, sesin dil, lehçe, aksan, yüz ifadesi ve jest gibi bilgileri hesaba katması gerekir. Sese metne çevirince bu dağınık bilgileri atıp yalnızca dilsel anlamı bırakabilen bir “temiz” token kümesi elde edilir; bu hem verimli hem de çok dilli eşleme için avantajlı.

    • Ses token tabanlı eğitim maliyet olarak daha yüksek ama bir gün bunun baskın kalıbı olacağını düşünüyor. YouTube ders transkriptleriyle eğitmek ile doğrudan sesle eğitmek arasında verim ve sonuç açısından bariz fark olacağına inanıyor.

    • Ses tokenize etmenin metinden en az 4 kat daha fazla token ürettiğini; yani verimlilik sorununun burada başladığını söylüyor. Ayrıca salt ses kullanarak LLM eğitmek için yeterli veri olup olmadığı sorusu da hâlâ duruyor.

    • Ses odaklı transformer devriminin henüz gelmediğini düşünüyor ama teoride audio-first modellerin çok daha iyi olacağına inanıyor.

  • Kyutai adlı şirketi veya projeyi bilmiyordu ama kendi çalışmasına birebir uyacağını düşündüğü için teşekkür ediyorum diyor.

  • İşin gerçekten çok cazip olduğunu söylüyor. Aslında sesin doğrudan işlenmesi metne göre çok daha zor olsa da, LLM'leri doğrudan sese uyarlamanın özünde en iyi ses codecini bulmanın yattığını çok ilginç buluyor. Bir gün, LLM ile iyi eşleşen bir örnek ses codecinin Fourier dönüşümüne değil, gerçek ses telleri/dil/gırtlak/ağız gibi fiziksel parametrelere dayanan bir temsil biçimi olarak gelmesi mümkün mü diye hayal ediyor; insan anatomisinin büyük ölçüde değişmediğini düşünerek, bu yaklaşımın istatistiksel bir standarda dönüşebileceğini öngörüyor. Bu yaklaşım formant speech encoding diye geçiyor ve kökeni zaten ses sentezi alanındaki araştırmalara dayanıyor.

    • Yazar olarak önce teşvik ettiği için teşekkür edip, ardından fizik temelli (ses telleri/dil vb. parametreleri) codec'lerin günümüz ML hedefleriyle uyuşmadığını düşünüyor. Günümüz ML yaklaşımı alan uzmanı ön bilgiyi mümkün olduğunca azaltıp fazla bilgiyi modele (transformer'a) bırakmak; kısıtlar arttıkça üretilebilen sesin kapsamı daralır, kalite sınırına gelinir. Ama model kısıtları verimli ve ilginç çalışmalar da doğurur: örneğin DDSP makalesinde bir synthesizer ML ile kontrol edilerek enstrüman sesi üretiliyor; benzer şekilde konuşma da yapılabilir, tabii ses kalitesi daha düşük ama parametre sayısı çok daha az. KokoroTTS gibi doğrudan ünsüz+ünlüden konuşma üreten Tiny TTS de bu tiptir ve bu nedenle çalışan parametreleri çok az. DDSP makale bağlantısı, KokoroTTS proje bağlantısı

    • Böyle fizik tabanlı ses üretme girişimleri eskiden beri vardı ve ağız yapısını/ hava akışını yeniden üretip gerçekten konuşmalarını sağlama denemeleri yapıldı; ancak bu yaklaşım, konuşmayı yazıdan türetme gibi yanlış anlaşılabildiği için dikkatli olunması gerekir.

    • Ses kodlama ve sentez tarafında source-filter modeli (source-filter, yani ses kaynağı ve filtre parametreleştirmesi), speech synthesis ile en köklü yöntem, FFT yeniden keşfinden çok daha eski bir fikir.

  • 100 bin saatlik eğitim yeterli mi diye sorguluyor; LLM ölçeğinde çok büyük görünse de pek büyük sayılmaz ve bu onu “Bitter Lesson”i hatırlatıyor (AI'da veri ve hesaplamanın en kritik olduğu kuralı).

    • 1M adım (batch size 64, block size 2048) ile eğitildiğini, bununla yakınsama gördüğünü ve modelinin yalnızca 150M parametreye sahip olduğunu, yani LLM açısından küçük kaldığını belirtiyor. En son teknoloji performans peşinde olmadıklarını, sadece tokenizer değiştirildiğinde model çıktısının nasıl değiştiğini göstermeyi hedeflediklerini ekliyor.
  • Yazının gerçekten iyi derlendiğini ve faydalı olduğunu, ekip arkadaşlarıyla paylaşmak istediğini söylüyor. Kendi şirketinin AI ürünlerine son zamanlarda ses/voice eklemeye başlamasını ve bunun çok pratik bir referans olduğunu belirtiyor.