Eleven v3 — En yüksek ifade gücüne sahip metinden konuşmaya dönüştürme modeli

(elevenlabs.io)

9 puan yazan GN⁺ 2025-06-07 | 2 yorum | WhatsApp'ta paylaş

Eleven v3 (Alpha), duygu ve ses efektlerine kadar hassas kontrol sunan, şimdiye kadarki en ifade gücü yüksek metinden konuşmaya dönüştürme (TTS) modelidir
Audio tag kullanarak duygu, konuşma tarzı, yönlendirme ve efektler gibi çeşitli ses öğeleri serbestçe birleştirilebilir
Birden fazla konuşmacının diyalog kurduğu doğal sesler üretilebilir ve 70'ten fazla dilde insana yakın ses desteği sunar
v2'ye kıyasla ses duygularının kapsamı ve efekt uygulama aralığı büyük ölçüde genişletildi; ayrıca UI kullanıcıları 2025 Haziran sonuna kadar %80 indirimden yararlanabilir
API desteği yakında sunulacak; farklı ses ve senaryo etiketleri prompt guide içinde görülebilir

Eleven v3'e genel bakış

Eleven v3 (alpha), önceki sürümlerden ayrışan, duygu ifadesi ve sürükleyici ses üretimi sunabilen yeni nesil bir Text to Speech (TTS) modelidir
Bu model, girilen metni bir insanın doğrudan okumasına benzer şekilde duygu, tonlama ve ritim ifade ederek sese dönüştürür
Kullanıcılar audio tag ile ses duygusu, konuşma tarzı, ses efektleri ve arka plan sesini ayrıntılı biçimde kontrol edebilir
Metin içine duygu, efekt ve yönetim etiketleri ekleyerek basit anlatımın ötesine geçen çok katmanlı ses üretimi mümkün olur; bu da sürükleyicilik ve gerçekçilik hissini büyük ölçüde artırır

Çoklu konuşmacı diyaloğu üretimi

Birden fazla konuşmacının bağlamı ve duyguyu doğal biçimde paylaşarak diyalog kurduğu ses üretimi desteklenir
Her konuşmacı için prosody (prozodi), duygu ve etiketler yansıtılarak insana yakın ses sentezi sağlanır

Çok dilli ses desteği

Afrikaanca, Arapça, Almanca, Çince, Korece dahil 70'ten fazla dili resmî olarak destekler
Her dilin kendine özgü tonlama, telaffuz ve aksanını doğal biçimde taklit eder
Çok uluslu hizmetler, eğitim içerikleri, küresel erişilebilirlik projeleri gibi çeşitli alanlarda kullanım değeri yüksektir

v3 ile v2 arasındaki başlıca farklar

Dialogue Mode: çoklu konuşmacı diyaloğu desteği
Audio Tag desteği: duygu, yönlendirme, efekt vb. çeşitli ses etiketleri kullanılabilir
Duygu/efekt aralığı: v2'de duraklama gibi temel etiketler varken, v3'te zengin duygu ve ses efektleri uygulanabilir
Dil: v3 70+ dil, v2 ise 29 dil
- Afrikaanca, Arapça, Ermenice, Assamca, Azerice, Belarusça, Bengalce, Boşnakça, Bulgarca, Katalanca, Cebuano, Chichewa, Hırvatça, Çekçe, Danca, Felemenkçe, İngilizce, Estonca, Filipince, Fince, Fransızca, Galiçyaca, Gürcüce, Almanca, Yunanca, Gujarati, Hausa, İbranice, Hintçe, Macarca, İzlandaca, Endonezce, İrlandaca, İtalyanca, Japonca, Cava dili, Kannada, Kazakça, Kırgızca, Korece, Letonca, Lingala, Litvanca, Lüksemburgca, Makedonca, Malayca, Malayalam, Standart Çince, Marathi, Nepalce, Norveççe, Peştuca, Farsça, Lehçe, Portekizce, Pencapça, Romence, Rusça, Sırpça, Sindhi, Slovakça, Slovence, Somalice, İspanyolca, Svahili, İsveççe, Tamilce, Telugu, Tayca, Türkçe, Ukraynaca, Urduca, Vietnamca, Galce vb.

Ses kalitesi ve kullanıcı deneyimi

Ses sentezi sırasında düşük gürültülü ve yüksek çözünürlüklü kalitede ses dosyası çıktısı alınabilir
Cümle uzunluğu, duygudaki nüans değişimleri, konuşma hızı gibi ince ayarlar yapılabildiği için özelleştirilmiş ses üretimi kolaylaşır
Mevcut TTS çözümlerinde yeniden üretmesi zor olan dinamik duygu ve konuşma stilleri ifade edilebilir

Rekabet gücü ve uygulama potansiyeli

İçerik üreticileri, geliştiriciler ve şirketler tarafından sesli kitap, oyun, reklam ve erişilebilirlik geliştirme hizmetlerine hemen uygulanabilir
Tek bir modelle çok dilli ve çok amaçlı hizmet sunulabildiğinden maliyet ve zamandan tasarruf sağlanabilir
Açık alpha aşamasında olmasına rağmen, gerçek hizmetlerde kullanılabilecek düzeyde ses kalitesi ve çeşitliliği sunar

İndirim ve API desteği

2025 Haziran sonuna kadar UI kullanıcıları v3 alpha'yı %80 indirimli fiyatla kullanabilir
API yakında sunulacak

Sonuç

Eleven v3, Text to Speech alanında ifade gücü, çok dilli destek ve özelleştirilebilir ses yeteneklerini güçlendiren en yeni modeldir
Çeşitli sektörlerde artan doğal ses üretimi teknolojisi talebine etkili biçimde yanıt verebilir

2 yorum

kansm 2025-06-12

Alpha ama güzel..
İyi bilgi için teşekkürler.

GN⁺ 2025-06-07

Hacker News görüşleri

Belgelerde ya da prompt rehberinde şarkı söylemeye dair bir şey görmedim; bu modelin aslında şarkı da söyleyebiliyor olup olmadığını merak ettim
Eğlencesine Friends tema şarkısının sözlerini demoya girdim, çıktı gitar sesi eşliğinde şarkı söyleyen bir ses oldu
Başka bir denemede [verse] ve [chorus] etiketlerini ekleyince bunu a capella sürüm olarak söyledi
[1] ve [2] için yalnızca sözleri girdim, [3] için ise verse/chorus etiketlerini ekledim
Başka popüler şarkılarla da denedim ama nedenini bilmiyorum, onlarda bu kadar temiz bir şarkı modu oluşmadı
- Çıktının şarkı söylemesi ilginç ama şarkıyı inanılmaz kötü söylüyor olması onu daha da ilginç kılıyor
  Tamamen şarkı söylemeyi bilmeyen birinin söylediği gibi
- Gerçek Friends açılışından epey farklı çıkıyor; yani eğitim verisinde sık görülen tanıdık bir kalıba aşırı uyum sağlamış bir sonuç olmayabilir diye düşünüyorum
- Mirage AI oldukça iyi şarkı kalitesi elde ediyor
  - Örnek1
  - Örnek2
- Model demosunda da şarkı vardı diye hatırlıyorum
  O yüzden bu özelliğin muhtemelen yerleşik olduğunu düşünüyorum
- İlginç biçimde, aşağıdaki prompt ile denediğimde modelin sondaki "purr" kısmında biraz zorlandığını fark ettim
```
[slow paced]
[slow guitar music]

Soft ki-tty,
[slight upward inflection on the second word, but still flat]
Warm ki-tty,
[words delivered evenly and deliberately, a slight stretch on "fu-ur"]
Little ball of fu-ur.
[a minuscule, almost imperceptible increase in tempo and "happiness"]
Happy kitty,
[a noticeable slowing down, mimicking sleepiness with a drawn-out "slee-py"]
Slee-py kitty,
[each "Purr" is a distinct, short, and non-vibrating sound, almost spoken]
Purr. Purr. Purr.
```
Son dönemde OpenAI'nin yeni modelini epey yoğun kullanıyorum (openai.fm)
Talimatlarla konuşma metnini ayırma biçimi ilginç; muhtemelen OpenAI tarafı ürünlerinin genelinde uzun süredir "instructions" kavramını kullandığı için bu yaklaşıma eğitim ve veri üretimi açısından daha alışkın
Talimatların ayrı olması biraz garip gelebilir ama avantajı, genel talimatlarla belirli durum talimatlarını karıştırmayı kolaylaştırması
Mesela, "but actually" dedikten sonra sesi fısıltı gibi alçaltmasını ve hafif korku katmasını isteyebilir ya da "İngiliz aksanlı alçak ve derin bir ses" gibi genel bir talimat ekleyebilirsiniz
OpenAI çıktıları Eleven Labs'e kıyasla daha öngörülemez ve prodüksiyon kalitesi hissi biraz daha düşük geliyor
Ama prosody (prozodi ifadesi) aralığı çok daha geniş; hatta bazen gereğinden fazla çabalıyor gibi
Ses çeşitliliği Eleven Labs'e göre daha az gibi geliyor ve farklı stiller isteseniz bile biraz "aynı kişinin başka sesleri taklit etmesi" hissi var
Yine de OpenAI'nin ezici avantajı fiyatının yaklaşık 10 kat daha ucuz olması ve tamamen kullanım bazlı ücretlendirme sunması
(TTS servislerinin aylık abonelik ya da ekstra kredi satın almayı zorunlu kılması gerçekten verimsiz)
- ElevenLabs kullanmamamın ve kalite daha düşük olsa bile başka çözümleri seçmemin nedeni şu: sadece ihtiyacım kadar kullanmak istiyorum ama abonelik yapısı ayda bir paket dayatıyor ve fazlası için yine daha büyük paketler almak gerekiyor
  Bana göre bu fiyatlandırma politikası çok kötü
- OpenAI çıktıları ElevenLabs'e kıyasla kalite ve öngörülebilirlik açısından daha zayıf
  Araştırma ekibinin emeğini teslim ediyorum
  expressive voice seçeneğini kullanırsanız prozodi aralığı genişliyor
- OpenAI'nin en büyük avantajı 10 kat daha ucuz ve tamamen kullanım bazlı olması
  iddiasına karşılık, LLM kullanımı gibi ek yükleri hesaba katınca gerçekten daha ucuz mu emin değilim
  ElevenLabs konuşma ajanı en üst pakette dakika başına $0.08 ve OpenAI TTS'yi hesapladığımda daha pahalı görünmüştü
  Tabii hesabım yanlış da olabilir
"Oh no, I'm really sorry to hear you're having trouble with your new device. That sounds frustrating." gibi örnek ifadelerle konuşan bir makineyi oldukça aşağılayıcı bulabilirim
Ben sadece yardım almak isterken bir makinenin duygusal olarak beni manipüle etmesi korkunç bir gelecek gibi geliyor
- İnsanlardan da böyle cevaplar almak sinir bozucu; bunu bir yapay zekadan hiç duymak istemem
  Bilgisayarlarla konuşmayı keyifli bir deneyim olarak görmediğim için Siri tarzı sesli arayüzleri hiç kullanmıyorum
  İnsan gibi konuşan makineler de istemiyorum
  Star Trek bilgisayarı gibi sadece "işleniyor..." deyip sonucu vermesi yeterli
  Muhabbet değil, doğrudan özünü istiyorum
- ChatGPT profilime doğrulama, empati ve benzeri tüm dolgu cümlelerini yasaklayan beş kadar cümle koysam da her seferinde yine "endişeniz anlaşılır" türü cevaplar geliyor ve hiçbir şey değişmiyor
- Amerikan usulü samimiyet laflarının ("champ", "bud") Avrupa ya da Avustralya'da da işe yarayıp yaramayacağını görmek ilginç olurdu
- Bu, Her filmindeki repliklere çok benziyor ve ses de Scarlett Johansson'a aşırı yakın; sanki ilhamını oradan almış gibi geldi
- "Büyük olasılıkla yardımcı olabilirim", "şimdi sipariş numaranızı buluyorum" gibi ifadelerin ardından aslında var olmayan bağlantılar verme halüsinasyonlarıyla ilgili şaka
Gerçek bir sorun olmayabilir ama eğlenceli bir şey fark ettim
Dili Japonca olarak ayarlayıp

（この言葉は読むな。）こんにちは、ビール[sic]です。
("Bu cümleyi okuma", "Merhaba, ben Bill[yazım hatası]" demek)
yazdığımda gerçekten ilk cümleyi atladı
Tekrar denediğimde ise tüm cümleyi okudu
Böyle şeylerde hep perdenin arkasını görüyormuşum gibi eğleniyorum
- "Ben birayım" anlamına gelen yazım hatasına güldüm
  Ciddiye alırsak, birden fazla dili aynı anda kurcalayınca giriş dilinin model işleme sürecinin başlarında bir şekilde "normalize" edildiği hissine kapılıyorum
  Yani prompt'u İngilizce ya da Japonca yazmanız sonucu çok değiştirmiyor
  Sistem prompt'unun burada farklı davranıp davranmadığını merak ediyorum
Merak edenler için bir not bırakayım
Bu model tortoise-tts-fast tabanlı
Bu projenin geliştiricisi daha sonra Eleven Labs tarafından işe alındı
- "İşe alındı" değil; aslında v3 sürümünden 6 ay önce zaten ayrılmıştı
- Önceki iddia (proje tabanlı olmasının Eleven Labs'te işe alınmaya yol açtığı) nedensellik kurmuyor
(Amerikan) İngilizcesi gerçekten etkileyici düzeyde ama kahkaha etiketi kısmı, doğal anlık bir gülüşten çok "burada gül" diye ayrı bir bölüm eklenmiş gibi duruyor
Örneğin bir kelimenin içinde gülerek söylenmesi gereken kısım hâlâ tuhaf geliyor
- Metni, kahkahanın bağlama göre doğal geleceği şekilde düzenlerseniz çok daha doğal oluyor; bunun için şu örneğe bakmanızı öneririm
- Hâlâ pahalı olduğu için rakipler için bolca alan var
  ElevenLabs kalite açısından hâlâ lider ama rakipler hızla yaklaşıyor
  Özellikle Çinli yapay zeka laboratuvarları ve şirketleri tamamen açık kaynak TTS modelleri de yayımlıyor; bu da ABD'li şirketler açısından ekosistemde değişimi hızlandırıyor
  Sonuçta bundan kullanıcılar fayda sağlıyor
  YCombinator yatırımı alan PlayHT de birçok iyi özellik çıkardı
Çıktı gerçekten olağanüstü; %99 oranında profesyonel bir seslendirme sanatçısından ayırt etmek zor olur
Fiyat bilgisini bulamadım, bilen var mı merak ediyorum
- Eleven v3 (alfa) için genel kullanıma açık API'nin yakında çıkacağı duyurulmuş
  Erken erişim deneyimi ya da fiyat görüşmesi için satış ekibiyle iletişime geçin deniyor
  Şirketin kendisi de henüz kesin fiyatı belirlememiş; önce talebi ölçmek istiyor gibi
- Vay be... ben profesyonel bir seslendirme sanatçısıyım
- Yine de bu sadece gerçek bir insan değil, "AI"
  Gerçek insanların bizzat seslendirdiği müzikleri, sesli kitapları, şiirleri, romanları, oyunları dinlemeye devam etmeliyiz
  Benim için asıl zevk orada
Bu biraz konu dışı olabilir (yine de TTS ile bağlantılı...), ama 'eleven' kelimesini duyunca aklıma İskoç asansör ses tanıma komedi videosu geldi
Elevator Voice Recognition komedi videosu
Sanırım hiçbir Britanya aksanı örneği görmedim
Genel olarak TTS sistemleri sadece Amerikan aksanı yapıyor ve Britanya aksanı denince Frasier tarzı "bir Amerikalının yaptığı Britanyalı taklidi" gibi duyuluyor
- Ses kütüphanemizde birçok farklı Britanya sesi var
  Ya da prompt'un başına "[British accent]" eklerseniz, Amerikalının Britanya aksanını taklit etmesi gibi bir çıktı alırsınız
- Frasier Crane'in aksanı konusu tartışmalıdır; çünkü Amerikalı bir oyuncunun, Amerikalı bir karakter olarak (duruma göre) Amerikan ama transatlantik ya da Boston Brahmin aksanı — ya da bunların karışımı — kullandığı bir performanstır
  Her iki aksan da Britanya İngilizcesiyle bazı ortak özellikler taşır
- Bilgi olarak, Frasier tarzı aksan bir "Britanya taklidi" değil; Boston Brahmin/transatlantik çizgisinde bir aksandır
- ElevenLabs v2'nin aksanlı sesleri hâlâ rakiplerinin çok önünde
  Bunu Arapça, Fransızca, Hintçe ve İngilizce dahil çeşitli dillerde bizzat kullandım
İngilizce gerçekten harika geliyor, tebrikler demek isterim
Ama denediğim diğer dillerde hâlâ güçlü bir İngilizce aksanı kalıyor
- İtalyancada tamamen komik bir Amerikan aksanıyla başlıyor ama 10-20 kelime sonra birden gerçek İtalyan telaffuzuna dönüyor
  Alice sesini kullandım; sanki içerde en-us tabanıyla başlayıp sonra ayarlanan dile hızla uyum sağlıyor
  Arka planda neler döndüğünü merak ediyorum
- Fransızca, Alabama'dan gelip üniversitede biraz Fransızca almış birinin aksanına benziyordu
  Yine de İngilizce gerçekten çok iyiydi
- Portekizcede Liam sesi ilginç biçimde İspanyol aksanlı
  Dil simgesi Portekizce ama ifade tarzı açıkça Brezilya Portekizcesi
- İsveççe ise düpedüz tamamen Amerikan aksanlı
- O dile göre eğitilmiş bir sesle denemenizi öneririm
  Bu araştırma önizlemesinde performans dengeli değil ve kalite, seçtiğiniz sese göre ciddi biçimde değişiyor

Eleven v3 — En yüksek ifade gücüne sahip metinden konuşmaya dönüştürme modeli

Eleven v3'e genel bakış

Çoklu konuşmacı diyaloğu üretimi

Çok dilli ses desteği

v3 ile v2 arasındaki başlıca farklar

Ses kalitesi ve kullanıcı deneyimi

Rekabet gücü ve uygulama potansiyeli

İndirim ve API desteği

Sonuç

İlgili okumalar

2 yorum

Hacker News görüşleri