- Eleven v3 (Alpha), duygu ve ses efektlerine kadar hassas kontrol sunan, şimdiye kadarki en ifade gücü yüksek metinden konuşmaya dönüştürme (TTS) modelidir
- Audio tag kullanarak duygu, konuşma tarzı, yönlendirme ve efektler gibi çeşitli ses öğeleri serbestçe birleştirilebilir
- Birden fazla konuşmacının diyalog kurduğu doğal sesler üretilebilir ve 70'ten fazla dilde insana yakın ses desteği sunar
- v2'ye kıyasla ses duygularının kapsamı ve efekt uygulama aralığı büyük ölçüde genişletildi; ayrıca UI kullanıcıları 2025 Haziran sonuna kadar %80 indirimden yararlanabilir
- API desteği yakında sunulacak; farklı ses ve senaryo etiketleri prompt guide içinde görülebilir
Eleven v3'e genel bakış
- Eleven v3 (alpha), önceki sürümlerden ayrışan, duygu ifadesi ve sürükleyici ses üretimi sunabilen yeni nesil bir Text to Speech (TTS) modelidir
- Bu model, girilen metni bir insanın doğrudan okumasına benzer şekilde duygu, tonlama ve ritim ifade ederek sese dönüştürür
- Kullanıcılar audio tag ile ses duygusu, konuşma tarzı, ses efektleri ve arka plan sesini ayrıntılı biçimde kontrol edebilir
- Metin içine duygu, efekt ve yönetim etiketleri ekleyerek basit anlatımın ötesine geçen çok katmanlı ses üretimi mümkün olur; bu da sürükleyicilik ve gerçekçilik hissini büyük ölçüde artırır
Çoklu konuşmacı diyaloğu üretimi
- Birden fazla konuşmacının bağlamı ve duyguyu doğal biçimde paylaşarak diyalog kurduğu ses üretimi desteklenir
- Her konuşmacı için prosody (prozodi), duygu ve etiketler yansıtılarak insana yakın ses sentezi sağlanır
Çok dilli ses desteği
- Afrikaanca, Arapça, Almanca, Çince, Korece dahil 70'ten fazla dili resmî olarak destekler
- Her dilin kendine özgü tonlama, telaffuz ve aksanını doğal biçimde taklit eder
- Çok uluslu hizmetler, eğitim içerikleri, küresel erişilebilirlik projeleri gibi çeşitli alanlarda kullanım değeri yüksektir
v3 ile v2 arasındaki başlıca farklar
- Dialogue Mode: çoklu konuşmacı diyaloğu desteği
- Audio Tag desteği: duygu, yönlendirme, efekt vb. çeşitli ses etiketleri kullanılabilir
- Duygu/efekt aralığı: v2'de duraklama gibi temel etiketler varken, v3'te zengin duygu ve ses efektleri uygulanabilir
- Dil: v3 70+ dil, v2 ise 29 dil
- Afrikaanca, Arapça, Ermenice, Assamca, Azerice, Belarusça, Bengalce, Boşnakça, Bulgarca, Katalanca, Cebuano, Chichewa, Hırvatça, Çekçe, Danca, Felemenkçe, İngilizce, Estonca, Filipince, Fince, Fransızca, Galiçyaca, Gürcüce, Almanca, Yunanca, Gujarati, Hausa, İbranice, Hintçe, Macarca, İzlandaca, Endonezce, İrlandaca, İtalyanca, Japonca, Cava dili, Kannada, Kazakça, Kırgızca, Korece, Letonca, Lingala, Litvanca, Lüksemburgca, Makedonca, Malayca, Malayalam, Standart Çince, Marathi, Nepalce, Norveççe, Peştuca, Farsça, Lehçe, Portekizce, Pencapça, Romence, Rusça, Sırpça, Sindhi, Slovakça, Slovence, Somalice, İspanyolca, Svahili, İsveççe, Tamilce, Telugu, Tayca, Türkçe, Ukraynaca, Urduca, Vietnamca, Galce vb.
Ses kalitesi ve kullanıcı deneyimi
- Ses sentezi sırasında düşük gürültülü ve yüksek çözünürlüklü kalitede ses dosyası çıktısı alınabilir
- Cümle uzunluğu, duygudaki nüans değişimleri, konuşma hızı gibi ince ayarlar yapılabildiği için özelleştirilmiş ses üretimi kolaylaşır
- Mevcut TTS çözümlerinde yeniden üretmesi zor olan dinamik duygu ve konuşma stilleri ifade edilebilir
Rekabet gücü ve uygulama potansiyeli
- İçerik üreticileri, geliştiriciler ve şirketler tarafından sesli kitap, oyun, reklam ve erişilebilirlik geliştirme hizmetlerine hemen uygulanabilir
- Tek bir modelle çok dilli ve çok amaçlı hizmet sunulabildiğinden maliyet ve zamandan tasarruf sağlanabilir
- Açık alpha aşamasında olmasına rağmen, gerçek hizmetlerde kullanılabilecek düzeyde ses kalitesi ve çeşitliliği sunar
İndirim ve API desteği
- 2025 Haziran sonuna kadar UI kullanıcıları v3 alpha'yı %80 indirimli fiyatla kullanabilir
- API yakında sunulacak
Sonuç
- Eleven v3, Text to Speech alanında ifade gücü, çok dilli destek ve özelleştirilebilir ses yeteneklerini güçlendiren en yeni modeldir
- Çeşitli sektörlerde artan doğal ses üretimi teknolojisi talebine etkili biçimde yanıt verebilir
2 yorum
Alpha ama güzel..
İyi bilgi için teşekkürler.
Hacker News görüşleri
Belgelerde ya da prompt rehberinde şarkı söylemeye dair bir şey görmedim; bu modelin aslında şarkı da söyleyebiliyor olup olmadığını merak ettim
Eğlencesine Friends tema şarkısının sözlerini demoya girdim, çıktı gitar sesi eşliğinde şarkı söyleyen bir ses oldu
Başka bir denemede [verse] ve [chorus] etiketlerini ekleyince bunu a capella sürüm olarak söyledi
[1] ve [2] için yalnızca sözleri girdim, [3] için ise verse/chorus etiketlerini ekledim
Başka popüler şarkılarla da denedim ama nedenini bilmiyorum, onlarda bu kadar temiz bir şarkı modu oluşmadı
Çıktının şarkı söylemesi ilginç ama şarkıyı inanılmaz kötü söylüyor olması onu daha da ilginç kılıyor
Tamamen şarkı söylemeyi bilmeyen birinin söylediği gibi
Gerçek Friends açılışından epey farklı çıkıyor; yani eğitim verisinde sık görülen tanıdık bir kalıba aşırı uyum sağlamış bir sonuç olmayabilir diye düşünüyorum
Mirage AI oldukça iyi şarkı kalitesi elde ediyor
Model demosunda da şarkı vardı diye hatırlıyorum
O yüzden bu özelliğin muhtemelen yerleşik olduğunu düşünüyorum
İlginç biçimde, aşağıdaki prompt ile denediğimde modelin sondaki "purr" kısmında biraz zorlandığını fark ettim
Son dönemde OpenAI'nin yeni modelini epey yoğun kullanıyorum (openai.fm)
Talimatlarla konuşma metnini ayırma biçimi ilginç; muhtemelen OpenAI tarafı ürünlerinin genelinde uzun süredir "instructions" kavramını kullandığı için bu yaklaşıma eğitim ve veri üretimi açısından daha alışkın
Talimatların ayrı olması biraz garip gelebilir ama avantajı, genel talimatlarla belirli durum talimatlarını karıştırmayı kolaylaştırması
Mesela, "but actually" dedikten sonra sesi fısıltı gibi alçaltmasını ve hafif korku katmasını isteyebilir ya da "İngiliz aksanlı alçak ve derin bir ses" gibi genel bir talimat ekleyebilirsiniz
OpenAI çıktıları Eleven Labs'e kıyasla daha öngörülemez ve prodüksiyon kalitesi hissi biraz daha düşük geliyor
Ama prosody (prozodi ifadesi) aralığı çok daha geniş; hatta bazen gereğinden fazla çabalıyor gibi
Ses çeşitliliği Eleven Labs'e göre daha az gibi geliyor ve farklı stiller isteseniz bile biraz "aynı kişinin başka sesleri taklit etmesi" hissi var
Yine de OpenAI'nin ezici avantajı fiyatının yaklaşık 10 kat daha ucuz olması ve tamamen kullanım bazlı ücretlendirme sunması
(TTS servislerinin aylık abonelik ya da ekstra kredi satın almayı zorunlu kılması gerçekten verimsiz)
ElevenLabs kullanmamamın ve kalite daha düşük olsa bile başka çözümleri seçmemin nedeni şu: sadece ihtiyacım kadar kullanmak istiyorum ama abonelik yapısı ayda bir paket dayatıyor ve fazlası için yine daha büyük paketler almak gerekiyor
Bana göre bu fiyatlandırma politikası çok kötü
"Oh no, I'm really sorry to hear you're having trouble with your new device. That sounds frustrating." gibi örnek ifadelerle konuşan bir makineyi oldukça aşağılayıcı bulabilirim
Ben sadece yardım almak isterken bir makinenin duygusal olarak beni manipüle etmesi korkunç bir gelecek gibi geliyor
İnsanlardan da böyle cevaplar almak sinir bozucu; bunu bir yapay zekadan hiç duymak istemem
Bilgisayarlarla konuşmayı keyifli bir deneyim olarak görmediğim için Siri tarzı sesli arayüzleri hiç kullanmıyorum
İnsan gibi konuşan makineler de istemiyorum
Star Trek bilgisayarı gibi sadece "işleniyor..." deyip sonucu vermesi yeterli
Muhabbet değil, doğrudan özünü istiyorum
ChatGPT profilime doğrulama, empati ve benzeri tüm dolgu cümlelerini yasaklayan beş kadar cümle koysam da her seferinde yine "endişeniz anlaşılır" türü cevaplar geliyor ve hiçbir şey değişmiyor
Amerikan usulü samimiyet laflarının ("champ", "bud") Avrupa ya da Avustralya'da da işe yarayıp yaramayacağını görmek ilginç olurdu
Bu, Her filmindeki repliklere çok benziyor ve ses de Scarlett Johansson'a aşırı yakın; sanki ilhamını oradan almış gibi geldi
"Büyük olasılıkla yardımcı olabilirim", "şimdi sipariş numaranızı buluyorum" gibi ifadelerin ardından aslında var olmayan bağlantılar verme halüsinasyonlarıyla ilgili şaka
Gerçek bir sorun olmayabilir ama eğlenceli bir şey fark ettim
Dili Japonca olarak ayarlayıp
Ciddiye alırsak, birden fazla dili aynı anda kurcalayınca giriş dilinin model işleme sürecinin başlarında bir şekilde "normalize" edildiği hissine kapılıyorum
Yani prompt'u İngilizce ya da Japonca yazmanız sonucu çok değiştirmiyor
Sistem prompt'unun burada farklı davranıp davranmadığını merak ediyorum
Merak edenler için bir not bırakayım
Bu model tortoise-tts-fast tabanlı
Bu projenin geliştiricisi daha sonra Eleven Labs tarafından işe alındı
"İşe alındı" değil; aslında v3 sürümünden 6 ay önce zaten ayrılmıştı
Önceki iddia (proje tabanlı olmasının Eleven Labs'te işe alınmaya yol açtığı) nedensellik kurmuyor
(Amerikan) İngilizcesi gerçekten etkileyici düzeyde ama kahkaha etiketi kısmı, doğal anlık bir gülüşten çok "burada gül" diye ayrı bir bölüm eklenmiş gibi duruyor
Örneğin bir kelimenin içinde gülerek söylenmesi gereken kısım hâlâ tuhaf geliyor
Metni, kahkahanın bağlama göre doğal geleceği şekilde düzenlerseniz çok daha doğal oluyor; bunun için şu örneğe bakmanızı öneririm
Hâlâ pahalı olduğu için rakipler için bolca alan var
ElevenLabs kalite açısından hâlâ lider ama rakipler hızla yaklaşıyor
Özellikle Çinli yapay zeka laboratuvarları ve şirketleri tamamen açık kaynak TTS modelleri de yayımlıyor; bu da ABD'li şirketler açısından ekosistemde değişimi hızlandırıyor
Sonuçta bundan kullanıcılar fayda sağlıyor
YCombinator yatırımı alan PlayHT de birçok iyi özellik çıkardı
Çıktı gerçekten olağanüstü; %99 oranında profesyonel bir seslendirme sanatçısından ayırt etmek zor olur
Fiyat bilgisini bulamadım, bilen var mı merak ediyorum
Eleven v3 (alfa) için genel kullanıma açık API'nin yakında çıkacağı duyurulmuş
Erken erişim deneyimi ya da fiyat görüşmesi için satış ekibiyle iletişime geçin deniyor
Şirketin kendisi de henüz kesin fiyatı belirlememiş; önce talebi ölçmek istiyor gibi
Vay be... ben profesyonel bir seslendirme sanatçısıyım
Yine de bu sadece gerçek bir insan değil, "AI"
Gerçek insanların bizzat seslendirdiği müzikleri, sesli kitapları, şiirleri, romanları, oyunları dinlemeye devam etmeliyiz
Benim için asıl zevk orada
Bu biraz konu dışı olabilir (yine de TTS ile bağlantılı...), ama 'eleven' kelimesini duyunca aklıma İskoç asansör ses tanıma komedi videosu geldi
Elevator Voice Recognition komedi videosu
Sanırım hiçbir Britanya aksanı örneği görmedim
Genel olarak TTS sistemleri sadece Amerikan aksanı yapıyor ve Britanya aksanı denince Frasier tarzı "bir Amerikalının yaptığı Britanyalı taklidi" gibi duyuluyor
Ses kütüphanemizde birçok farklı Britanya sesi var
Ya da prompt'un başına "[British accent]" eklerseniz, Amerikalının Britanya aksanını taklit etmesi gibi bir çıktı alırsınız
Frasier Crane'in aksanı konusu tartışmalıdır; çünkü Amerikalı bir oyuncunun, Amerikalı bir karakter olarak (duruma göre) Amerikan ama transatlantik ya da Boston Brahmin aksanı — ya da bunların karışımı — kullandığı bir performanstır
Her iki aksan da Britanya İngilizcesiyle bazı ortak özellikler taşır
Bilgi olarak, Frasier tarzı aksan bir "Britanya taklidi" değil; Boston Brahmin/transatlantik çizgisinde bir aksandır
ElevenLabs v2'nin aksanlı sesleri hâlâ rakiplerinin çok önünde
Bunu Arapça, Fransızca, Hintçe ve İngilizce dahil çeşitli dillerde bizzat kullandım
İngilizce gerçekten harika geliyor, tebrikler demek isterim
Ama denediğim diğer dillerde hâlâ güçlü bir İngilizce aksanı kalıyor
İtalyancada tamamen komik bir Amerikan aksanıyla başlıyor ama 10-20 kelime sonra birden gerçek İtalyan telaffuzuna dönüyor
Alice sesini kullandım; sanki içerde en-us tabanıyla başlayıp sonra ayarlanan dile hızla uyum sağlıyor
Arka planda neler döndüğünü merak ediyorum
Fransızca, Alabama'dan gelip üniversitede biraz Fransızca almış birinin aksanına benziyordu
Yine de İngilizce gerçekten çok iyiydi
Portekizcede Liam sesi ilginç biçimde İspanyol aksanlı
Dil simgesi Portekizce ama ifade tarzı açıkça Brezilya Portekizcesi
İsveççe ise düpedüz tamamen Amerikan aksanlı
O dile göre eğitilmiş bir sesle denemenizi öneririm
Bu araştırma önizlemesinde performans dengeli değil ve kalite, seçtiğiniz sese göre ciddi biçimde değişiyor