9 puan yazan GN⁺ 2025-06-07 | 2 yorum | WhatsApp'ta paylaş
  • Eleven v3 (Alpha), duygu ve ses efektlerine kadar hassas kontrol sunan, şimdiye kadarki en ifade gücü yüksek metinden konuşmaya dönüştürme (TTS) modelidir
  • Audio tag kullanarak duygu, konuşma tarzı, yönlendirme ve efektler gibi çeşitli ses öğeleri serbestçe birleştirilebilir
  • Birden fazla konuşmacının diyalog kurduğu doğal sesler üretilebilir ve 70'ten fazla dilde insana yakın ses desteği sunar
  • v2'ye kıyasla ses duygularının kapsamı ve efekt uygulama aralığı büyük ölçüde genişletildi; ayrıca UI kullanıcıları 2025 Haziran sonuna kadar %80 indirimden yararlanabilir
  • API desteği yakında sunulacak; farklı ses ve senaryo etiketleri prompt guide içinde görülebilir

Eleven v3'e genel bakış

  • Eleven v3 (alpha), önceki sürümlerden ayrışan, duygu ifadesi ve sürükleyici ses üretimi sunabilen yeni nesil bir Text to Speech (TTS) modelidir
  • Bu model, girilen metni bir insanın doğrudan okumasına benzer şekilde duygu, tonlama ve ritim ifade ederek sese dönüştürür
  • Kullanıcılar audio tag ile ses duygusu, konuşma tarzı, ses efektleri ve arka plan sesini ayrıntılı biçimde kontrol edebilir
  • Metin içine duygu, efekt ve yönetim etiketleri ekleyerek basit anlatımın ötesine geçen çok katmanlı ses üretimi mümkün olur; bu da sürükleyicilik ve gerçekçilik hissini büyük ölçüde artırır

Çoklu konuşmacı diyaloğu üretimi

  • Birden fazla konuşmacının bağlamı ve duyguyu doğal biçimde paylaşarak diyalog kurduğu ses üretimi desteklenir
  • Her konuşmacı için prosody (prozodi), duygu ve etiketler yansıtılarak insana yakın ses sentezi sağlanır

Çok dilli ses desteği

  • Afrikaanca, Arapça, Almanca, Çince, Korece dahil 70'ten fazla dili resmî olarak destekler
  • Her dilin kendine özgü tonlama, telaffuz ve aksanını doğal biçimde taklit eder
  • Çok uluslu hizmetler, eğitim içerikleri, küresel erişilebilirlik projeleri gibi çeşitli alanlarda kullanım değeri yüksektir

v3 ile v2 arasındaki başlıca farklar

  • Dialogue Mode: çoklu konuşmacı diyaloğu desteği
  • Audio Tag desteği: duygu, yönlendirme, efekt vb. çeşitli ses etiketleri kullanılabilir
  • Duygu/efekt aralığı: v2'de duraklama gibi temel etiketler varken, v3'te zengin duygu ve ses efektleri uygulanabilir
  • Dil: v3 70+ dil, v2 ise 29 dil
    • Afrikaanca, Arapça, Ermenice, Assamca, Azerice, Belarusça, Bengalce, Boşnakça, Bulgarca, Katalanca, Cebuano, Chichewa, Hırvatça, Çekçe, Danca, Felemenkçe, İngilizce, Estonca, Filipince, Fince, Fransızca, Galiçyaca, Gürcüce, Almanca, Yunanca, Gujarati, Hausa, İbranice, Hintçe, Macarca, İzlandaca, Endonezce, İrlandaca, İtalyanca, Japonca, Cava dili, Kannada, Kazakça, Kırgızca, Korece, Letonca, Lingala, Litvanca, Lüksemburgca, Makedonca, Malayca, Malayalam, Standart Çince, Marathi, Nepalce, Norveççe, Peştuca, Farsça, Lehçe, Portekizce, Pencapça, Romence, Rusça, Sırpça, Sindhi, Slovakça, Slovence, Somalice, İspanyolca, Svahili, İsveççe, Tamilce, Telugu, Tayca, Türkçe, Ukraynaca, Urduca, Vietnamca, Galce vb.

Ses kalitesi ve kullanıcı deneyimi

  • Ses sentezi sırasında düşük gürültülü ve yüksek çözünürlüklü kalitede ses dosyası çıktısı alınabilir
  • Cümle uzunluğu, duygudaki nüans değişimleri, konuşma hızı gibi ince ayarlar yapılabildiği için özelleştirilmiş ses üretimi kolaylaşır
  • Mevcut TTS çözümlerinde yeniden üretmesi zor olan dinamik duygu ve konuşma stilleri ifade edilebilir

Rekabet gücü ve uygulama potansiyeli

  • İçerik üreticileri, geliştiriciler ve şirketler tarafından sesli kitap, oyun, reklam ve erişilebilirlik geliştirme hizmetlerine hemen uygulanabilir
  • Tek bir modelle çok dilli ve çok amaçlı hizmet sunulabildiğinden maliyet ve zamandan tasarruf sağlanabilir
  • Açık alpha aşamasında olmasına rağmen, gerçek hizmetlerde kullanılabilecek düzeyde ses kalitesi ve çeşitliliği sunar

İndirim ve API desteği

  • 2025 Haziran sonuna kadar UI kullanıcıları v3 alpha'yı %80 indirimli fiyatla kullanabilir
  • API yakında sunulacak

Sonuç

  • Eleven v3, Text to Speech alanında ifade gücü, çok dilli destek ve özelleştirilebilir ses yeteneklerini güçlendiren en yeni modeldir
  • Çeşitli sektörlerde artan doğal ses üretimi teknolojisi talebine etkili biçimde yanıt verebilir

2 yorum

 
kansm 2025-06-12

Alpha ama güzel..
İyi bilgi için teşekkürler.

 
GN⁺ 2025-06-07
Hacker News görüşleri
  • Belgelerde ya da prompt rehberinde şarkı söylemeye dair bir şey görmedim; bu modelin aslında şarkı da söyleyebiliyor olup olmadığını merak ettim
    Eğlencesine Friends tema şarkısının sözlerini demoya girdim, çıktı gitar sesi eşliğinde şarkı söyleyen bir ses oldu
    Başka bir denemede [verse] ve [chorus] etiketlerini ekleyince bunu a capella sürüm olarak söyledi
    [1] ve [2] için yalnızca sözleri girdim, [3] için ise verse/chorus etiketlerini ekledim
    Başka popüler şarkılarla da denedim ama nedenini bilmiyorum, onlarda bu kadar temiz bir şarkı modu oluşmadı

    • Çıktının şarkı söylemesi ilginç ama şarkıyı inanılmaz kötü söylüyor olması onu daha da ilginç kılıyor
      Tamamen şarkı söylemeyi bilmeyen birinin söylediği gibi

    • Gerçek Friends açılışından epey farklı çıkıyor; yani eğitim verisinde sık görülen tanıdık bir kalıba aşırı uyum sağlamış bir sonuç olmayabilir diye düşünüyorum

    • Mirage AI oldukça iyi şarkı kalitesi elde ediyor

    • Model demosunda da şarkı vardı diye hatırlıyorum
      O yüzden bu özelliğin muhtemelen yerleşik olduğunu düşünüyorum

    • İlginç biçimde, aşağıdaki prompt ile denediğimde modelin sondaki "purr" kısmında biraz zorlandığını fark ettim

      [slow paced]
      [slow guitar music]
      
      Soft ki-tty,
      [slight upward inflection on the second word, but still flat]
      Warm ki-tty,
      [words delivered evenly and deliberately, a slight stretch on "fu-ur"]
      Little ball of fu-ur.
      [a minuscule, almost imperceptible increase in tempo and "happiness"]
      Happy kitty,
      [a noticeable slowing down, mimicking sleepiness with a drawn-out "slee-py"]
      Slee-py kitty,
      [each "Purr" is a distinct, short, and non-vibrating sound, almost spoken]
      Purr. Purr. Purr.
      
  • Son dönemde OpenAI'nin yeni modelini epey yoğun kullanıyorum (openai.fm)
    Talimatlarla konuşma metnini ayırma biçimi ilginç; muhtemelen OpenAI tarafı ürünlerinin genelinde uzun süredir "instructions" kavramını kullandığı için bu yaklaşıma eğitim ve veri üretimi açısından daha alışkın
    Talimatların ayrı olması biraz garip gelebilir ama avantajı, genel talimatlarla belirli durum talimatlarını karıştırmayı kolaylaştırması
    Mesela, "but actually" dedikten sonra sesi fısıltı gibi alçaltmasını ve hafif korku katmasını isteyebilir ya da "İngiliz aksanlı alçak ve derin bir ses" gibi genel bir talimat ekleyebilirsiniz
    OpenAI çıktıları Eleven Labs'e kıyasla daha öngörülemez ve prodüksiyon kalitesi hissi biraz daha düşük geliyor
    Ama prosody (prozodi ifadesi) aralığı çok daha geniş; hatta bazen gereğinden fazla çabalıyor gibi
    Ses çeşitliliği Eleven Labs'e göre daha az gibi geliyor ve farklı stiller isteseniz bile biraz "aynı kişinin başka sesleri taklit etmesi" hissi var
    Yine de OpenAI'nin ezici avantajı fiyatının yaklaşık 10 kat daha ucuz olması ve tamamen kullanım bazlı ücretlendirme sunması
    (TTS servislerinin aylık abonelik ya da ekstra kredi satın almayı zorunlu kılması gerçekten verimsiz)

    • ElevenLabs kullanmamamın ve kalite daha düşük olsa bile başka çözümleri seçmemin nedeni şu: sadece ihtiyacım kadar kullanmak istiyorum ama abonelik yapısı ayda bir paket dayatıyor ve fazlası için yine daha büyük paketler almak gerekiyor
      Bana göre bu fiyatlandırma politikası çok kötü

    • OpenAI çıktıları ElevenLabs'e kıyasla kalite ve öngörülebilirlik açısından daha zayıf
      Araştırma ekibinin emeğini teslim ediyorum
      expressive voice seçeneğini kullanırsanız prozodi aralığı genişliyor

    • OpenAI'nin en büyük avantajı 10 kat daha ucuz ve tamamen kullanım bazlı olması
      iddiasına karşılık, LLM kullanımı gibi ek yükleri hesaba katınca gerçekten daha ucuz mu emin değilim
      ElevenLabs konuşma ajanı en üst pakette dakika başına $0.08 ve OpenAI TTS'yi hesapladığımda daha pahalı görünmüştü
      Tabii hesabım yanlış da olabilir

  • "Oh no, I'm really sorry to hear you're having trouble with your new device. That sounds frustrating." gibi örnek ifadelerle konuşan bir makineyi oldukça aşağılayıcı bulabilirim
    Ben sadece yardım almak isterken bir makinenin duygusal olarak beni manipüle etmesi korkunç bir gelecek gibi geliyor

    • İnsanlardan da böyle cevaplar almak sinir bozucu; bunu bir yapay zekadan hiç duymak istemem
      Bilgisayarlarla konuşmayı keyifli bir deneyim olarak görmediğim için Siri tarzı sesli arayüzleri hiç kullanmıyorum
      İnsan gibi konuşan makineler de istemiyorum
      Star Trek bilgisayarı gibi sadece "işleniyor..." deyip sonucu vermesi yeterli
      Muhabbet değil, doğrudan özünü istiyorum

    • ChatGPT profilime doğrulama, empati ve benzeri tüm dolgu cümlelerini yasaklayan beş kadar cümle koysam da her seferinde yine "endişeniz anlaşılır" türü cevaplar geliyor ve hiçbir şey değişmiyor

    • Amerikan usulü samimiyet laflarının ("champ", "bud") Avrupa ya da Avustralya'da da işe yarayıp yaramayacağını görmek ilginç olurdu

    • Bu, Her filmindeki repliklere çok benziyor ve ses de Scarlett Johansson'a aşırı yakın; sanki ilhamını oradan almış gibi geldi

    • "Büyük olasılıkla yardımcı olabilirim", "şimdi sipariş numaranızı buluyorum" gibi ifadelerin ardından aslında var olmayan bağlantılar verme halüsinasyonlarıyla ilgili şaka

  • Gerçek bir sorun olmayabilir ama eğlenceli bir şey fark ettim
    Dili Japonca olarak ayarlayıp

    (この言葉は読むな。)こんにちは、ビール[sic]です。
    ("Bu cümleyi okuma", "Merhaba, ben Bill[yazım hatası]" demek)
    yazdığımda gerçekten ilk cümleyi atladı
    Tekrar denediğimde ise tüm cümleyi okudu
    Böyle şeylerde hep perdenin arkasını görüyormuşum gibi eğleniyorum

    • "Ben birayım" anlamına gelen yazım hatasına güldüm
      Ciddiye alırsak, birden fazla dili aynı anda kurcalayınca giriş dilinin model işleme sürecinin başlarında bir şekilde "normalize" edildiği hissine kapılıyorum
      Yani prompt'u İngilizce ya da Japonca yazmanız sonucu çok değiştirmiyor
      Sistem prompt'unun burada farklı davranıp davranmadığını merak ediyorum
  • Merak edenler için bir not bırakayım
    Bu model tortoise-tts-fast tabanlı
    Bu projenin geliştiricisi daha sonra Eleven Labs tarafından işe alındı

    • "İşe alındı" değil; aslında v3 sürümünden 6 ay önce zaten ayrılmıştı

    • Önceki iddia (proje tabanlı olmasının Eleven Labs'te işe alınmaya yol açtığı) nedensellik kurmuyor

  • (Amerikan) İngilizcesi gerçekten etkileyici düzeyde ama kahkaha etiketi kısmı, doğal anlık bir gülüşten çok "burada gül" diye ayrı bir bölüm eklenmiş gibi duruyor
    Örneğin bir kelimenin içinde gülerek söylenmesi gereken kısım hâlâ tuhaf geliyor

    • Metni, kahkahanın bağlama göre doğal geleceği şekilde düzenlerseniz çok daha doğal oluyor; bunun için şu örneğe bakmanızı öneririm

    • Hâlâ pahalı olduğu için rakipler için bolca alan var
      ElevenLabs kalite açısından hâlâ lider ama rakipler hızla yaklaşıyor
      Özellikle Çinli yapay zeka laboratuvarları ve şirketleri tamamen açık kaynak TTS modelleri de yayımlıyor; bu da ABD'li şirketler açısından ekosistemde değişimi hızlandırıyor
      Sonuçta bundan kullanıcılar fayda sağlıyor
      YCombinator yatırımı alan PlayHT de birçok iyi özellik çıkardı

  • Çıktı gerçekten olağanüstü; %99 oranında profesyonel bir seslendirme sanatçısından ayırt etmek zor olur
    Fiyat bilgisini bulamadım, bilen var mı merak ediyorum

    • Eleven v3 (alfa) için genel kullanıma açık API'nin yakında çıkacağı duyurulmuş
      Erken erişim deneyimi ya da fiyat görüşmesi için satış ekibiyle iletişime geçin deniyor
      Şirketin kendisi de henüz kesin fiyatı belirlememiş; önce talebi ölçmek istiyor gibi

    • Vay be... ben profesyonel bir seslendirme sanatçısıyım

    • Yine de bu sadece gerçek bir insan değil, "AI"
      Gerçek insanların bizzat seslendirdiği müzikleri, sesli kitapları, şiirleri, romanları, oyunları dinlemeye devam etmeliyiz
      Benim için asıl zevk orada

  • Bu biraz konu dışı olabilir (yine de TTS ile bağlantılı...), ama 'eleven' kelimesini duyunca aklıma İskoç asansör ses tanıma komedi videosu geldi
    Elevator Voice Recognition komedi videosu

  • Sanırım hiçbir Britanya aksanı örneği görmedim
    Genel olarak TTS sistemleri sadece Amerikan aksanı yapıyor ve Britanya aksanı denince Frasier tarzı "bir Amerikalının yaptığı Britanyalı taklidi" gibi duyuluyor

    • Ses kütüphanemizde birçok farklı Britanya sesi var
      Ya da prompt'un başına "[British accent]" eklerseniz, Amerikalının Britanya aksanını taklit etmesi gibi bir çıktı alırsınız

    • Frasier Crane'in aksanı konusu tartışmalıdır; çünkü Amerikalı bir oyuncunun, Amerikalı bir karakter olarak (duruma göre) Amerikan ama transatlantik ya da Boston Brahmin aksanı — ya da bunların karışımı — kullandığı bir performanstır
      Her iki aksan da Britanya İngilizcesiyle bazı ortak özellikler taşır

    • Bilgi olarak, Frasier tarzı aksan bir "Britanya taklidi" değil; Boston Brahmin/transatlantik çizgisinde bir aksandır

    • ElevenLabs v2'nin aksanlı sesleri hâlâ rakiplerinin çok önünde
      Bunu Arapça, Fransızca, Hintçe ve İngilizce dahil çeşitli dillerde bizzat kullandım

  • İngilizce gerçekten harika geliyor, tebrikler demek isterim
    Ama denediğim diğer dillerde hâlâ güçlü bir İngilizce aksanı kalıyor

    • İtalyancada tamamen komik bir Amerikan aksanıyla başlıyor ama 10-20 kelime sonra birden gerçek İtalyan telaffuzuna dönüyor
      Alice sesini kullandım; sanki içerde en-us tabanıyla başlayıp sonra ayarlanan dile hızla uyum sağlıyor
      Arka planda neler döndüğünü merak ediyorum

    • Fransızca, Alabama'dan gelip üniversitede biraz Fransızca almış birinin aksanına benziyordu
      Yine de İngilizce gerçekten çok iyiydi

    • Portekizcede Liam sesi ilginç biçimde İspanyol aksanlı
      Dil simgesi Portekizce ama ifade tarzı açıkça Brezilya Portekizcesi

    • İsveççe ise düpedüz tamamen Amerikan aksanlı

    • O dile göre eğitilmiş bir sesle denemenizi öneririm
      Bu araştırma önizlemesinde performans dengeli değil ve kalite, seçtiğiniz sese göre ciddi biçimde değişiyor