23 puan yazan GN⁺ 2024-11-03 | 4 yorum | WhatsApp'ta paylaş
  • 30'dan fazla dilde, sektör lideri hız ve doğrulukla, herhangi bir ses veya aksanda konuşabilen en yetenekli ve konuşma odaklı ses modeli
    • Ayrıca birden fazla dilde 50'den fazla yeni konuşma odaklı yapay zeka sesi yayınlandı
  • TTS kullanarak gerçek zamanlı uygulamalar oluştururken gecikme, güvenilirlik, ses kalitesi ve sesin doğallığı çok önemlidir

Play 3.0 mini bugüne kadarki en hızlı konuşma odaklı ses modeli

  • 3.0 mini, TTFB için ortalama 189 milisaniye gecikme elde ederek en hızlı yapay zeka Text to Speech modeli oldu
  • LLM'den metin girdi akışını ve ses çıktı akışını destekler; HTTP REST API, WebSocket API veya SDK üzerinden kullanılabilir
  • 3.0 mini ayrıca Play 2.0'dan daha verimlidir ve çıkarım hızı %28 daha yüksektir

Play 3.0 mini, 30'dan fazla dilde tüm sesleri destekler

  • Play 3.0 mini artık varsayılan olarak birden fazla erkek ve kadın ses seçeneğiyle 30'dan fazla dili destekliyor
  • İngilizce, Japonca, Hintçe, Arapça, İspanyolca, İtalyanca, Almanca, Fransızca ve Portekizce sesler artık production kullanım senaryolarında kullanılabiliyor ve API ile playground'da erişilebilir durumda
  • Ayrıca Afrikaanca, Bulgarca, Hırvatça, Çekçe, İbranice, Macarca, Endonezce, Malayca, Mandarin, Lehçe, Sırpça, İsveççe, Tagalog, Tayca, Türkçe, Ukraynaca, Urduca ve Xhosa dilleri test edilebiliyor

Play 3.0 mini daha doğru

  • Play 3.0 mini'nin hedefi, konuşma odaklı yapay zeka için en iyi TTS modelini oluşturmaktı
  • Bunu başarmak için modelin, en konuşma odaklı tonda ses üretirken gecikme ve doğruluk açısından rakip modelleri aşması gerekiyordu
  • LLM'ler halüsinasyon üretebilir ve ses LLM'leri de farklı değildir. Ses LLM'lerindeki halüsinasyonlar, girdi metninin parçası olmayan eklenen ya da eksik bırakılan kelime veya sayıların çıktı sesinde yer alması şeklinde görülebilir

Play 3.0 mini, harf ve sayı kombinasyonlarını daha doğal okur

  • Modeli, insan gibi sayıları ve baş harfleri okuyacak şekilde eğittik
  • Model hızı ayarlar ve tüm harf ile rakam karakterlerinin okunuşunu yavaşlatır
  • Örneğin telefon numaraları daha doğal bir hızda okunur; aynı şekilde tüm baş harfler ve kısaltmalar da böyledir
  • Bu da genel konuşma deneyimini daha doğal hale getirir

Play 3.0 mini, ses klonlama için en iyi ses benzerliğini sağlar

  • Bir sesi klonlarken çoğu zaman yalnızca benzer tınlaması yeterli olmaz
  • Play 3.0 ses klonlama, ses klonlarken son teknoloji performans elde ederek klonlanan sesin aksanını, tonunu ve vurgu yapısını doğru biçimde yeniden üretir
  • Popüler açık kaynak embedding modelleriyle yapılan karşılaştırmalarda, orijinal sesle benzerlik açısından rakip modelleri açık ara geride bırakır
  • Kendi sesinizi play.ai üzerinde klonlayıp kendinizle konuşarak bunu doğrudan deneyin

WebSocket API desteği

  • 3.0 mini API'si artık WebSocket desteği sunuyor; bu sayede HTTP bağlantısı açma ve kapatmanın ek yükü büyük ölçüde azalıyor ve LLM veya diğer kaynaklardan metin giriş akışını etkinleştirmek kolaylaşıyor

Play 3.0 mini maliyet etkin bir model

  • Daha yüksek hacimli startup ve growth katmanları için fiyat indirimi açıkladığımızı memnuniyetle duyuruyoruz; ayrıca artık daha mütevazı ihtiyaçları olan şirketler için aylık 49 dolarlık yeni bir Pro katmanı da sunuyoruz
  • Yeni fiyatlandırma tablosuna buradan göz atın
  • Bizimle neler inşa edeceğinizi görmek için sabırsızlanıyoruz! Özel yüksek hacimli ihtiyaçlarınız varsa lütfen satış ekibiyle iletişime geçin

GN+ görüşü

  • Play.ht'nin konuşma odaklı yapay zeka için en güvenilir ses modelini geliştirme çabası etkileyici. Gecikme ve doğruluk açısından rakiplerini geride bırakması ve en doğal konuşma odaklı sesleri üretmesi, bu modelin sektöre öncülük edebileceğini gösteriyor
  • 30'dan fazla dil ve çeşitli ses seçeneklerini desteklemesi, daha fazla kullanıcıya ve kullanım senaryosuna ulaşmak için önemli bir adım. Bu, sesli yapay zekanın daha geniş çapta benimsenmesine yardımcı olacaktır
  • Ancak bu teknolojiyi benimserken etik değerlendirmeler göz önünde bulundurulmalıdır. Örneğin, bir kişinin sesini rızası olmadan klonlamak gizlilik sorunlarına yol açabilir. Ayrıca bu teknolojinin yanlış bilgi yaymak için kötüye kullanılma ihtimali de vardır
  • Benzer işlevlere sahip dikkat çekici diğer sesli yapay zeka projeleri arasında Google'ın Tacotron'u ve DeepMind'ın WaveNet'i bulunuyor. Bu modeller de çok dilli destek ve doğal üretilmiş seslere odaklanıyor
  • Sonuç olarak Play 3.0 mini, konuşma odaklı yapay zekada ses teknolojisi için yeni bir ölçüt ortaya koyuyor. Geliştiriciler, çeşitli gerçek zamanlı uygulamalar için hızlı, doğru ve doğal TTS'den yararlanabilecek. Ancak bu teknolojinin olası kötüye kullanımını önlemek için güçlü güvenlik önlemleri ve etik yönergeler oluşturulmalıdır

4 yorum

 
dane1 2024-11-04

Ama Playground'a bakınca Korece yine var, değil mi?

 
dane1 2024-11-04

Yok artık, bu kadar çok dili destekliyor ama Korean yokmuş T_T

 
hmmhmmhm 2024-11-03

Ne yazık ki Korece henüz desteklenmiyor gibi görünüyor T_T

 
GN⁺ 2024-11-03

Hacker News görüşleri

  • Kısa süre önce yayımlanan açık kaynaklı TTS modeli, etkileyici ses klonlama yetenekleri sunuyor. 10G VRAM’e sahip bir NVIDIA GPU’da çalışabiliyor.
  • Canlı test Firefox’ta çalışmadı, ancak Chrome’a geçince hızla çalıştı. 30 saniye içinde kendi sesi klonlanıp onunla konuşulabildi. Çoğu insanı kandırabilecek kadar incelikli.
  • Bu model, Cartesia ve OpenAI’nin TTS API’lerinden daha maliyetli. Genel olarak TTS API’leri, LLM’lere kıyasla daha yüksek marjla işletiliyor.
  • İngilizce dışındaki dillerde transkripsiyon işlevi pek faydalı değil. Doğru transkripsiyon yapılırsa çeviri ve sesli yanıt çok hızlı oluyor, ancak transkripsiyon iyi değilse hiçbir işe yaramıyor.
  • Yaz boyunca Go ve Rust için API istemcileri yazıldı. O dönemde iş yerinde Play kullanılıyordu, ancak yalnızca Python ve Node SDK’ları vardı.
  • Kendi sesine benzeyen bir sesle düşük gecikmeli konuşmak biraz rahatsız edici olabilir. Yine de oldukça düşündürücü bir deneyim.
  • Klonlanan ses kulağa çok benzer geliyordu, ancak kör testte 5 kişinin hiçbiri bunu kendi sesi olarak tanımadı. Kendi sesini duyarken bir önyargı olup olmadığı sorgulanıyor.
  • OpenAI’nin modeli sayı telaffuzunda iyi performans göstermiyor. 2024’te sayıları düzgün telaffuz edemeyen bir TTS modelinin çıkmış olması şaşırtıcı bulunuyor. Yeni TTS modellerinde en azından 100.000’e kadar olan sayıların doğrulanması gerektiğine inanılıyor.