- 30'dan fazla dilde, sektör lideri hız ve doğrulukla, herhangi bir ses veya aksanda konuşabilen en yetenekli ve konuşma odaklı ses modeli
- Ayrıca birden fazla dilde 50'den fazla yeni konuşma odaklı yapay zeka sesi yayınlandı
- TTS kullanarak gerçek zamanlı uygulamalar oluştururken gecikme, güvenilirlik, ses kalitesi ve sesin doğallığı çok önemlidir
Play 3.0 mini bugüne kadarki en hızlı konuşma odaklı ses modeli
- 3.0 mini, TTFB için ortalama 189 milisaniye gecikme elde ederek en hızlı yapay zeka Text to Speech modeli oldu
- LLM'den metin girdi akışını ve ses çıktı akışını destekler; HTTP REST API, WebSocket API veya SDK üzerinden kullanılabilir
- 3.0 mini ayrıca Play 2.0'dan daha verimlidir ve çıkarım hızı %28 daha yüksektir
Play 3.0 mini, 30'dan fazla dilde tüm sesleri destekler
- Play 3.0 mini artık varsayılan olarak birden fazla erkek ve kadın ses seçeneğiyle 30'dan fazla dili destekliyor
- İngilizce, Japonca, Hintçe, Arapça, İspanyolca, İtalyanca, Almanca, Fransızca ve Portekizce sesler artık production kullanım senaryolarında kullanılabiliyor ve API ile playground'da erişilebilir durumda
- Ayrıca Afrikaanca, Bulgarca, Hırvatça, Çekçe, İbranice, Macarca, Endonezce, Malayca, Mandarin, Lehçe, Sırpça, İsveççe, Tagalog, Tayca, Türkçe, Ukraynaca, Urduca ve Xhosa dilleri test edilebiliyor
Play 3.0 mini daha doğru
- Play 3.0 mini'nin hedefi, konuşma odaklı yapay zeka için en iyi TTS modelini oluşturmaktı
- Bunu başarmak için modelin, en konuşma odaklı tonda ses üretirken gecikme ve doğruluk açısından rakip modelleri aşması gerekiyordu
- LLM'ler halüsinasyon üretebilir ve ses LLM'leri de farklı değildir. Ses LLM'lerindeki halüsinasyonlar, girdi metninin parçası olmayan eklenen ya da eksik bırakılan kelime veya sayıların çıktı sesinde yer alması şeklinde görülebilir
Play 3.0 mini, harf ve sayı kombinasyonlarını daha doğal okur
- Modeli, insan gibi sayıları ve baş harfleri okuyacak şekilde eğittik
- Model hızı ayarlar ve tüm harf ile rakam karakterlerinin okunuşunu yavaşlatır
- Örneğin telefon numaraları daha doğal bir hızda okunur; aynı şekilde tüm baş harfler ve kısaltmalar da böyledir
- Bu da genel konuşma deneyimini daha doğal hale getirir
Play 3.0 mini, ses klonlama için en iyi ses benzerliğini sağlar
- Bir sesi klonlarken çoğu zaman yalnızca benzer tınlaması yeterli olmaz
- Play 3.0 ses klonlama, ses klonlarken son teknoloji performans elde ederek klonlanan sesin aksanını, tonunu ve vurgu yapısını doğru biçimde yeniden üretir
- Popüler açık kaynak embedding modelleriyle yapılan karşılaştırmalarda, orijinal sesle benzerlik açısından rakip modelleri açık ara geride bırakır
- Kendi sesinizi play.ai üzerinde klonlayıp kendinizle konuşarak bunu doğrudan deneyin
WebSocket API desteği
- 3.0 mini API'si artık WebSocket desteği sunuyor; bu sayede HTTP bağlantısı açma ve kapatmanın ek yükü büyük ölçüde azalıyor ve LLM veya diğer kaynaklardan metin giriş akışını etkinleştirmek kolaylaşıyor
Play 3.0 mini maliyet etkin bir model
- Daha yüksek hacimli startup ve growth katmanları için fiyat indirimi açıkladığımızı memnuniyetle duyuruyoruz; ayrıca artık daha mütevazı ihtiyaçları olan şirketler için aylık 49 dolarlık yeni bir Pro katmanı da sunuyoruz
- Yeni fiyatlandırma tablosuna buradan göz atın
- Bizimle neler inşa edeceğinizi görmek için sabırsızlanıyoruz! Özel yüksek hacimli ihtiyaçlarınız varsa lütfen satış ekibiyle iletişime geçin
GN+ görüşü
- Play.ht'nin konuşma odaklı yapay zeka için en güvenilir ses modelini geliştirme çabası etkileyici. Gecikme ve doğruluk açısından rakiplerini geride bırakması ve en doğal konuşma odaklı sesleri üretmesi, bu modelin sektöre öncülük edebileceğini gösteriyor
- 30'dan fazla dil ve çeşitli ses seçeneklerini desteklemesi, daha fazla kullanıcıya ve kullanım senaryosuna ulaşmak için önemli bir adım. Bu, sesli yapay zekanın daha geniş çapta benimsenmesine yardımcı olacaktır
- Ancak bu teknolojiyi benimserken etik değerlendirmeler göz önünde bulundurulmalıdır. Örneğin, bir kişinin sesini rızası olmadan klonlamak gizlilik sorunlarına yol açabilir. Ayrıca bu teknolojinin yanlış bilgi yaymak için kötüye kullanılma ihtimali de vardır
- Benzer işlevlere sahip dikkat çekici diğer sesli yapay zeka projeleri arasında Google'ın Tacotron'u ve DeepMind'ın WaveNet'i bulunuyor. Bu modeller de çok dilli destek ve doğal üretilmiş seslere odaklanıyor
- Sonuç olarak Play 3.0 mini, konuşma odaklı yapay zekada ses teknolojisi için yeni bir ölçüt ortaya koyuyor. Geliştiriciler, çeşitli gerçek zamanlı uygulamalar için hızlı, doğru ve doğal TTS'den yararlanabilecek. Ancak bu teknolojinin olası kötüye kullanımını önlemek için güçlü güvenlik önlemleri ve etik yönergeler oluşturulmalıdır
4 yorum
Ama Playground'a bakınca Korece yine var, değil mi?
Yok artık, bu kadar çok dili destekliyor ama Korean yokmuş T_T
Ne yazık ki Korece henüz desteklenmiyor gibi görünüyor T_T
Hacker News görüşleri