Play 3.0 Mini tanıtıldı - hafif, maliyet etkin çok dilli Text-To-Speech modeli

(play.ht)

23 puan yazan GN⁺ 2024-11-03 | 4 yorum | WhatsApp'ta paylaş

30'dan fazla dilde, sektör lideri hız ve doğrulukla, herhangi bir ses veya aksanda konuşabilen en yetenekli ve konuşma odaklı ses modeli
- Ayrıca birden fazla dilde 50'den fazla yeni konuşma odaklı yapay zeka sesi yayınlandı
TTS kullanarak gerçek zamanlı uygulamalar oluştururken gecikme, güvenilirlik, ses kalitesi ve sesin doğallığı çok önemlidir

Play 3.0 mini bugüne kadarki en hızlı konuşma odaklı ses modeli

3.0 mini, TTFB için ortalama 189 milisaniye gecikme elde ederek en hızlı yapay zeka Text to Speech modeli oldu
LLM'den metin girdi akışını ve ses çıktı akışını destekler; HTTP REST API, WebSocket API veya SDK üzerinden kullanılabilir
3.0 mini ayrıca Play 2.0'dan daha verimlidir ve çıkarım hızı %28 daha yüksektir

Play 3.0 mini artık varsayılan olarak birden fazla erkek ve kadın ses seçeneğiyle 30'dan fazla dili destekliyor
İngilizce, Japonca, Hintçe, Arapça, İspanyolca, İtalyanca, Almanca, Fransızca ve Portekizce sesler artık production kullanım senaryolarında kullanılabiliyor ve API ile playground'da erişilebilir durumda
Ayrıca Afrikaanca, Bulgarca, Hırvatça, Çekçe, İbranice, Macarca, Endonezce, Malayca, Mandarin, Lehçe, Sırpça, İsveççe, Tagalog, Tayca, Türkçe, Ukraynaca, Urduca ve Xhosa dilleri test edilebiliyor

Play 3.0 mini'nin hedefi, konuşma odaklı yapay zeka için en iyi TTS modelini oluşturmaktı
Bunu başarmak için modelin, en konuşma odaklı tonda ses üretirken gecikme ve doğruluk açısından rakip modelleri aşması gerekiyordu
LLM'ler halüsinasyon üretebilir ve ses LLM'leri de farklı değildir. Ses LLM'lerindeki halüsinasyonlar, girdi metninin parçası olmayan eklenen ya da eksik bırakılan kelime veya sayıların çıktı sesinde yer alması şeklinde görülebilir

Modeli, insan gibi sayıları ve baş harfleri okuyacak şekilde eğittik
Model hızı ayarlar ve tüm harf ile rakam karakterlerinin okunuşunu yavaşlatır
Örneğin telefon numaraları daha doğal bir hızda okunur; aynı şekilde tüm baş harfler ve kısaltmalar da böyledir
Bu da genel konuşma deneyimini daha doğal hale getirir

Bir sesi klonlarken çoğu zaman yalnızca benzer tınlaması yeterli olmaz
Play 3.0 ses klonlama, ses klonlarken son teknoloji performans elde ederek klonlanan sesin aksanını, tonunu ve vurgu yapısını doğru biçimde yeniden üretir
Popüler açık kaynak embedding modelleriyle yapılan karşılaştırmalarda, orijinal sesle benzerlik açısından rakip modelleri açık ara geride bırakır
Kendi sesinizi play.ai üzerinde klonlayıp kendinizle konuşarak bunu doğrudan deneyin

3.0 mini API'si artık WebSocket desteği sunuyor; bu sayede HTTP bağlantısı açma ve kapatmanın ek yükü büyük ölçüde azalıyor ve LLM veya diğer kaynaklardan metin giriş akışını etkinleştirmek kolaylaşıyor

Daha yüksek hacimli startup ve growth katmanları için fiyat indirimi açıkladığımızı memnuniyetle duyuruyoruz; ayrıca artık daha mütevazı ihtiyaçları olan şirketler için aylık 49 dolarlık yeni bir Pro katmanı da sunuyoruz
Yeni fiyatlandırma tablosuna buradan göz atın
Bizimle neler inşa edeceğinizi görmek için sabırsızlanıyoruz! Özel yüksek hacimli ihtiyaçlarınız varsa lütfen satış ekibiyle iletişime geçin

Play.ht'nin konuşma odaklı yapay zeka için en güvenilir ses modelini geliştirme çabası etkileyici. Gecikme ve doğruluk açısından rakiplerini geride bırakması ve en doğal konuşma odaklı sesleri üretmesi, bu modelin sektöre öncülük edebileceğini gösteriyor
30'dan fazla dil ve çeşitli ses seçeneklerini desteklemesi, daha fazla kullanıcıya ve kullanım senaryosuna ulaşmak için önemli bir adım. Bu, sesli yapay zekanın daha geniş çapta benimsenmesine yardımcı olacaktır
Ancak bu teknolojiyi benimserken etik değerlendirmeler göz önünde bulundurulmalıdır. Örneğin, bir kişinin sesini rızası olmadan klonlamak gizlilik sorunlarına yol açabilir. Ayrıca bu teknolojinin yanlış bilgi yaymak için kötüye kullanılma ihtimali de vardır
Benzer işlevlere sahip dikkat çekici diğer sesli yapay zeka projeleri arasında Google'ın Tacotron'u ve DeepMind'ın WaveNet'i bulunuyor. Bu modeller de çok dilli destek ve doğal üretilmiş seslere odaklanıyor
Sonuç olarak Play 3.0 mini, konuşma odaklı yapay zekada ses teknolojisi için yeni bir ölçüt ortaya koyuyor. Geliştiriciler, çeşitli gerçek zamanlı uygulamalar için hızlı, doğru ve doğal TTS'den yararlanabilecek. Ancak bu teknolojinin olası kötüye kullanımını önlemek için güçlü güvenlik önlemleri ve etik yönergeler oluşturulmalıdır

dane1 2024-11-04

Ama Playground'a bakınca Korece yine var, değil mi?

dane1 2024-11-04

Yok artık, bu kadar çok dili destekliyor ama Korean yokmuş T_T

hmmhmmhm 2024-11-03

Ne yazık ki Korece henüz desteklenmiyor gibi görünüyor T_T

GN⁺ 2024-11-03

Kısa süre önce yayımlanan açık kaynaklı TTS modeli, etkileyici ses klonlama yetenekleri sunuyor. 10G VRAM’e sahip bir NVIDIA GPU’da çalışabiliyor.
Canlı test Firefox’ta çalışmadı, ancak Chrome’a geçince hızla çalıştı. 30 saniye içinde kendi sesi klonlanıp onunla konuşulabildi. Çoğu insanı kandırabilecek kadar incelikli.
Bu model, Cartesia ve OpenAI’nin TTS API’lerinden daha maliyetli. Genel olarak TTS API’leri, LLM’lere kıyasla daha yüksek marjla işletiliyor.
İngilizce dışındaki dillerde transkripsiyon işlevi pek faydalı değil. Doğru transkripsiyon yapılırsa çeviri ve sesli yanıt çok hızlı oluyor, ancak transkripsiyon iyi değilse hiçbir işe yaramıyor.
Yaz boyunca Go ve Rust için API istemcileri yazıldı. O dönemde iş yerinde Play kullanılıyordu, ancak yalnızca Python ve Node SDK’ları vardı.
Kendi sesine benzeyen bir sesle düşük gecikmeli konuşmak biraz rahatsız edici olabilir. Yine de oldukça düşündürücü bir deneyim.
Klonlanan ses kulağa çok benzer geliyordu, ancak kör testte 5 kişinin hiçbiri bunu kendi sesi olarak tanımadı. Kendi sesini duyarken bir önyargı olup olmadığı sorgulanıyor.
OpenAI’nin modeli sayı telaffuzunda iyi performans göstermiyor. 2024’te sayıları düzgün telaffuz edemeyen bir TTS modelinin çıkmış olması şaşırtıcı bulunuyor. Yeni TTS modellerinde en azından 100.000’e kadar olan sayıların doğrulanması gerektiğine inanılıyor.