Gemini 3.1 Flash TTS - Doğal dille ses stilini kontrol eden yeni nesil yapay zeka ses modeli
(blog.google)- Google'ın yeni kullanıma sunduğu text-to-speech modeli, önceki sürümlere kıyasla geliştirilmiş doğallık ve ifade gücü sunuyor; geliştiriciler, şirketler ve genel kullanıcılar için yapay zeka ses uygulamaları oluşturmayı destekliyor
- Yeni eklenen audio tags özelliğiyle doğal dil komutları doğrudan metne eklenerek ses stili, hız ve sunum biçimi ayrıntılı şekilde kontrol edilebiliyor
- Artificial Analysis TTS liderlik tablosunda 1.211 Elo puanı aldı ve yüksek kaliteli ses üretimi ile düşük maliyetin ideal birleşimi olarak değerlendirildi
- 70'ten fazla dili destekliyor ve yerel çok konuşmacılı diyalog özelliğini içinde barındırıyor
- Üretilen tüm seslere SynthID filigranı uygulanıyor; bu sayede yapay zeka tarafından üretilen içeriğin güvenilir biçimde tespit edilmesi ve yanlış bilgilendirmenin önlenmesi mümkün oluyor
Çıkış ve sunum kanalları
- Gemini 3.1 Flash TTS, geliştirilmiş kontrol edilebilirlik, ifade gücü ve kalite sunan en yeni text-to-speech modeli
- Şu anda aşağıdaki kanallar üzerinden önizleme olarak sunuluyor:
- Geliştiriciler için: Gemini API ve Google AI Studio
- Şirketler için: Vertex AI
- Workspace kullanıcıları için: Google Vids
Geliştirilmiş ses kalitesi ve kontrol
- Genel ses kalitesi iyileştirildi; şimdiye kadarki en doğal ve en ifade gücü yüksek model olarak öne çıkıyor
- Artificial Analysis TTS liderlik tablosunda, binlerce kör insan tercih değerlendirmesine dayalı olarak 1.211 Elo puanına ulaştı
- Artificial Analysis, Gemini 3.1 Flash TTS'yi yüksek kaliteli ses üretimi ile düşük maliyetin ideal birleşimi olarak "most attractive quadrant" içinde konumlandırdı
- Yerel çok konuşmacılı diyalog, 70'ten fazla dil desteği ve doğal dil tabanlı ayrıntılı yaratıcı kontrol özellikleriyle farklılaşıyor
Audio tags ile daha güçlü ifade kabiliyeti
- Yeni audio tags özelliği sayesinde ses stili, hız ve sunum biçimi sezgisel şekilde kontrol edilebiliyor
- Metin girdisine doğal dil komutları doğrudan eklenerek yapay zeka ses çıktısı ayrıntılı biçimde ayarlanabiliyor
- Şirketler, Vertex AI içinde audio tags kullanarak yeni nesil kurumsal uygulamalar geliştirebiliyor
- Google AI Studio, geliştiricilere onları "director's chair" konumuna yerleştiren yapılandırılabilir kontroller sunuyor:
- Scene direction: Ortamı tanımlayıp belirli replik yönergeleri ayarlayarak karakterlerin birden fazla tur boyunca doğal biçimde tepki vermesini sağlayan worldbuilding bağlamı sunar
- Speaker-level specificity: Benzersiz Audio Profile ile karakterleri seçip, Director's Notes ile hız, ton ve vurguyu ayarlayabilir; inline tags sayesinde cümle ortasında bile ifade geçişi yapılabilir
- Seamless export: Tamamlanan parametreler Gemini API kodu olarak dışa aktarılabilir, böylece farklı proje ve platformlarda tutarlı ses korunabilir
- Bu yapı sayesinde geliştiriciler akılda kalan karakterler ve sürükleyici ses deneyimleri oluşturabiliyor
Küresel ölçekte destek
- 70'ten fazla dilde yüksek doğrulukta ses ve hassas kontrol sunuyor
- Başlıca pazarlar için gelişmiş stil, hız ve tonlama kontrolüyle yerelleştirilmiş ses deneyimleri oluşturulabiliyor
- İlk test kullanıcıları olan geliştiriciler ve şirketler, 3.1 Flash TTS'nin etkileyici kontrol kabiliyeti ve ifade gücünü yüksek değerlendirdi
- Audio tags'in yeni bir seviyede yaratıcı hassasiyet sunduğu ve basit metni yüksek doğruluklu vokal performansına dönüştürdüğü yönünde geri bildirim verdi
SynthID filigranlama
- Gemini 3.1 Flash TTS'nin ürettiği tüm seslere SynthID filigranı uygulanıyor
- Algılanamayan filigran doğrudan ses çıktısına gömülerek yapay zeka üretimli içeriğin güvenilir şekilde tespiti mümkün hale geliyor
- Yanlış bilgilendirmeyi önlemek için bir güvenlik önlemi olarak işlev görüyor ve model kartı üzerinden güvenlik ile sorumluluğa dair ayrıntılı bilgi sunuluyor
Henüz yorum yok.