3 puan yazan GN⁺ 14 일 전 | Henüz yorum yok. | WhatsApp'ta paylaş
  • Google'ın yeni kullanıma sunduğu text-to-speech modeli, önceki sürümlere kıyasla geliştirilmiş doğallık ve ifade gücü sunuyor; geliştiriciler, şirketler ve genel kullanıcılar için yapay zeka ses uygulamaları oluşturmayı destekliyor
  • Yeni eklenen audio tags özelliğiyle doğal dil komutları doğrudan metne eklenerek ses stili, hız ve sunum biçimi ayrıntılı şekilde kontrol edilebiliyor
  • Artificial Analysis TTS liderlik tablosunda 1.211 Elo puanı aldı ve yüksek kaliteli ses üretimi ile düşük maliyetin ideal birleşimi olarak değerlendirildi
  • 70'ten fazla dili destekliyor ve yerel çok konuşmacılı diyalog özelliğini içinde barındırıyor
  • Üretilen tüm seslere SynthID filigranı uygulanıyor; bu sayede yapay zeka tarafından üretilen içeriğin güvenilir biçimde tespit edilmesi ve yanlış bilgilendirmenin önlenmesi mümkün oluyor

Çıkış ve sunum kanalları

  • Gemini 3.1 Flash TTS, geliştirilmiş kontrol edilebilirlik, ifade gücü ve kalite sunan en yeni text-to-speech modeli
  • Şu anda aşağıdaki kanallar üzerinden önizleme olarak sunuluyor:
    • Geliştiriciler için: Gemini API ve Google AI Studio
    • Şirketler için: Vertex AI
    • Workspace kullanıcıları için: Google Vids

Geliştirilmiş ses kalitesi ve kontrol

  • Genel ses kalitesi iyileştirildi; şimdiye kadarki en doğal ve en ifade gücü yüksek model olarak öne çıkıyor
  • Artificial Analysis TTS liderlik tablosunda, binlerce kör insan tercih değerlendirmesine dayalı olarak 1.211 Elo puanına ulaştı
  • Artificial Analysis, Gemini 3.1 Flash TTS'yi yüksek kaliteli ses üretimi ile düşük maliyetin ideal birleşimi olarak "most attractive quadrant" içinde konumlandırdı
  • Yerel çok konuşmacılı diyalog, 70'ten fazla dil desteği ve doğal dil tabanlı ayrıntılı yaratıcı kontrol özellikleriyle farklılaşıyor

Audio tags ile daha güçlü ifade kabiliyeti

  • Yeni audio tags özelliği sayesinde ses stili, hız ve sunum biçimi sezgisel şekilde kontrol edilebiliyor
  • Metin girdisine doğal dil komutları doğrudan eklenerek yapay zeka ses çıktısı ayrıntılı biçimde ayarlanabiliyor
  • Şirketler, Vertex AI içinde audio tags kullanarak yeni nesil kurumsal uygulamalar geliştirebiliyor
  • Google AI Studio, geliştiricilere onları "director's chair" konumuna yerleştiren yapılandırılabilir kontroller sunuyor:
    • Scene direction: Ortamı tanımlayıp belirli replik yönergeleri ayarlayarak karakterlerin birden fazla tur boyunca doğal biçimde tepki vermesini sağlayan worldbuilding bağlamı sunar
    • Speaker-level specificity: Benzersiz Audio Profile ile karakterleri seçip, Director's Notes ile hız, ton ve vurguyu ayarlayabilir; inline tags sayesinde cümle ortasında bile ifade geçişi yapılabilir
    • Seamless export: Tamamlanan parametreler Gemini API kodu olarak dışa aktarılabilir, böylece farklı proje ve platformlarda tutarlı ses korunabilir
  • Bu yapı sayesinde geliştiriciler akılda kalan karakterler ve sürükleyici ses deneyimleri oluşturabiliyor

Küresel ölçekte destek

  • 70'ten fazla dilde yüksek doğrulukta ses ve hassas kontrol sunuyor
  • Başlıca pazarlar için gelişmiş stil, hız ve tonlama kontrolüyle yerelleştirilmiş ses deneyimleri oluşturulabiliyor
  • İlk test kullanıcıları olan geliştiriciler ve şirketler, 3.1 Flash TTS'nin etkileyici kontrol kabiliyeti ve ifade gücünü yüksek değerlendirdi
    • Audio tags'in yeni bir seviyede yaratıcı hassasiyet sunduğu ve basit metni yüksek doğruluklu vokal performansına dönüştürdüğü yönünde geri bildirim verdi

SynthID filigranlama

  • Gemini 3.1 Flash TTS'nin ürettiği tüm seslere SynthID filigranı uygulanıyor
  • Algılanamayan filigran doğrudan ses çıktısına gömülerek yapay zeka üretimli içeriğin güvenilir şekilde tespiti mümkün hale geliyor
  • Yanlış bilgilendirmeyi önlemek için bir güvenlik önlemi olarak işlev görüyor ve model kartı üzerinden güvenlik ile sorumluluğa dair ayrıntılı bilgi sunuluyor

Henüz yorum yok.

Henüz yorum yok.