OpenAI ses modeli

(openai.fm)

13 puan yazan GN⁺ 2025-03-21 | 2 yorum | WhatsApp'ta paylaş

Geliştiricilerin OpenAI API'nin yeni metinden sese modelini deneyebileceği interaktif demo
Prompt ile ses efektleri, ton, hız, duygu, telaffuz, duraklama vb. ayrıntılı biçimde belirtilebiliyor

Demo

Ses seçimi: Alloy, Ash, Ballad, Coral, Echo ve diğerleri dahil 11 seçenek
Çeşitli vibe seçenekleri: Sincere, Friendly, Noir Detective, Robot, Auctioneer vb.

Örnek: Sincere

Voice Affect: Calm, composed, and reassuring. Competent and in control, instilling trust.  
Tone: Sincere, empathetic, with genuine concern for the customer and understanding of the situation.  
Pacing: Slower during the apology to allow for clarity and processing. Faster when offering solutions to signal action and resolution.  
Emotions: Calm reassurance, empathy, and gratitude.  
Pronunciation: Clear, precise: Ensures clarity, especially with key details. Focus on key words like "refund" and "patience."   
Pauses: Before and after the apology to give space for processing the apology.

Örnek: Medieval Knight

Voice Affect: Derin, buyurgan ve hafif dramatik; Eski İngilizce hikâye anlatımının görkemini yansıtır  
Tone: Asil, kahramansı ve resmî; ortaçağ şövalyesi ile epik maceraların özünü yakalar  
Emotions: Heyecan, beklenti, gizem ve kader ile görevin ciddiyetinin birleşimi  
Pronunciation: Açık ve özenli, hafif resmî bir ritim; "hast", "thou", "doth" gibi sözcükler Eski İngilizce telaffuz kalıplarını yansıtacak şekilde yavaşça vurgulanır  
Pauses: "Lo!", "Hark!" gibi Eski İngilizce ifadelerden sonra duraklama; "Choose thy path" gibi cümlecikler arasında duraklama bırakılarak kararın önemi vurgulanır ve dinleyicinin görevin ciddiyetini düşünmesine alan tanınır

2 yorum

GN⁺ 2025-03-21

Hacker News görüşleri

Bu modellerin fiyatı ElevenLabs'e kıyasla oldukça daha ucuz
- "gpt-4o-mini-tts" modeli için ses üretimi dakika başına $0.015, yani ElevenLabs'ten %85 daha ucuz
- ElevenLabs'in "Business" planı ayda $1100 karşılığında 11.000 dakika TTS sunuyor, yani dakika başına 10 sent
- OpenAI, 11.000 dakikalık TTS'yi $165'e sağlayabiliyor
- Hesabın doğru olup olmadığının kontrol edilmesi isteniyor
OpenAI'dan Jeff, yeni ses modellerinin yayınlandığını duyuruyor
- İki konuşma tanıma modeli ve yeni bir TTS modeli yayınlandı
- Agents SDK desteği sayesinde metin ajanlarını ses ajanlarına dönüştürmek kolaylaşıyor
- Sorusu olanların sormasını istiyor
Metinden sese ve sesten metne modellerinde güvenilirlik sorunlarına değiniliyor
- Bunun gerçek dünya uygulamalarında ne kadar sorun yaratacağından emin olunmadığı belirtiliyor
- Bununla ilgili yazılmış notlara bağlantı veriliyor
Üretilen sesle birlikte "speech marks" almanın bir yolu soruluyor
- AWS Polly TTS hizmetinde kullanılan "speech marks" açıklanıyor
- Metin vurgulama ve lip-sync için faydalı olduğu belirtiliyor
Son dönemde büyük metinden sese ve sesten metne modellerindeki ilerlemeler
- Çevrimdışı, çok dilli metinden sese çözümlere ihtiyaç olduğu belirtiliyor
- Tortoise TTS'nin kelimeleri sık sık bozduğu düşünülüyor
- Acapela SDK'nın masaüstü uygulama eklentileri için tek çözüm olduğu söyleniyor
- Yeni sinir ağı tabanlı modellerin sıradan bilgisayarlarda verimli çalışması umuluyor
"vibe" kutusuna girilen metne göre farklı tonlama ve karakterler üretilebiliyor
- Akıllı prosodi ve tonlama seviyesi etkileyici bulunuyor
- Teknolojinin, sesli kitap kaydı için neredeyse sadece ünlülere ihtiyaç duyulacak kadar ilerlediği söyleniyor
- Çeşitli eğlenceli ses örnekleri paylaşılıyor
Navy Seal copypasta girildiğinde verilen tepki
- Güvenlik kontrolleri "vibe" talimatına göre farklı çalışıyor
- NYC taksi şoförü örneği sorunsuz çalışıyor ve eğlenceli bulunuyor
Yeni modelin sesinde hafif bir titreşim olduğu ve bu nedenle Siri'den daha kötü geldiği düşünülüyor
OpenAI'ın resmi araçlarının yeni model duyurusuyla bağlantılı olduğu belirtiliyor
Resmi duyurudan önemli bir alıntı
- Geliştiriciler modele sadece ne söyleyeceğini değil, bunu nasıl söyleyeceğini de belirtebiliyor
- "vibes", arayüzdeki talimatlar anlamına geliyor
- Yeni model, ince farkları daha iyi kabul ediyor
- gpt-4o-mini-tts ses çıkışı maliyeti dakika başına $0.015 olduğu için pratik bulunuyor
- Daha fazla test yapılmasının planlandığı belirtiliyor

sylee999 2025-03-21

Türkçe de kusursuz şekilde çalışıyor.

OpenAI ses modeli

Demo

İlgili okumalar

2 yorum

Hacker News görüşleri