13 puan yazan GN⁺ 2025-03-21 | 2 yorum | WhatsApp'ta paylaş
  • Geliştiricilerin OpenAI API'nin yeni metinden sese modelini deneyebileceği interaktif demo
  • Prompt ile ses efektleri, ton, hız, duygu, telaffuz, duraklama vb. ayrıntılı biçimde belirtilebiliyor

Demo

  • Ses seçimi: Alloy, Ash, Ballad, Coral, Echo ve diğerleri dahil 11 seçenek
  • Çeşitli vibe seçenekleri: Sincere, Friendly, Noir Detective, Robot, Auctioneer vb.
  • Örnek: Sincere
    Voice Affect: Calm, composed, and reassuring. Competent and in control, instilling trust.  
    Tone: Sincere, empathetic, with genuine concern for the customer and understanding of the situation.  
    Pacing: Slower during the apology to allow for clarity and processing. Faster when offering solutions to signal action and resolution.  
    Emotions: Calm reassurance, empathy, and gratitude.  
    Pronunciation: Clear, precise: Ensures clarity, especially with key details. Focus on key words like "refund" and "patience."   
    Pauses: Before and after the apology to give space for processing the apology.  
    
  • Örnek: Medieval Knight
    Voice Affect: Derin, buyurgan ve hafif dramatik; Eski İngilizce hikâye anlatımının görkemini yansıtır  
    Tone: Asil, kahramansı ve resmî; ortaçağ şövalyesi ile epik maceraların özünü yakalar  
    Emotions: Heyecan, beklenti, gizem ve kader ile görevin ciddiyetinin birleşimi  
    Pronunciation: Açık ve özenli, hafif resmî bir ritim; "hast", "thou", "doth" gibi sözcükler Eski İngilizce telaffuz kalıplarını yansıtacak şekilde yavaşça vurgulanır  
    Pauses: "Lo!", "Hark!" gibi Eski İngilizce ifadelerden sonra duraklama; "Choose thy path" gibi cümlecikler arasında duraklama bırakılarak kararın önemi vurgulanır ve dinleyicinin görevin ciddiyetini düşünmesine alan tanınır  
    

2 yorum

 
GN⁺ 2025-03-21
Hacker News görüşleri
  • Bu modellerin fiyatı ElevenLabs'e kıyasla oldukça daha ucuz

    • "gpt-4o-mini-tts" modeli için ses üretimi dakika başına $0.015, yani ElevenLabs'ten %85 daha ucuz
    • ElevenLabs'in "Business" planı ayda $1100 karşılığında 11.000 dakika TTS sunuyor, yani dakika başına 10 sent
    • OpenAI, 11.000 dakikalık TTS'yi $165'e sağlayabiliyor
    • Hesabın doğru olup olmadığının kontrol edilmesi isteniyor
  • OpenAI'dan Jeff, yeni ses modellerinin yayınlandığını duyuruyor

    • İki konuşma tanıma modeli ve yeni bir TTS modeli yayınlandı
    • Agents SDK desteği sayesinde metin ajanlarını ses ajanlarına dönüştürmek kolaylaşıyor
    • Sorusu olanların sormasını istiyor
  • Metinden sese ve sesten metne modellerinde güvenilirlik sorunlarına değiniliyor

    • Bunun gerçek dünya uygulamalarında ne kadar sorun yaratacağından emin olunmadığı belirtiliyor
    • Bununla ilgili yazılmış notlara bağlantı veriliyor
  • Üretilen sesle birlikte "speech marks" almanın bir yolu soruluyor

    • AWS Polly TTS hizmetinde kullanılan "speech marks" açıklanıyor
    • Metin vurgulama ve lip-sync için faydalı olduğu belirtiliyor
  • Son dönemde büyük metinden sese ve sesten metne modellerindeki ilerlemeler

    • Çevrimdışı, çok dilli metinden sese çözümlere ihtiyaç olduğu belirtiliyor
    • Tortoise TTS'nin kelimeleri sık sık bozduğu düşünülüyor
    • Acapela SDK'nın masaüstü uygulama eklentileri için tek çözüm olduğu söyleniyor
    • Yeni sinir ağı tabanlı modellerin sıradan bilgisayarlarda verimli çalışması umuluyor
  • "vibe" kutusuna girilen metne göre farklı tonlama ve karakterler üretilebiliyor

    • Akıllı prosodi ve tonlama seviyesi etkileyici bulunuyor
    • Teknolojinin, sesli kitap kaydı için neredeyse sadece ünlülere ihtiyaç duyulacak kadar ilerlediği söyleniyor
    • Çeşitli eğlenceli ses örnekleri paylaşılıyor
  • Navy Seal copypasta girildiğinde verilen tepki

    • Güvenlik kontrolleri "vibe" talimatına göre farklı çalışıyor
    • NYC taksi şoförü örneği sorunsuz çalışıyor ve eğlenceli bulunuyor
  • Yeni modelin sesinde hafif bir titreşim olduğu ve bu nedenle Siri'den daha kötü geldiği düşünülüyor

  • OpenAI'ın resmi araçlarının yeni model duyurusuyla bağlantılı olduğu belirtiliyor

  • Resmi duyurudan önemli bir alıntı

    • Geliştiriciler modele sadece ne söyleyeceğini değil, bunu nasıl söyleyeceğini de belirtebiliyor
    • "vibes", arayüzdeki talimatlar anlamına geliyor
    • Yeni model, ince farkları daha iyi kabul ediyor
    • gpt-4o-mini-tts ses çıkışı maliyeti dakika başına $0.015 olduğu için pratik bulunuyor
    • Daha fazla test yapılmasının planlandığı belirtiliyor
 
sylee999 2025-03-21

Türkçe de kusursuz şekilde çalışıyor.