2 puan yazan GN⁺ 1 시간 전 | Henüz yorum yok. | WhatsApp'ta paylaş
  • Gerçek zamanlı ses API'si için akıl yürütme, çeviri ve transkripsiyon özelliklerine sahip 3 yeni ses modeli yayınlandı; böylece geliştiriciler daha doğal ve daha akıllı ses uygulamaları geliştirebilecek
  • GPT-Realtime-2, GPT-5 düzeyinde akıl yürütme yeteneğiyle donatılan ilk ses modeli olarak, araç çağrıları ve kesintileri yönetirken konuşmayı doğal biçimde sürdürür
  • GPT-Realtime-Translate, 70'ten fazla giriş dilini 13 çıkış diline gerçek zamanlı çeviren bir canlı çeviri modeli
  • GPT-Realtime-Whisper, konuşma ile eşzamanlı olarak sesi metne dönüştüren bir akış tabanlı ses transkripsiyon modeli olup altyazı, toplantı notları ve müşteri desteği gibi alanlarda kullanılabilir
  • Sesin, basit çağrı-yanıt yapısını aşarak akıl yürütme, çeviri, transkripsiyon ve araç çalıştırmayı aynı anda gerçekleştiren bir arayüze evrilmesinde dönüm noktası

3 yeni gerçek zamanlı ses modeline genel bakış

  • Geliştiricilerin daha doğal, daha akıllı tepki veren ve gerçek zamanlı olarak eylem gerçekleştiren ses deneyimleri oluşturabilmesi için API'ye 3 model eklendi
  • GPT-Realtime-2: GPT-5 düzeyinde akıl yürütmeye sahip ilk ses modeli; zor talepleri işler ve konuşmayı doğal biçimde yönlendirir
  • GPT-Realtime-Translate: 70'ten fazla giriş dilinden 13 çıkış diline, konuşmacının hızına uyum sağlayarak gerçek zamanlı ses çevirisi yapar
  • GPT-Realtime-Whisper: Konuşmacı konuşurken canlı akış ses-metin transkripsiyonu sunar

Sesin bir yazılım arayüzüne dönüşmesi

  • Ses; araç kullanırken yardım isteme, havaalanında seyahat planını değiştirme, tercih edilen dilde destek alma, yazı yazmadan işi sürdürme gibi durumlarda yazılım kullanmanın en doğal yollarından biri olarak öne çıkıyor
  • Faydalı bir ses ürünü, hızlı sıra değişimi veya doğal bir sesten daha fazlasını gerektirir: anlamı kavrama, bağlamı izleme, talep değiştiğinde toparlanma, konuşma sırasında araç kullanma ve uygun tonda yanıt verme gibi yetenekler gerekir
  • Bu kez tanıtılan modeller, gerçek zamanlı sesi basit çağrı-yanıt yapısından dinleyen, akıl yürüten, çeviren, transkripsiyon yapan ve eyleme geçen ses arayüzlerine dönüştürüyor

Sesli yapay zekada ortaya çıkan 3 model

  • Voice-to-Action: Kullanıcı gereksinimlerini söyler, sistem akıl yürütür ve araçları kullanarak işi tamamlar
    • Zillow örneği: "BuyAbility aralığıma uygun evleri bul, kalabalık yolları hariç tut ve cumartesi için tur planla" gibi istekleri dinleyip akıl yürüten ve yerine getiren bir asistan geliştiriliyor
  • Systems-to-Voice: Yazılım, bağlamı gerçek zamanlı sesli yönlendirmeye dönüştürür
    • Seyahat uygulaması örneği: "Gelen uçuş gecikti ama aktarma hâlâ mümkün. Yeni kapıyı buldum, terminalde en kısa rotayı göstereceğim ve bagajın planlandığı gibi aktarılacak" gibi proaktif sesli yönlendirmeler sunar
  • Voice-to-Voice: Yapay zeka, dil, görev ve değişen bağlamı aşarak gerçek zamanlı konuşmayı sürdürür
    • Deutsche Telekom örneği: Müşterinin rahat ettiği dilde konuştuğunda modelin bunu gerçek zamanlı çevirerek sesli destek deneyimi sunması test ediliyor
  • Bu modeller birleştirilebiliyor; Priceline ise uçuş ve otel arama, rezervasyon değiştirme, TSA bekleme süresi güncellemeleri ve yerel konuşma çevirisine kadar tüm seyahatin sesle yönetildiği bir geleceği hedefliyor

GPT-Realtime-2: Akıl yürüten ve eyleme geçen gerçek zamanlı ses modeli

  • Gerçek zamanlı sesli etkileşim için optimize edildi; akıl yürütürken aynı anda araç çağırma, düzeltme ve kesinti yönetimi ile duruma uygun yanıt verme yeteneklerine sahip
  • Preambles: "Kontrol edeyim", "Bir saniye" gibi kısa ifadelerle, ajanın isteği işlediğini kullanıcıya bildirir
  • Paralel araç çağrıları ve araç şeffaflığı: Birden fazla aracı aynı anda çağırırken "Takvimi kontrol ediyorum", "Şu anda arama yapıyorum" gibi ifadelerle yanıt verebilirliği korur
  • Güçlendirilmiş toparlanma davranışı: "Bunu şu anda işlemek zor" gibi ifadeler kullanarak sessizce başarısız olmak veya konuşmayı kesmek yerine doğal şekilde toparlanır
  • Genişletilmiş bağlam penceresi: 32K'dan 128K'ye çıkarılarak daha uzun oturumlar ve daha karmaşık iş akışları desteklenir
  • Geliştirilmiş alan bilgisi anlayışı: Teknik terimler, özel isimler ve tıbbi terimler gibi üretim ortamında önemli olan sözcük dağarcığını daha iyi korur
  • Kontrol edilebilir ton ve anlatım: Sorun çözerken sakin, kullanıcı memnuniyetsiz olduğunda empatik, başarıyı doğrularken daha neşeli gibi ton ayarı yapılabilir
  • Ayarlanabilir akıl yürütme çabası: minimal, low, medium, high, xhigh olmak üzere 5 seviye sunulur; varsayılan değer low olarak ayarlanmıştır, böylece basit etkileşimlerde düşük gecikme, karmaşık taleplerde ise daha derin akıl yürütme arasında denge kurulur

GPT-Realtime-2 performans karşılaştırmaları

  • GPT-Realtime-2 (high), Big Bench Audio'da ses zekâsı ölçütünde GPT-Realtime-1.5'e kıyasla %15,2 daha yüksek puan aldı
  • GPT-Realtime-2 (xhigh), Audio MultiChallenge'da yönerge izleme ölçütünde GPT-Realtime-1.5'e kıyasla %13,8 daha yüksek puan aldı; akıl yürütme, bağlam yönetimi ve kontrol yetenekleri gelişti
  • Zillow'dan SVP Josh Weisberg'in açıklamasına göre, en zorlu karşıt testlerde prompt optimizasyonunun ardından arama başarı oranı 26 puan arttı (%95'e karşı %69); Fair Housing uyumluluğunda da daha sağlam sonuçlar verdi ve ajan kabiliyetleri ile guardrail gücünün birleşimi Zillow'un üretim ses sistemi için uygun bulundu

GPT-Realtime-Translate: Gerçek zamanlı çok dilli ses çevirisi

  • Her katılımcının tercih ettiği dilde konuşabildiği, konuşmanın gerçek zamanlı çevrilmiş hâlini duyabildiği ve gerçek zamanlı transkripsiyonu okuyabildiği çok dilli ses deneyimleri oluşturulabilir
  • 70'ten fazla giriş dili, 13 çıkış dili desteğiyle müşteri desteği, sınır ötesi satış, eğitim, etkinlikler, medya ve küresel içerik üretici platformlarında kullanılabilir
  • Konuşmacının hızına ayak uydururken anlamı koruması gerekir; ayrıca doğal konuşma, bağlam değişimi, bölgesel aksanlar ve alana özgü dili de işleyebilmelidir
  • Deutsche Telekom bunu çok dilli sesli etkileşimlerde test ediyor; düşük gecikme ve artırılmış akıcılık, diller arası konuşmaları daha doğal hâle getiriyor
  • Vimeo örneği: GPT-Realtime-Translate, ürün eğitim videosu oynarken gerçek zamanlı çeviri yaparak küresel müşterilerin ayrı sürümler üretilmeden güncellemeleri tercih ettikleri dilde dinlemesini sağlıyor
  • BolnaAI CTO'su Prateek Sachan'ın açıklamasına göre, Hintçe, Tamilce ve Telugu değerlendirmelerinde kelime hata oranı (WER) diğer modellere göre %12,5 daha düşük; fallback oranı azaldı, görev tamamlama oranı yükseldi ve doğal konuşmayı koruyan gecikme seviyelerine ulaşıldı

GPT-Realtime-Whisper: Düşük gecikmeli akış transkripsiyonu

  • Düşük gecikmeli ses-metin dönüşümü için yeni bir akış transkripsiyon modeli olup, ses konuşma devam ederken eşzamanlı olarak yazıya döker
  • Gerçek zamanlı altyazılar, konuşma sırasında oluşturulan toplantı notları, sürekli kullanıcı anlayışı gerektiren sesli ajanlar ve müşteri desteği, sağlık, satış, işe alım gibi alanlardaki yüksek frekanslı sesli etkileşimler sonrası hızlı iş akışlarında kullanılabilir
  • Toplantı, sınıf, yayın ve etkinlikler için altyazı üretimi; konuşma sürerken not ve özet çıkarma gibi iş iş akışlarında gerçek zamanlı ses verisini anında kullanıma sunar

Güvenlik ve politikalar

  • Kötüye kullanımı önlemek için Realtime API'ye çok katmanlı güvenlik önlemleri ve hafifletici tedbirler uygulandı
  • Oturumlar için aktif sınıflandırıcılar (active classifiers) çalışıyor; zararlı içerik yönergelerinin ihlali tespit edilirse konuşma durdurulabiliyor
  • Geliştiriciler, Agents SDK kullanarak kendi güvenlik guardrail'lerini ekleyebilir
  • Kullanım politikasına göre spam, aldatma gibi zararlı amaçlarla çıktının yeniden kullanılması veya dağıtılması yasak
  • Son kullanıcılara, yapay zekayla etkileşim hâlinde oldukları açıkça belirtilmeli (bağlam gereği zaten açık olan durumlar hariç)
  • AB veri yerleşimi tam olarak destekleniyor ve kurumsal gizlilik taahhütleri uygulanıyor

Fiyatlandırma ve erişilebilirlik

  • GPT-Realtime-2, GPT-Realtime-Translate ve GPT-Realtime-Whisper'ın tamamı Realtime API üzerinden kullanılabiliyor
  • GPT-Realtime-2: 1 milyon ses giriş tokenı başına $32 (önbelleğe alınmış giriş tokenları için $0.40), 1 milyon ses çıkış tokenı başına $64
  • GPT-Realtime-Translate: dakika başına $0.034
  • GPT-Realtime-Whisper: dakika başına $0.017
  • Yeni gerçek zamanlı ses modelleri Playground'da test edilebilir; ayrıca Codex üzerinden mevcut uygulamalara GPT-Realtime-2 eklenebilir veya yeni bir proje başlatılabilir

Henüz yorum yok.

Henüz yorum yok.