OpenAI, GPT-5 düzeyinde akıl yürütme yeteneğine sahip GPT-Realtime-2 serisini tanıttı

(openai.com)

9 puan yazan GN⁺ 2026-05-08 | 1 yorum | WhatsApp'ta paylaş

Gerçek zamanlı ses API'si için akıl yürütme, çeviri ve transkripsiyon özelliklerine sahip 3 yeni ses modeli yayınlandı; böylece geliştiriciler daha doğal ve daha akıllı ses uygulamaları geliştirebilecek
GPT-Realtime-2, GPT-5 düzeyinde akıl yürütme yeteneğiyle donatılan ilk ses modeli olarak, araç çağrıları ve kesintileri yönetirken konuşmayı doğal biçimde sürdürür
GPT-Realtime-Translate, 70'ten fazla giriş dilini 13 çıkış diline gerçek zamanlı çeviren bir canlı çeviri modeli
GPT-Realtime-Whisper, konuşma ile eşzamanlı olarak sesi metne dönüştüren bir akış tabanlı ses transkripsiyon modeli olup altyazı, toplantı notları ve müşteri desteği gibi alanlarda kullanılabilir
Sesin, basit çağrı-yanıt yapısını aşarak akıl yürütme, çeviri, transkripsiyon ve araç çalıştırmayı aynı anda gerçekleştiren bir arayüze evrilmesinde dönüm noktası

3 yeni gerçek zamanlı ses modeline genel bakış

Geliştiricilerin daha doğal, daha akıllı tepki veren ve gerçek zamanlı olarak eylem gerçekleştiren ses deneyimleri oluşturabilmesi için API'ye 3 model eklendi
GPT-Realtime-2: GPT-5 düzeyinde akıl yürütmeye sahip ilk ses modeli; zor talepleri işler ve konuşmayı doğal biçimde yönlendirir
GPT-Realtime-Translate: 70'ten fazla giriş dilinden 13 çıkış diline, konuşmacının hızına uyum sağlayarak gerçek zamanlı ses çevirisi yapar
GPT-Realtime-Whisper: Konuşmacı konuşurken canlı akış ses-metin transkripsiyonu sunar

Sesin bir yazılım arayüzüne dönüşmesi

Ses; araç kullanırken yardım isteme, havaalanında seyahat planını değiştirme, tercih edilen dilde destek alma, yazı yazmadan işi sürdürme gibi durumlarda yazılım kullanmanın en doğal yollarından biri olarak öne çıkıyor
Faydalı bir ses ürünü, hızlı sıra değişimi veya doğal bir sesten daha fazlasını gerektirir: anlamı kavrama, bağlamı izleme, talep değiştiğinde toparlanma, konuşma sırasında araç kullanma ve uygun tonda yanıt verme gibi yetenekler gerekir
Bu kez tanıtılan modeller, gerçek zamanlı sesi basit çağrı-yanıt yapısından dinleyen, akıl yürüten, çeviren, transkripsiyon yapan ve eyleme geçen ses arayüzlerine dönüştürüyor

Sesli yapay zekada ortaya çıkan 3 model

Voice-to-Action: Kullanıcı gereksinimlerini söyler, sistem akıl yürütür ve araçları kullanarak işi tamamlar
- Zillow örneği: "BuyAbility aralığıma uygun evleri bul, kalabalık yolları hariç tut ve cumartesi için tur planla" gibi istekleri dinleyip akıl yürüten ve yerine getiren bir asistan geliştiriliyor
Reklam
Systems-to-Voice: Yazılım, bağlamı gerçek zamanlı sesli yönlendirmeye dönüştürür
- Seyahat uygulaması örneği: "Gelen uçuş gecikti ama aktarma hâlâ mümkün. Yeni kapıyı buldum, terminalde en kısa rotayı göstereceğim ve bagajın planlandığı gibi aktarılacak" gibi proaktif sesli yönlendirmeler sunar
Voice-to-Voice: Yapay zeka, dil, görev ve değişen bağlamı aşarak gerçek zamanlı konuşmayı sürdürür
- Deutsche Telekom örneği: Müşterinin rahat ettiği dilde konuştuğunda modelin bunu gerçek zamanlı çevirerek sesli destek deneyimi sunması test ediliyor
Bu modeller birleştirilebiliyor; Priceline ise uçuş ve otel arama, rezervasyon değiştirme, TSA bekleme süresi güncellemeleri ve yerel konuşma çevirisine kadar tüm seyahatin sesle yönetildiği bir geleceği hedefliyor

GPT-Realtime-2: Akıl yürüten ve eyleme geçen gerçek zamanlı ses modeli

Gerçek zamanlı sesli etkileşim için optimize edildi; akıl yürütürken aynı anda araç çağırma, düzeltme ve kesinti yönetimi ile duruma uygun yanıt verme yeteneklerine sahip
Preambles: "Kontrol edeyim", "Bir saniye" gibi kısa ifadelerle, ajanın isteği işlediğini kullanıcıya bildirir
Paralel araç çağrıları ve araç şeffaflığı: Birden fazla aracı aynı anda çağırırken "Takvimi kontrol ediyorum", "Şu anda arama yapıyorum" gibi ifadelerle yanıt verebilirliği korur
Güçlendirilmiş toparlanma davranışı: "Bunu şu anda işlemek zor" gibi ifadeler kullanarak sessizce başarısız olmak veya konuşmayı kesmek yerine doğal şekilde toparlanır
Genişletilmiş bağlam penceresi: 32K'dan 128K'ye çıkarılarak daha uzun oturumlar ve daha karmaşık iş akışları desteklenir
Geliştirilmiş alan bilgisi anlayışı: Teknik terimler, özel isimler ve tıbbi terimler gibi üretim ortamında önemli olan sözcük dağarcığını daha iyi korur
Kontrol edilebilir ton ve anlatım: Sorun çözerken sakin, kullanıcı memnuniyetsiz olduğunda empatik, başarıyı doğrularken daha neşeli gibi ton ayarı yapılabilir
Ayarlanabilir akıl yürütme çabası: minimal, low, medium, high, xhigh olmak üzere 5 seviye sunulur; varsayılan değer low olarak ayarlanmıştır, böylece basit etkileşimlerde düşük gecikme, karmaşık taleplerde ise daha derin akıl yürütme arasında denge kurulur

GPT-Realtime-2 performans karşılaştırmaları

GPT-Realtime-2 (high), Big Bench Audio'da ses zekâsı ölçütünde GPT-Realtime-1.5'e kıyasla %15,2 daha yüksek puan aldı
GPT-Realtime-2 (xhigh), Audio MultiChallenge'da yönerge izleme ölçütünde GPT-Realtime-1.5'e kıyasla %13,8 daha yüksek puan aldı; akıl yürütme, bağlam yönetimi ve kontrol yetenekleri gelişti
Zillow'dan SVP Josh Weisberg'in açıklamasına göre, en zorlu karşıt testlerde prompt optimizasyonunun ardından arama başarı oranı 26 puan arttı (%95'e karşı %69); Fair Housing uyumluluğunda da daha sağlam sonuçlar verdi ve ajan kabiliyetleri ile guardrail gücünün birleşimi Zillow'un üretim ses sistemi için uygun bulundu

GPT-Realtime-Translate: Gerçek zamanlı çok dilli ses çevirisi

Her katılımcının tercih ettiği dilde konuşabildiği, konuşmanın gerçek zamanlı çevrilmiş hâlini duyabildiği ve gerçek zamanlı transkripsiyonu okuyabildiği çok dilli ses deneyimleri oluşturulabilir
70'ten fazla giriş dili, 13 çıkış dili desteğiyle müşteri desteği, sınır ötesi satış, eğitim, etkinlikler, medya ve küresel içerik üretici platformlarında kullanılabilir
Konuşmacının hızına ayak uydururken anlamı koruması gerekir; ayrıca doğal konuşma, bağlam değişimi, bölgesel aksanlar ve alana özgü dili de işleyebilmelidir
Deutsche Telekom bunu çok dilli sesli etkileşimlerde test ediyor; düşük gecikme ve artırılmış akıcılık, diller arası konuşmaları daha doğal hâle getiriyor
Vimeo örneği: GPT-Realtime-Translate, ürün eğitim videosu oynarken gerçek zamanlı çeviri yaparak küresel müşterilerin ayrı sürümler üretilmeden güncellemeleri tercih ettikleri dilde dinlemesini sağlıyor
BolnaAI CTO'su Prateek Sachan'ın açıklamasına göre, Hintçe, Tamilce ve Telugu değerlendirmelerinde kelime hata oranı (WER) diğer modellere göre %12,5 daha düşük; fallback oranı azaldı, görev tamamlama oranı yükseldi ve doğal konuşmayı koruyan gecikme seviyelerine ulaşıldı

GPT-Realtime-Whisper: Düşük gecikmeli akış transkripsiyonu

Düşük gecikmeli ses-metin dönüşümü için yeni bir akış transkripsiyon modeli olup, ses konuşma devam ederken eşzamanlı olarak yazıya döker
Gerçek zamanlı altyazılar, konuşma sırasında oluşturulan toplantı notları, sürekli kullanıcı anlayışı gerektiren sesli ajanlar ve müşteri desteği, sağlık, satış, işe alım gibi alanlardaki yüksek frekanslı sesli etkileşimler sonrası hızlı iş akışlarında kullanılabilir
Toplantı, sınıf, yayın ve etkinlikler için altyazı üretimi; konuşma sürerken not ve özet çıkarma gibi iş iş akışlarında gerçek zamanlı ses verisini anında kullanıma sunar

Güvenlik ve politikalar

Kötüye kullanımı önlemek için Realtime API'ye çok katmanlı güvenlik önlemleri ve hafifletici tedbirler uygulandı
Oturumlar için aktif sınıflandırıcılar (active classifiers) çalışıyor; zararlı içerik yönergelerinin ihlali tespit edilirse konuşma durdurulabiliyor
Geliştiriciler, Agents SDK kullanarak kendi güvenlik guardrail'lerini ekleyebilir
Kullanım politikasına göre spam, aldatma gibi zararlı amaçlarla çıktının yeniden kullanılması veya dağıtılması yasak
Son kullanıcılara, yapay zekayla etkileşim hâlinde oldukları açıkça belirtilmeli (bağlam gereği zaten açık olan durumlar hariç)
AB veri yerleşimi tam olarak destekleniyor ve kurumsal gizlilik taahhütleri uygulanıyor

Fiyatlandırma ve erişilebilirlik

GPT-Realtime-2, GPT-Realtime-Translate ve GPT-Realtime-Whisper'ın tamamı Realtime API üzerinden kullanılabiliyor
GPT-Realtime-2: 1 milyon ses giriş tokenı başına $32 (önbelleğe alınmış giriş tokenları için $0.40), 1 milyon ses çıkış tokenı başına $64
GPT-Realtime-Translate: dakika başına $0.034
GPT-Realtime-Whisper: dakika başına $0.017
Yeni gerçek zamanlı ses modelleri Playground'da test edilebilir; ayrıca Codex üzerinden mevcut uygulamalara GPT-Realtime-2 eklenebilir veya yeni bir proje başlatılabilir

1 yorum

kleinstein 2026-05-08

GPT-Realtime-Translate Koreceyi destekleyecek mi?

OpenAI, GPT-5 düzeyinde akıl yürütme yeteneğine sahip GPT-Realtime-2 serisini tanıttı

3 yeni gerçek zamanlı ses modeline genel bakış

Sesin bir yazılım arayüzüne dönüşmesi

Sesli yapay zekada ortaya çıkan 3 model

GPT-Realtime-2: Akıl yürüten ve eyleme geçen gerçek zamanlı ses modeli

GPT-Realtime-2 performans karşılaştırmaları

GPT-Realtime-Translate: Gerçek zamanlı çok dilli ses çevirisi

GPT-Realtime-Whisper: Düşük gecikmeli akış transkripsiyonu

Güvenlik ve politikalar

Fiyatlandırma ve erişilebilirlik

İlgili okumalar

1 yorum