5 puan yazan GN⁺ 2025-12-12 | Henüz yorum yok. | WhatsApp'ta paylaş
  • GPT‑5.2, uzman bilgi işlerine odaklı en güçlü yapay zeka model serisi olarak, kod yazma, görsel algılama ve karmaşık proje yürütme yetenekleri geliştirilmiş
  • GDPval değerlendirmesinde, uzmanlık işi görevlerinde 44 başlığın %70.9’unda sektör uzmanlarını geçti veya eşitlenerek en üst performans gösterildi; hız 11 kat, maliyet %1’in altında
  • SWE‑Bench Pro 55.6%, GPQA Diamond 92.4%, ARC‑AGI‑1 86.2% gibi başlıca kıyaslama ölçütlerinde en iyi performans elde edildi
  • Uzun bağlam anlama (256k token), görsel bilgi işleme ve araç kullanımı (%98.7) alanlarında GPT‑5.1’e göre önemli iyileştirmeler yapıldı
  • ChatGPT ve API’de aşamalı olarak dağıtılacak; hedef uzman kullanıcılar için üretkenlik ve güvenilirliği artırmak

GPT‑5.2 Genel Bakış

  • GPT‑5.2, uzmanlık bilgisi gerektiren işlerde kullanılmak üzere bir yapay zeka model serisi olarak geliştirilmiştir; e-tablolar düzenleme, sunum hazırlama, kod yazma, görsel tanıma, uzun metin anlama, araç kullanımı ve karmaşık proje yürütme yetenekleri güçlendirilmiştir
  • ChatGPT Enterprise kullanıcıları zaten günde ortalama 40~60 dakika, haftada 10 saatten fazla zaman tasarrufu sağlıyor ve GPT‑5.2 bu verimliliği daha da genişletecek
  • ChatGPT’de Instant, Thinking ve Pro olmak üzere üç versiyon sunulurken, API’de geliştiricilere anında sunuluyor

Model Performansı

  • GPT‑5.2 Thinking, GDPval değerlendirmesinde uzman seviyesinin üstüne çıkan performansı ilk kez gösterdi
    • 44 uzmanlık işi görevinden oluşan sette %70.9 oranında uzmanlarla eşit ya da daha iyi performans gösterildi
    • Uzmanlara göre 11 kat daha hızlı ve maliyet %1’in altında
  • İç değerlendirmelerde yatırım bankacılığı analizi için e-tablo modelleme görevinin skoru GPT‑5.1’e göre %9.3 arttı (59.1% → 68.4%)
  • SWE‑Bench Pro 55.6% ile SWE‑Bench Verified 80% değerlerinde yazılım mühendisliği performansı yükseldi
    • Gerçek kod hata ayıklama, özellik geliştirme, refaktörleme ve dağıtım işlerinde daha tutarlı çalışıyor
  • Ön yüz geliştirme ve 3D UI işlerinde de GPT‑5.1’e göre gelişim var
  • Hata yanıt oranı %30 azalarak halüsinasyon sıklığı düştü

Uzun Bağlam Anlama ve Görsel Algılama

  • OpenAI MRCRv2 değerlendirmesinde, uzun belgeleri bütünleştirerek anlama performansı en üst seviyeye ulaştı
    • 256k token’a kadar yaklaşık %100 doğruluk sağlandı
    • Rapor, sözleşme ve akademik makale gibi uzun metinlerin analizine uygun
  • /compact uç noktasıyla uyumlu olarak bağlamı genişletme iş akışlarını destekliyor
  • Görsel algılama performansı arttığı için grafik, pano ve arayüz ekran görüntülerinde hata oranı yarı yarıya düştü
    • Görselin içindeki bileşenlerin mekânsal düzenini anlama becerisi güçlendirildi

Araç Kullanımı ve Karmaşık Görevler

  • Tau2‑bench Telecom 98.7% ile araç kullanımı alanında en yüksek başarı kaydedildi
  • Çok adımlı müşteri desteği, veri toplama, analiz ve sonuç üretimi gibi uçtan uca iş akışları yürütme yeteneği geliştirildi
    • Örnek: uçuş gecikme, aktarma ve tazminat talebi gibi çok aşamalı müşteri hizmetleri süreçleri tamamen tamamlanabiliyor

Bilim, Matematik ve Gerekçelendirme Yeteneği

  • GPQA Diamond 92.4%, FrontierMath Tier 1–3 40.3%, ARC‑AGI‑1 86.2%, ARC‑AGI‑2 52.9% ile başlıca akademik kıyaslamalarda en iyi sonuçlar alındı
  • GPT‑5.2 Pro, ARC‑AGI‑1’de %90’ı aştı ve maliyet verimliliği 390 kat arttı
  • GPT‑5.2 Pro ve Thinking, bilimsel araştırmayı hızlandırmak için kullanılabilir
    • Gerçek araştırmalarda istatistik kuramı kanıtları önerildi ve doğrulama alındı

ChatGPT İçinde Kullanım Deneyimi

  • GPT‑5.2 Instant: hızlı yanıt ve net açıklama sağlayarak günlük öğrenme ve iş akışları için ideal
  • GPT‑5.2 Thinking: kod yazma, uzun metin özeti, matematik ve mantık sorularını çözme, planlama gibi karmaşık işlere uygun
  • GPT‑5.2 Pro: zorlayıcı sorulara yüksek güvenilirlikli cevaplar sunar ve hata oranını düşürür

Güvenlikte Güçlendirmeler

  • GPT‑5.2, GPT‑5’in Safe Completion çalışması temelinde, intihar, ruh sağlığı ve duygusal bağımlılıkla ilgili konuşma yanıtlarını iyileştirdi
    • GPT‑5.1’e kıyasla uygunsuz yanıt oranı azaltıldı
  • Yaş tahmini modeli ile 18 yaşın altındaki kullanıcılara hassas içerik erişimi sınırlandırıldı
  • ChatGPT’de aşırı red verme (over‑refusal) sorununu azaltmaya yönelik iyileştirmeler devam ediyor

Fiyatlandırma ve Sağlanma Şekli

  • ChatGPT ücretli planları (Plus, Pro, Business, Enterprise) için aşamalı dağıtım
  • API’de gpt‑5.2, gpt‑5.2‑chat‑latest, gpt‑5.2‑pro olarak sunuluyor
  • Fiyat: her 1 milyon giriş tokeni için $1.75, her 1 milyon çıkış tokeni için $14, önbellekli girişte %90 indirim
    • GPT‑5.1’den daha yüksek birim fiyat olmasına rağmen token verimliliği artışıyla toplam maliyette düşüş sağlanır
  • GPT‑5.1 üç ay korunup ardından aşamalı olarak sonlandırılacak
  • Codex için optimize edilmiş sürüm daha sonra duyurulacak

Teknoloji Ortaklıkları

  • NVIDIA ve Microsoft ile iş birliği yapılarak GPT‑5.2 geliştirildi
    • Azure veri merkezleri ve H100, H200, GB200‑NVL72 GPU altyapısı kullanıldı
    • Büyük ölçekli eğitim verimliliğini ve model zekâsını destekliyor

Önemli Kıyaslama Özeti

  • GDPval: 70.9% (GPT‑5.1 38.8%)
  • SWE‑Bench Verified: 80.0%
  • OpenAI MRCRv2 (256k) : 77.0%
  • CharXiv Reasoning (w/ Python) : 88.7%
  • Tau2‑bench Telecom: 98.7%
  • ARC‑AGI‑1 (Verified) : 86.2%
  • AIME 2025: 100%
  • FrontierMath Tier 1–3: 40.3%

GPT‑5.2, zeka, güvenilirlik ve üretkenlik açısından önceki jenerasyon modelin büyük bir bölümünü geride bırakarak, uzman seviyesinde pratik destek sunan bir yapay zeka olarak konumlanıyor.

Henüz yorum yok.

Henüz yorum yok.