GPT‑5.2’nin Tanıtımı
(openai.com)- GPT‑5.2, uzman bilgi işlerine odaklı en güçlü yapay zeka model serisi olarak, kod yazma, görsel algılama ve karmaşık proje yürütme yetenekleri geliştirilmiş
- GDPval değerlendirmesinde, uzmanlık işi görevlerinde 44 başlığın %70.9’unda sektör uzmanlarını geçti veya eşitlenerek en üst performans gösterildi; hız 11 kat, maliyet %1’in altında
- SWE‑Bench Pro 55.6%, GPQA Diamond 92.4%, ARC‑AGI‑1 86.2% gibi başlıca kıyaslama ölçütlerinde en iyi performans elde edildi
- Uzun bağlam anlama (256k token), görsel bilgi işleme ve araç kullanımı (%98.7) alanlarında GPT‑5.1’e göre önemli iyileştirmeler yapıldı
- ChatGPT ve API’de aşamalı olarak dağıtılacak; hedef uzman kullanıcılar için üretkenlik ve güvenilirliği artırmak
GPT‑5.2 Genel Bakış
- GPT‑5.2, uzmanlık bilgisi gerektiren işlerde kullanılmak üzere bir yapay zeka model serisi olarak geliştirilmiştir; e-tablolar düzenleme, sunum hazırlama, kod yazma, görsel tanıma, uzun metin anlama, araç kullanımı ve karmaşık proje yürütme yetenekleri güçlendirilmiştir
- ChatGPT Enterprise kullanıcıları zaten günde ortalama 40~60 dakika, haftada 10 saatten fazla zaman tasarrufu sağlıyor ve GPT‑5.2 bu verimliliği daha da genişletecek
- ChatGPT’de Instant, Thinking ve Pro olmak üzere üç versiyon sunulurken, API’de geliştiricilere anında sunuluyor
Model Performansı
- GPT‑5.2 Thinking, GDPval değerlendirmesinde uzman seviyesinin üstüne çıkan performansı ilk kez gösterdi
- 44 uzmanlık işi görevinden oluşan sette %70.9 oranında uzmanlarla eşit ya da daha iyi performans gösterildi
- Uzmanlara göre 11 kat daha hızlı ve maliyet %1’in altında
- İç değerlendirmelerde yatırım bankacılığı analizi için e-tablo modelleme görevinin skoru GPT‑5.1’e göre %9.3 arttı (59.1% → 68.4%)
- SWE‑Bench Pro 55.6% ile SWE‑Bench Verified 80% değerlerinde yazılım mühendisliği performansı yükseldi
- Gerçek kod hata ayıklama, özellik geliştirme, refaktörleme ve dağıtım işlerinde daha tutarlı çalışıyor
- Ön yüz geliştirme ve 3D UI işlerinde de GPT‑5.1’e göre gelişim var
- Hata yanıt oranı %30 azalarak halüsinasyon sıklığı düştü
Uzun Bağlam Anlama ve Görsel Algılama
- OpenAI MRCRv2 değerlendirmesinde, uzun belgeleri bütünleştirerek anlama performansı en üst seviyeye ulaştı
- 256k token’a kadar yaklaşık %100 doğruluk sağlandı
- Rapor, sözleşme ve akademik makale gibi uzun metinlerin analizine uygun
- /compact uç noktasıyla uyumlu olarak bağlamı genişletme iş akışlarını destekliyor
- Görsel algılama performansı arttığı için grafik, pano ve arayüz ekran görüntülerinde hata oranı yarı yarıya düştü
- Görselin içindeki bileşenlerin mekânsal düzenini anlama becerisi güçlendirildi
Araç Kullanımı ve Karmaşık Görevler
- Tau2‑bench Telecom 98.7% ile araç kullanımı alanında en yüksek başarı kaydedildi
- Çok adımlı müşteri desteği, veri toplama, analiz ve sonuç üretimi gibi uçtan uca iş akışları yürütme yeteneği geliştirildi
- Örnek: uçuş gecikme, aktarma ve tazminat talebi gibi çok aşamalı müşteri hizmetleri süreçleri tamamen tamamlanabiliyor
Bilim, Matematik ve Gerekçelendirme Yeteneği
- GPQA Diamond 92.4%, FrontierMath Tier 1–3 40.3%, ARC‑AGI‑1 86.2%, ARC‑AGI‑2 52.9% ile başlıca akademik kıyaslamalarda en iyi sonuçlar alındı
- GPT‑5.2 Pro, ARC‑AGI‑1’de %90’ı aştı ve maliyet verimliliği 390 kat arttı
- GPT‑5.2 Pro ve Thinking, bilimsel araştırmayı hızlandırmak için kullanılabilir
- Gerçek araştırmalarda istatistik kuramı kanıtları önerildi ve doğrulama alındı
ChatGPT İçinde Kullanım Deneyimi
- GPT‑5.2 Instant: hızlı yanıt ve net açıklama sağlayarak günlük öğrenme ve iş akışları için ideal
- GPT‑5.2 Thinking: kod yazma, uzun metin özeti, matematik ve mantık sorularını çözme, planlama gibi karmaşık işlere uygun
- GPT‑5.2 Pro: zorlayıcı sorulara yüksek güvenilirlikli cevaplar sunar ve hata oranını düşürür
Güvenlikte Güçlendirmeler
- GPT‑5.2, GPT‑5’in Safe Completion çalışması temelinde, intihar, ruh sağlığı ve duygusal bağımlılıkla ilgili konuşma yanıtlarını iyileştirdi
- GPT‑5.1’e kıyasla uygunsuz yanıt oranı azaltıldı
- Yaş tahmini modeli ile 18 yaşın altındaki kullanıcılara hassas içerik erişimi sınırlandırıldı
- ChatGPT’de aşırı red verme (over‑refusal) sorununu azaltmaya yönelik iyileştirmeler devam ediyor
Fiyatlandırma ve Sağlanma Şekli
- ChatGPT ücretli planları (Plus, Pro, Business, Enterprise) için aşamalı dağıtım
- API’de
gpt‑5.2,gpt‑5.2‑chat‑latest,gpt‑5.2‑proolarak sunuluyor - Fiyat: her 1 milyon giriş tokeni için $1.75, her 1 milyon çıkış tokeni için $14, önbellekli girişte %90 indirim
- GPT‑5.1’den daha yüksek birim fiyat olmasına rağmen token verimliliği artışıyla toplam maliyette düşüş sağlanır
- GPT‑5.1 üç ay korunup ardından aşamalı olarak sonlandırılacak
- Codex için optimize edilmiş sürüm daha sonra duyurulacak
Teknoloji Ortaklıkları
- NVIDIA ve Microsoft ile iş birliği yapılarak GPT‑5.2 geliştirildi
- Azure veri merkezleri ve H100, H200, GB200‑NVL72 GPU altyapısı kullanıldı
- Büyük ölçekli eğitim verimliliğini ve model zekâsını destekliyor
Önemli Kıyaslama Özeti
- GDPval: 70.9% (GPT‑5.1 38.8%)
- SWE‑Bench Verified: 80.0%
- OpenAI MRCRv2 (256k) : 77.0%
- CharXiv Reasoning (w/ Python) : 88.7%
- Tau2‑bench Telecom: 98.7%
- ARC‑AGI‑1 (Verified) : 86.2%
- AIME 2025: 100%
- FrontierMath Tier 1–3: 40.3%
GPT‑5.2, zeka, güvenilirlik ve üretkenlik açısından önceki jenerasyon modelin büyük bir bölümünü geride bırakarak, uzman seviyesinde pratik destek sunan bir yapay zeka olarak konumlanıyor.
1 yorum
Hacker News görüşleri
Son birkaç aydır ChatGPT’yi ücretli olarak kullanıp kodlama, haberler, hisse analizi, günlük sorun çözme gibi neredeyse her amaç için kullandım
Ama Gemini 3 çıktıktan sonra deneyince tüm kullanım senaryolarında çok daha iyi sonuç verdiğini gördüm
Özellikle web araması entegrasyonu gerektiren güncel bilgi aramada güçlüydü. OCR da harika, benim kötü el yazımı bile iyi tanıyor
Yine de uygulamada çok hata var, oturum sık sık kopuyor ve fotoğraf yükleme hataları da var.
En rahatsız edici nokta, tüm bağlantıların Google araması üzerinden geçmesi; doğrudan siteye gitmek için düzeltmek gerekiyor.
Genel olarak vardığım sonuç, ChatGPT’nin arama entegrasyonu gücü konusunda geride kaldığı ve bunu kapatmasının zor olacağı yönünde
Yalnızca durdurmak bile verinin kaybolmasına yol açıyor; tipik bir Google usulü tamamlanmamış ürün hissi veriyor
Sesli mod fikri iyi ama sık sık bozuluyor ve kafasına göre soruları tekrarlıyor
ChatGPT PDF ya da ekran görüntülerini açıp OCR girdisi olarak kullanıyor ama Gemini bunları görmezden geliyor
Ama artık tarayıcılar bunu kendi başına hallediyor, bu yüzden tıklama bilgisini illa Google’a göndermek gerekmiyor
Doğrudan bağlantıya çevirseniz de sorun olmuyor
Opus 4.5’in kalitesi daha iyi ama kullanım sınırları çok sıkı; birkaç aboneliği birlikte yürütmeyi düşünüyorum
OCR’dan çok ses özelliğini kullanan biri olarak bu ölümcül bir eksik
“Arama entegrasyonu güçlü” iddiasını da anlamıyorum. Güncel bilgi aramada ChatGPT’nin gerçekten daha kötü kaldığı bir örnek merak ediyorum
Blog duyurusunda yok ama gerçek bağlam penceresi boyutu 400 bin token
Resmi belgede açıkça yazıyor
Tüm bağlamı kullanma yeteneğinin de iyileştiği söyleniyor; umut verici
Rust/CUDA projesinde Codex 5.1 kullanırken Gemini 3’e geçtim; başta hataları iyi yakaladığı için etkilendim ama kısa sürede komutları yok sayma, bozuk çıktı, opak akıl yürütme süreci yüzünden çıldıracak gibi oldum
Yeniden Codex’e dönünce daha istikrarlı olduğunu ve geri bildirimi iyi yansıttığını gördüm. Şimdi bir de GPT‑5.2 xhigh modu çıktı; sanki Noel hediyesi almış gibiyim
Eskisi gibi sorunların ve çözümlerin dürüstçe tartışıldığı forum kültürünü özlüyorum
Birçok geliştiricinin tek bir oturumda yemek, hediye, kodlama gibi her konuyu karıştırıp kullandığını ve sonra tuhaf cevaplar aldığını gördüm
LLM’ler tüm konuşma bağlamını sürekli yeniden gönderdiği için konu bazında yeni sohbet başlatmak gerekiyor
Aksi halde “karım global değişkenler hakkında ne düşünüyor” gibi garip cevaplar alıyorsunuz
Cursor ya da ChatGPT gibi uygulamalar muhtemelen anlaması zor şeylerdir
Bağlam penceresi kavramını bilmezseniz yapay zekanın aptal olduğunu düşünebilirsiniz. İnsanların yapay zekayı hafife almasının sebeplerinden biri de bu gibi görünüyor
Ayrıca modelin A/B testi içinde olup olmadığını ya da reasoning token’larının kısıtlanıp kısıtlanmadığını bilemediğim için güvenmek zor geliyor
Tamamen ayırmak için bu seçeneği kapatmak gerekiyor
Anakart görselinde RAM, PCIe yuvaları ve DisplayPort konumu tamamen yanlış gösterilmiş
Görsel bağlantısı
Neden böyle bir şeyi tanıtım görseli olarak kullandıklarını anlamıyorum
Extended NYT Connections benchmark’ta GPT‑5.2’nin yüksek akıl yürütmeli sürümü 69.9→77.9’a yükselmiş
Benchmark bağlantısı
Orta ve düşük akıl yürütmeli sürümler de iyileşmiş ama Gemini 3 Pro ile Grok 4.1 Fast Reasoning hâlâ daha yüksek
“Bisiklete binen pelikan” testi ilginç
Görsel örneği
ARC‑AGI‑2 puanındaki artış şaşırtıcı. Genelleme yeteneği ciddi biçimde iyileşmiş gibi görünüyor
Önceki modeller aşırı uyum göstermiş gibiydi ama şimdi kendini düzeltme(self‑correction) daha iyi çalışıyor
Yeni veri merkezleri ya da büyük ölçekli model genişletmesi olmadan bu kadar iyileşme mümkünse gelecek için umut verici
Artık benchmark’lardan çok kullanıcı deneyimi daha önemli geliyor
Benim ChatGPT aboneliğini sürdürme nedenim proje bazlı sohbet düzenleme özelliği
Ama tüm platformların ortak olarak
gibi temel kullanılabilirlik sorunlarını çözmesi gerekiyor
Bu yüzden benchmark’lar bir tür kedi-fare oyunu haline geldi
r/Codex’te şikayet gönderilerinin sansürlendiği hissine kapıldığım için burada dürüstçe yazıyorum
Hız artmış olabilir ama Opus 4.5’ten yavaş ve 5.1’e kıyasla hissedilir iyileşme neredeyse yok
Token maliyeti %40 artmış ama buna değdiğini hissettirmiyor
Gemini 3 ücretsiz olarak ChatGPT Pro seviyesinde, Claude Code da $100/ay fiyatla güçlü
OpenAI sanki varoluşsal bir kriz yaşıyor
“Bilgi kesim tarihi 2025 Ağustos” olması ve fiyat artışı, bunun yeni bir ön eğitim(pretrain) modeli olduğuna işaret ediyor olabilir
GPT‑5.1’in GPT‑4o ile aynı ön eğitimi kullandığı söyleniyordu