GPT‑5.2’nin Tanıtımı

(openai.com)

5 puan yazan GN⁺ 2025-12-12 | 1 yorum | WhatsApp'ta paylaş

GPT‑5.2, uzman bilgi işlerine odaklı en güçlü yapay zeka model serisi olarak, kod yazma, görsel algılama ve karmaşık proje yürütme yetenekleri geliştirilmiş
GDPval değerlendirmesinde, uzmanlık işi görevlerinde 44 başlığın %70.9’unda sektör uzmanlarını geçti veya eşitlenerek en üst performans gösterildi; hız 11 kat, maliyet %1’in altında
SWE‑Bench Pro 55.6%, GPQA Diamond 92.4%, ARC‑AGI‑1 86.2% gibi başlıca kıyaslama ölçütlerinde en iyi performans elde edildi
Uzun bağlam anlama (256k token), görsel bilgi işleme ve araç kullanımı (%98.7) alanlarında GPT‑5.1’e göre önemli iyileştirmeler yapıldı
ChatGPT ve API’de aşamalı olarak dağıtılacak; hedef uzman kullanıcılar için üretkenlik ve güvenilirliği artırmak

GPT‑5.2 Genel Bakış

GPT‑5.2, uzmanlık bilgisi gerektiren işlerde kullanılmak üzere bir yapay zeka model serisi olarak geliştirilmiştir; e-tablolar düzenleme, sunum hazırlama, kod yazma, görsel tanıma, uzun metin anlama, araç kullanımı ve karmaşık proje yürütme yetenekleri güçlendirilmiştir
ChatGPT Enterprise kullanıcıları zaten günde ortalama 40~60 dakika, haftada 10 saatten fazla zaman tasarrufu sağlıyor ve GPT‑5.2 bu verimliliği daha da genişletecek
ChatGPT’de Instant, Thinking ve Pro olmak üzere üç versiyon sunulurken, API’de geliştiricilere anında sunuluyor

Model Performansı

GPT‑5.2 Thinking, GDPval değerlendirmesinde uzman seviyesinin üstüne çıkan performansı ilk kez gösterdi
- 44 uzmanlık işi görevinden oluşan sette %70.9 oranında uzmanlarla eşit ya da daha iyi performans gösterildi
- Uzmanlara göre 11 kat daha hızlı ve maliyet %1’in altında
İç değerlendirmelerde yatırım bankacılığı analizi için e-tablo modelleme görevinin skoru GPT‑5.1’e göre %9.3 arttı (59.1% → 68.4%)
SWE‑Bench Pro 55.6% ile SWE‑Bench Verified 80% değerlerinde yazılım mühendisliği performansı yükseldi
- Gerçek kod hata ayıklama, özellik geliştirme, refaktörleme ve dağıtım işlerinde daha tutarlı çalışıyor
Ön yüz geliştirme ve 3D UI işlerinde de GPT‑5.1’e göre gelişim var
Hata yanıt oranı %30 azalarak halüsinasyon sıklığı düştü

Uzun Bağlam Anlama ve Görsel Algılama

OpenAI MRCRv2 değerlendirmesinde, uzun belgeleri bütünleştirerek anlama performansı en üst seviyeye ulaştı
- 256k token’a kadar yaklaşık %100 doğruluk sağlandı
- Rapor, sözleşme ve akademik makale gibi uzun metinlerin analizine uygun
/compact uç noktasıyla uyumlu olarak bağlamı genişletme iş akışlarını destekliyor
Görsel algılama performansı arttığı için grafik, pano ve arayüz ekran görüntülerinde hata oranı yarı yarıya düştü
- Görselin içindeki bileşenlerin mekânsal düzenini anlama becerisi güçlendirildi

Araç Kullanımı ve Karmaşık Görevler

Tau2‑bench Telecom 98.7% ile araç kullanımı alanında en yüksek başarı kaydedildi
Çok adımlı müşteri desteği, veri toplama, analiz ve sonuç üretimi gibi uçtan uca iş akışları yürütme yeteneği geliştirildi
- Örnek: uçuş gecikme, aktarma ve tazminat talebi gibi çok aşamalı müşteri hizmetleri süreçleri tamamen tamamlanabiliyor

Bilim, Matematik ve Gerekçelendirme Yeteneği

GPQA Diamond 92.4%, FrontierMath Tier 1–3 40.3%, ARC‑AGI‑1 86.2%, ARC‑AGI‑2 52.9% ile başlıca akademik kıyaslamalarda en iyi sonuçlar alındı
GPT‑5.2 Pro, ARC‑AGI‑1’de %90’ı aştı ve maliyet verimliliği 390 kat arttı
GPT‑5.2 Pro ve Thinking, bilimsel araştırmayı hızlandırmak için kullanılabilir
- Gerçek araştırmalarda istatistik kuramı kanıtları önerildi ve doğrulama alındı
Reklam

ChatGPT İçinde Kullanım Deneyimi

GPT‑5.2 Instant: hızlı yanıt ve net açıklama sağlayarak günlük öğrenme ve iş akışları için ideal
GPT‑5.2 Thinking: kod yazma, uzun metin özeti, matematik ve mantık sorularını çözme, planlama gibi karmaşık işlere uygun
GPT‑5.2 Pro: zorlayıcı sorulara yüksek güvenilirlikli cevaplar sunar ve hata oranını düşürür

Güvenlikte Güçlendirmeler

GPT‑5.2, GPT‑5’in Safe Completion çalışması temelinde, intihar, ruh sağlığı ve duygusal bağımlılıkla ilgili konuşma yanıtlarını iyileştirdi
- GPT‑5.1’e kıyasla uygunsuz yanıt oranı azaltıldı
Yaş tahmini modeli ile 18 yaşın altındaki kullanıcılara hassas içerik erişimi sınırlandırıldı
ChatGPT’de aşırı red verme (over‑refusal) sorununu azaltmaya yönelik iyileştirmeler devam ediyor

Fiyatlandırma ve Sağlanma Şekli

ChatGPT ücretli planları (Plus, Pro, Business, Enterprise) için aşamalı dağıtım
API’de gpt‑5.2, gpt‑5.2‑chat‑latest, gpt‑5.2‑pro olarak sunuluyor
Fiyat: her 1 milyon giriş tokeni için $1.75, her 1 milyon çıkış tokeni için $14, önbellekli girişte %90 indirim
- GPT‑5.1’den daha yüksek birim fiyat olmasına rağmen token verimliliği artışıyla toplam maliyette düşüş sağlanır
Reklam
GPT‑5.1 üç ay korunup ardından aşamalı olarak sonlandırılacak
Codex için optimize edilmiş sürüm daha sonra duyurulacak

Teknoloji Ortaklıkları

NVIDIA ve Microsoft ile iş birliği yapılarak GPT‑5.2 geliştirildi
- Azure veri merkezleri ve H100, H200, GB200‑NVL72 GPU altyapısı kullanıldı
- Büyük ölçekli eğitim verimliliğini ve model zekâsını destekliyor

Önemli Kıyaslama Özeti

GDPval: 70.9% (GPT‑5.1 38.8%)
SWE‑Bench Verified: 80.0%
OpenAI MRCRv2 (256k) : 77.0%
CharXiv Reasoning (w/ Python) : 88.7%
Tau2‑bench Telecom: 98.7%
ARC‑AGI‑1 (Verified) : 86.2%
AIME 2025: 100%
FrontierMath Tier 1–3: 40.3%

GPT‑5.2, zeka, güvenilirlik ve üretkenlik açısından önceki jenerasyon modelin büyük bir bölümünü geride bırakarak, uzman seviyesinde pratik destek sunan bir yapay zeka olarak konumlanıyor.

1 yorum

GN⁺ 2025-12-12

Hacker News görüşleri

Son birkaç aydır ChatGPT’yi ücretli olarak kullanıp kodlama, haberler, hisse analizi, günlük sorun çözme gibi neredeyse her amaç için kullandım
Ama Gemini 3 çıktıktan sonra deneyince tüm kullanım senaryolarında çok daha iyi sonuç verdiğini gördüm
Özellikle web araması entegrasyonu gerektiren güncel bilgi aramada güçlüydü. OCR da harika, benim kötü el yazımı bile iyi tanıyor
Yine de uygulamada çok hata var, oturum sık sık kopuyor ve fotoğraf yükleme hataları da var.
En rahatsız edici nokta, tüm bağlantıların Google araması üzerinden geçmesi; doğrudan siteye gitmek için düzeltmek gerekiyor.
Genel olarak vardığım sonuç, ChatGPT’nin arama entegrasyonu gücü konusunda geride kaldığı ve bunu kapatmasının zor olacağı yönünde
- “Sadece politika sorunu var” demek fazla hafif kalıyor. Günde birkaç kez yaşanan tüm iş parçacığının silinmesi hatası yüzünden küfredecek hale geliyorum
  Yalnızca durdurmak bile verinin kaybolmasına yol açıyor; tipik bir Google usulü tamamlanmamış ürün hissi veriyor
  Sesli mod fikri iyi ama sık sık bozuluyor ve kafasına göre soruları tekrarlıyor
- Ben tam tersini yaşadım. ChatGPT birkaç kez arama yapıp sonuçları analiz ettikten sonra ek aramalar da yaparken Gemini neredeyse hiç arama yapmıyor
  ChatGPT PDF ya da ekran görüntülerini açıp OCR girdisi olarak kullanıyor ama Gemini bunları görmezden geliyor
- Bağlantıların Google araması üzerinden gitmesinin nedeni, içeride zararlı yazılım·oltalama kontrolü yapılması
  Ama artık tarayıcılar bunu kendi başına hallediyor, bu yüzden tıklama bilgisini illa Google’a göndermek gerekmiyor
  Doğrudan bağlantıya çevirseniz de sorun olmuyor
- Benim durumumda Gemini 3 Pro’nun halüsinasyon sorunu daha ağırdı. Var olmayan kaynaklar bile uyduruyordu
  Opus 4.5’in kalitesi daha iyi ama kullanım sınırları çok sıkı; birkaç aboneliği birlikte yürütmeyi düşünüyorum
- Gemini’nin ses tanıma kalitesi o kadar kötüydü ki kullanamadım
  OCR’dan çok ses özelliğini kullanan biri olarak bu ölümcül bir eksik
  “Arama entegrasyonu güçlü” iddiasını da anlamıyorum. Güncel bilgi aramada ChatGPT’nin gerçekten daha kötü kaldığı bir örnek merak ediyorum
Blog duyurusunda yok ama gerçek bağlam penceresi boyutu 400 bin token
Resmi belgede açıkça yazıyor
Tüm bağlamı kullanma yeteneğinin de iyileştiği söyleniyor; umut verici
Rust/CUDA projesinde Codex 5.1 kullanırken Gemini 3’e geçtim; başta hataları iyi yakaladığı için etkilendim ama kısa sürede komutları yok sayma, bozuk çıktı, opak akıl yürütme süreci yüzünden çıldıracak gibi oldum
Yeniden Codex’e dönünce daha istikrarlı olduğunu ve geri bildirimi iyi yansıttığını gördüm. Şimdi bir de GPT‑5.2 xhigh modu çıktı; sanki Noel hediyesi almış gibiyim
- 400 bin token zaten GPT‑5, 5.1, 5‑mini gibi modellerde de vardı. Ama uzun bağlam işleme performansı iyileştiyse bu büyük anlam taşır
- Bende xhigh modu high’dan bile daha kötü sonuç verdi; acaba PEBKAC(kullanıcı hatası) mı diye düşündüm. Karşılaştırma yapan oldu mu merak ediyorum
- Son zamanlarda yorumları görünce bunların gerçek kullanıcı deneyimi mi yoksa sponsorlu tanıtım mı olduğunu ayırt etmek zorlaşıyor
  Eskisi gibi sorunların ve çözümlerin dürüstçe tartışıldığı forum kültürünü özlüyorum
Birçok geliştiricinin tek bir oturumda yemek, hediye, kodlama gibi her konuyu karıştırıp kullandığını ve sonra tuhaf cevaplar aldığını gördüm
LLM’ler tüm konuşma bağlamını sürekli yeniden gönderdiği için konu bazında yeni sohbet başlatmak gerekiyor
Aksi halde “karım global değişkenler hakkında ne düşünüyor” gibi garip cevaplar alıyorsunuz
- Bazen şunu düşünüyorum: LLM’lerin iç çalışma mantığını bilmeyen biri için bu araçlar ne kadar tuhaf görünüyordur?
  Cursor ya da ChatGPT gibi uygulamalar muhtemelen anlaması zor şeylerdir
- Ben de fast.ai derslerini dinleyip VLLM dahil çeşitli modelleri doğrudan kurcalamış olmanın çok faydasını gördüm
  Bağlam penceresi kavramını bilmezseniz yapay zekanın aptal olduğunu düşünebilirsiniz. İnsanların yapay zekayı hafife almasının sebeplerinden biri de bu gibi görünüyor
- Hangi bağlamın bırakılması gerektiği de net değil. Benzer üslupta metin eklediğimde performans daha da düştü
  Ayrıca modelin A/B testi içinde olup olmadığını ya da reasoning token’larının kısıtlanıp kısıtlanmadığını bilemediğim için güvenmek zor geliyor
- ChatGPT’nin “Reference chat history” seçeneği varsayılan olarak açık; bu yüzden yeni sohbet açsanız da eski içerikler karışıyor
  Tamamen ayırmak için bu seçeneği kapatmak gerekiyor
- LLM’lerle “romantik ilişki” yaşayan insanlar hakkında bir podcast dinledim; görünüşe göre sadece bağlamı sıfırlayınca onun tamamen yabancı bir varlığa döndüğünü bilmiyorlar
Anakart görselinde RAM, PCIe yuvaları ve DisplayPort konumu tamamen yanlış gösterilmiş
Görsel bağlantısı
Neden böyle bir şeyi tanıtım görseli olarak kullandıklarını anlamıyorum
- Amaç, GPT‑5.2’nin görsel performansının iyileştiğini ama kusursuz olmadığını göstermekti. Sadece mükemmel sonuçları seçmek aksine yanlış izlenim verebilir
- USB Type‑A portları da ikili yığınlar halinde 2 değil, toplam 4 tane
- Yazının gövdesinde de “iki modelde de hata var ama GPT‑5.2 daha iyi anlama gösterdi” diye açıkça yazıyor
- Bugünlerde yapay zeka topluluğu kültürü, sonuç doğrulaması yapmadan sadece üretim çıktısı çoğaltma eğiliminde olduğu için böyle hatalar ortaya çıkıyor diye düşünüyorum
- Yine de görsel çözünürlüğü 2003 kapaklı telefon seviyesi; hata çıkması şaşırtıcı değil
Extended NYT Connections benchmark’ta GPT‑5.2’nin yüksek akıl yürütmeli sürümü 69.9→77.9’a yükselmiş
Benchmark bağlantısı
Orta ve düşük akıl yürütmeli sürümler de iyileşmiş ama Gemini 3 Pro ile Grok 4.1 Fast Reasoning hâlâ daha yüksek
- Gemini 3 Pro Preview’un aynı testte %96.8 alması etkileyici
- Başka biri Clues by Sam bulmacalarıyla test etmiş ve GPT‑5 Pro zaten birinci olmuş
- Neden Grok 4.1 reasoning sonucu eklenmemiş merak ediyorum
“Bisiklete binen pelikan” testi ilginç
Görsel örneği
- Oynaklık çok yüksek olduğu için test değeri düşük. 10 kez denedim, yarısında sonuç kusursuzdu
- Muhtemelen 5.1 sürümünün fazla tekdüze olduğu yönündeki geri bildirimi yansıtmışlar. POV‑Ray sürümünde de aynı şeyi yaşadım
- Giderek aerodinamik olarak evrimleşmesi yapay zekanın akıllandığı hissini veriyor
- “Güvendiğim tek benchmark bu” esprisi çıkacak kadar meşhur oldu
- Ama aynı benchmark’ı fazla uzun süre kullanmak da iyi bir fikir değil
ARC‑AGI‑2 puanındaki artış şaşırtıcı. Genelleme yeteneği ciddi biçimde iyileşmiş gibi görünüyor
Önceki modeller aşırı uyum göstermiş gibiydi ama şimdi kendini düzeltme(self‑correction) daha iyi çalışıyor
Yeni veri merkezleri ya da büyük ölçekli model genişletmesi olmadan bu kadar iyileşme mümkünse gelecek için umut verici
- Ben de ARC‑AGI‑2 sonuçlarına dikkat ettim. Gerçekten büyük bir sıçrama
Artık benchmark’lardan çok kullanıcı deneyimi daha önemli geliyor
Benim ChatGPT aboneliğini sürdürme nedenim proje bazlı sohbet düzenleme özelliği
Ama tüm platformların ortak olarak
- kendinden emin şekilde yalan söylemesi
- prompt’ları düzgün takip etmemesi
- belirsizliği ifade etmemesi
- gereksiz övgü ve uzun cevapları bırakmaması
- kaynak göstermede tutarsız olması
- özgün metni mi yoksa özetini mi gördüğünü açıkça belirtmemesi
  gibi temel kullanılabilirlik sorunlarını çözmesi gerekiyor
- Nesnel ölçütlerin dışına çıkınca ölçümün geçerliliğini savunmak zorlaşıyor ama ölçülebilen göstergeler kolayca manipüle edilebilir
  Bu yüzden benchmark’lar bir tür kedi-fare oyunu haline geldi
r/Codex’te şikayet gönderilerinin sansürlendiği hissine kapıldığım için burada dürüstçe yazıyorum
Hız artmış olabilir ama Opus 4.5’ten yavaş ve 5.1’e kıyasla hissedilir iyileşme neredeyse yok
Token maliyeti %40 artmış ama buna değdiğini hissettirmiyor
Gemini 3 ücretsiz olarak ChatGPT Pro seviyesinde, Claude Code da $100/ay fiyatla güçlü
OpenAI sanki varoluşsal bir kriz yaşıyor
- Gemini 2.5’ten 3’e geçerken de büyük bir iyileşme olmamıştı. Genel olarak gerçek ilerleme durmuş gibi hissettiriyor
“Bilgi kesim tarihi 2025 Ağustos” olması ve fiyat artışı, bunun yeni bir ön eğitim(pretrain) modeli olduğuna işaret ediyor olabilir
GPT‑5.1’in GPT‑4o ile aynı ön eğitimi kullandığı söyleniyordu
- Yeni bir pretrain’in maliyeti çok yüksek olur; bu yüzden sadece 0.1 sürüm artışıyla kalmazdı
- Ya da 5.1 daha eski bir checkpoint’ti veya quantization daha agresifti
- Ya da sadece aynı modele bir tur daha düşük kaliteli veri(slop) yedirmiş olabilirler