5 puan yazan GN⁺ 2025-12-12 | 1 yorum | WhatsApp'ta paylaş
  • GPT‑5.2, uzman bilgi işlerine odaklı en güçlü yapay zeka model serisi olarak, kod yazma, görsel algılama ve karmaşık proje yürütme yetenekleri geliştirilmiş
  • GDPval değerlendirmesinde, uzmanlık işi görevlerinde 44 başlığın %70.9’unda sektör uzmanlarını geçti veya eşitlenerek en üst performans gösterildi; hız 11 kat, maliyet %1’in altında
  • SWE‑Bench Pro 55.6%, GPQA Diamond 92.4%, ARC‑AGI‑1 86.2% gibi başlıca kıyaslama ölçütlerinde en iyi performans elde edildi
  • Uzun bağlam anlama (256k token), görsel bilgi işleme ve araç kullanımı (%98.7) alanlarında GPT‑5.1’e göre önemli iyileştirmeler yapıldı
  • ChatGPT ve API’de aşamalı olarak dağıtılacak; hedef uzman kullanıcılar için üretkenlik ve güvenilirliği artırmak

GPT‑5.2 Genel Bakış

  • GPT‑5.2, uzmanlık bilgisi gerektiren işlerde kullanılmak üzere bir yapay zeka model serisi olarak geliştirilmiştir; e-tablolar düzenleme, sunum hazırlama, kod yazma, görsel tanıma, uzun metin anlama, araç kullanımı ve karmaşık proje yürütme yetenekleri güçlendirilmiştir
  • ChatGPT Enterprise kullanıcıları zaten günde ortalama 40~60 dakika, haftada 10 saatten fazla zaman tasarrufu sağlıyor ve GPT‑5.2 bu verimliliği daha da genişletecek
  • ChatGPT’de Instant, Thinking ve Pro olmak üzere üç versiyon sunulurken, API’de geliştiricilere anında sunuluyor

Model Performansı

  • GPT‑5.2 Thinking, GDPval değerlendirmesinde uzman seviyesinin üstüne çıkan performansı ilk kez gösterdi
    • 44 uzmanlık işi görevinden oluşan sette %70.9 oranında uzmanlarla eşit ya da daha iyi performans gösterildi
    • Uzmanlara göre 11 kat daha hızlı ve maliyet %1’in altında
  • İç değerlendirmelerde yatırım bankacılığı analizi için e-tablo modelleme görevinin skoru GPT‑5.1’e göre %9.3 arttı (59.1% → 68.4%)
  • SWE‑Bench Pro 55.6% ile SWE‑Bench Verified 80% değerlerinde yazılım mühendisliği performansı yükseldi
    • Gerçek kod hata ayıklama, özellik geliştirme, refaktörleme ve dağıtım işlerinde daha tutarlı çalışıyor
  • Ön yüz geliştirme ve 3D UI işlerinde de GPT‑5.1’e göre gelişim var
  • Hata yanıt oranı %30 azalarak halüsinasyon sıklığı düştü
Reklam

Uzun Bağlam Anlama ve Görsel Algılama

  • OpenAI MRCRv2 değerlendirmesinde, uzun belgeleri bütünleştirerek anlama performansı en üst seviyeye ulaştı
    • 256k token’a kadar yaklaşık %100 doğruluk sağlandı
    • Rapor, sözleşme ve akademik makale gibi uzun metinlerin analizine uygun
  • /compact uç noktasıyla uyumlu olarak bağlamı genişletme iş akışlarını destekliyor
  • Görsel algılama performansı arttığı için grafik, pano ve arayüz ekran görüntülerinde hata oranı yarı yarıya düştü
    • Görselin içindeki bileşenlerin mekânsal düzenini anlama becerisi güçlendirildi

Araç Kullanımı ve Karmaşık Görevler

  • Tau2‑bench Telecom 98.7% ile araç kullanımı alanında en yüksek başarı kaydedildi
  • Çok adımlı müşteri desteği, veri toplama, analiz ve sonuç üretimi gibi uçtan uca iş akışları yürütme yeteneği geliştirildi
    • Örnek: uçuş gecikme, aktarma ve tazminat talebi gibi çok aşamalı müşteri hizmetleri süreçleri tamamen tamamlanabiliyor

Bilim, Matematik ve Gerekçelendirme Yeteneği

  • GPQA Diamond 92.4%, FrontierMath Tier 1–3 40.3%, ARC‑AGI‑1 86.2%, ARC‑AGI‑2 52.9% ile başlıca akademik kıyaslamalarda en iyi sonuçlar alındı
  • GPT‑5.2 Pro, ARC‑AGI‑1’de %90’ı aştı ve maliyet verimliliği 390 kat arttı
  • GPT‑5.2 Pro ve Thinking, bilimsel araştırmayı hızlandırmak için kullanılabilir
    • Gerçek araştırmalarda istatistik kuramı kanıtları önerildi ve doğrulama alındı
    Reklam

ChatGPT İçinde Kullanım Deneyimi

  • GPT‑5.2 Instant: hızlı yanıt ve net açıklama sağlayarak günlük öğrenme ve iş akışları için ideal
  • GPT‑5.2 Thinking: kod yazma, uzun metin özeti, matematik ve mantık sorularını çözme, planlama gibi karmaşık işlere uygun
  • GPT‑5.2 Pro: zorlayıcı sorulara yüksek güvenilirlikli cevaplar sunar ve hata oranını düşürür

Güvenlikte Güçlendirmeler

  • GPT‑5.2, GPT‑5’in Safe Completion çalışması temelinde, intihar, ruh sağlığı ve duygusal bağımlılıkla ilgili konuşma yanıtlarını iyileştirdi
    • GPT‑5.1’e kıyasla uygunsuz yanıt oranı azaltıldı
  • Yaş tahmini modeli ile 18 yaşın altındaki kullanıcılara hassas içerik erişimi sınırlandırıldı
  • ChatGPT’de aşırı red verme (over‑refusal) sorununu azaltmaya yönelik iyileştirmeler devam ediyor

Fiyatlandırma ve Sağlanma Şekli

  • ChatGPT ücretli planları (Plus, Pro, Business, Enterprise) için aşamalı dağıtım
  • API’de gpt‑5.2, gpt‑5.2‑chat‑latest, gpt‑5.2‑pro olarak sunuluyor
  • Fiyat: her 1 milyon giriş tokeni için $1.75, her 1 milyon çıkış tokeni için $14, önbellekli girişte %90 indirim
    • GPT‑5.1’den daha yüksek birim fiyat olmasına rağmen token verimliliği artışıyla toplam maliyette düşüş sağlanır
    Reklam
  • GPT‑5.1 üç ay korunup ardından aşamalı olarak sonlandırılacak
  • Codex için optimize edilmiş sürüm daha sonra duyurulacak

Teknoloji Ortaklıkları

  • NVIDIA ve Microsoft ile iş birliği yapılarak GPT‑5.2 geliştirildi
    • Azure veri merkezleri ve H100, H200, GB200‑NVL72 GPU altyapısı kullanıldı
    • Büyük ölçekli eğitim verimliliğini ve model zekâsını destekliyor

Önemli Kıyaslama Özeti

  • GDPval: 70.9% (GPT‑5.1 38.8%)
  • SWE‑Bench Verified: 80.0%
  • OpenAI MRCRv2 (256k) : 77.0%
  • CharXiv Reasoning (w/ Python) : 88.7%
  • Tau2‑bench Telecom: 98.7%
  • ARC‑AGI‑1 (Verified) : 86.2%
  • AIME 2025: 100%
  • FrontierMath Tier 1–3: 40.3%

GPT‑5.2, zeka, güvenilirlik ve üretkenlik açısından önceki jenerasyon modelin büyük bir bölümünü geride bırakarak, uzman seviyesinde pratik destek sunan bir yapay zeka olarak konumlanıyor.

1 yorum

 
GN⁺ 2025-12-12
Hacker News görüşleri
  • Son birkaç aydır ChatGPT’yi ücretli olarak kullanıp kodlama, haberler, hisse analizi, günlük sorun çözme gibi neredeyse her amaç için kullandım
    Ama Gemini 3 çıktıktan sonra deneyince tüm kullanım senaryolarında çok daha iyi sonuç verdiğini gördüm
    Özellikle web araması entegrasyonu gerektiren güncel bilgi aramada güçlüydü. OCR da harika, benim kötü el yazımı bile iyi tanıyor
    Yine de uygulamada çok hata var, oturum sık sık kopuyor ve fotoğraf yükleme hataları da var.
    En rahatsız edici nokta, tüm bağlantıların Google araması üzerinden geçmesi; doğrudan siteye gitmek için düzeltmek gerekiyor.
    Genel olarak vardığım sonuç, ChatGPT’nin arama entegrasyonu gücü konusunda geride kaldığı ve bunu kapatmasının zor olacağı yönünde

    • “Sadece politika sorunu var” demek fazla hafif kalıyor. Günde birkaç kez yaşanan tüm iş parçacığının silinmesi hatası yüzünden küfredecek hale geliyorum
      Yalnızca durdurmak bile verinin kaybolmasına yol açıyor; tipik bir Google usulü tamamlanmamış ürün hissi veriyor
      Sesli mod fikri iyi ama sık sık bozuluyor ve kafasına göre soruları tekrarlıyor
    • Ben tam tersini yaşadım. ChatGPT birkaç kez arama yapıp sonuçları analiz ettikten sonra ek aramalar da yaparken Gemini neredeyse hiç arama yapmıyor
      ChatGPT PDF ya da ekran görüntülerini açıp OCR girdisi olarak kullanıyor ama Gemini bunları görmezden geliyor
    • Bağlantıların Google araması üzerinden gitmesinin nedeni, içeride zararlı yazılım·oltalama kontrolü yapılması
      Ama artık tarayıcılar bunu kendi başına hallediyor, bu yüzden tıklama bilgisini illa Google’a göndermek gerekmiyor
      Doğrudan bağlantıya çevirseniz de sorun olmuyor
    • Benim durumumda Gemini 3 Pro’nun halüsinasyon sorunu daha ağırdı. Var olmayan kaynaklar bile uyduruyordu
      Opus 4.5’in kalitesi daha iyi ama kullanım sınırları çok sıkı; birkaç aboneliği birlikte yürütmeyi düşünüyorum
    • Gemini’nin ses tanıma kalitesi o kadar kötüydü ki kullanamadım
      OCR’dan çok ses özelliğini kullanan biri olarak bu ölümcül bir eksik
      “Arama entegrasyonu güçlü” iddiasını da anlamıyorum. Güncel bilgi aramada ChatGPT’nin gerçekten daha kötü kaldığı bir örnek merak ediyorum
  • Blog duyurusunda yok ama gerçek bağlam penceresi boyutu 400 bin token
    Resmi belgede açıkça yazıyor
    Tüm bağlamı kullanma yeteneğinin de iyileştiği söyleniyor; umut verici
    Rust/CUDA projesinde Codex 5.1 kullanırken Gemini 3’e geçtim; başta hataları iyi yakaladığı için etkilendim ama kısa sürede komutları yok sayma, bozuk çıktı, opak akıl yürütme süreci yüzünden çıldıracak gibi oldum
    Yeniden Codex’e dönünce daha istikrarlı olduğunu ve geri bildirimi iyi yansıttığını gördüm. Şimdi bir de GPT‑5.2 xhigh modu çıktı; sanki Noel hediyesi almış gibiyim

    • 400 bin token zaten GPT‑5, 5.1, 5‑mini gibi modellerde de vardı. Ama uzun bağlam işleme performansı iyileştiyse bu büyük anlam taşır
    • Bende xhigh modu high’dan bile daha kötü sonuç verdi; acaba PEBKAC(kullanıcı hatası) mı diye düşündüm. Karşılaştırma yapan oldu mu merak ediyorum
    • Son zamanlarda yorumları görünce bunların gerçek kullanıcı deneyimi mi yoksa sponsorlu tanıtım mı olduğunu ayırt etmek zorlaşıyor
      Eskisi gibi sorunların ve çözümlerin dürüstçe tartışıldığı forum kültürünü özlüyorum
  • Birçok geliştiricinin tek bir oturumda yemek, hediye, kodlama gibi her konuyu karıştırıp kullandığını ve sonra tuhaf cevaplar aldığını gördüm
    LLM’ler tüm konuşma bağlamını sürekli yeniden gönderdiği için konu bazında yeni sohbet başlatmak gerekiyor
    Aksi halde “karım global değişkenler hakkında ne düşünüyor” gibi garip cevaplar alıyorsunuz

    • Bazen şunu düşünüyorum: LLM’lerin iç çalışma mantığını bilmeyen biri için bu araçlar ne kadar tuhaf görünüyordur?
      Cursor ya da ChatGPT gibi uygulamalar muhtemelen anlaması zor şeylerdir
    • Ben de fast.ai derslerini dinleyip VLLM dahil çeşitli modelleri doğrudan kurcalamış olmanın çok faydasını gördüm
      Bağlam penceresi kavramını bilmezseniz yapay zekanın aptal olduğunu düşünebilirsiniz. İnsanların yapay zekayı hafife almasının sebeplerinden biri de bu gibi görünüyor
    • Hangi bağlamın bırakılması gerektiği de net değil. Benzer üslupta metin eklediğimde performans daha da düştü
      Ayrıca modelin A/B testi içinde olup olmadığını ya da reasoning token’larının kısıtlanıp kısıtlanmadığını bilemediğim için güvenmek zor geliyor
    • ChatGPT’nin “Reference chat history” seçeneği varsayılan olarak açık; bu yüzden yeni sohbet açsanız da eski içerikler karışıyor
      Tamamen ayırmak için bu seçeneği kapatmak gerekiyor
    • LLM’lerle “romantik ilişki” yaşayan insanlar hakkında bir podcast dinledim; görünüşe göre sadece bağlamı sıfırlayınca onun tamamen yabancı bir varlığa döndüğünü bilmiyorlar
  • Anakart görselinde RAM, PCIe yuvaları ve DisplayPort konumu tamamen yanlış gösterilmiş
    Görsel bağlantısı
    Neden böyle bir şeyi tanıtım görseli olarak kullandıklarını anlamıyorum

    • Amaç, GPT‑5.2’nin görsel performansının iyileştiğini ama kusursuz olmadığını göstermekti. Sadece mükemmel sonuçları seçmek aksine yanlış izlenim verebilir
    • USB Type‑A portları da ikili yığınlar halinde 2 değil, toplam 4 tane
    • Yazının gövdesinde de “iki modelde de hata var ama GPT‑5.2 daha iyi anlama gösterdi” diye açıkça yazıyor
    • Bugünlerde yapay zeka topluluğu kültürü, sonuç doğrulaması yapmadan sadece üretim çıktısı çoğaltma eğiliminde olduğu için böyle hatalar ortaya çıkıyor diye düşünüyorum
    • Yine de görsel çözünürlüğü 2003 kapaklı telefon seviyesi; hata çıkması şaşırtıcı değil
  • Extended NYT Connections benchmark’ta GPT‑5.2’nin yüksek akıl yürütmeli sürümü 69.9→77.9’a yükselmiş
    Benchmark bağlantısı
    Orta ve düşük akıl yürütmeli sürümler de iyileşmiş ama Gemini 3 Pro ile Grok 4.1 Fast Reasoning hâlâ daha yüksek

    • Gemini 3 Pro Preview’un aynı testte %96.8 alması etkileyici
    • Başka biri Clues by Sam bulmacalarıyla test etmiş ve GPT‑5 Pro zaten birinci olmuş
    • Neden Grok 4.1 reasoning sonucu eklenmemiş merak ediyorum
  • “Bisiklete binen pelikan” testi ilginç
    Görsel örneği

    • Oynaklık çok yüksek olduğu için test değeri düşük. 10 kez denedim, yarısında sonuç kusursuzdu
    • Muhtemelen 5.1 sürümünün fazla tekdüze olduğu yönündeki geri bildirimi yansıtmışlar. POV‑Ray sürümünde de aynı şeyi yaşadım
    • Giderek aerodinamik olarak evrimleşmesi yapay zekanın akıllandığı hissini veriyor
    • “Güvendiğim tek benchmark bu” esprisi çıkacak kadar meşhur oldu
    • Ama aynı benchmark’ı fazla uzun süre kullanmak da iyi bir fikir değil
  • ARC‑AGI‑2 puanındaki artış şaşırtıcı. Genelleme yeteneği ciddi biçimde iyileşmiş gibi görünüyor
    Önceki modeller aşırı uyum göstermiş gibiydi ama şimdi kendini düzeltme(self‑correction) daha iyi çalışıyor
    Yeni veri merkezleri ya da büyük ölçekli model genişletmesi olmadan bu kadar iyileşme mümkünse gelecek için umut verici

    • Ben de ARC‑AGI‑2 sonuçlarına dikkat ettim. Gerçekten büyük bir sıçrama
  • Artık benchmark’lardan çok kullanıcı deneyimi daha önemli geliyor
    Benim ChatGPT aboneliğini sürdürme nedenim proje bazlı sohbet düzenleme özelliği
    Ama tüm platformların ortak olarak

    • kendinden emin şekilde yalan söylemesi
    • prompt’ları düzgün takip etmemesi
    • belirsizliği ifade etmemesi
    • gereksiz övgü ve uzun cevapları bırakmaması
    • kaynak göstermede tutarsız olması
    • özgün metni mi yoksa özetini mi gördüğünü açıkça belirtmemesi
      gibi temel kullanılabilirlik sorunlarını çözmesi gerekiyor
    • Nesnel ölçütlerin dışına çıkınca ölçümün geçerliliğini savunmak zorlaşıyor ama ölçülebilen göstergeler kolayca manipüle edilebilir
      Bu yüzden benchmark’lar bir tür kedi-fare oyunu haline geldi
  • r/Codex’te şikayet gönderilerinin sansürlendiği hissine kapıldığım için burada dürüstçe yazıyorum
    Hız artmış olabilir ama Opus 4.5’ten yavaş ve 5.1’e kıyasla hissedilir iyileşme neredeyse yok
    Token maliyeti %40 artmış ama buna değdiğini hissettirmiyor
    Gemini 3 ücretsiz olarak ChatGPT Pro seviyesinde, Claude Code da $100/ay fiyatla güçlü
    OpenAI sanki varoluşsal bir kriz yaşıyor

    • Gemini 2.5’ten 3’e geçerken de büyük bir iyileşme olmamıştı. Genel olarak gerçek ilerleme durmuş gibi hissettiriyor
  • Bilgi kesim tarihi 2025 Ağustos” olması ve fiyat artışı, bunun yeni bir ön eğitim(pretrain) modeli olduğuna işaret ediyor olabilir
    GPT‑5.1’in GPT‑4o ile aynı ön eğitimi kullandığı söyleniyordu

    • Yeni bir pretrain’in maliyeti çok yüksek olur; bu yüzden sadece 0.1 sürüm artışıyla kalmazdı
    • Ya da 5.1 daha eski bir checkpoint’ti veya quantization daha agresifti
    • Ya da sadece aynı modele bir tur daha düşük kaliteli veri(slop) yedirmiş olabilirler