3 puan yazan fortune 2025-12-12 | Henüz yorum yok. | WhatsApp'ta paylaş

[GPT-5.1 düşünme -> GPT-5.2 düşünme]

  • Yatırım bankacılığı elektronik tablo görevi (iç): 59.1% → 68.4%

    • 3 adet finansal tablo/LBO elektronik tablo modelleme görevi
  • SWE-Bench Pro (açık): 50.8% → 55.6%

    • 4 farklı dilde gerçek repo yaması uygulaması
  • OpenAI MRCRv2 (8-shot, 128k–256k): 29.6% → 77.0%

    • Çok uzun belgelerden bilgiyi bulup yeniden üretmek
  • ScreenSpot Pro (Python dahil): 64.2% → 86.3%

    • UI ekran görüntülerini anlayıp sorulara yanıt vermek
  • ARC-AGI-2 (doğrulanmış): 17.6% → 52.9%

    • Zorlayıcı soyut akıl yürütme bulmacaları (doğrulanmış)

Henüz yorum yok.

Henüz yorum yok.