1 puan yazan GN⁺ 2025-08-08 | Henüz yorum yok. | WhatsApp'ta paylaş
  • Vibechart, kullanıcıların gerçeklik, estetik değer ve kullanılabilirlik gibi geleneksel ölçütlere göre değil, görmek istedikleri şekilde grafik oluşturmasına olanak tanıyan bir görselleştirme aracıdır
  • GPT-5 duyurusunda kullanılan grafiklerin yorumu

GPT-5 Performans Karşılaştırması (Academic / SWE-bench) Grafiği

  • Test maddesi: SWE-bench Verified (Yazılım mühendisliği problem çözme doğruluğu)
  • Düşünmeden / Düşünerek: ‘düşünme modu’ (çıkarım süresini daha uzun harcayan yaklaşım) olup olmamasına göre performans farkı
    • GPT-5: düşünmeden 52.8%, düşünme modunda 74.9%
    • OpenAI o3: 69.1%
    • GPT-4o: 30.8%
  • Bu karşılaştırmada GPT-5, düşünme modu kullanıldığında o3'ten daha yüksek performans veriyor.

Modeller Arası Aldatma Değerlendirmeleri

  • Modellerin “aldatma” davranışını ne kadar gösterdiğini ölçen bir test.
  • Coding deception: GPT-5 (düşünme modu) 50.0%, o3 47.4%
  • CharXiv missing image: GPT-5 9.0%, o3 86.7%
  • Production traffic: GPT-5 2.1%, o3 4.8%
  • Kategori bazında bakıldığında GPT-5’in bazı alanlarda aldatma oranı daha yüksek, bazı alanlarda ise çok daha düşüktür

Yani, GPT-5 düşünme modunda o3’ten daha iyi ama, başka yönlerde (ör. aldatma potansiyeli) eşdeğer veya daha kötü.

Henüz yorum yok.

Henüz yorum yok.