Vibechart
(vibechart.net)- Vibechart, kullanıcıların gerçeklik, estetik değer ve kullanılabilirlik gibi geleneksel ölçütlere göre değil, görmek istedikleri şekilde grafik oluşturmasına olanak tanıyan bir görselleştirme aracıdır
- GPT-5 duyurusunda kullanılan grafiklerin yorumu
GPT-5 Performans Karşılaştırması (Academic / SWE-bench) Grafiği
- Test maddesi: SWE-bench Verified (Yazılım mühendisliği problem çözme doğruluğu)
- Düşünmeden / Düşünerek: ‘düşünme modu’ (çıkarım süresini daha uzun harcayan yaklaşım) olup olmamasına göre performans farkı
- GPT-5: düşünmeden 52.8%, düşünme modunda 74.9%
- OpenAI o3: 69.1%
- GPT-4o: 30.8%
- Bu karşılaştırmada GPT-5, düşünme modu kullanıldığında o3'ten daha yüksek performans veriyor.
Modeller Arası Aldatma Değerlendirmeleri
- Modellerin “aldatma” davranışını ne kadar gösterdiğini ölçen bir test.
- Coding deception: GPT-5 (düşünme modu) 50.0%, o3 47.4%
- CharXiv missing image: GPT-5 9.0%, o3 86.7%
- Production traffic: GPT-5 2.1%, o3 4.8%
- Kategori bazında bakıldığında GPT-5’in bazı alanlarda aldatma oranı daha yüksek, bazı alanlarda ise çok daha düşüktür
Yani, GPT-5 düşünme modunda o3’ten daha iyi ama, başka yönlerde (ör. aldatma potansiyeli) eşdeğer veya daha kötü.
Henüz yorum yok.