CursorBench 3.1 model değerlendirme sonuçları
(cursor.com)- Cursor’ın kodlama modeli değerlendirme tablosunda Fable 5 Max %72,9 ile birinci sırayı alarak üst sıralardaki rekabet için referans noktası oldu
- Fable 5 serisi Max, Extra High, High ve Medium ile 1–4. sıraların tamamını alarak diğer model aileleriyle belirgin bir fark gösterdi
-
- sıradan sonra Opus 4.7 Max %64,8, GPT-5.5 Extra High %64,3, Fable 5 Low %64,2, Opus 4.8 Max %63,8 ve Composer 2.5 %63,2 ile geliyor
- CursorBench 3.1; kod tabanı anlama, hata bulma, planlama ve kod inceleme odaklı görevler ekliyor, ayrıca bazı düzenleme görevlerinin puanlama kriterlerini iyileştiriyor
- Görev başına ortalama maliyet, açık token fiyatları ve görev bazında kullanılan token’larla hesaplanıyor; küçük puan farkları istatistiksel olarak anlamlı olmayabilir
Üst sıraları Fable 5 domine ediyor
- CursorBench 3.1 tablosu, model bazında sıralamayı, puanı, görev başına ortalama maliyeti ve kullanım ile ilgili sayıları birlikte karşılaştırıyor
-
- sıradan 4. sıraya kadar modellerin tamamı Fable 5 serisinden
- Fable 5 Max: %72,9, $18.02, 63,842, 76
- Fable 5 Extra High: %72,0, $13.74, 48,754, 63
- Fable 5 High: %70,6, $10.81, 37,173, 54
- Fable 5 Medium: %69,8, $8.27, 28,507, 47
- 5–10. sıra aralığında Opus, GPT-5.5, Fable ve Composer modelleri karışık olarak yer alıyor
- Opus 4.7 Max: %64,8, $11.02, 62,989, 96
- GPT-5.5 Extra High: %64,3, $4.37, 17,905, 46
- Fable 5 Low: %64,2, $5.70, 18,882, 36
- Opus 4.8 Max: %63,8, $7.59, 77,370, 60
- Composer 2.5: %63,2, $0.55, 15,152, 37
- GPT-5.5 High: %62,6, $3.59, 13,329, 40
Orta ve alt sıralardaki modellere göre puanlar
- 11–20. sıraları ağırlıklı olarak Opus, Sonnet ve GPT-5.5 modelleri alıyor
- Opus 4.8 Extra High: %62,1, $6.14, 55,622, 54
- Opus 4.7 Extra High: %61,6, $7.11, 43,942, 72
- Sonnet 5 Max: %61,2, $6.87, 93,485, 93
- Opus 4.7 High: %59,4, $5.01, 32,227, 59
- GPT-5.5 Medium: %59,2, $2.22, 9,065, 35
- Opus 4.8 High: %58,4, $4.41, 36,788, 45
- Sonnet 5 Extra High: %58,4, $5.23, 58,228, 86
- Sonnet 5 High: %57,0, $3.74, 41,735, 66
- Opus 4.8 Medium: %56,6, $3.83, 31,684, 41
- Sonnet 5 Medium: %54,9, $2.57, 27,469, 53
- 21–36. sıralarda GLM, Kimi, Gemini, Sonnet, Composer ve benzeri modeller yer alıyor
- GLM 5.2 Max: %54,6, $3.11, 51,312, 83
- Opus 4.8 Low: %54,3, $2.93, 22,726, 36
- Opus 4.7 Medium: %52,7, $2.93, 19,193, 41
- Kimi K2.7 Code: %52,7, $1.92, 32,902, 70
- Composer 2: %52,2, $0.56, 14,163, 40
- GLM 5.2 High: %50,7, $2.46, 30,621, 76
- Gemini 3.5 Flash: %49,8, $1.94, 35,105, 79
- Sonnet 4.6 Max: %49,0, $3.09, 40,280, 55
- GPT-5.5 Low: %48,8, $1.19, 4,923, 24
- Sonnet 4.6 High: %48,8, $3.06, 37,352, 57
- Opus 4.7 Low: %48,3, $1.87, 13,164, 29
- Sonnet 5 Low: %47,7, $1.46, 17,028, 37
- Kimi 2.6: %47,6, $1.27, 24,783, 56
- Sonnet 4.6 Medium: %46,0, $2.64, 31,360, 50
- Sonnet 4.6 Low: %41,5, $1.89, 21,211, 50
- Kimi 2.5: %31,9, $0.87, 9,446, 30
CursorBench 3.1’in değerlendirme kapsamı
- CursorBench 3.1, kod tabanı anlama, hata bulma, planlama ve kod incelemeye odaklanan problemler sunuyor
- Bazı düzenleme görevlerinin puanlama kriterleri de iyileştirildi
- CursorBench 3.0, düzenleme, refactoring ve hata düzeltme problemlerine odaklanan ilk görev setiydi
Maliyet hesaplama ve yorumlama sınırlamaları
- Görev başına ortalama maliyet, her modelin açık milyon token başına fiyatlandırması kullanılarak hesaplanıyor
- Girdi, cache okuma, cache yazma ve çıktı fiyatlarının tamamını içeriyor
- Her modelin CursorBench 3.1 görevlerinde kullandığı token’lara fiyat uygulandıktan sonra tüm görevlerin ortalaması alınıyor
- Sonuçlarda değişkenlik bulunuyor; küçük puan farkları istatistiksel olarak anlamlı olmayabilir
1 yorum
Hacker News yorumları
Biraz şüpheliyim
Cursor’ın benchmark’ında Cursor modeli Composer 2.5, Opus 4.8 max ve GPT-5.5 xhigh kadar iyi görünürken fiyatı çok daha düşük çıkıyor
Ancak Artificial Analysis testinde Composer 2.5 epey geride kalıyor: https://artificialanalysis.ai/agents/coding-agents
DeepSWE benchmark’ına bakınca GPT-5.5 xhigh 64, Opus 4.8 max 56, Cursor 2.5 ise 16
Cursor’ın bazı kişiler için iyi işleyebileceğinden şüphem yok, ama Opus 4.8 ya da GPT-5.5’e rakip olduğu iddiası kuşkulu. Kendi benchmark’ında iyi çıkıp üçüncü taraf benchmark’larında ciddi biçimde geride kalması fazla elverişli görünüyor
AA yakın zamanda DeepSWE kullanmaya geçti; bu benchmark çok uzun kapsamlı işlere daha fazla odaklanıyor. Composer henüz bu tür işlerde güçlü değil, bu yüzden bir sonraki modelde bunu iyileştirmek için çalışıyoruz
Genel olarak Composer bazı benchmark’larda iyi çıkıyor, bazılarında çıkmıyor. Yine de mevcut fiyat noktasında çok yetkin bir model olduğunu düşünüyorum. Belirli davranışlar veya zayıf noktalar görürseniz burada bildirebilir ya da lrobinson at cursor.com adresine e-posta gönderebilirsiniz
İronik biçimde, Cursor’ın “özgün müşterilerinin” gerçekten önemsediği dar kapsamda bu benchmark Artificial Analysis’ten daha doğru bile olabilir. Bunun dışında sadece bir başka veri noktası olarak görmek gerek
Bu modellerin nasıl davrandığı üzerinde harness’ın büyük etkisi olduğuna dair çok kanıt var, DeepSWE ise bu unsuru tamamen ortadan kaldırıyor. Muhtemelen yalnızca tercih ettikleri birkaç modelde iyi çalıştığını kontrol etmişlerdir
GitHub issue’larında da bildirildiği gibi cache kullanmayan bir harness olduğu için maliyet hesaplamasında da sorun var. Kusursuz benchmark yok, ama benchmark’lar arasındaki sapmayı epey açıklıyor
Eksenlerin böyle seçilmiş olması oldukça şaşırtıcı. Sol tarafın en ucuz taraf olduğunu sanmıştım, oysa en pahalı tarafmış
Sağ üstü en iyi olacak şekilde yerleştirme isteğini anlıyorum, ama maliyet ekseninin ters olması hâlâ sezgisel değil
Bunu bir kenara bırakırsak, her gün bütün gün ajanların zar zor yapabildiği seviyede çok zor implementasyonlar yapıyorum; “gerçek doğrulama” gerektiren işler için bir süredir Opus’u max’te tutmak zorunda kaldım. Opus’un GPT-5.5 xhigh’a yakın bile çalışmasını sağlamanın fiilen tek yolu buymuş gibi hissettirdi
GPT-5.5’i abonelikle kullanınca bağlam penceresi küçük; 400k olsa da etkin olarak yaklaşık 258k olduğu için Opus kullanıyorum
Fark şu: GPT-5.5 xhigh çoğu gerçek vakada çok hızlı. Tam implementasyon da verimli ve derin düşünme gerektirmeyen sorulara uyarlanabilir biçimde hızlı yanıt veriyor
Buna karşılık Opus 4.8 Max her şeyi gereksiz yere uzun süre çiğniyor; basit implementasyonlar bile saatler sürebiliyor, bu yüzden onu çoğunlukla planlama ve inceleme için kullanıyorum
Fable uyarlanabilir düşünme ve hızlı yanıtlarda çok daha iyi, ama muhtemelen hâlâ GPT-5.5 xhigh’dan kötüdür. Herkes artılarını eksilerini yeterince söylemiş gibi; ne yazık ki benim zor işlerimde henüz güvenilir bir uygulayıcı değil. Burası hâlâ GPT alanı ve Fable dikkatle kollanmazsa implementasyonun içinde büyük, tehlikeli boşluklar bırakma eğiliminde
Fable tasarım gereği güvenlik konusunda kör[0], açık modeller ise bu tarafta oldukça iyi
[0] GPT-5.6’nın nasıl olacağı belirsiz, ama bloga bakılırsa benzer şekilde aşırı temkinli bir güvenlik filtresi gelecek gibi
İlginç olan, son Opus sürüm yazılarının güvenlik yeteneklerini bilerek düşürdükleriyle övünmesi. “during its [Opus 4.7] training we experimented with efforts to differentially reduce these ["cyber"] capabilities”
Ben 5.5 high/xhigh’ı bir C kod tabanını optimize etmek ve benchmark etmek için kullanıyorum; ilk kodu okumak bile ilk bağlam penceresini neredeyse dolduruyor
Oturum otomatik sıkıştırmayı yaklaşık 5–15 kez yapıyor, ama iş her seferinde çoğunlukla en yeni pencereye odaklandığı için fena olmayan şekilde hallediyor
Programlamada GPT’nin gücü Opus’tan daha büyük olduğu için bağlam penceresi farkını bastırıyor gibi
Composer 2.5’in bu kadar iyi olduğuna inanmak zor. GLM 5.2 veya Opus 4.6 ile karşılaştırdım; problemleri düşünme derinliği ve eleştirel akıl yürütme eksikti.
Başka bir modelin yaptığı planı yürütmekte iyi, ama o zaman bile çevredeki dosyaların gerçekte çalışma biçiminden epey farklı, tuhaf kod müdahaleleri yapabiliyor
Composer iyi bir plan olduğunda yetkin, ama şaşırtıcı düzeyde değildi. Yine de gerçekten hoşuma giden şey hızıydı.
Opus’un 30 dakika süreceği işi Composer 5–10 dakikada bitirdi. Elbette sonuç kusursuz olmadığı için Opus ya da Codex ile bir toparlama aşamasından geçti.
Sonuçta bu bir denge meselesi; sürekli değişiyor ve tamamen çözmekte olduğunuz probleme bağlı. Ben esnek kalıp o anda en iyi işleyen sürece uyum sağlıyorum
Roket yapmıyorum ama oldukça etkileyiciydi. Tüm modeller ara sıra aptalca şeyler yapıyor, fakat istediğim işleri gayet iyi yaptı ve etkileyici sonuçlar da gösterdi.
Grok’ta hızlı; çok kullandığım diğer modellerle karşılaştırınca gemini 3.1’den daha iyi olduğunu düşünüyorum. Benim ölçütlerime göre 3.5 ve antigravity, önceki gemini cli’dan daha kötüydü. Opus 4.6 ile benzer seviyede. Claude Code’un daha yeni modellerini henüz denemedim
Grafiği doğru anladıysam Fable, sonet ve opus’a kıyasla aynı işi başarmak için daha az token kullanıyor. Öyleyse bu iyi bir şey.
Bir süredir daha iyi sonuç almak için modellerin token’ları boca ettiği hissi vardı; modelin kendisi daha fazla token üretmeden iyileşiyorsa bu gerçek bir ilerleme gibi geliyor.
Soru 1: Bu grafikte adım sayısı neden önemli? Bize ne anlatıyor?
Soru 2: Yatay ekseni neden ters çevirip 0’ı başlangıç noktasında değil sağda olacak şekilde koymuşlar? Yeni ve akıllıca bir yöntem mi? Daha önce gördüğümü sanmıyorum
Opus 4.7’nin 4.8’den daha iyi çıkması ilginç. Keşke 4.6’yı da test etselerdi. Dün burada, ardıl modelden 4.6’nın daha iyi olduğunu ısrarla savunduğu için alaya alınan birini görmüştüm.
Yine de benchmark’lar her zaman çetrefillidir. DeepSWE’de GPT-5.5, Opus-4.8’i epey büyük farkla geçiyor ama FrontierCode’da tam tersi.
Güvenilir tek benchmark, kendi gerçek iş yükünüzdür
Her yeni benchmark çıktığında Çin modelleri, mevcut benchmark’lara göre beklenen seviyenin çok altında kalıyor; zaman geçince yeniden toparlanıyorlar
Keşke bu sitelerin hepsi maliyet/performans Pareto sınırı grafiği gösterse. Önemli olan çoğunlukla bu iki şey. Hız parametresi eklenip 3 boyutlu da yapılabilir ama
https://paraplouis.github.io/llm-pareto-frontier/ gördüklerim arasında en iyi grafik, ancak istediğim kadar sık güncellenmiyor
GLM5.2, internette PLA’nın seferber edebileceği tüm Wumao hesapları tarafından tanıtılıyor ama düşünme süreci aşırı laf kalabalığı yaptığı için eksikleri ortaya çıkıyor.
Anthropic modellerinde de aynı sorun var, ancak çok daha yüksek bir gerçek zekâ tabanından başlıyorlar.
Tam da bu yüzden güvenilir karşılaştırmalar artık keyfi giriş/çıkış token maliyetine değil, bir işi tamamlamak için gereken toplam maliyete göre gösteriliyor
Composer 2.5 ve GPT 5.5’i hem Cursor hem Codex tarafında çok kullandım; Composer 2.5’in performansının GPT 5.5’e yakın olduğu iddiası tamamen saçma.
Daha hızlı, ama kalite kesinlikle o seviyede değil.
Üstelik Composer yalnızca Cursor aylık aboneliğiyle kullanılabildiği için maliyet karşılaştırması da anlamsız. Benzer fiyatlı bir OpenAI aboneliğiyle daha iyi modeli o kadar kullanabilirsiniz
En ilginç kısım maliyet. GPT 5.5 ve sonnet 5, GLM 5.2 ile aynı maliyette ama daha yetenekli modeller
Cursor modelinin Cursor benchmark’ında harika olması, tam 11 haberlerine konu olacak türden.
Yine de diğer modellerin hepsi, doğrudan kullanım deneyimime göre beklediğim yerlerde oldukça makul konumlanmış.
Fable 10 kat daha pahalı, ama çoğu konuda diğer modelleri eziyor. Ancak bazen seçim ucuz ile pahalı arasında değil; pahalı ama mümkün olan ile tamamen imkânsız olan arasında oluyor. Diğer modellerde olduğu gibi o sınırın nerede olduğunu öğrenmek gerekiyor