CursorBench 3.1 model değerlendirme sonuçları

(cursor.com)

1 puan yazan GN⁺ 4 시간 전 | 1 yorum | WhatsApp'ta paylaş

Cursor’ın kodlama modeli değerlendirme tablosunda Fable 5 Max %72,9 ile birinci sırayı alarak üst sıralardaki rekabet için referans noktası oldu
Fable 5 serisi Max, Extra High, High ve Medium ile 1–4. sıraların tamamını alarak diğer model aileleriyle belirgin bir fark gösterdi
1. sıradan sonra Opus 4.7 Max %64,8, GPT-5.5 Extra High %64,3, Fable 5 Low %64,2, Opus 4.8 Max %63,8 ve Composer 2.5 %63,2 ile geliyor
CursorBench 3.1; kod tabanı anlama, hata bulma, planlama ve kod inceleme odaklı görevler ekliyor, ayrıca bazı düzenleme görevlerinin puanlama kriterlerini iyileştiriyor
Görev başına ortalama maliyet, açık token fiyatları ve görev bazında kullanılan token’larla hesaplanıyor; küçük puan farkları istatistiksel olarak anlamlı olmayabilir

Üst sıraları Fable 5 domine ediyor

CursorBench 3.1 tablosu, model bazında sıralamayı, puanı, görev başına ortalama maliyeti ve kullanım ile ilgili sayıları birlikte karşılaştırıyor
1. sıradan 4. sıraya kadar modellerin tamamı Fable 5 serisinden
- Fable 5 Max: %72,9, $18.02, 63,842, 76
- Fable 5 Extra High: %72,0, $13.74, 48,754, 63
- Fable 5 High: %70,6, $10.81, 37,173, 54
- Fable 5 Medium: %69,8, $8.27, 28,507, 47
5–10. sıra aralığında Opus, GPT-5.5, Fable ve Composer modelleri karışık olarak yer alıyor
- Opus 4.7 Max: %64,8, $11.02, 62,989, 96
- GPT-5.5 Extra High: %64,3, $4.37, 17,905, 46
- Fable 5 Low: %64,2, $5.70, 18,882, 36
- Opus 4.8 Max: %63,8, $7.59, 77,370, 60
- Composer 2.5: %63,2, $0.55, 15,152, 37
- GPT-5.5 High: %62,6, $3.59, 13,329, 40

Orta ve alt sıralardaki modellere göre puanlar

11–20. sıraları ağırlıklı olarak Opus, Sonnet ve GPT-5.5 modelleri alıyor
- Opus 4.8 Extra High: %62,1, $6.14, 55,622, 54
- Opus 4.7 Extra High: %61,6, $7.11, 43,942, 72
- Sonnet 5 Max: %61,2, $6.87, 93,485, 93
- Opus 4.7 High: %59,4, $5.01, 32,227, 59
- GPT-5.5 Medium: %59,2, $2.22, 9,065, 35
- Opus 4.8 High: %58,4, $4.41, 36,788, 45
- Sonnet 5 Extra High: %58,4, $5.23, 58,228, 86
- Sonnet 5 High: %57,0, $3.74, 41,735, 66
- Opus 4.8 Medium: %56,6, $3.83, 31,684, 41
- Sonnet 5 Medium: %54,9, $2.57, 27,469, 53
21–36. sıralarda GLM, Kimi, Gemini, Sonnet, Composer ve benzeri modeller yer alıyor
- GLM 5.2 Max: %54,6, $3.11, 51,312, 83
- Opus 4.8 Low: %54,3, $2.93, 22,726, 36
- Opus 4.7 Medium: %52,7, $2.93, 19,193, 41
- Kimi K2.7 Code: %52,7, $1.92, 32,902, 70
- Composer 2: %52,2, $0.56, 14,163, 40
- GLM 5.2 High: %50,7, $2.46, 30,621, 76
- Gemini 3.5 Flash: %49,8, $1.94, 35,105, 79
- Sonnet 4.6 Max: %49,0, $3.09, 40,280, 55
- GPT-5.5 Low: %48,8, $1.19, 4,923, 24
- Sonnet 4.6 High: %48,8, $3.06, 37,352, 57
- Opus 4.7 Low: %48,3, $1.87, 13,164, 29
- Sonnet 5 Low: %47,7, $1.46, 17,028, 37
- Kimi 2.6: %47,6, $1.27, 24,783, 56
- Sonnet 4.6 Medium: %46,0, $2.64, 31,360, 50
- Sonnet 4.6 Low: %41,5, $1.89, 21,211, 50
- Kimi 2.5: %31,9, $0.87, 9,446, 30

CursorBench 3.1’in değerlendirme kapsamı

CursorBench 3.1, kod tabanı anlama, hata bulma, planlama ve kod incelemeye odaklanan problemler sunuyor
Bazı düzenleme görevlerinin puanlama kriterleri de iyileştirildi
CursorBench 3.0, düzenleme, refactoring ve hata düzeltme problemlerine odaklanan ilk görev setiydi

Maliyet hesaplama ve yorumlama sınırlamaları

Görev başına ortalama maliyet, her modelin açık milyon token başına fiyatlandırması kullanılarak hesaplanıyor
Girdi, cache okuma, cache yazma ve çıktı fiyatlarının tamamını içeriyor
Her modelin CursorBench 3.1 görevlerinde kullandığı token’lara fiyat uygulandıktan sonra tüm görevlerin ortalaması alınıyor
Sonuçlarda değişkenlik bulunuyor; küçük puan farkları istatistiksel olarak anlamlı olmayabilir

1 yorum

GN⁺ 4 시간 전

Hacker News yorumları

Biraz şüpheliyim
Cursor’ın benchmark’ında Cursor modeli Composer 2.5, Opus 4.8 max ve GPT-5.5 xhigh kadar iyi görünürken fiyatı çok daha düşük çıkıyor
Ancak Artificial Analysis testinde Composer 2.5 epey geride kalıyor: https://artificialanalysis.ai/agents/coding-agents
DeepSWE benchmark’ına bakınca GPT-5.5 xhigh 64, Opus 4.8 max 56, Cursor 2.5 ise 16
Cursor’ın bazı kişiler için iyi işleyebileceğinden şüphem yok, ama Opus 4.8 ya da GPT-5.5’e rakip olduğu iddiası kuşkulu. Kendi benchmark’ında iyi çıkıp üçüncü taraf benchmark’larında ciddi biçimde geride kalması fazla elverişli görünüyor
- Cursor’da çalışıyorum. Composer 2.5 çıktığında AA’nın toplu benchmark’ında oldukça rekabetçi görünüyordu; hatırladığım kadarıyla genel sıralamada 3. idi
  AA yakın zamanda DeepSWE kullanmaya geçti; bu benchmark çok uzun kapsamlı işlere daha fazla odaklanıyor. Composer henüz bu tür işlerde güçlü değil, bu yüzden bir sonraki modelde bunu iyileştirmek için çalışıyoruz
  Genel olarak Composer bazı benchmark’larda iyi çıkıyor, bazılarında çıkmıyor. Yine de mevcut fiyat noktasında çok yetkin bir model olduğunu düşünüyorum. Belirli davranışlar veya zayıf noktalar görürseniz burada bildirebilir ya da lrobinson at cursor.com adresine e-posta gönderebilirsiniz
- Neler olduğunu anlamak zor değil. Kendi verinizin desenlerine ve belirli yeteneklere göre pekiştirmeli öğrenme yaptığınız için, doğal olarak eğitim setiyle örtüşen bir benchmark oluşturuyorsunuz
  İronik biçimde, Cursor’ın “özgün müşterilerinin” gerçekten önemsediği dar kapsamda bu benchmark Artificial Analysis’ten daha doğru bile olabilir. Bunun dışında sadece bir başka veri noktası olarak görmek gerek
- DeepSWE, yalnızca kendi çalıştırma harness’ını kullanması açısından biraz kusurlu; bu harness’ın düzgün desteklemediği modellerde sorun çıkıyor
  Bu modellerin nasıl davrandığı üzerinde harness’ın büyük etkisi olduğuna dair çok kanıt var, DeepSWE ise bu unsuru tamamen ortadan kaldırıyor. Muhtemelen yalnızca tercih ettikleri birkaç modelde iyi çalıştığını kontrol etmişlerdir
  GitHub issue’larında da bildirildiği gibi cache kullanmayan bir harness olduğu için maliyet hesaplamasında da sorun var. Kusursuz benchmark yok, ama benchmark’lar arasındaki sapmayı epey açıklıyor
- Cursor oturumları, Composer modelinin pekiştirmeli öğrenmeyle eğitildiği hedefle neredeyse aynı. Bu benchmark ve eğitim verisi fiilen aynı dağılımda olmalı
- Benchmark’ı bilmiyorum ama Composer 2.5’i çok kullandım ve gerçek işlerde oldukça iyi çalıştı
Eksenlerin böyle seçilmiş olması oldukça şaşırtıcı. Sol tarafın en ucuz taraf olduğunu sanmıştım, oysa en pahalı tarafmış
Sağ üstü en iyi olacak şekilde yerleştirme isteğini anlıyorum, ama maliyet ekseninin ters olması hâlâ sezgisel değil
Bunu bir kenara bırakırsak, her gün bütün gün ajanların zar zor yapabildiği seviyede çok zor implementasyonlar yapıyorum; “gerçek doğrulama” gerektiren işler için bir süredir Opus’u max’te tutmak zorunda kaldım. Opus’un GPT-5.5 xhigh’a yakın bile çalışmasını sağlamanın fiilen tek yolu buymuş gibi hissettirdi
GPT-5.5’i abonelikle kullanınca bağlam penceresi küçük; 400k olsa da etkin olarak yaklaşık 258k olduğu için Opus kullanıyorum
Fark şu: GPT-5.5 xhigh çoğu gerçek vakada çok hızlı. Tam implementasyon da verimli ve derin düşünme gerektirmeyen sorulara uyarlanabilir biçimde hızlı yanıt veriyor
Buna karşılık Opus 4.8 Max her şeyi gereksiz yere uzun süre çiğniyor; basit implementasyonlar bile saatler sürebiliyor, bu yüzden onu çoğunlukla planlama ve inceleme için kullanıyorum
Fable uyarlanabilir düşünme ve hızlı yanıtlarda çok daha iyi, ama muhtemelen hâlâ GPT-5.5 xhigh’dan kötüdür. Herkes artılarını eksilerini yeterince söylemiş gibi; ne yazık ki benim zor işlerimde henüz güvenilir bir uygulayıcı değil. Burası hâlâ GPT alanı ve Fable dikkatle kollanmazsa implementasyonun içinde büyük, tehlikeli boşluklar bırakma eğiliminde
- “Her gün bütün gün ajanların zar zor yapabildiği seviyede çok zor implementasyonlar yapıyorum” kısmında doğrulanabilir tek bir şey var mı? Yoksa sadece inanmamız mı gerekiyor? Hepsi gülünç derecede öznel geliyor
- Fable implementasyonun içinde tehlikeli boşluklar bırakıyorsa, GLM ya da DeepSeek’i karıştırıp kod red-team amacıyla entegre etmek mümkün olabilir diye düşünüyorum
  Fable tasarım gereği güvenlik konusunda kör[0], açık modeller ise bu tarafta oldukça iyi
  [0] GPT-5.6’nın nasıl olacağı belirsiz, ama bloga bakılırsa benzer şekilde aşırı temkinli bir güvenlik filtresi gelecek gibi
  İlginç olan, son Opus sürüm yazılarının güvenlik yeteneklerini bilerek düşürdükleriyle övünmesi. “during its [Opus 4.7] training we experimented with efforts to differentially reduce these ["cyber"] capabilities”
- Gartner tarzı. Sağ üst, gitmek istediğiniz yer
- x eksenini neden ters çevirdiklerine katılıyorum. Bu grafik sıradan bir gözlemcinin anlaması için çok zor hâle geliyor
- “GPT-5.5’i abonelikle kullanınca bağlam penceresi küçük” olmasının gerçek işte fark yaratıp yaratmadığını merak ediyorum
  Ben 5.5 high/xhigh’ı bir C kod tabanını optimize etmek ve benchmark etmek için kullanıyorum; ilk kodu okumak bile ilk bağlam penceresini neredeyse dolduruyor
  Oturum otomatik sıkıştırmayı yaklaşık 5–15 kez yapıyor, ama iş her seferinde çoğunlukla en yeni pencereye odaklandığı için fena olmayan şekilde hallediyor
  Programlamada GPT’nin gücü Opus’tan daha büyük olduğu için bağlam penceresi farkını bastırıyor gibi
Composer 2.5’in bu kadar iyi olduğuna inanmak zor. GLM 5.2 veya Opus 4.6 ile karşılaştırdım; problemleri düşünme derinliği ve eleştirel akıl yürütme eksikti.
Başka bir modelin yaptığı planı yürütmekte iyi, ama o zaman bile çevredeki dosyaların gerçekte çalışma biçiminden epey farklı, tuhaf kod müdahaleleri yapabiliyor
- Şu anda Cursor kullanmıyorum ama bir süre önce kullandığımda deneyimim benzerdi. Planlamayı Opus’la, implementasyonu Composer’la, toparlamayı Opus’la yaptım.
  Composer iyi bir plan olduğunda yetkin, ama şaşırtıcı düzeyde değildi. Yine de gerçekten hoşuma giden şey hızıydı.
  Opus’un 30 dakika süreceği işi Composer 5–10 dakikada bitirdi. Elbette sonuç kusursuz olmadığı için Opus ya da Codex ile bir toparlama aşamasından geçti.
  Sonuçta bu bir denge meselesi; sürekli değişiyor ve tamamen çözmekte olduğunuz probleme bağlı. Ben esnek kalıp o anda en iyi işleyen sürece uyum sağlıyorum
- Böyle şeyleri görünce bunun sadece pürüzlü bir sınır olduğunu düşünüyorum. Kişisel deneyimi sorgulamıyorum. Geçen ay Grok ve X Premium hesap kredileriyle Composer 2.5’i denedim.
  Roket yapmıyorum ama oldukça etkileyiciydi. Tüm modeller ara sıra aptalca şeyler yapıyor, fakat istediğim işleri gayet iyi yaptı ve etkileyici sonuçlar da gösterdi.
  Grok’ta hızlı; çok kullandığım diğer modellerle karşılaştırınca gemini 3.1’den daha iyi olduğunu düşünüyorum. Benim ölçütlerime göre 3.5 ve antigravity, önceki gemini cli’dan daha kötüydü. Opus 4.6 ile benzer seviyede. Claude Code’un daha yeni modellerini henüz denemedim
Grafiği doğru anladıysam Fable, sonet ve opus’a kıyasla aynı işi başarmak için daha az token kullanıyor. Öyleyse bu iyi bir şey.
Bir süredir daha iyi sonuç almak için modellerin token’ları boca ettiği hissi vardı; modelin kendisi daha fazla token üretmeden iyileşiyorsa bu gerçek bir ilerleme gibi geliyor.
Soru 1: Bu grafikte adım sayısı neden önemli? Bize ne anlatıyor?
Soru 2: Yatay ekseni neden ters çevirip 0’ı başlangıç noktasında değil sağda olacak şekilde koymuşlar? Yeni ve akıllıca bir yöntem mi? Daha önce gördüğümü sanmıyorum
Opus 4.7’nin 4.8’den daha iyi çıkması ilginç. Keşke 4.6’yı da test etselerdi. Dün burada, ardıl modelden 4.6’nın daha iyi olduğunu ısrarla savunduğu için alaya alınan birini görmüştüm.
Yine de benchmark’lar her zaman çetrefillidir. DeepSWE’de GPT-5.5, Opus-4.8’i epey büyük farkla geçiyor ama FrontierCode’da tam tersi.
Güvenilir tek benchmark, kendi gerçek iş yükünüzdür
Her yeni benchmark çıktığında Çin modelleri, mevcut benchmark’lara göre beklenen seviyenin çok altında kalıyor; zaman geçince yeniden toparlanıyorlar
- Damıtmanın büyüsü
Keşke bu sitelerin hepsi maliyet/performans Pareto sınırı grafiği gösterse. Önemli olan çoğunlukla bu iki şey. Hız parametresi eklenip 3 boyutlu da yapılabilir ama
https://paraplouis.github.io/llm-pareto-frontier/ gördüklerim arasında en iyi grafik, ancak istediğim kadar sık güncellenmiyor
- O site pek işe yaramıyor. Çünkü düşünme token’ları ve caching ile bunların verimliliği hesaba katılmıyor.
  GLM5.2, internette PLA’nın seferber edebileceği tüm Wumao hesapları tarafından tanıtılıyor ama düşünme süreci aşırı laf kalabalığı yaptığı için eksikleri ortaya çıkıyor.
  Anthropic modellerinde de aynı sorun var, ancak çok daha yüksek bir gerçek zekâ tabanından başlıyorlar.
  Tam da bu yüzden güvenilir karşılaştırmalar artık keyfi giriş/çıkış token maliyetine değil, bir işi tamamlamak için gereken toplam maliyete göre gösteriliyor
Composer 2.5 ve GPT 5.5’i hem Cursor hem Codex tarafında çok kullandım; Composer 2.5’in performansının GPT 5.5’e yakın olduğu iddiası tamamen saçma.
Daha hızlı, ama kalite kesinlikle o seviyede değil.
Üstelik Composer yalnızca Cursor aylık aboneliğiyle kullanılabildiği için maliyet karşılaştırması da anlamsız. Benzer fiyatlı bir OpenAI aboneliğiyle daha iyi modeli o kadar kullanabilirsiniz
En ilginç kısım maliyet. GPT 5.5 ve sonnet 5, GLM 5.2 ile aynı maliyette ama daha yetenekli modeller
Cursor modelinin Cursor benchmark’ında harika olması, tam 11 haberlerine konu olacak türden.
Yine de diğer modellerin hepsi, doğrudan kullanım deneyimime göre beklediğim yerlerde oldukça makul konumlanmış.
Fable 10 kat daha pahalı, ama çoğu konuda diğer modelleri eziyor. Ancak bazen seçim ucuz ile pahalı arasında değil; pahalı ama mümkün olan ile tamamen imkânsız olan arasında oluyor. Diğer modellerde olduğu gibi o sınırın nerede olduğunu öğrenmek gerekiyor

CursorBench 3.1 model değerlendirme sonuçları

Üst sıraları Fable 5 domine ediyor

Orta ve alt sıralardaki modellere göre puanlar

CursorBench 3.1’in değerlendirme kapsamı

Maliyet hesaplama ve yorumlama sınırlamaları

İlgili okumalar

1 yorum

Hacker News yorumları