Cursor, frontier seviyesinde performans ve uygun fiyat sunan, kodlamaya özel yapay zeka modeli Composer 2'yi tanıttı.
Performans
Tüm temel benchmark'larda önceki sürüme kıyasla büyük bir sıçrama kaydedildi.
Model üç testle değerlendirildi.
CursorBench — Cursor'un kendi geliştirdiği, gerçek kodlama işleri için bir benchmark. Composer 1 → 1.5 → 2 geçişinde skorlar 38.0 → 44.2 → 61.3 oldu. 1'den 2'ye geçerken performans yaklaşık %61 arttı; özellikle 1.5 → 2 aralığında yaklaşık 17 puanlık sıçrama görülerek bu neslin en büyük ilerlemesi yaşandı.
Terminal-Bench 2.0 — Laude Institute tarafından sürdürülen terminal tabanlı ajan değerlendirmesi. Terminalde gerçek komutlar çalıştırarak görev tamamlama becerisini ölçüyor. Skorlar 40.0 → 47.9 → 61.7 ile CursorBench'e neredeyse aynı yükseliş desenini gösteriyor.
SWE-bench Multilingual — Gerçek GitHub issue'larını kodla çözmeye odaklanan ünlü yazılım mühendisliği benchmark'ının çok dilli sürümü. Skorlar 56.9 → 65.9 → 73.7'ye yükseldi. Composer 1 döneminden itibaren 56 puan bandıyla diğer iki benchmark'tan daha yüksek başlaması, kod patch'i yazma yeteneğinin görece erken dönemde güçlü olduğunu gösteriyor.
Ana noktalar
Üç benchmark'ın tamamında da 1 → 1.5 dönemine kıyasla 1.5 → 2 aralığındaki artış çok daha büyük; açıklamanın özü de bu. Sürekli ön eğitim + reinforcement learning kombinasyonunun etkisini en net burada gösterdiği görülüyor. SWE-bench Multilingual'da kaydedilen 73.7 puan, şu anda kamuya açıklanmış modeller arasında en üst sıralara karşılık geliyor.
Standart sürüm: giriş $0.50 / çıkış $2.50 (milyon token başına)
Hızlı sürüm (fast): giriş $1.50 / çıkış $7.50 (milyon token başına)
Hızlı sürümün varsayılan seçenek olarak sunulması planlanıyor ve benzer hızlı modellere göre daha düşük fiyat önemli bir avantaj olarak öne çıkıyor. Bireysel plan kullanıcılarına ise ayrı bir kullanım havuzu üzerinden cömert bir temel kota verilecek.
Yorum
Cursor'un Claude, GPT gibi dış modellere dayanan katmandan çıkıp kendi modelini doğrudan eğitme yönüne ciddi biçimde dönmesi dikkat çekici. Özellikle fiyat/performans konumlandırması oldukça agresif görünüyor; bu da kodlama ajanı pazarında model katmanına kadar dikey entegrasyon hedefleyen bir strateji olarak okunabilir. Hâlihazırda Cursor içinde Claude Sonnet veya GPT-4o kullananlar için Composer 2'ye geçiş denemeye değer olabilir.
5 yorum
Bunun, Kimi k2 modeline pekiştirmeli öğrenme uygulanmış bir model olduğu biliniyor
Hem Kiro’yu hem de Cursor’ı kullanan, fiyat/performans odaklı bir bakış açısından
Cursor’ın daha ileri seviye konularda daha iyi olduğunu düşünüyorum
Hızı da daha yüksek
İlgili derleme için Cursor Composer 2'nin, Kimi K2.5'e RL uygulanmış bir model olduğu doğrulandı içeriğine göz atabilirsiniz
İlgili:
Bu içeriğe uygun olarak başlığı düzelttim.