2 puan yazan GN⁺ 2025-10-30 | 1 yorum | WhatsApp'ta paylaş
  • Cursor’un tanıttığı Composer, yazılım mühendisliği için geliştirilen yüksek hızlı akıllı ajan modeli; benzer modellere kıyasla 4 kat daha hızlı kod üretim hızı sağlıyor
  • Gerçek büyük ölçekli kod tabanı problemlerini çözmek üzere eğitiliyor ve arama·düzenleme araçlarını kullanarak farklı zorluk seviyelerindeki görevleri yerine getiriyor
  • Mixture-of-Experts(MoE) yapısı ile pekiştirmeli öğrenmeyi(RL) birleştirerek kod düzenleme, planlama ve yanıt üretimi gibi alanlarda uzun bağlamı anlama ve üretimi destekliyor
  • Cursor Bench değerlendirmesiyle yalnızca model doğruluğu değil, kod tabanı tutarlılığı ve mühendislik uygulamalarına uyum da ölçülüyor
  • PyTorch·Ray tabanlı asenkron RL altyapısı ve MXFP8 düşük hassasiyetli eğitim kullanılarak binlerce GPU üzerinde verimli eğitim ve daha yüksek çıkarım hızı elde ediliyor

Composer genel bakış

  • Composer, yazılım mühendisliği zekâsı ve hızı hedefiyle geliştirilen yeni bir ajan modeli
    • Benchmark’larda benzer modellere kıyasla 4 kat daha hızlı kod üretim hızı kaydetti
    • Cursor içinde büyük ölçekli kod tabanı problemlerini çözmeye yönelik ajan olarak optimize edildi
  • Model, gerçek ortamlarda arama ve düzenleme araçlarını kullanarak farklı zorluktaki problemleri çözmesi için eğitildi
    • Bu sayede yüksek hızlı etkileşimli geliştirme deneyimi sunuyor

Geliştirme arka planı

  • Composer, Cursor’un özel kod otomatik tamamlama modeli (Cursor Tab) geliştirme deneyiminden doğdu
    • Geliştiricilerin hem akıllı hem de hızlı tepki veren modelleri tercih ettiği görüldü
  • İlk deneysel model Cheetah temel alınarak Composer, bunun geliştirilmiş daha hızlı ve daha akıllı sürümü olarak tasarlandı
    • Amaç, geliştirme akışını bozmadan anında tepki veren bir model oluşturmaktı

Model yapısı ve eğitim yöntemi

  • Composer, uzun bağlamı anlama ve üretimi destekleyen bir Mixture-of-Experts(MoE) dil modeli
  • Pekiştirmeli öğrenme(RL) sayesinde farklı geliştirme ortamlarında uzmanlaşıyor
    • Her eğitim aşamasında problem açıklamasını alıp en uygun kod değişikliği, plan ve yanıtı üretiyor
    • Model; dosya okuma·düzenleme, terminal komutu çalıştırma, kod tabanı genelinde anlamsal arama gibi araçlardan yararlanıyor
  • RL sürecinde model; karmaşık aramalar yapma, linter hatalarını düzeltme, birim testleri yazma ve çalıştırma gibi faydalı davranışları kendi kendine öğreniyor

Değerlendirme ve benchmark

  • Cursor Bench, gerçek mühendislik taleplerini ve en iyi çözümleri içeren dahili bir değerlendirme seti
    • Modelin doğruluğu, kod tabanı soyutlamalarına uyumu ve yazılım mühendisliği uygulamalarıyla örtüşmesi ölçülüyor
  • Composer, verimli çıkarımı hedefleyen Haiku 4.5 ve Gemini Flash 2.5 gibi modellerle birlikte “Fast Frontier” sınıfında değerlendiriliyor
    • GPT-5 ve Sonnet 4.5 gibi üst düzey Frontier modellerinden daha yavaş olsa da hız başına yüksek verimlilik sunuyor

Altyapı ve sistem tasarımı

  • Büyük ölçekli MoE model eğitimi için PyTorch ve Ray tabanlı asenkron RL altyapısı kuruldu
    • MXFP8 MoE kernel’leri, uzman paralelleştirme ve hibrit sharding veri paralelleştirmesi birleştirildi
    • Binlerce NVIDIA GPU üzerinde iletişim maliyeti en aza indirilerek eğitim ölçeklendirildi
  • MXFP8 düşük hassasiyetli eğitim sayesinde çıkarım hızı artırıldı ve sonradan kuantizasyona gerek kalmadı
  • RL sırasında model, Cursor Agent’ın tüm araçlarını çağırabiliyor
    • Kod düzenleme, anlamsal arama, string grep, terminal komutu çalıştırma gibi işlevler destekleniyor
    • Bunun için yüz binlerce bulut sandbox ortamı paralel olarak çalıştırılıyor
    • Mevcut Background Agents altyapısı genişletilerek ani yükselen eğitim yükleri karşılanıyor

Dahili kullanım ve dağıtım

  • Cursor ekibi, Composer’ı kendi geliştirme işlerinde aktif olarak kullanıyor
    • Çok sayıda mühendis, günlük yazılım geliştirme çalışmalarında Composer’dan yararlanıyor
  • Bu duyuruyla birlikte diğer geliştiricilerin de bunu faydalı şekilde kullanabilmesi umuluyor

Ek: dahili benchmark sınıflandırması

  • Fast Frontier: Verimli çıkarım modelleri (Haiku 4.5, Gemini Flash 2.5 vb.)
  • Best Open: Açık ağırlıklı modeller (Qwen Coder, GLM 4.6 vb.)
  • Frontier 7/2025: Temmuz 2025 itibarıyla en iyi modeller
  • Best Frontier: GPT-5, Sonnet 4.5 gibi Composer’dan daha yüksek performanslı modeller
  • Tokens per Second hesabı, en güncel Anthropic tokenizer temel alınarak standartlaştırıldı

1 yorum

 
GN⁺ 2025-10-30
Hacker News görüşleri
  • Şeffaflığın fazlasıyla yetersiz olduğunu düşünüyorum
    Model performansı yalnızca kendi benchmark'ları ile paylaşılmış ve o veriler bile gizli olduğu için güvenmek zor
    RL eğitimi anlatılıyor ama ön eğitim (pre-training) ya da fine-tuning yapılıp yapılmadığı gibi kritik bilgiler hiç yok
    Ayrıntılar açıklanana ya da dışarıdan bağımsız benchmark yapılana kadar tüm iddialara şüpheyle yaklaşıyorum

    • İç benchmark'ları paylaşmamalarını anlıyorum
      Açıklanırsa bu veriler diğer LLM'lerin eğitim setlerine girebilir ve bilimsel geçerlilik ortadan kalkabilir
      Ama gizli tutulursa bu kez de kendilerine avantaj sağlayan verileri seçmiş olabilecekleri şüphesi doğuyor
      Sonuçta çözmesi zor bir ikilem
    • Aslında önemli olanın gerçek kullanıcı verisi olduğunu düşünüyorum
      Cursor, binlerce accept/reject verisini gerçek zamanlı topluyor; bu da en iyi geri bildirim döngüsü
      Gerçek kullanıcı tepkileri benchmark'lardan çok daha faydalı ve model bu sayede hızla geliştirilebilir
      Son dönemde multi-agent + git tree entegrasyonu da eklendi; kullanıcı davranışı bir öğrenme sinyali olarak kullanılıyor
      Bu tür rekabetin, tüm pazarın kalitesini yükselten ve kullanım maliyetini düşüren olumlu bir döngü yarattığını düşünüyorum
  • Cursor'ın Tab modelinin hâlâ en iyisi olduğunu düşünüyorum
    Konu resmî blog yazısında iyi özetlenmiş
    Bu yaklaşımın agentic coding modeline de uygulanabilmesi gerçekten ilginç olurdu

    • Bizim ekip de Tab'ı çok kullanıyor
      Bu projenin motivasyonu da zaten Tab benzeri bir ajan yapma fikrinden çıktı
    • Windsurfs'u deneyip denemediğini merak ediyorum
    • Tab modeli iyi ama biraz da daha iyi bir at arabası kamçısı yapma yarışı gibi geliyor
      Ben Claude Code'u neredeyse sürekli açık tutuyorum; Tab ise ancak model tamamen tıkandığında devreye giriyor
      Böyle başarısızlık durumlarının giderek azalması etkileyici
    • Tab modeli harika ama mevcut AI sohbet oturumunun bağlamını anlayamaması üzücü
    • Özellik iyi ama kısayolu zayıf
      Keşke shift+tab gibi bir şey olsaydı
      Ben doğrudan kod yazarken AI ile girinti savaşı veriyormuşum gibi hissettiriyor ve rahatsız edici
  • Ben Cursor'da bir ML araştırmacısıyım ve bu projede yer aldım
    Model ya da blog yazısı hakkında geri bildirimleri memnuniyetle karşılarım

    • Sistem açıklaması etkileyiciydi
      Ama Composer açık bir modeli RL ile fine-tune ettiyse, neden ağırlıkları kapalı tuttuklarını merak ediyorum
      Küçük bir performans avantajı hızla kaybolacağı için, açık strateji geliştirici güveni kazanmak açısından daha iyi olabilir
      Kişisel olarak kapalı modellere çok ilgi duymuyorum
    • Gerçekten şaşırtıcıydı
      Eskiden Cursor'ı deneyip bırakmıştım ama bu Composer1, GPT5 Codex'ten çok daha hızlı ve daha doğruydu
      Hem hız hem kalite iyi olduğu için tekrar kullanmayı düşünüyorum
    • Blogdaki ilk grafik fazla muğlaktı
      Model gruplaması olmadan tek tek isimleri gösteren bir sürüm olsaydı daha adil olurdu
    • Bugün Composer, Sonnet 4.5 ve Gemini 2.5 Pro'yu birlikte kullandım; içlerinde en memnun kaldığım şey Composer'ın hız ve kalite kombinasyonu oldu
      Planlama aşamasında Claude'u kullanıyorum ama uygulama aşamasında Composer çok daha verimli
    • Log grafiğine bakınca frontier modele ulaşmak için yaklaşık %50 daha fazla compute gerekirmiş gibi görünüyor; neden eğitimi orada durdurduklarını merak ediyorum
  • Sonnet 4.5 benim için tolere edebildiğim asgari kalite seviyesi
    Hızdan daha önemli olan şey, istediğim çıktıyı almak için boğuşmak zorunda kalmamak
    Belki yanlış anlamışımdır ama bu yazıda karşılaştırılan modellerin hepsinin Cursor'ın iç modelleri olup olmadığını merak ediyorum

    • Sonnet 4.5 çıkalı daha bir ay olmuşken şimdiden onu “asgari seviye” diye görmen komik
    • Bence iki tür kullanıcı var
      Biri modelin uzun işleri kendi başına halletmesini isteyenler,
      diğeri ise modelle etkileşimli biçimde işbirliği yapmak isteyenler
      İkinci grupta hız çok daha önemli, birincide ise zeka daha önemli
      Benim için bağlamı anlayamama daha büyük sorun, yani duruma göre değişiyor
    • Sonnet 4.5 harika ama Composer'ı da denedin mi merak ediyorum
    • Ben de benzer düşünüyorum
      Claude dışındaki modelleri kullanınca token maliyeti artıyor ve verim düşüyor
      Claude 4.5 Sonnet aynı işi yarı maliyetle çözüyor
    • Bu karşılaştırmayı açmamın sebebi, Cursor'ın hız odaklı kullanıcı deneyimini ne kadar ciddiye aldığını göstermekti
      Ben doğruluktan çok hızlı geri bildirimi tercih ediyorum
  • Yeni modelin çıkmasına sevindim ama grafikte sayıların ve model adlarının olmaması güven vermiyor

    • Modelle ilgili açıklamalar dipnotta var
      Eğitim ayrıntılarını paylaşmaları zor ama RL'in iyi ölçeklendiğine dair bir sonuç elde ettiklerini söylüyorlar
  • İnsanlar Cursor'a eleştirel yaklaşıyor ama ben Copilot, Claude Code, Codex, Gemini CLI, Cline ve daha fazlasını kullandım; yine de Cursor'ın olgunluğu en yüksekti
    Özellikle hızı ve kararlılığı çok iyi, gerçekten bir ürün gibi hissettiriyor

    • Ben de Cursor kullandım ama güvenilirlik sorunları yüzünden bıraktım
      İstekler sık sık 30 saniyeden uzun süre takılı kalıyordu; Claude Code ise çok daha hızlı ve kararlıydı
      Bugün yeni modeli tekrar denedim; Composer1 hızlıydı ama hâlâ bağlantı hataları vardı
    • Ben de birçok araç denedim ama sonunda Cursor'a geri döndüm
      İstediğim şeyi hızlıca hayata geçirmek için en iyisi Cursor
    • Cursor bazen takılıyor ama arayüzden kolayca geri alma mümkün olduğu için çok rahatsız etmiyor
      Otomatik tamamlama da refactoring sırasında oldukça faydalı
    • Bir sürü alternatif denediğini söylüyorsun ama acaba Zed'i denemedin mi?
    • Claude'u denedikten sonra bile Cursor'ı daha çok tercih etmen ilginç
  • Rakipler arasında yanıtın tamamlanma süresini ciddiye alan tek şirket Cursor gibi görünüyor
    Cursor bu konuda tamamen öne geçmiş durumda

    • Biz de çeşitli modelleri seviyoruz ama önemli olanın hızlı ve akıllı denge noktasını bulmak olduğunu düşünüyoruz (Cursor araştırmacısı)
  • Yeni sistemi denedim ama aksine performans düşmüş gibi geldi
    En temel uygulama bile düzgün çalışmadı; CSS ve terminal bağlamını ele almada da başarısız oldu
    Hız da giderek düştü, sonunda tekrar Sonnet'e döndüm
    Umarım bu kararlı sürüm değildir

  • Cursor'ı gerçekten seviyorum
    Copilot, Claude ve başka araçları kullandım ama sonunda yine Cursor'a dönüyorum
    Özellikle Tab otomatik tamamlama refactoring işlerinde çok isabetli

    • Bir ay önce VS Code + Copilot'a geri dönmeyi denedim ama 4 gün sonra vazgeçtim
      Yavaştı ve öneri kalitesi düşüktü
      Cursor çok daha hızlı ve önerileri daha kullanışlı
      Ama bazen fazla hızlı olduğu için gereksiz önerileri peş peşe göstermesi can sıkıyor
      Yine de erteletme (snooze) özelliğiyle bu çözülebiliyor
  • Composer 1'in bisiklete binen bir pelikan görseli var
    görsel bağlantısı

    • Beklediğimden çok daha iyi çıkmış