Composer: Pekiştirmeli öğrenmeyle geliştirilen yüksek hızlı frontier model

(cursor.com)

2 puan yazan GN⁺ 2025-10-30 | 1 yorum | WhatsApp'ta paylaş

Cursor’un tanıttığı Composer, yazılım mühendisliği için geliştirilen yüksek hızlı akıllı ajan modeli; benzer modellere kıyasla 4 kat daha hızlı kod üretim hızı sağlıyor
Gerçek büyük ölçekli kod tabanı problemlerini çözmek üzere eğitiliyor ve arama·düzenleme araçlarını kullanarak farklı zorluk seviyelerindeki görevleri yerine getiriyor
Mixture-of-Experts(MoE) yapısı ile pekiştirmeli öğrenmeyi(RL) birleştirerek kod düzenleme, planlama ve yanıt üretimi gibi alanlarda uzun bağlamı anlama ve üretimi destekliyor
Cursor Bench değerlendirmesiyle yalnızca model doğruluğu değil, kod tabanı tutarlılığı ve mühendislik uygulamalarına uyum da ölçülüyor
PyTorch·Ray tabanlı asenkron RL altyapısı ve MXFP8 düşük hassasiyetli eğitim kullanılarak binlerce GPU üzerinde verimli eğitim ve daha yüksek çıkarım hızı elde ediliyor

Composer genel bakış

Composer, yazılım mühendisliği zekâsı ve hızı hedefiyle geliştirilen yeni bir ajan modeli
- Benchmark’larda benzer modellere kıyasla 4 kat daha hızlı kod üretim hızı kaydetti
- Cursor içinde büyük ölçekli kod tabanı problemlerini çözmeye yönelik ajan olarak optimize edildi
Model, gerçek ortamlarda arama ve düzenleme araçlarını kullanarak farklı zorluktaki problemleri çözmesi için eğitildi
- Bu sayede yüksek hızlı etkileşimli geliştirme deneyimi sunuyor

Geliştirme arka planı

Composer, Cursor’un özel kod otomatik tamamlama modeli (Cursor Tab) geliştirme deneyiminden doğdu
- Geliştiricilerin hem akıllı hem de hızlı tepki veren modelleri tercih ettiği görüldü
İlk deneysel model Cheetah temel alınarak Composer, bunun geliştirilmiş daha hızlı ve daha akıllı sürümü olarak tasarlandı
- Amaç, geliştirme akışını bozmadan anında tepki veren bir model oluşturmaktı

Model yapısı ve eğitim yöntemi

Composer, uzun bağlamı anlama ve üretimi destekleyen bir Mixture-of-Experts(MoE) dil modeli
Pekiştirmeli öğrenme(RL) sayesinde farklı geliştirme ortamlarında uzmanlaşıyor
- Her eğitim aşamasında problem açıklamasını alıp en uygun kod değişikliği, plan ve yanıtı üretiyor
- Model; dosya okuma·düzenleme, terminal komutu çalıştırma, kod tabanı genelinde anlamsal arama gibi araçlardan yararlanıyor
RL sürecinde model; karmaşık aramalar yapma, linter hatalarını düzeltme, birim testleri yazma ve çalıştırma gibi faydalı davranışları kendi kendine öğreniyor

Değerlendirme ve benchmark

Cursor Bench, gerçek mühendislik taleplerini ve en iyi çözümleri içeren dahili bir değerlendirme seti
- Modelin doğruluğu, kod tabanı soyutlamalarına uyumu ve yazılım mühendisliği uygulamalarıyla örtüşmesi ölçülüyor
Composer, verimli çıkarımı hedefleyen Haiku 4.5 ve Gemini Flash 2.5 gibi modellerle birlikte “Fast Frontier” sınıfında değerlendiriliyor
- GPT-5 ve Sonnet 4.5 gibi üst düzey Frontier modellerinden daha yavaş olsa da hız başına yüksek verimlilik sunuyor

Altyapı ve sistem tasarımı

Büyük ölçekli MoE model eğitimi için PyTorch ve Ray tabanlı asenkron RL altyapısı kuruldu
- MXFP8 MoE kernel’leri, uzman paralelleştirme ve hibrit sharding veri paralelleştirmesi birleştirildi
- Binlerce NVIDIA GPU üzerinde iletişim maliyeti en aza indirilerek eğitim ölçeklendirildi
MXFP8 düşük hassasiyetli eğitim sayesinde çıkarım hızı artırıldı ve sonradan kuantizasyona gerek kalmadı
RL sırasında model, Cursor Agent’ın tüm araçlarını çağırabiliyor
- Kod düzenleme, anlamsal arama, string grep, terminal komutu çalıştırma gibi işlevler destekleniyor
- Bunun için yüz binlerce bulut sandbox ortamı paralel olarak çalıştırılıyor
- Mevcut Background Agents altyapısı genişletilerek ani yükselen eğitim yükleri karşılanıyor

Dahili kullanım ve dağıtım

Cursor ekibi, Composer’ı kendi geliştirme işlerinde aktif olarak kullanıyor
- Çok sayıda mühendis, günlük yazılım geliştirme çalışmalarında Composer’dan yararlanıyor
Bu duyuruyla birlikte diğer geliştiricilerin de bunu faydalı şekilde kullanabilmesi umuluyor

Ek: dahili benchmark sınıflandırması

Fast Frontier: Verimli çıkarım modelleri (Haiku 4.5, Gemini Flash 2.5 vb.)
Best Open: Açık ağırlıklı modeller (Qwen Coder, GLM 4.6 vb.)
Frontier 7/2025: Temmuz 2025 itibarıyla en iyi modeller
Best Frontier: GPT-5, Sonnet 4.5 gibi Composer’dan daha yüksek performanslı modeller
Tokens per Second hesabı, en güncel Anthropic tokenizer temel alınarak standartlaştırıldı

1 yorum

GN⁺ 2025-10-30

Hacker News görüşleri

Şeffaflığın fazlasıyla yetersiz olduğunu düşünüyorum
Model performansı yalnızca kendi benchmark'ları ile paylaşılmış ve o veriler bile gizli olduğu için güvenmek zor
RL eğitimi anlatılıyor ama ön eğitim (pre-training) ya da fine-tuning yapılıp yapılmadığı gibi kritik bilgiler hiç yok
Ayrıntılar açıklanana ya da dışarıdan bağımsız benchmark yapılana kadar tüm iddialara şüpheyle yaklaşıyorum
- İç benchmark'ları paylaşmamalarını anlıyorum
  Açıklanırsa bu veriler diğer LLM'lerin eğitim setlerine girebilir ve bilimsel geçerlilik ortadan kalkabilir
  Ama gizli tutulursa bu kez de kendilerine avantaj sağlayan verileri seçmiş olabilecekleri şüphesi doğuyor
  Sonuçta çözmesi zor bir ikilem
- Aslında önemli olanın gerçek kullanıcı verisi olduğunu düşünüyorum
  Cursor, binlerce accept/reject verisini gerçek zamanlı topluyor; bu da en iyi geri bildirim döngüsü
  Gerçek kullanıcı tepkileri benchmark'lardan çok daha faydalı ve model bu sayede hızla geliştirilebilir
  Son dönemde multi-agent + git tree entegrasyonu da eklendi; kullanıcı davranışı bir öğrenme sinyali olarak kullanılıyor
  Bu tür rekabetin, tüm pazarın kalitesini yükselten ve kullanım maliyetini düşüren olumlu bir döngü yarattığını düşünüyorum
Cursor'ın Tab modelinin hâlâ en iyisi olduğunu düşünüyorum
Konu resmî blog yazısında iyi özetlenmiş
Bu yaklaşımın agentic coding modeline de uygulanabilmesi gerçekten ilginç olurdu
- Bizim ekip de Tab'ı çok kullanıyor
  Bu projenin motivasyonu da zaten Tab benzeri bir ajan yapma fikrinden çıktı
- Windsurfs'u deneyip denemediğini merak ediyorum
- Tab modeli iyi ama biraz da daha iyi bir at arabası kamçısı yapma yarışı gibi geliyor
  Ben Claude Code'u neredeyse sürekli açık tutuyorum; Tab ise ancak model tamamen tıkandığında devreye giriyor
  Böyle başarısızlık durumlarının giderek azalması etkileyici
- Tab modeli harika ama mevcut AI sohbet oturumunun bağlamını anlayamaması üzücü
- Özellik iyi ama kısayolu zayıf
  Keşke shift+tab gibi bir şey olsaydı
  Ben doğrudan kod yazarken AI ile girinti savaşı veriyormuşum gibi hissettiriyor ve rahatsız edici
Ben Cursor'da bir ML araştırmacısıyım ve bu projede yer aldım
Model ya da blog yazısı hakkında geri bildirimleri memnuniyetle karşılarım
- Sistem açıklaması etkileyiciydi
  Ama Composer açık bir modeli RL ile fine-tune ettiyse, neden ağırlıkları kapalı tuttuklarını merak ediyorum
  Küçük bir performans avantajı hızla kaybolacağı için, açık strateji geliştirici güveni kazanmak açısından daha iyi olabilir
  Kişisel olarak kapalı modellere çok ilgi duymuyorum
- Gerçekten şaşırtıcıydı
  Eskiden Cursor'ı deneyip bırakmıştım ama bu Composer1, GPT5 Codex'ten çok daha hızlı ve daha doğruydu
  Hem hız hem kalite iyi olduğu için tekrar kullanmayı düşünüyorum
- Blogdaki ilk grafik fazla muğlaktı
  Model gruplaması olmadan tek tek isimleri gösteren bir sürüm olsaydı daha adil olurdu
- Bugün Composer, Sonnet 4.5 ve Gemini 2.5 Pro'yu birlikte kullandım; içlerinde en memnun kaldığım şey Composer'ın hız ve kalite kombinasyonu oldu
  Planlama aşamasında Claude'u kullanıyorum ama uygulama aşamasında Composer çok daha verimli
- Log grafiğine bakınca frontier modele ulaşmak için yaklaşık %50 daha fazla compute gerekirmiş gibi görünüyor; neden eğitimi orada durdurduklarını merak ediyorum
Sonnet 4.5 benim için tolere edebildiğim asgari kalite seviyesi
Hızdan daha önemli olan şey, istediğim çıktıyı almak için boğuşmak zorunda kalmamak
Belki yanlış anlamışımdır ama bu yazıda karşılaştırılan modellerin hepsinin Cursor'ın iç modelleri olup olmadığını merak ediyorum
- Sonnet 4.5 çıkalı daha bir ay olmuşken şimdiden onu “asgari seviye” diye görmen komik
- Bence iki tür kullanıcı var
  Biri modelin uzun işleri kendi başına halletmesini isteyenler,
  diğeri ise modelle etkileşimli biçimde işbirliği yapmak isteyenler
  İkinci grupta hız çok daha önemli, birincide ise zeka daha önemli
  Benim için bağlamı anlayamama daha büyük sorun, yani duruma göre değişiyor
- Sonnet 4.5 harika ama Composer'ı da denedin mi merak ediyorum
- Ben de benzer düşünüyorum
  Claude dışındaki modelleri kullanınca token maliyeti artıyor ve verim düşüyor
  Claude 4.5 Sonnet aynı işi yarı maliyetle çözüyor
- Bu karşılaştırmayı açmamın sebebi, Cursor'ın hız odaklı kullanıcı deneyimini ne kadar ciddiye aldığını göstermekti
  Ben doğruluktan çok hızlı geri bildirimi tercih ediyorum
Yeni modelin çıkmasına sevindim ama grafikte sayıların ve model adlarının olmaması güven vermiyor
- Modelle ilgili açıklamalar dipnotta var
  Eğitim ayrıntılarını paylaşmaları zor ama RL'in iyi ölçeklendiğine dair bir sonuç elde ettiklerini söylüyorlar
İnsanlar Cursor'a eleştirel yaklaşıyor ama ben Copilot, Claude Code, Codex, Gemini CLI, Cline ve daha fazlasını kullandım; yine de Cursor'ın olgunluğu en yüksekti
Özellikle hızı ve kararlılığı çok iyi, gerçekten bir ürün gibi hissettiriyor
- Ben de Cursor kullandım ama güvenilirlik sorunları yüzünden bıraktım
  İstekler sık sık 30 saniyeden uzun süre takılı kalıyordu; Claude Code ise çok daha hızlı ve kararlıydı
  Bugün yeni modeli tekrar denedim; Composer1 hızlıydı ama hâlâ bağlantı hataları vardı
- Ben de birçok araç denedim ama sonunda Cursor'a geri döndüm
  İstediğim şeyi hızlıca hayata geçirmek için en iyisi Cursor
- Cursor bazen takılıyor ama arayüzden kolayca geri alma mümkün olduğu için çok rahatsız etmiyor
  Otomatik tamamlama da refactoring sırasında oldukça faydalı
- Bir sürü alternatif denediğini söylüyorsun ama acaba Zed'i denemedin mi?
- Claude'u denedikten sonra bile Cursor'ı daha çok tercih etmen ilginç
Rakipler arasında yanıtın tamamlanma süresini ciddiye alan tek şirket Cursor gibi görünüyor
Cursor bu konuda tamamen öne geçmiş durumda
- Biz de çeşitli modelleri seviyoruz ama önemli olanın hızlı ve akıllı denge noktasını bulmak olduğunu düşünüyoruz (Cursor araştırmacısı)
Yeni sistemi denedim ama aksine performans düşmüş gibi geldi
En temel uygulama bile düzgün çalışmadı; CSS ve terminal bağlamını ele almada da başarısız oldu
Hız da giderek düştü, sonunda tekrar Sonnet'e döndüm
Umarım bu kararlı sürüm değildir
Cursor'ı gerçekten seviyorum
Copilot, Claude ve başka araçları kullandım ama sonunda yine Cursor'a dönüyorum
Özellikle Tab otomatik tamamlama refactoring işlerinde çok isabetli
- Bir ay önce VS Code + Copilot'a geri dönmeyi denedim ama 4 gün sonra vazgeçtim
  Yavaştı ve öneri kalitesi düşüktü
  Cursor çok daha hızlı ve önerileri daha kullanışlı
  Ama bazen fazla hızlı olduğu için gereksiz önerileri peş peşe göstermesi can sıkıyor
  Yine de erteletme (snooze) özelliğiyle bu çözülebiliyor
Composer 1'in bisiklete binen bir pelikan görseli var
görsel bağlantısı
- Beklediğimden çok daha iyi çıkmış

Composer: Pekiştirmeli öğrenmeyle geliştirilen yüksek hızlı frontier model

Composer genel bakış

Geliştirme arka planı

Model yapısı ve eğitim yöntemi

Değerlendirme ve benchmark

Altyapı ve sistem tasarımı

Dahili kullanım ve dağıtım

Ek: dahili benchmark sınıflandırması

İlgili okumalar

1 yorum

Hacker News görüşleri