1 puan yazan GN⁺ 1 시간 전 | Henüz yorum yok. | WhatsApp'ta paylaş
  • İki açık kaynak deposundan (Zod, graphql-go-tools) çıkarılan 56 gerçek kodlama görevi üzerinde GPT-5.5, GPT-5.4 ve Opus 4.7 modellerinin yama kalitesini karşılaştıran benchmark sonuçları paylaşıldı
  • GPT-5.5, test geçme oranı, insan yamasıyla eşdeğerlik ve kod incelemesini geçme oranı (clean pass) dahil tüm metriklerde en yüksek skoru aldı
  • Opus 4.7 en küçük yamaları üretiyor ve footprint riski düşük, ancak eşlik eden işleri atladığı için eksik uygulamaların tekrarlandığı bir başarısızlık deseni sergiliyor
  • Yama kalitesini değerlendirmek için yalnızca testleri geçmek yeterli değil; incelemecinin kabul edip etmeyeceğini de içeren çok katmanlı bir değerlendirme gerekiyor
  • Aynı modelin sıralaması depoya göre değiştiğinden, kendi kod tabanınıza dayalı benchmark çalıştırmak model seçiminde kritik önemde

Benchmark özeti ve çalışma ortamı

  • Zod'dan 27, graphql-go-tools'dan 29 olmak üzere toplam 56 gerçek kodlama görevi üzerinde üç model karşılaştırıldı
  • Her model kendi resmi ajan harness'inde varsayılan ayarlarla çalıştırıldı: Opus 4.7 için Claude Code, GPT-5.4 ve GPT-5.5 için OpenAI Codex CLI kullanıldı
  • Tüm modellerin reasoning level değeri high olarak eşitlendi
  • Değerlendirme framework'ü Stet kullanılarak yalnızca test geçme durumu değil; davranışsal eşdeğerlik, kod incelemesi kabul edilebilirliği, footprint riski ve zanaatkârlık (craft) / disiplin (discipline) rubrikleri de çok katmanlı biçimde puanlandı
  • Her görev tek seed ile bir kez çalıştırıldı; eşdeğerlik ve rubrik değerlendirme modeli olarak GPT-5.4 kullanıldı

Genel sonuç özeti

  • GPT-5.5, 38/56 test geçme, insan yamasıyla 40/56 eşdeğerlik ve 28/56 clean pass ile tüm metriklerde 1. sırada yer aldı
  • Opus 4.7, 33/56 test geçme, 19/56 eşdeğerlik ve 10/56 clean pass ile en düşük kalite puanlarını aldı
    • Buna karşın ortalama footprint riski 0.20 ile en düşük değere sahip olarak yama boyutunda avantaj sağladı
  • GPT-5.4, 31/56 test geçme, 35/56 eşdeğerlik ve 11/56 clean pass elde etti
    • Görev başına $2.39 ile en düşük maliyete sahip olsa da clean pass farkını telafi edemedi
  • GPT-5.5, ortalama görev süresi 6 dakika 56 saniye, 201.8M giriş token'ı ve 0.72M çıkış token'ı ile verimlilikte de 1. sırada oldu

Depo bazında performans analizi

  • Zod (27 görev): GPT-5.5 ve Opus testlerde 12'şer geçişle berabere kaldı, ancak GPT-5.5 clean pass'te 10'a karşı 5 ile inceleme kalitesinde öne çıktı
    • Opus diff boyutunda üstün olduğundan, Zod için gerçek bir trade-off söz konusu
  • graphql-go-tools (29 görev): GPT-5.5, 26 test geçişi ve 18 clean pass ile açık ara üstünlük kurdu
    • Opus 21 testi geçti ama clean pass sayısı 5'te kaldı; küçük yama stratejisi entegrasyon işlerinin atlanmasına yol açtı

Ayrıntılı kalite metrikleri

  • Kod incelemesini geçme: GPT-5.5 33/56, GPT-5.4 16/56, Opus 11/56
  • Kod incelemesi ortalaması (doğruluk + bug güvenliği): GPT-5.5 3.08, GPT-5.4 2.59, Opus 2.33
    • Yalnızca doğruluk (correctness): GPT-5.5 3.16 vs GPT-5.4 2.60 vs Opus 2.11
    • Yeni bug eklememe güvenliği: GPT-5.5 3.04 vs GPT-5.4 2.56 vs Opus 2.55
  • Özel puanlayıcı ortalaması (8 rubrik): GPT-5.5 2.62, GPT-5.4 2.40, Opus 2.33
  • Zanaatkârlık puanı (clarity/coherence/robustness): GPT-5.5 üç alt başlığın tamamında en yüksek puanı aldı
  • Disiplin puanı (scope discipline/diff minimality): GPT-5.5 2.36 ile az farkla önde, Opus 2.20
    • Opus ham footprint'te önde olsa da göreve göre göreli disiplin açısından GPT-5.5 üstün geldi

Test geçmek nihai karar ölçütü değil

  • Zod'da Opus ve GPT-5.5 testlerde 12 geçişle berabere olsa da clean pass sonuçları GPT-5.5 için 10, Opus için 5 oldu
  • graphql-go-tools'da aynı desen daha da belirginleşti: GPT-5.5 için 26 test geçişi / 18 clean pass, Opus için 21 test geçişi / 5 clean pass
  • GraphQL PR #1001 örneğinde üç model de testleri geçti ve eşdeğer sayıldı, ancak yalnızca GPT-5.5 kod incelemesini geçti
    • Diğer iki model, API biçimi, raw HTTP nesnelerinin açığa çıkması ve hook sınırlarının sağlamlığı konularında uyarı aldı

Kod incelemesinde ortaya çıkan somut farklar

  • Zod asenkron codec ve varsayılan değer görevi: Üç model de testlerde başarısız oldu
    • Opus 8 dosyayı değiştirdi ancak temel semantik noktaları kaçırdı (undefined için varsayılan değere izin verme, codec tanımını senkron tutma)
    • GPT-5.4, 11 dosyalık yama ile eşdeğer kabul edildi ama bitişik API'yi gereğinden fazla kısıtladı (prefault)
    • GPT-5.5 de testlerde başarısız oldu ancak şema/build davranışını daha temiz biçimde kapsadığı için doğruluk ve bug riski alanlarında en yüksek puanı aldı
  • GraphQL Apollo uyumluluk doğrulaması (PR #1169): Üç model de testleri geçti, ancak eşdeğerlik ve inceleme aşamalarının ikisini de yalnızca GPT-5.5 geçti
    • Opus 11 dosya değiştirdi ve enum/sarmalanmış scalar leaf doğrulamasını atladı
    • GPT-5.4 12 dosya değiştirdi ve koşulsuz doğrulama metadata'sı gibi kapsamı gereğinden fazla genişletti
    • GPT-5.5, 10 dosyada (test dışı 6 dosya) değişiklik yaparak hem en küçük çözümü sundu hem de hedef davranışı doğru biçimde uyguladı

Opus 4.7'nin özellikleri ve sınırları

  • Muhafazakâr, hassas ve düşük footprint'li yamalar üretiyor
  • Görev yerel ve değişiklik yüzeyi darsa güçlü performans gösteriyor
  • Tekrarlanan başarısızlık deseni: çekirdek davranışı uyguluyor ama eşlik eden işleri (companion work) tamamlamıyor
    • Zod'un Node/Deno paralel ağaç örneğinde Opus yalnızca 4 dosya değiştirerek testleri geçti; GPT-5.5 ise paralel dağıtım yüzeyini de kapsayıp 11 dosya değiştirdi ve insan yamasıyla eşdeğer hale geldi
  • graphql-go-tools tarafında bu daha ciddi: PR #1155'te (gRPC datasource tekrar eden scalar alanlar ve çok sayıda engine yüzeyi değişikliği) Opus hiç yama üretemedi, test, eşdeğerlik ve incelemeyi birden geçen tek model GPT-5.5 oldu
  • Temel ayrım şu: Opus'un küçük yamaları yerel görevlerde disiplin, entegrasyon görevlerinde ise eksik uygulama anlamına geliyor

GPT-5.4'ten GPT-5.5'e değişim

  • GPT-5.4 doğru yaklaşım yönünü buluyor ama uygulamada başarısız oluyor
    • Zod'da 18 eşdeğerlik elde etti (GPT-5.5 ile aynı), ancak test geçişi yalnızca 9'da kaldı
  • GPT-5.5 daha geniş entegrasyon davranışını korurken bozuk yama üretimini daha az yapıyor
  • Somut örnek karşılaştırmaları:
    • Şema→TypeScript üreticisi: Opus ve GPT-5.5 recursive visitor uygularken GPT-5.4 görevi yanlış sınıflandırıp depo rehber dosyası oluşturdu
    • Recursive parser düzeltmesi: Her iki GPT modeli de ziyaret sayısını takip eden yaklaşımı kullandı, GPT-5.5 ise gereksiz state'i kaldırarak daha sade bir çözüm sundu
    • CIDR doğrulaması: GPT-5.5 Deno mirror'u da güncelledi, GPT-5.4 ise mirror'u güncellemedi (depo hijyeni sorunu)
  • graphql-go-tools PR #1232'de (aynı tek fetch'in deduplikasyonu + bağımlılık referanslarının yeniden yazılması) test, eşdeğerlik ve incelemeyi birden geçen tek model GPT-5.5 oldu
  • Desen özeti: GPT-5.5 akıllı yerel düzeltmeleri, dağıtıma hazır depo değişikliklerine dönüştüren sıkıcı entegrasyon işlerini daha sık tamamlıyor

Yama boyutu ve maliyet trade-off'u

  • graphql-go-tools için ortalama yama boyutu: GPT-5.5 yaklaşık 33KB, GPT-5.4 27KB, Opus 19KB
  • Footprint puanı: Opus 0.19, GPT-5.4 0.32, GPT-5.5 0.34
  • Büyük yamalar, inceleme zorluğu, çakışma olasılığı ve hassas yollara temas riski getiriyor
    • Auditability odaklı iş akışlarında Opus hâlâ pratik bir avantaj sunabiliyor
  • Ancak diff minimality göreve göre göreli değerlendirildiğinde GPT-5.5 az farkla öne çıkıyor
    • Temel nokta: Gerekli yüzeyi kaçıran 5KB'lık bir yama, görevi tamamlayan 20KB'lık yamadan daha minimal sayılmaz
  • Maliyet karşılaştırması:
    • Zod'da Opus ile GPT-5.5 benzer düzeyde (Opus $45.53 vs GPT-5.5 $46.69)
    • graphql-go-tools'da Opus 186.1M giriş token'ı / 934K çıkış / 8.56 saat ajan süresi kullanırken, GPT-5.5 151.4M / 431K / 4.16 saat ile çok daha verimli oldu

Modele göre davranış özellikleri özeti

  • Opus 4.7 — yetersiz kapsama (under-reach): Muhafazakâr, hassas, düşük footprint; yerel görevlerde güçlü ama testlerin tam kapsamadığı eşlik eden yüzeylerde zayıf. Başarısızlık modu: "test geçti ama yapılan değişiklik aynı değil"
  • GPT-5.4 — doğru şekil, yanlış uygulama: Yön doğru ama sonuçlar tutarsız; eski mirror'lar, gereksiz refactor'lar ve testlerden çok değerlendiricilerden iyi puan alan yamalar sık görülüyor
  • GPT-5.5 — daha geniş kapsama, daha büyük footprint: Entegrasyon yüzeylerinde daha tam; çevre kod güncellemeleri, inceleme geçişi ve hedeflenen davranışı gerçek koda dönüştürme oranı daha yüksek. Riski ise hata yaptığında daha fazla dosyaya yayılabilmesi

Ajan davranışlarındaki farklar

  • graphql-go-tools'da Opus görev başına ortalama 3.17 açık planlama çağrısı yaparken GPT-5.5 0 yaptı
  • Opus görev başına 10.2 patch çağrısı, GPT-5.5 ise 9.9 ile benzer seviyede kaldı
  • GPT-5.5 yaklaşık 2 kat daha fazla shell çağrısı yaptı ve arama çağrılarını da daha sık kullandı; Opus ise bütçesinin daha fazlasını planlama ve yama yeniden yazımına harcadı
  • Bu depoda daha geniş depo taraması, dar yamalar üzerine daha fazla düşünmekten daha etkili oldu

Bu sonuç neden önemli

  • Temel soru "hangi model en iyi" değil; "bu depoda, bu harness'te, gerçekten dağıtıma çıkan bu görev türlerinde hangi modelin yamalarına güvenilebilir" sorusu
  • Zod'da GPT-5.5 ile Opus arasında trade-off varken, graphql-go-tools'da GPT-5.5 net üstünlük sağlıyor
  • Açık benchmark'lar model davranışını tek bir toplu sayıya indirger, ancak gerçek kod ortamında kararlar belirli kod tabanı ve belirli ölçütlere göre iş akışı seçimine dönüşür

Dikkat edilmesi gerekenler

  • 56 görev hâlâ küçük bir örneklem; tek bir görev farkı depo düzeyindeki oranları birkaç puan oynatabiliyor
  • Tüm modeller her görev için yalnızca bir kez çalıştırıldı; birbirine yakın sonuçlar yeniden çalıştırmada tersine dönebilir
  • Eşdeğerlik ve rubrik değerlendirme modeli GPT-5.4 olduğu için aile içi yanlılık olasılığı var
    • Ancak GPT-5.5'in GPT-5.4'ü açık biçimde geride bırakması, Opus'un footprint avantajını koruması ve Opus'un eşdeğerlik başarısızlıklarının çoğunun somut dosya eksiklerinden kaynaklanması, toplam sonucu bunun tek başına açıklayamadığını gösteriyor
  • Sonuçlar harness koşullarına bağlı: Claude Code ile Codex CLI sistem prompt'u, planlama döngüsü ve araç yüzeyi açısından farklılık gösteriyor
    • Opus Codex API üzerinde, GPT-5.5 ise Claude Code üzerinde çalıştırılırsa sonuçlar değişebilir
    • Buradaki sayılar, gerçek mühendislerin kullandığı harness içindeki model davranışını yansıtıyor

Temel sonuç

  • GPT-5.5 bu iki depoda varsayılan dağıtım için en iyi model
  • Opus 4.7 hâlâ düşük footprint'li bir model olarak, dar diff'in en önemli olduğu durumlarda tercih edilebilir
  • GPT-5.4 görev başına en düşük maliyete sahip, ancak clean pass farkını kapatmak için bu yeterli değil
  • Yalnızca testlere bakmak, en önemli sonuçları gizliyor
  • Aynı modelin sıralaması depodan depoya değişiyor; bu da kendi deponuzda benchmark yapmanın asıl nedeni

Henüz yorum yok.

Henüz yorum yok.