GPT-5.5 vs GPT-5.4 vs Opus 4.7 - 56 gerçek kodlama görevi üzerinde benchmark karşılaştırması

(reddit.com)

1 puan yazan GN⁺ 1 시간 전 | Henüz yorum yok. | WhatsApp'ta paylaş

İki açık kaynak deposundan (Zod, graphql-go-tools) çıkarılan 56 gerçek kodlama görevi üzerinde GPT-5.5, GPT-5.4 ve Opus 4.7 modellerinin yama kalitesini karşılaştıran benchmark sonuçları paylaşıldı
GPT-5.5, test geçme oranı, insan yamasıyla eşdeğerlik ve kod incelemesini geçme oranı (clean pass) dahil tüm metriklerde en yüksek skoru aldı
Opus 4.7 en küçük yamaları üretiyor ve footprint riski düşük, ancak eşlik eden işleri atladığı için eksik uygulamaların tekrarlandığı bir başarısızlık deseni sergiliyor
Yama kalitesini değerlendirmek için yalnızca testleri geçmek yeterli değil; incelemecinin kabul edip etmeyeceğini de içeren çok katmanlı bir değerlendirme gerekiyor
Aynı modelin sıralaması depoya göre değiştiğinden, kendi kod tabanınıza dayalı benchmark çalıştırmak model seçiminde kritik önemde

Benchmark özeti ve çalışma ortamı

Zod'dan 27, graphql-go-tools'dan 29 olmak üzere toplam 56 gerçek kodlama görevi üzerinde üç model karşılaştırıldı
Her model kendi resmi ajan harness'inde varsayılan ayarlarla çalıştırıldı: Opus 4.7 için Claude Code, GPT-5.4 ve GPT-5.5 için OpenAI Codex CLI kullanıldı
Tüm modellerin reasoning level değeri high olarak eşitlendi
Değerlendirme framework'ü Stet kullanılarak yalnızca test geçme durumu değil; davranışsal eşdeğerlik, kod incelemesi kabul edilebilirliği, footprint riski ve zanaatkârlık (craft) / disiplin (discipline) rubrikleri de çok katmanlı biçimde puanlandı
Her görev tek seed ile bir kez çalıştırıldı; eşdeğerlik ve rubrik değerlendirme modeli olarak GPT-5.4 kullanıldı

Genel sonuç özeti

GPT-5.5, 38/56 test geçme, insan yamasıyla 40/56 eşdeğerlik ve 28/56 clean pass ile tüm metriklerde 1. sırada yer aldı
Opus 4.7, 33/56 test geçme, 19/56 eşdeğerlik ve 10/56 clean pass ile en düşük kalite puanlarını aldı
- Buna karşın ortalama footprint riski 0.20 ile en düşük değere sahip olarak yama boyutunda avantaj sağladı
GPT-5.4, 31/56 test geçme, 35/56 eşdeğerlik ve 11/56 clean pass elde etti
- Görev başına $2.39 ile en düşük maliyete sahip olsa da clean pass farkını telafi edemedi
GPT-5.5, ortalama görev süresi 6 dakika 56 saniye, 201.8M giriş token'ı ve 0.72M çıkış token'ı ile verimlilikte de 1. sırada oldu

Depo bazında performans analizi

Zod (27 görev): GPT-5.5 ve Opus testlerde 12'şer geçişle berabere kaldı, ancak GPT-5.5 clean pass'te 10'a karşı 5 ile inceleme kalitesinde öne çıktı
- Opus diff boyutunda üstün olduğundan, Zod için gerçek bir trade-off söz konusu
graphql-go-tools (29 görev): GPT-5.5, 26 test geçişi ve 18 clean pass ile açık ara üstünlük kurdu
- Opus 21 testi geçti ama clean pass sayısı 5'te kaldı; küçük yama stratejisi entegrasyon işlerinin atlanmasına yol açtı

Ayrıntılı kalite metrikleri

Kod incelemesini geçme: GPT-5.5 33/56, GPT-5.4 16/56, Opus 11/56
Kod incelemesi ortalaması (doğruluk + bug güvenliği): GPT-5.5 3.08, GPT-5.4 2.59, Opus 2.33
- Yalnızca doğruluk (correctness): GPT-5.5 3.16 vs GPT-5.4 2.60 vs Opus 2.11
- Yeni bug eklememe güvenliği: GPT-5.5 3.04 vs GPT-5.4 2.56 vs Opus 2.55
Özel puanlayıcı ortalaması (8 rubrik): GPT-5.5 2.62, GPT-5.4 2.40, Opus 2.33
Zanaatkârlık puanı (clarity/coherence/robustness): GPT-5.5 üç alt başlığın tamamında en yüksek puanı aldı
Disiplin puanı (scope discipline/diff minimality): GPT-5.5 2.36 ile az farkla önde, Opus 2.20
- Opus ham footprint'te önde olsa da göreve göre göreli disiplin açısından GPT-5.5 üstün geldi

Test geçmek nihai karar ölçütü değil

Zod'da Opus ve GPT-5.5 testlerde 12 geçişle berabere olsa da clean pass sonuçları GPT-5.5 için 10, Opus için 5 oldu
graphql-go-tools'da aynı desen daha da belirginleşti: GPT-5.5 için 26 test geçişi / 18 clean pass, Opus için 21 test geçişi / 5 clean pass
GraphQL PR #1001 örneğinde üç model de testleri geçti ve eşdeğer sayıldı, ancak yalnızca GPT-5.5 kod incelemesini geçti
- Diğer iki model, API biçimi, raw HTTP nesnelerinin açığa çıkması ve hook sınırlarının sağlamlığı konularında uyarı aldı

Kod incelemesinde ortaya çıkan somut farklar

Zod asenkron codec ve varsayılan değer görevi: Üç model de testlerde başarısız oldu
- Opus 8 dosyayı değiştirdi ancak temel semantik noktaları kaçırdı (undefined için varsayılan değere izin verme, codec tanımını senkron tutma)
- GPT-5.4, 11 dosyalık yama ile eşdeğer kabul edildi ama bitişik API'yi gereğinden fazla kısıtladı (prefault)
- GPT-5.5 de testlerde başarısız oldu ancak şema/build davranışını daha temiz biçimde kapsadığı için doğruluk ve bug riski alanlarında en yüksek puanı aldı
GraphQL Apollo uyumluluk doğrulaması (PR #1169): Üç model de testleri geçti, ancak eşdeğerlik ve inceleme aşamalarının ikisini de yalnızca GPT-5.5 geçti
- Opus 11 dosya değiştirdi ve enum/sarmalanmış scalar leaf doğrulamasını atladı
- GPT-5.4 12 dosya değiştirdi ve koşulsuz doğrulama metadata'sı gibi kapsamı gereğinden fazla genişletti
- GPT-5.5, 10 dosyada (test dışı 6 dosya) değişiklik yaparak hem en küçük çözümü sundu hem de hedef davranışı doğru biçimde uyguladı

Opus 4.7'nin özellikleri ve sınırları

Muhafazakâr, hassas ve düşük footprint'li yamalar üretiyor
Görev yerel ve değişiklik yüzeyi darsa güçlü performans gösteriyor
Tekrarlanan başarısızlık deseni: çekirdek davranışı uyguluyor ama eşlik eden işleri (companion work) tamamlamıyor
- Zod'un Node/Deno paralel ağaç örneğinde Opus yalnızca 4 dosya değiştirerek testleri geçti; GPT-5.5 ise paralel dağıtım yüzeyini de kapsayıp 11 dosya değiştirdi ve insan yamasıyla eşdeğer hale geldi
graphql-go-tools tarafında bu daha ciddi: PR #1155'te (gRPC datasource tekrar eden scalar alanlar ve çok sayıda engine yüzeyi değişikliği) Opus hiç yama üretemedi, test, eşdeğerlik ve incelemeyi birden geçen tek model GPT-5.5 oldu
Temel ayrım şu: Opus'un küçük yamaları yerel görevlerde disiplin, entegrasyon görevlerinde ise eksik uygulama anlamına geliyor

GPT-5.4'ten GPT-5.5'e değişim

GPT-5.4 doğru yaklaşım yönünü buluyor ama uygulamada başarısız oluyor
- Zod'da 18 eşdeğerlik elde etti (GPT-5.5 ile aynı), ancak test geçişi yalnızca 9'da kaldı
GPT-5.5 daha geniş entegrasyon davranışını korurken bozuk yama üretimini daha az yapıyor
Somut örnek karşılaştırmaları:
- Şema→TypeScript üreticisi: Opus ve GPT-5.5 recursive visitor uygularken GPT-5.4 görevi yanlış sınıflandırıp depo rehber dosyası oluşturdu
- Recursive parser düzeltmesi: Her iki GPT modeli de ziyaret sayısını takip eden yaklaşımı kullandı, GPT-5.5 ise gereksiz state'i kaldırarak daha sade bir çözüm sundu
- CIDR doğrulaması: GPT-5.5 Deno mirror'u da güncelledi, GPT-5.4 ise mirror'u güncellemedi (depo hijyeni sorunu)
graphql-go-tools PR #1232'de (aynı tek fetch'in deduplikasyonu + bağımlılık referanslarının yeniden yazılması) test, eşdeğerlik ve incelemeyi birden geçen tek model GPT-5.5 oldu
Desen özeti: GPT-5.5 akıllı yerel düzeltmeleri, dağıtıma hazır depo değişikliklerine dönüştüren sıkıcı entegrasyon işlerini daha sık tamamlıyor

Yama boyutu ve maliyet trade-off'u

graphql-go-tools için ortalama yama boyutu: GPT-5.5 yaklaşık 33KB, GPT-5.4 27KB, Opus 19KB
Footprint puanı: Opus 0.19, GPT-5.4 0.32, GPT-5.5 0.34
Büyük yamalar, inceleme zorluğu, çakışma olasılığı ve hassas yollara temas riski getiriyor
- Auditability odaklı iş akışlarında Opus hâlâ pratik bir avantaj sunabiliyor
Ancak diff minimality göreve göre göreli değerlendirildiğinde GPT-5.5 az farkla öne çıkıyor
- Temel nokta: Gerekli yüzeyi kaçıran 5KB'lık bir yama, görevi tamamlayan 20KB'lık yamadan daha minimal sayılmaz
Maliyet karşılaştırması:
- Zod'da Opus ile GPT-5.5 benzer düzeyde (Opus $45.53 vs GPT-5.5 $46.69)
- graphql-go-tools'da Opus 186.1M giriş token'ı / 934K çıkış / 8.56 saat ajan süresi kullanırken, GPT-5.5 151.4M / 431K / 4.16 saat ile çok daha verimli oldu

Modele göre davranış özellikleri özeti

Opus 4.7 — yetersiz kapsama (under-reach): Muhafazakâr, hassas, düşük footprint; yerel görevlerde güçlü ama testlerin tam kapsamadığı eşlik eden yüzeylerde zayıf. Başarısızlık modu: "test geçti ama yapılan değişiklik aynı değil"
GPT-5.4 — doğru şekil, yanlış uygulama: Yön doğru ama sonuçlar tutarsız; eski mirror'lar, gereksiz refactor'lar ve testlerden çok değerlendiricilerden iyi puan alan yamalar sık görülüyor
GPT-5.5 — daha geniş kapsama, daha büyük footprint: Entegrasyon yüzeylerinde daha tam; çevre kod güncellemeleri, inceleme geçişi ve hedeflenen davranışı gerçek koda dönüştürme oranı daha yüksek. Riski ise hata yaptığında daha fazla dosyaya yayılabilmesi

Ajan davranışlarındaki farklar

graphql-go-tools'da Opus görev başına ortalama 3.17 açık planlama çağrısı yaparken GPT-5.5 0 yaptı
Opus görev başına 10.2 patch çağrısı, GPT-5.5 ise 9.9 ile benzer seviyede kaldı
GPT-5.5 yaklaşık 2 kat daha fazla shell çağrısı yaptı ve arama çağrılarını da daha sık kullandı; Opus ise bütçesinin daha fazlasını planlama ve yama yeniden yazımına harcadı
Bu depoda daha geniş depo taraması, dar yamalar üzerine daha fazla düşünmekten daha etkili oldu

Bu sonuç neden önemli

Temel soru "hangi model en iyi" değil; "bu depoda, bu harness'te, gerçekten dağıtıma çıkan bu görev türlerinde hangi modelin yamalarına güvenilebilir" sorusu
Zod'da GPT-5.5 ile Opus arasında trade-off varken, graphql-go-tools'da GPT-5.5 net üstünlük sağlıyor
Açık benchmark'lar model davranışını tek bir toplu sayıya indirger, ancak gerçek kod ortamında kararlar belirli kod tabanı ve belirli ölçütlere göre iş akışı seçimine dönüşür

Dikkat edilmesi gerekenler

56 görev hâlâ küçük bir örneklem; tek bir görev farkı depo düzeyindeki oranları birkaç puan oynatabiliyor
Tüm modeller her görev için yalnızca bir kez çalıştırıldı; birbirine yakın sonuçlar yeniden çalıştırmada tersine dönebilir
Eşdeğerlik ve rubrik değerlendirme modeli GPT-5.4 olduğu için aile içi yanlılık olasılığı var
- Ancak GPT-5.5'in GPT-5.4'ü açık biçimde geride bırakması, Opus'un footprint avantajını koruması ve Opus'un eşdeğerlik başarısızlıklarının çoğunun somut dosya eksiklerinden kaynaklanması, toplam sonucu bunun tek başına açıklayamadığını gösteriyor
Sonuçlar harness koşullarına bağlı: Claude Code ile Codex CLI sistem prompt'u, planlama döngüsü ve araç yüzeyi açısından farklılık gösteriyor
- Opus Codex API üzerinde, GPT-5.5 ise Claude Code üzerinde çalıştırılırsa sonuçlar değişebilir
- Buradaki sayılar, gerçek mühendislerin kullandığı harness içindeki model davranışını yansıtıyor

Temel sonuç

GPT-5.5 bu iki depoda varsayılan dağıtım için en iyi model
Opus 4.7 hâlâ düşük footprint'li bir model olarak, dar diff'in en önemli olduğu durumlarda tercih edilebilir
GPT-5.4 görev başına en düşük maliyete sahip, ancak clean pass farkını kapatmak için bu yeterli değil
Yalnızca testlere bakmak, en önemli sonuçları gizliyor
Aynı modelin sıralaması depodan depoya değişiyor; bu da kendi deponuzda benchmark yapmanın asıl nedeni

GPT-5.5 vs GPT-5.4 vs Opus 4.7 - 56 gerçek kodlama görevi üzerinde benchmark karşılaştırması

Benchmark özeti ve çalışma ortamı

Genel sonuç özeti

Depo bazında performans analizi

Ayrıntılı kalite metrikleri

Test geçmek nihai karar ölçütü değil

Kod incelemesinde ortaya çıkan somut farklar

Opus 4.7'nin özellikleri ve sınırları

GPT-5.4'ten GPT-5.5'e değişim

Yama boyutu ve maliyet trade-off'u

Modele göre davranış özellikleri özeti

Ajan davranışlarındaki farklar

Bu sonuç neden önemli

Dikkat edilmesi gerekenler

Temel sonuç

İlgili okumalar

Henüz yorum yok.