GPT-5.5 vs GPT-5.4 vs Opus 4.7 - 56 gerçek kodlama görevi üzerinde benchmark karşılaştırması
(reddit.com)- İki açık kaynak deposundan (Zod, graphql-go-tools) çıkarılan 56 gerçek kodlama görevi üzerinde GPT-5.5, GPT-5.4 ve Opus 4.7 modellerinin yama kalitesini karşılaştıran benchmark sonuçları paylaşıldı
- GPT-5.5, test geçme oranı, insan yamasıyla eşdeğerlik ve kod incelemesini geçme oranı (clean pass) dahil tüm metriklerde en yüksek skoru aldı
- Opus 4.7 en küçük yamaları üretiyor ve footprint riski düşük, ancak eşlik eden işleri atladığı için eksik uygulamaların tekrarlandığı bir başarısızlık deseni sergiliyor
- Yama kalitesini değerlendirmek için yalnızca testleri geçmek yeterli değil; incelemecinin kabul edip etmeyeceğini de içeren çok katmanlı bir değerlendirme gerekiyor
- Aynı modelin sıralaması depoya göre değiştiğinden, kendi kod tabanınıza dayalı benchmark çalıştırmak model seçiminde kritik önemde
Benchmark özeti ve çalışma ortamı
- Zod'dan 27, graphql-go-tools'dan 29 olmak üzere toplam 56 gerçek kodlama görevi üzerinde üç model karşılaştırıldı
- Her model kendi resmi ajan harness'inde varsayılan ayarlarla çalıştırıldı: Opus 4.7 için Claude Code, GPT-5.4 ve GPT-5.5 için OpenAI Codex CLI kullanıldı
- Tüm modellerin reasoning level değeri high olarak eşitlendi
- Değerlendirme framework'ü Stet kullanılarak yalnızca test geçme durumu değil; davranışsal eşdeğerlik, kod incelemesi kabul edilebilirliği, footprint riski ve zanaatkârlık (craft) / disiplin (discipline) rubrikleri de çok katmanlı biçimde puanlandı
- Her görev tek seed ile bir kez çalıştırıldı; eşdeğerlik ve rubrik değerlendirme modeli olarak GPT-5.4 kullanıldı
Genel sonuç özeti
- GPT-5.5, 38/56 test geçme, insan yamasıyla 40/56 eşdeğerlik ve 28/56 clean pass ile tüm metriklerde 1. sırada yer aldı
- Opus 4.7, 33/56 test geçme, 19/56 eşdeğerlik ve 10/56 clean pass ile en düşük kalite puanlarını aldı
- Buna karşın ortalama footprint riski 0.20 ile en düşük değere sahip olarak yama boyutunda avantaj sağladı
- GPT-5.4, 31/56 test geçme, 35/56 eşdeğerlik ve 11/56 clean pass elde etti
- Görev başına $2.39 ile en düşük maliyete sahip olsa da clean pass farkını telafi edemedi
- GPT-5.5, ortalama görev süresi 6 dakika 56 saniye, 201.8M giriş token'ı ve 0.72M çıkış token'ı ile verimlilikte de 1. sırada oldu
Depo bazında performans analizi
- Zod (27 görev): GPT-5.5 ve Opus testlerde 12'şer geçişle berabere kaldı, ancak GPT-5.5 clean pass'te 10'a karşı 5 ile inceleme kalitesinde öne çıktı
- Opus diff boyutunda üstün olduğundan, Zod için gerçek bir trade-off söz konusu
- graphql-go-tools (29 görev): GPT-5.5, 26 test geçişi ve 18 clean pass ile açık ara üstünlük kurdu
- Opus 21 testi geçti ama clean pass sayısı 5'te kaldı; küçük yama stratejisi entegrasyon işlerinin atlanmasına yol açtı
Ayrıntılı kalite metrikleri
- Kod incelemesini geçme: GPT-5.5 33/56, GPT-5.4 16/56, Opus 11/56
- Kod incelemesi ortalaması (doğruluk + bug güvenliği): GPT-5.5 3.08, GPT-5.4 2.59, Opus 2.33
- Yalnızca doğruluk (correctness): GPT-5.5 3.16 vs GPT-5.4 2.60 vs Opus 2.11
- Yeni bug eklememe güvenliği: GPT-5.5 3.04 vs GPT-5.4 2.56 vs Opus 2.55
- Özel puanlayıcı ortalaması (8 rubrik): GPT-5.5 2.62, GPT-5.4 2.40, Opus 2.33
- Zanaatkârlık puanı (clarity/coherence/robustness): GPT-5.5 üç alt başlığın tamamında en yüksek puanı aldı
- Disiplin puanı (scope discipline/diff minimality): GPT-5.5 2.36 ile az farkla önde, Opus 2.20
- Opus ham footprint'te önde olsa da göreve göre göreli disiplin açısından GPT-5.5 üstün geldi
Test geçmek nihai karar ölçütü değil
- Zod'da Opus ve GPT-5.5 testlerde 12 geçişle berabere olsa da clean pass sonuçları GPT-5.5 için 10, Opus için 5 oldu
- graphql-go-tools'da aynı desen daha da belirginleşti: GPT-5.5 için 26 test geçişi / 18 clean pass, Opus için 21 test geçişi / 5 clean pass
- GraphQL PR #1001 örneğinde üç model de testleri geçti ve eşdeğer sayıldı, ancak yalnızca GPT-5.5 kod incelemesini geçti
- Diğer iki model, API biçimi, raw HTTP nesnelerinin açığa çıkması ve hook sınırlarının sağlamlığı konularında uyarı aldı
Kod incelemesinde ortaya çıkan somut farklar
- Zod asenkron codec ve varsayılan değer görevi: Üç model de testlerde başarısız oldu
- Opus 8 dosyayı değiştirdi ancak temel semantik noktaları kaçırdı (
undefinediçin varsayılan değere izin verme, codec tanımını senkron tutma) - GPT-5.4, 11 dosyalık yama ile eşdeğer kabul edildi ama bitişik API'yi gereğinden fazla kısıtladı (
prefault) - GPT-5.5 de testlerde başarısız oldu ancak şema/build davranışını daha temiz biçimde kapsadığı için doğruluk ve bug riski alanlarında en yüksek puanı aldı
- Opus 8 dosyayı değiştirdi ancak temel semantik noktaları kaçırdı (
- GraphQL Apollo uyumluluk doğrulaması (PR #1169): Üç model de testleri geçti, ancak eşdeğerlik ve inceleme aşamalarının ikisini de yalnızca GPT-5.5 geçti
- Opus 11 dosya değiştirdi ve enum/sarmalanmış scalar leaf doğrulamasını atladı
- GPT-5.4 12 dosya değiştirdi ve koşulsuz doğrulama metadata'sı gibi kapsamı gereğinden fazla genişletti
- GPT-5.5, 10 dosyada (test dışı 6 dosya) değişiklik yaparak hem en küçük çözümü sundu hem de hedef davranışı doğru biçimde uyguladı
Opus 4.7'nin özellikleri ve sınırları
- Muhafazakâr, hassas ve düşük footprint'li yamalar üretiyor
- Görev yerel ve değişiklik yüzeyi darsa güçlü performans gösteriyor
- Tekrarlanan başarısızlık deseni: çekirdek davranışı uyguluyor ama eşlik eden işleri (companion work) tamamlamıyor
- Zod'un Node/Deno paralel ağaç örneğinde Opus yalnızca 4 dosya değiştirerek testleri geçti; GPT-5.5 ise paralel dağıtım yüzeyini de kapsayıp 11 dosya değiştirdi ve insan yamasıyla eşdeğer hale geldi
- graphql-go-tools tarafında bu daha ciddi: PR #1155'te (gRPC datasource tekrar eden scalar alanlar ve çok sayıda engine yüzeyi değişikliği) Opus hiç yama üretemedi, test, eşdeğerlik ve incelemeyi birden geçen tek model GPT-5.5 oldu
- Temel ayrım şu: Opus'un küçük yamaları yerel görevlerde disiplin, entegrasyon görevlerinde ise eksik uygulama anlamına geliyor
GPT-5.4'ten GPT-5.5'e değişim
- GPT-5.4 doğru yaklaşım yönünü buluyor ama uygulamada başarısız oluyor
- Zod'da 18 eşdeğerlik elde etti (GPT-5.5 ile aynı), ancak test geçişi yalnızca 9'da kaldı
- GPT-5.5 daha geniş entegrasyon davranışını korurken bozuk yama üretimini daha az yapıyor
- Somut örnek karşılaştırmaları:
- Şema→TypeScript üreticisi: Opus ve GPT-5.5 recursive visitor uygularken GPT-5.4 görevi yanlış sınıflandırıp depo rehber dosyası oluşturdu
- Recursive parser düzeltmesi: Her iki GPT modeli de ziyaret sayısını takip eden yaklaşımı kullandı, GPT-5.5 ise gereksiz state'i kaldırarak daha sade bir çözüm sundu
- CIDR doğrulaması: GPT-5.5 Deno mirror'u da güncelledi, GPT-5.4 ise mirror'u güncellemedi (depo hijyeni sorunu)
- graphql-go-tools PR #1232'de (aynı tek fetch'in deduplikasyonu + bağımlılık referanslarının yeniden yazılması) test, eşdeğerlik ve incelemeyi birden geçen tek model GPT-5.5 oldu
- Desen özeti: GPT-5.5 akıllı yerel düzeltmeleri, dağıtıma hazır depo değişikliklerine dönüştüren sıkıcı entegrasyon işlerini daha sık tamamlıyor
Yama boyutu ve maliyet trade-off'u
- graphql-go-tools için ortalama yama boyutu: GPT-5.5 yaklaşık 33KB, GPT-5.4 27KB, Opus 19KB
- Footprint puanı: Opus 0.19, GPT-5.4 0.32, GPT-5.5 0.34
- Büyük yamalar, inceleme zorluğu, çakışma olasılığı ve hassas yollara temas riski getiriyor
- Auditability odaklı iş akışlarında Opus hâlâ pratik bir avantaj sunabiliyor
- Ancak diff minimality göreve göre göreli değerlendirildiğinde GPT-5.5 az farkla öne çıkıyor
- Temel nokta: Gerekli yüzeyi kaçıran 5KB'lık bir yama, görevi tamamlayan 20KB'lık yamadan daha minimal sayılmaz
- Maliyet karşılaştırması:
- Zod'da Opus ile GPT-5.5 benzer düzeyde (Opus $45.53 vs GPT-5.5 $46.69)
- graphql-go-tools'da Opus 186.1M giriş token'ı / 934K çıkış / 8.56 saat ajan süresi kullanırken, GPT-5.5 151.4M / 431K / 4.16 saat ile çok daha verimli oldu
Modele göre davranış özellikleri özeti
- Opus 4.7 — yetersiz kapsama (under-reach): Muhafazakâr, hassas, düşük footprint; yerel görevlerde güçlü ama testlerin tam kapsamadığı eşlik eden yüzeylerde zayıf. Başarısızlık modu: "test geçti ama yapılan değişiklik aynı değil"
- GPT-5.4 — doğru şekil, yanlış uygulama: Yön doğru ama sonuçlar tutarsız; eski mirror'lar, gereksiz refactor'lar ve testlerden çok değerlendiricilerden iyi puan alan yamalar sık görülüyor
- GPT-5.5 — daha geniş kapsama, daha büyük footprint: Entegrasyon yüzeylerinde daha tam; çevre kod güncellemeleri, inceleme geçişi ve hedeflenen davranışı gerçek koda dönüştürme oranı daha yüksek. Riski ise hata yaptığında daha fazla dosyaya yayılabilmesi
Ajan davranışlarındaki farklar
- graphql-go-tools'da Opus görev başına ortalama 3.17 açık planlama çağrısı yaparken GPT-5.5 0 yaptı
- Opus görev başına 10.2 patch çağrısı, GPT-5.5 ise 9.9 ile benzer seviyede kaldı
- GPT-5.5 yaklaşık 2 kat daha fazla shell çağrısı yaptı ve arama çağrılarını da daha sık kullandı; Opus ise bütçesinin daha fazlasını planlama ve yama yeniden yazımına harcadı
- Bu depoda daha geniş depo taraması, dar yamalar üzerine daha fazla düşünmekten daha etkili oldu
Bu sonuç neden önemli
- Temel soru "hangi model en iyi" değil; "bu depoda, bu harness'te, gerçekten dağıtıma çıkan bu görev türlerinde hangi modelin yamalarına güvenilebilir" sorusu
- Zod'da GPT-5.5 ile Opus arasında trade-off varken, graphql-go-tools'da GPT-5.5 net üstünlük sağlıyor
- Açık benchmark'lar model davranışını tek bir toplu sayıya indirger, ancak gerçek kod ortamında kararlar belirli kod tabanı ve belirli ölçütlere göre iş akışı seçimine dönüşür
Dikkat edilmesi gerekenler
- 56 görev hâlâ küçük bir örneklem; tek bir görev farkı depo düzeyindeki oranları birkaç puan oynatabiliyor
- Tüm modeller her görev için yalnızca bir kez çalıştırıldı; birbirine yakın sonuçlar yeniden çalıştırmada tersine dönebilir
- Eşdeğerlik ve rubrik değerlendirme modeli GPT-5.4 olduğu için aile içi yanlılık olasılığı var
- Ancak GPT-5.5'in GPT-5.4'ü açık biçimde geride bırakması, Opus'un footprint avantajını koruması ve Opus'un eşdeğerlik başarısızlıklarının çoğunun somut dosya eksiklerinden kaynaklanması, toplam sonucu bunun tek başına açıklayamadığını gösteriyor
- Sonuçlar harness koşullarına bağlı: Claude Code ile Codex CLI sistem prompt'u, planlama döngüsü ve araç yüzeyi açısından farklılık gösteriyor
- Opus Codex API üzerinde, GPT-5.5 ise Claude Code üzerinde çalıştırılırsa sonuçlar değişebilir
- Buradaki sayılar, gerçek mühendislerin kullandığı harness içindeki model davranışını yansıtıyor
Temel sonuç
- GPT-5.5 bu iki depoda varsayılan dağıtım için en iyi model
- Opus 4.7 hâlâ düşük footprint'li bir model olarak, dar diff'in en önemli olduğu durumlarda tercih edilebilir
- GPT-5.4 görev başına en düşük maliyete sahip, ancak clean pass farkını kapatmak için bu yeterli değil
- Yalnızca testlere bakmak, en önemli sonuçları gizliyor
- Aynı modelin sıralaması depodan depoya değişiyor; bu da kendi deponuzda benchmark yapmanın asıl nedeni
Henüz yorum yok.