GPT-5.5 low vs medium vs high vs xhigh: Açık kaynak depolarındaki 26 gerçek görevde görülen akıl yürütme eğrisi
(reddit.com)- GPT-5.5 Codex,
GraphQL-go-toolsiçindeki 26 gerçek görevde low, medium, high, xhigh ayarlarıyla çalıştırıldığında, muhakeme eforu farkı test geçmeden çok insan yamasıyla anlamsal eşdeğerlik ve kod incelemesinden geçme oranında daha belirgin ortaya çıktı - Test geçme sonuçları low 21/26, medium 21/26, high 25/26, xhigh 24/26 oldu; ancak anlamsal eşdeğerlik 4/26 → 11/26 → 18/26 → 23/26 olarak arttı ve kod incelemesinden geçme de 3/26 → 5/26 → 10/26 → 18/26 seviyesine yükseldi
- high, medium'a kıyasla test geçme, eşdeğerlik ve incelemeden geçme metriklerinin tümünü iyileştirirken ortalama maliyet $3.13'ten $4.49'a, yani 1.43 katına çıktı; bu yüzden bu veri kümesinde en pratik varsayılan ayar gibi görünüyor
- xhigh, high'a göre eşdeğerlik ve inceleme kalitesini belirgin biçimde artırdı; ancak ortalama maliyet $9.77'ye, ortalama çalışma süresi 753.3 saniyeye yükseldi ve daha fazla test, fixture ve expected-output değişikliği üreterek footprint riskini de artırdı
- Muhakeme eforunun etkisi görevler arasında tekdüze değildi; bazı durumlarda high, xhigh'ı geçti ya da daha yüksek ayarlar makul görünen ama yanlış uygulamalar üretti; bu yüzden ekiplerin genel benchmark'lar yerine kendi harness'lerinde ve kendi görevlerinde ölçüm yapması gerekiyor
Deneyin amacı ve değerlendirme yöntemi
- GPT-5.5 Codex, aynı açık kaynak depo görevlerinden oluşan 26 görev üzerinde low, medium, high, xhigh muhakeme eforu ayarlarıyla ayrı ayrı çalıştırıldı; amaç yalnızca test geçmeyi değil, insanlar tarafından merge edilmiş PR'lerle anlamsal eşdeğerlik ve inceleme edilebilirliği de karşılaştırmaktı
- Hedef depo, Go tabanlı
GraphQL-go-tools; her görev gerçek bir merge edilmiş PR veya commit'ten türetildi - Her görev, sabit bir depo anlık görüntüsü, değişiklik isteği prompt'u ve Docker konteyneri içinde yama üreten tek bir denemeden oluştu
- Stet, üretilen yamayı uygulayıp izole edilmiş konteynerde göreve özel testleri çalıştırarak geçip geçmediğini doğruladı
- Testlerden sonra şu ölçütlerle ek değerlendirme yapıldı
- Eşdeğerlik: Aday yamanın, orijinal insan yapımı yamayla aynı davranış değişikliğini sağlayıp sağlamadığı
- Kod incelemesinden geçme: Doğruluk, hata sokma riski, bakım yapılabilirlik ve edge case'ler dikkate alındığında bir incelemeci tarafından kabul edilip edilmeyeceği
- Footprint riski: İnsan yapımı yamaya kıyasla ajanının fazladan ne kadar koda dokunduğu
- İşçilik/disiplin rubriği: Açıklık, sadelik, tutarlılık, niyet açıklığı, sağlamlık, talimatlara uyum, kapsam disiplini ve diff minimalliği değerlendirildi
- Tüm modeller görev başına bir kez, tek seed ile çalıştırıldı
- LLM hakem modeli GPT-5.4'tü ve hakem yalnızca yamaları ve görevi gördü; hangi modelin veya muhakeme ayarının yamayı ürettiğini görmedi
- Temsilî örnekler elle de doğrulandı; ancak bu görev seti için ayrı bir insan kalibrasyonu yapılmadığından, tek bir mutlak skordan çok artış-azalış yönüne güvenmek gerekiyor
- Çalıştırma ayrıntıları
- Model: GPT-5.5
- Harness: Codex 0.128.0
- Veri kümesi: gerçek
GraphQL-go-toolsgörevlerinden 26 örnek - Ana metrikler: test geçme, anlamsal eşdeğerlik, kod incelemesinden geçme, footprint riski, işçilik/disiplin için özel değerlendirme, maliyet ve çalışma süresi
- Etkileşimli grafikler ve görev bazında ayrıntılı analizler https://stet.sh/blog/gpt-55-codex-graphql-reasoning-curve adresinde yer alıyor
- Aynı değerlendirme,
AGENTS.mddosyasını iyileştiren otomatik araştırma döngüsünde de kullanılıyor- Ajan, depoya özel
AGENTS.mdiyileştirme önerileri hazırlıyor; ardından geçmiş görevler Stet ile çalıştırılıyor ve nerelerde iyileşme ya da kötüleşme olduğu bulunarak yineleme yapılıyor
- Ajan, depoya özel
Genel metrikler ve yorum
- Genel metrikler, muhakeme eforu arttıkça farkın test geçmeden çok anlamsal eşdeğerlik ve incelemeden geçme oranında büyüdüğünü gösteriyor
- Temel sonuçlar
- Test geçme: low 21/26, medium 21/26, high 25/26, xhigh 24/26
- İnsan yamasıyla eşdeğerlik: low 4/26, medium 11/26, high 18/26, xhigh 23/26
- Kod incelemesinden geçme: low 3/26, medium 5/26, high 10/26, xhigh 18/26
- İşçilik/disiplin ortalaması: low 2.311, medium 2.604, high 2.736, xhigh 3.071
- Görev başına ortalama maliyet: low $2.65, medium $3.13, high $4.49, xhigh $9.77
- Ortalama ajan çalışma süresi: low 286.9 saniye, medium 411.0 saniye, high 579.0 saniye, xhigh 753.3 saniye
- low ve medium, test geçmede 21/26 ile aynı sonucu verdi; ancak eşdeğerlik 4/26'dan 11/26'ya, incelemeden geçme ise 3/26'dan 5/26'ya yükseldi
- high, medium'a kıyasla test geçmeyi +15.4 yüzde puan, eşdeğerliği +26.9 yüzde puan ve incelemeden geçmeyi +19.2 yüzde puan artırarak pratik açıdan en belirgin iyileşmeyi sundu
- xhigh, high'a kıyasla test geçmede -3.8 yüzde puan geride kaldı; ancak eşdeğerlikte +19.2 yüzde puan, incelemeden geçmede ise +30.8 yüzde puan artış sağladı
- Muhakeme eforu yalnızca test geçme oranını değiştirmiyor; Codex'in ürettiği yama türünü de değiştiriyor gibi görünüyor
- Kamusal benchmark'lar çoğu zaman görevin ikili olarak başarıp başarmadığını yanıtlıyor; oysa gerçek yazılım mühendisliğinde bir yamanın merge edilebilir ve sonrasında bakımının yapılabilir olması da önemli
- Terminal-Bench ağırlıkla zorlu kodlama problemlerine odaklanıyor, SWE-bench verified'da modelin yanıtı zaten görmüş olma ihtimali var ve SWE-bench Pro faydalı olsa da daha genel nitelikte kalıyor
- Bu deneyin asıl odağı, “ajan benim kod tabanımda insanların merge ettiği türde bir değişiklik yaptı mı?” ve “bu yamaya sonrasında sahip çıkmak ister miyim?” soruları
low'dan medium'a: sezgisel yaklaşımından alan modellemeye geçiş
- low ve medium, test geçmede ikisi de 21/26 olduğundan, yalnızca testlere bakıldığında berabere görünüyordu
- Ancak medium ile anlamsal eşdeğerlik 4/26'dan 11/26'ya çıktı ve işçilik/disiplin ortalaması da 2.311'den 2.604'e yükseldi
- Bu aralıkta yalnızca testleri ölçmek, muhakeme eforu farkının büyük kısmını kaçırmak anlamına geliyor
- low, testi geçen yamalarda bile bazen sezgisel kurallara veya kısmi uygulamalara takılı kalırken, medium depo yapısını ve alanın anlamını daha iyi modelleme yönüne kaydı
- PR #1297 örneği
- Görev, GraphQL Federation içinde nullable external
@requiresbağımlılıklarının doğrulanmasıyla ilgiliydi - Nullable required alan hata ile birlikte null dönerse, kirlenmiş bu entity downstream fetch bağımlılığına aktarılmamalı
- Görevin özü basitçe bir doğrulama dalı eklemek değil, federation veri bağımlılığına dair incelikli kuralları modellemekti
- low testi geçti; ancak required-field/error eşleşmesini sezgisel biçimde ele aldı ve yapılandırılmış nullable
@requiresmetadata'sını kaçırdığı için eşdeğer sayılmadı ve incelemeden de geçemedi - medium, kirlenmiş nesneleri izleyip downstream fetch girdilerini filtreleyerek eşdeğerlik ve inceleme ölçütlerini geçti; işçilik/disiplin kalitesi de
1.350'den3.225'e çıktı - high ve xhigh da benzer kalite bandında kaldığından, bu görev esas olarak low'dan medium'a geçişteki iyileşmeyi gösteriyor
- Görev, GraphQL Federation içinde nullable external
high: pratik varsayılan ayara en yakın nokta
- high, medium'a kıyasla test geçme, anlamsal eşdeğerlik ve inceleme geçişini birlikte iyileştirirken, maliyet artışı büyük olsa da aşırı olmayan bir düzeyde kalıyor
- high ve medium karşılaştırması
- Test geçme: 21/26'dan 25/26'ya yükseliyor
- Eşdeğerlik: 11/26'dan 18/26'ya yükseliyor
- Kod incelemesinden geçme: 5/26'dan 10/26'ya yükseliyor
- Ortalama footprint riski: 0.268'den 0.314'e yükseliyor
- Üretim/disiplin ortalaması: 2.604'ten 2.736'ya yükseliyor
- Ortalama görev maliyeti: $3.13'ten $4.49'a çıkıyor, 1.43 kat
- Ortalama çalışma süresi: 411.0 saniyeden 579.0 saniyeye çıkıyor
- high, ek token'ların gerçek kazanca dönüştüğü nokta gibi görünüyor ve entegrasyon ayrıntılarını doğru tutturma oranı yükseliyor
- PR #1209 örneği
- Bu görevde gRPC datasource'un yanıt JSON'unda GraphQL alias'ı dikkate alması, referans verilen protobuf message type'ı önceden doğrulaması ve union/interface mutation yolu için eşleme kapsamını güncellemesi gerekiyor
- low ve medium testleri geçti ama eşdeğer değildi ve incelemeyi de geçemedi
- medium, alias serileştirmesi ve eksik message doğrulamasını büyük ölçüde ele aldı, ancak
createUsermutation eşleme güncellemesini kaçırdı veJSONPathüzerine response-key semantiğini fazla yükledi - high, açık bir response-key/alias işleme mekanizması getirdi ve alias'ı planlama ile JSON marshaling boyunca taşıyarak ilk sıkı geçişi sağladı
- high'ın özel kalite puanı
3.625'e çıktı; yani sadece daha fazla kod eklemedi, entegrasyon yükümlülüklerini tam isabetle karşıladı - xhigh da geçti, ancak görev düzeyi yorumlamayı iyileştirmedi; yeniden üretilmiş özet ölçütüne göre ajan çalışma süresi de high'ın
314.0ssüresinden uzun olan790.7soldu
- PR #1155 örneği
- Bu görev, repeated scalar field desteği, null/invalid message panic'inden kaçınma, gRPC status code aktarımı, datasource devre dışı bırakma ve dynamic client desteğini içeren bir gRPC datasource sağlamlaştırma işi
- low ve medium testleri geçti ama eşdeğer değildi
- medium dayanıklılığı artırdı, ancak invalid repeated field'ı empty array olarak serileştirdi, aliased-root planning davranışını kaçırdı ve dynamic-client yaşam döngüsü riskini açık bıraktı
- high ise daha güvenli nil/invalid işleme, status-code aktarımı, disabled-datasource davranışı ve dynamic client-provider kapsamıyla eşdeğerlik ve inceleme geçişi sağladı
- Bu görevde xhigh testleri geçmesine rağmen disabled datasource semantiğini ve invalid-list davranışını yanlış ele aldığı için eşdeğer olmayıp incelemeyi de geçemedi; yani tersine dönüş yaşandı
xhigh: varsayılandan çok kalite moduna yakın
- xhigh, high'a göre anlamsal ve inceleme kalitesini artırdı, ancak ayarı yükseltince her şeyin otomatik olarak daha iyi olduğu bir tablo yok
- xhigh ve high karşılaştırması
- Test geçme: 25/26'dan 24/26'ya düşüyor
- Eşdeğerlik: 18/26'dan 23/26'e yükseliyor
- Kod incelemesinden geçme: 10/26'dan 18/26'ya yükseliyor
- Ortalama footprint riski: 0.314'ten 0.365'e yükseliyor
- Üretim/disiplin ortalaması: 2.736'dan 3.071'e yükseliyor
- Ortalama görev maliyeti: $4.49'dan $9.77'ye çıkıyor, 2.18 kat
- Ortalama çalışma süresi: 579.0 saniyeden 753.3 saniyeye çıkıyor
- xhigh daha fazla zemini kapsama, insan niyetine daha iyi uyma ve daha eksiksiz değişiklikler üretme eğiliminde, ancak çok daha fazla token kullanıyor
- İnceleme rubriğinde xhigh'ın ortalaması
3.365, medyanı3.500; bu değerler high'ın ortalama2.817ve medyan2.750değerlerinden daha yüksek - Medyanın da ortalamadan yüksek olması, xhigh iyileşmesinin yalnızca bir iki olağanüstü patch'in ortalamayı yukarı çekmesinden kaynaklanmadığını gösteriyor
- xhigh anlamsal olarak daha eksiksiz, ancak insan tarafından yazılmış patch'lere kıyasla daha fazla koda dokunduğu için footprint riski de artıyor
- xhigh'ın 26 görevde eklediği satırların toplamı
13,144; bunun5,918satırı uygulama kodu,7,226satırı ise test·fixture·expected-output dosyaları - high ile karşılaştırıldığında xhigh
2,631satır daha fazla ekledi ve bunun2,436satırı test·fixture·expected-output dosyalarında yer alıyor - Footprint artışı sadece devasa production code yazmasından kaynaklanmıyor; xhigh'ın daha fazla doğrulama ve fixture kapsamı üretmesinin de büyük etkisi var
- Ancak test, fixture ve expected-output değişiklikleri de inceleme ve bakım gerektiren gerçek bir yüzey alanı oluşturuyor
- PR #1076 örneği
- Bu görev, paylaşılan mutex race condition'dan kaçınmak için subscription işlemeyi yeniden yapılandırıyor
- Gereksinimler arasında subscription başına serileştirilmiş write, subscription başına heartbeat kontrolü, race detector kapsamı ve WebSocket close semantics düzeltmesi bulunuyor
- medium testleri geçti ama eşdeğer değildi ve incelemeyi de geçemedi
- high, eşdeğerlik ve talimata uyumu sağladı, ancak yeni worker queue küresel subscription event loop'unu engelleyebiliyor, shutdown takılı kalan worker yüzünden durabiliyor, hung update sınırsız kalıyor ve client düzeyindeki unsubscribe hâlâ internal subscription'ı atladığı için incelemeyi geçemedi
- xhigh ilk sıkı geçişi sağladı ve özel kalite puanını
3.475'e yükseltti - Bu görev, concurrency ağırlıklı işlerde xhigh'ın inceleme riskini temizlemek için satın alınan bir kalite modu gibi çalıştığının en iyi örneği
- PR #1308 örneği
- Bu görev GraphQL
@oneOfinput object özelliğini uyguluyor - Built-in directive eklenmesi, introspection'da görünür olması, operation literal ve runtime variable doğrulaması ile undefined-variable source location iyileştirmesi gerekiyor
- medium ve high testleri geçti, ancak runtime variable, nullable variable, provided-null payload ve introspection shape ile ilgili kritik
@oneOfsemantiğini kaçırdıkları için eşdeğer değildi ve incelemeyi de geçemedi - xhigh ilk sıkı geçişi sağladı ve dayanıklılıkta
3.7, talimata uyumda4.0, özel kalitede3.525aldı - Fark, yüzeysel bir ciladan değil, birden çok sistem parçasına yayılan edge case kapsamından kaynaklanıyor
- Bu görev GraphQL
- PR #1240 örneği
- Bu görev, GraphQL AST field-selection merging ile inline-fragment selection merging işlemlerini tek bir normalization walk içinde birleştiriyor
- low ve high sıkı geçiş sağlamıştı
- xhigh, anlamsal değerlendirme ölçütüne göre eşdeğerdi, ancak prioritized subpass'i koruduğu,
AbstractFieldNormalizersırasını değiştirdiği ve eski field-merge registration'ı bıraktığı için incelemeyi geçemedi - Daha yüksek akıl yürütme ayarları da daha sofistike ve ikna edici refactoring üretebilirken, testlerin ve gözden geçirenlerin önem verdiği tam çalışma davranışını kaçırabiliyor
Üretim·disiplin, maliyet, sınırlamalar ve sonuç
- Üretim·disiplin özel değerlendirmesi de inceleme rubriğine benzer şekilde, akıl yürütme çabası arttıkça genel olarak yükseliyor
- all-custom puanı, xhigh için ortalama
3.071, medyan3.087ile high’ın ortalama2.736, medyan2.688değerinden daha yüksek - Hem üretim hem de disiplinde medyan da daha yüksek olduğu için, xhigh’ın yalnızca bazı sıra dışı örnekler üretmediği, genel yama kalitesini de yükselttiği şeklinde yorumlanabilir
- Ortalama/medyan göstergeleri
- Craft aggregate: low
2.327 / 2.338, medium2.618 / 2.525, high2.781 / 2.787, xhigh3.126 / 3.100 - Discipline aggregate: low
2.295 / 2.325, medium2.590 / 2.588, high2.691 / 2.688, xhigh3.015 / 3.013 - All custom graders: low
2.311 / 2.338, medium2.604 / 2.550, high2.736 / 2.688, xhigh3.071 / 3.087
- Craft aggregate: low
- Ayrıntılı yorum
- low’da sağlamlık ve talimata uyum zayıf
- medium, testten geçen toplam miktarı artırmadan bu alanı anlamlı biçimde iyileştiriyor
- high, pratik doğruluk ve sağlamlığı iyileştiriyor
- xhigh, kapsam ve diff disiplini dahil neredeyse tüm boyutları iyileştiriyor
- Maliyet ve süre
- low: ortalama maliyet
$2.65, medyan$1.91, ortalama çalışma süresi286.9s, medyan294.6s - medium: ortalama maliyet
$3.13, medyan$2.87, ortalama çalışma süresi411.0s, medyan371.8s - high: ortalama maliyet
$4.49, medyan$3.99, ortalama çalışma süresi579.0s, medyan572.9s - xhigh: ortalama maliyet
$9.77, medyan$6.39, ortalama çalışma süresi753.3s, medyan732.7s
- low: ortalama maliyet
- Maliyet, low’da ve özellikle xhigh’da çarpık dağılım gösteriyor; xhigh ortalama maliyeti birkaç pahalı görevin etkisiyle yükseliyor
- xhigh, medyan ölçüte göre de high’dan daha pahalı ve daha yavaş
- high, medium’a kıyasla görev başına yaklaşık 1.43 kat daha maliyetli; xhigh ise high’a kıyasla yaklaşık 2.18 kat daha maliyetli
- Sınırlamalar
- Görev başına yalnızca tek bir seed kullanıldı
- Yalnızca 26 gerçek
GraphQL-go-toolsgörevi dahil edildi - LLM değerlendiricisi GPT-5.4’tü; yamaları ve görevleri görüyor ama label’ları görmüyor
- Bu görev seti için grader calibration yok
- Bunlar istatistiksel olarak anlamlı, evrensel sonuçlar ya da başka depolara doğrudan taşınabilecek sonuçlar olarak görülemez
- İlgili karşılaştırmalar
- Voratiq’in gerçek görev leaderboard sıralaması da farklı bir metodoloji kullanmasına rağmen benzer bir yön gösteriyor
- Voratiq’te GPT-5.5 xhigh
1994, GPT-5.5 high ise1807; bu da+187puan,+10.3%artış anlamına geliyor - Maliyet
$4.23e karşı$2.52ile+67.9%, süre ise11.9me karşı7.8mile+52.6% - Stet deneyinde high → xhigh geçişi, eşdeğerlikte
+19.2%p, göreli olarak+27.8%, kod incelemesini geçmede+30.8%p, göreli olarak+80.0%ile daha büyük göründü; üretim/disiplin aggregate ise+12.2%ile benzerdi - Voratiq, sürmekte olan işler için preference/selection tarzı bir leaderboard; bu deney ise tek bir 26 görevlik depo dilimi olduğu için doğrudan karşılaştırılamaz
- Pratik sonuç
- xhigh; belirsiz, birden fazla alana yayılan, eşzamanlılık merkezli veya inceleme riski yüksek işler için uygun
- high, bu veri setinde varsayılan günlük kullanım ayarı olarak en pratik seçenek gibi görünüyor
- medium ve altı ayarlar, maliyetin daha önemli olduğu ve işin rutin ya da iyi tanımlanmış olduğu durumlara uygun
- Akıl yürütme çabasının etkisi görevden göreve pürüzsüz ya da tekdüze değil; high’ın xhigh’ı geçtiği ya da daha yüksek ayarın makul görünüp yanlış uygulama ürettiği tersine dönüşler de var
- Ekipler, küresel benchmark varsayılanlarını kopyalamak yerine kendi harness’leri ve kendi görevleri üzerinde ölçüm yapmalı
- Açıklamalar
- Stet.sh geliştiriliyor ve deneyler bu yerel değerlendirme aracıyla yürütüldü
- Ürün sürümünde kodlama ajanı,
AGENTS.mdiyileştirmeleri gibi aday değişiklikler oluşturuyor ve Stet ile geçmiş depo görevleri üzerinde değerlendiriliyor - Kodlama ajanlarını yoğun kullanan ekipler, high vs xhigh, Codex vs Claude Code,
AGENTS.mdgüncellemeleri ve hangi görevlerin delege edilmesinin güvenli olduğu gibi somut kararlarla karşı karşıyaysa, depo bazlı denemeleri birlikte yürütecek ekipler aranıyor - Stet, LLM aboneliği kullanarak tamamen yerelde çalışıyor; bekleme listesi https://www.stet.sh/private adresinde
1 yorum
Reddit görüşleri
Şu ana kadarki hissiyatıma göre 5.5, ek maliyetini karşılayacak kadar değerli değil. 5.4-high, 5.5'in çoğu akıl yürütme seviyesinden daha iyi iş çıkarıyor, maliyeti yarı yarıya ve gerçek süre de çok daha kısa. 5.5-medium işi sonuna kadar tamamlayamadı, 5.5-high ise aşırı mühendislik yapıp bug ve regresyon üretti
Özetle 5.5, 5.4'e göre biraz iyileşmiş ve fiyatı da biraz artmış. Token verimliliği biraz daha iyi görünüyor; bu da ek girdi maliyetini bir ölçüde telafi ediyor gibi
Bunun üzerindeki seviyelerde elde edilen iyileşme, maliyete kıyasla azalan getiri noktasına yakın
İkisine de tehlikeli düzeyde tam erişim verip aynı projede çalıştırıyorum. Her birine ortalama 6 tane 5.5 alt ajan bağlıyorum; CLI ya da uygulama bu alt ajanların hangi seviyede olacağına karar veriyor. Karışık geliyor ama CLI çoğunlukla 5.5 Medium bağlıyor
CLI'da yönetici yetkileri var ve GitHub, Supabase, Vercel, Clerk, Linear, Symphony gibi şeylerle push, merge, PR ve deploy işlemlerini sadece CLI yapıyor. Benim manuel olarak yaptığım iş 0, P0/P1/P2 issue da 0. GitHub, Vercel ve Supabase'in hepsi yeşil, issue yok, kod ve ürün temiz, tek bir referans görselle frontend şaşırtıcı derecede iyi çıkıyor
Dezavantajı ise bir günde haftalık limitin %30'unu yakabilmesi
Şimdilik tekrar high'a döndüm
Bu sayede sanki ömrümden birkaç yıl ve epey token tasarruf etmişim gibi hissediyorum
agents.mdiçine hangi ifadeyi koyarsam kendi kafasına göre varsayım yapmayacağını hâlâ arıyorum. Bazen bir konuda kodlama talimatı vermeden önce daha fazla bilgi gerektiği için soru soruyorum ama cevap vermek yerine doğrudan kodlamaya başlıyor. Bitirdikten sonra yanıtın içine sorunun cevabını da ekliyor ama söylediklerime dikkat etse de, soru soruyorsam bunun henüz kodlamaya başlama anlamına gelmediğini anlamıyor gibiModelin çalıştırmadan çalıştırmaya ne kadar değişkenlik gösterdiğini bilmek isterim. Yukarıdaki örnekte high daha iyi kod yazmış olsa bile, eğer çalıştırmalar arası değişkenlik büyükse xhigh kullanmak daha mantıklı olabilir
Ayrıca deney olarak, bir çalıştırmanın ardından ortaya çıkan sonuca geri bildirim verip, insanın yaptığı düzeltmelerle karşılaştırarak AGENTS.md, skills, rules vb. dosyaları güncelletmek ve sonra fresh session'da high/xhigh ile yeniden çalıştırmak da iyi olurdu. Bunu birkaç kez tekrarlayıp iyileştirdikten sonra tüm efor seviyelerinde tekrar denerseniz, AGENTS.md ile skills/rules'u düzgün sıkılaştırarak genel çıktı kalitesini yükseltmek mümkün olabilir
AGENTS.md optimizasyonu fikri gerçekten çok hoşuma gitti; hatta deneyleri yürütmek için yaptığım Stet'e bunu denettim. Codex'i birkaç görevde çalıştırıp puanları ve başarısızlık kalıplarını gördükten sonra AGENTS.md'yi değiştirip yeniden çalıştırmasını sağladım; her şeyi tamamen otonom biçimde yürüttü. AGENTS.md için otomatik araştırma gibi çalışıyor ve veri temelli iyileştirme önerilerini AGENTS.md'ye işleyip geri dönmesini izlemek oldukça ilginç