GPT-5.5 Codex'te akıl yürütme token kümelenmesi performans düşüşüne yol açabilir
(github.com/openai)- OpenAI Codex issue #30364,
gpt-5.5yanıtlarındakireasoning_output_tokensdeğerlerinin 516, 1034, 1552 gibi sabit değerlere yığılması olgusunun karmaşık Codex görevlerinde kalite düşüşüyle ilişkili olabileceğini bildiriyor - Analiz, 1 Şubat 2026-27 Haziran 2026 UTC arasındaki Codex
token_countmetadata'sını kapsıyor; 390.195 yanıt kaydı ve 865 oturum içinde exact 516 olayı olarak 3.363 örnek tespit edildi gpt-5.5, tüm yanıtların %19,3'ünü oluşturmasına rağmen exact-516 olaylarının %82,0'ını oluşturdu;reasoning_output_tokens >= 516içinde exact 516 oranı %44,0 iken non-GPT-5.5 için bu oran %1,3'ten çok daha yüksekti- Aylık exact-516 oranı Şubat 2026'da %0,11 iken Mayıs'ta %53,30, Haziran'da %35,84'e yükseldi; ancak aynı dönemde ortalama ve P90 akıl yürütme token sayıları düştüğü için bu durum yalnızca akıl yürütme token kullanımının artmasıyla açıklanamıyor
- Sonraki yorumlarda Codex CLI, Codex Desktop ve OpenCode'da benzer 516 kümelenmesi ve bazı yanlış yanıt tekrarları paylaşıldı; geçici önlem olarak
518·n−2desenini tespit edip akıl yürütmeyi sürdüren bir yerel proxy de önerildi
Sorunun özü
- Codex issue #30364,
gpt-5.5yanıtlarınıntoken_countmetadata'sındareasoning_output_tokens = 516etrafında aşırı yoğunlaşan bir desen bildiriyor - Ayrıca
1034,1552civarında da sabit sınırlar gibi görünen sıçramalar ortaya çıktığı söyleniyor - Öne sürülen kapsam, gizli chain-of-thought kesildiğini kanıtlama iddiası değil
- Daha dar iddia, Codex telemetry'sinde
gpt-5.5e özgü bir sabit token kümelenmesi anomalisinin görüldüğü - Sorun, bu desenin eşik tabanlı akıl yürütme bütçesi davranışıyla tutarlı göründüğü düzeyinde dile getiriliyor
- Daha dar iddia, Codex telemetry'sinde
- İlgili issue #29353,
gpt-5.5çalışmasının tam olarak 516 reasoning token'da bitip yanlış yanıt döndürdüğü bir görev düzeyi tekrar üretimini ele almıştı; bu issue ise daha uzun bir döneme ait toplu kanıtlar ekliyor
Analiz ortamı ve veriler
- Ürün Codex, en ilgili model ise
gpt-5.5 - Veri kaynağı Codex
token_countmetadata'sı - Analiz dönemi 1 Şubat 2026-27 Haziran 2026 UTC
- Toplu sayılar:
- Yanıt düzeyi token kayıtları: 390.195
- Oturumlar: 865
- exact
reasoning_output_tokens = 516olayları: 3.363 gpt-5.5in toplam yanıt payı: %19,3gpt-5.5in exact-516 olaylarındaki payı: %82,0gpt-5.5exact-516 / >=516 oranı: %44,0- non-GPT-5.5 exact-516 / >=516 oranı: %1,3
Model ve ay bazlı desenler
- Model bazında exact 516 / >=516 oranı en belirgin şekilde
gpt-5.5te görülüyorgpt-5.5: 75.401 kayıt, %44,0gpt-5.4: 25.214 kayıt, %19,8gpt-5.2: 247.575 kayıt, %0,34gpt-5.3-codex: 13.333 kayıt, %0,0gpt-5.3-codex-spark: 26.179 kayıt, %0,0
- Aylık exact-516 kümelenmesi Mayıs 2026'da sert biçimde arttı
- Şubat: %0,11
- Mart: %2,45
- Nisan: %4,25
- Mayıs: %53,30
- Haziran: %35,84
- Aynı dönemde genel akıl yürütme token yoğunluğu düştü
- Ortalama reasoning token: Şubat 268,1 → Mayıs 106,9 → Haziran 168,5
- P90 reasoning token: Şubat 772 → Mayıs 344 → Haziran 515
- Bu kombinasyon nedeniyle, exact-516 artışının yalnızca akıl yürütme token kullanımındaki artışla açıklanmasının zor olduğu belirtiliyor
Talep edilen iç doğrulama maddeleri
- Codex ekibinden,
gpt-5.5in akıl yürütme bütçesi, routing, kesme, fallback ve scheduler davranışlarının 516/1034/1552 civarında bitişe yol açıp açmadığını araştırması istendi - Davranış kasıtlıysa, exact 516'nın normal bir bitiş noktası mı, bütçe üst sınırı mı, degraded tier mı yoksa başka bir iç eşik mi olduğunun açıklanması da talep edildi
- Önerilen doğrulama prosedürü:
- Model bazında
reasoning_output_tokensiçerentoken_countevent'lerini sorgulama 0,516,1034,1552exact-value sayımlarını karşılaştırma- Model ve gün bazında
count(reasoning_output_tokens = 516) / count(reasoning_output_tokens >= 516)hesaplama gpt-5.5ilegpt-5.2,gpt-5.4ve Codex'e özel varyantları karşılaştırma- GPT-5.2 ve GPT-5.5'te karmaşık görevleri yeniden çalıştırıp exact-516 yanıtlarla daha uzun reasoning yanıtlarını ayırarak kalite değerlendirmesi yapma
- Model bazında
Yorumlarda gelen ek tekrarlar ve çapraz veriler
- GitHub Actions, ilgili olası duplicate aday olarak #29353'ü işaretledi
- Birden fazla kullanıcı aynı sorunu yaşadığını yorumlarda belirtti; bir kullanıcı da bu issue'nun önceki issue'ya göre daha veri temelli bir rapor olduğunu söyledi
sinnet3000, Codex CLI ve OpenCode'un yerel oturum depolarından çapraz istemci verileri sundu- Codex
~/.codex/sessionsvearchived_sessionsiçindeki yaklaşık 22,7ktoken_countevent'indegpt-5.5için records 4.300, >=516 156, exact 516 88, oran %56,4 - OpenCode
opencode.dbiçindeki yaklaşık 32,1k assistant message'dagpt-5.5için records 6.977, >=516 126, exact 516 90, oran %71,4 - Kimi, DeepSeek, MiMo, MiniMax, Gemini, Qwen, GLM gibi hacmi anlamlı non-OpenAI modellerin toplam yaklaşık 24k record'unda exact 516 sayısı 0
- Bu verilerin yanıtların doğru mu yanlış mı olduğunu değerlendirmediği, yalnızca exact 516 kümelenmesinin varlığını doğruladığı notu düşüldü
- Codex
kyleboddy, Windows 11 üzerinde Codex Desktop'ta ilişkili davranış farkı bildirdi- 5 adet fresh, projectless Codex Desktop thread'inde aynı candy prompt çalıştırıldı
- Hızlı direct-
final_answerçalışmaları29döndürdü ve yanlıştı - Daha yavaş ve önce
commentaryçıkan çalışmalarda21döndü ve doğruydu - fresh Windows-host Desktop thread'lerinden exact
reasoning_output_tokensçıkarılamadığı için bu yanlış çalışmaların tam olarak 516 olduğunu söyleyemediğini belirtti
- Aynı kullanıcı, yerel oturum metadata'sında
gpt-5.5 / xhighiçin sabit değer kümelenmesini de topladı- records 16.141, sessions 51, ortalama reasoning 149,7, P90 429
=516438 olay,>=5161.298 olay, oran %33,74=103452 olay,=155214 olay,=207016 olay,=258812 olay,=31065 olay
Codex Linux CLI tekrar üretim sonuçları
kyleboddy, Codex Linux CLI'da da aynı candy prompt ile tekrar üretim yaptığını söyledi- Ortam:
- Ürün: Codex CLI
- Sürüm:
codex-cli 0.142.5 - Platform: Ubuntu Linux
6.8.0-111-generic, x86_64 - Node:
v24.14.0 - Kimlik doğrulama modu: ChatGPT
- Test modeli:
gpt-5.5 - reasoning efforts:
xhigh,high - Karşılaştırma modeli:
gpt-5.4 xhigh
- Prompt, harici araç kullanmadan, dokunarak shape ayırt edilebilen bir candy bag probleminde minimum draw sayısını soruyor
- Beklenen yanıtın brute-force enumeration ile bağımsız olarak 21 olduğu doğrulandı
- Shape'in dokunarak ayırt edilebilmesi sayesinde 9 round + 12 star candy planlanabileceği açıklaması da yer alıyor
- Sonuçlar:
gpt-5.5 xhighile tamamlanan 4 çalışmanın tamamındareasoning_output_tokens = 516görüldü ve son yanıtlar23,26,28,15oldu; hepsi yanlıştıgpt-5.5 highile 3 çalışmanın tamamı yine516oldu; yanıtlar22,21,27idi ve yalnızca 1'i doğruydugpt-5.4 xhighile 3 çalışma 6211, 12274, 10876 reasoning token kullandı ve hepsi21ile doğru sonuç verdi
- Bu sonuçlar,
gpt-5.5in Codex'te sabit 516-token yoluna girebildiği ve bu yolun görev kalitesindeki düşüşle ilişkili olabileceği yönündeki dar iddiayı güçlendiriyor
Geçici çözüm önerisi
dzshzx, upstream fix beklenirken Codex'in önüne konulabilecek yerel bir Responses proxy'si olan codexcomp'u önerdi- Çalışma biçimi,
518·n−2desenini bir kesilme olarak görüp akıl yürütmeyi sürdürmek üzerine kurulureasoning_tokens == 518·n − 2, yani 516, 1034, 1552 gibi değerlerde biten round'lar truncated olarak ele alınıyor- Tentative output atılıyor, ilgili round'un reasoning item'ları ve
encrypted_contentbir sonraki girdiye yeniden oynatılıyor - Buna
phase:"commentary"ve"Continue thinking..."mesajı birlikte ekleniyor - Tüm round'lar tek bir downstream response içine katlanıyor, böylece Codex'e tamamlanmış tek bir yanıt gibi görünüyor
- Yapılandırma resmi üst düzey
openai_base_urlanahtarını kullanıyor- Örneğin:
openai_base_url = "http://127.0.0.1:8787/v1" - Yerleşik
openaiprovider korunuyor; böylece session grouping, remote compaction ve remote-control çalışmaya devam ediyor
- Örneğin:
- Gerçek log örneği, art arda iki kez 516'dan sonra üçüncü round'da temiz biçimde bitip nihai yanıtın doğru olduğu bir vakayı gösteriyor
- round 1: reason=516 → continue
- round 2: reason=516 → continue
- round 3: reason=291 → clean
- Uyarılar:
- Bu, resmi olmayan bir geçici çözüm ve upstream'in sözleşmeye bağlı olmayan davranışına dayanıyor
- Continuation round'ları ek gerçek token tüketiyor
nwindow ve 3-continuation cap ile sınırlandırılmış- Yalnızca loopback, auth passthrough; credentials okumadığı veya saklamadığı belirtiliyor
1 yorum
Hacker News yorumları
Bu oldukça ciddi görünüyor ve codex cli ile de kolayca yeniden üretilebiliyor.
Akıl yürütme gerektiren bir bulmaca prompt’u verdiğinizde bazen aniden kesilmiş gibi tam olarak 516 düşünce token’ı kullanıp yanlış cevap veriyor.
6000–8000 düşünce token’ı kullandığı durumlarda doğru cevabı veriyor.
Uyarlamalı düşünme (adaptive thinking) tarafında bir sorun olabilir; ayrıca yerel modellerde sessiz sunucu tarafı değişiklikleri konusunda endişelenmek gerekmemesi de onlara bir artı puan daha yazdırıyor.
Aynı prompt’u 10 kez çalıştırdım; 4’ünde bu 516 token sorunu vardı ve bu 4’ünün hepsi yanlış yanıttı. Örneklem küçük ama 5.5 xhigh’ın neredeyse yarı yarıya kısa kesilip performansının düşebileceği görünüyor.
Problem uzayı sonsuz geniş ve yalnızca prompt’lar arasındaki benzerliğe bakarak ne kadar düşünmek gerektiğine karar vermek zor. Model zaten düşünce bütçesine ulaşmadan önce de düşünmeyi bırakıyor.
Uyarlamalı düşünmeyi uygulamak için neden bu kadar çok çaba harcandığını bilmiyorum; bunun yerine modeli düşünce sonlandırma token’ını daha iyi üretecek şekilde eğitmek gerekmiyor mu diye düşünüyorum.
Yama gibi hissettiriyor. Model uygun miktarda akıl yürütme yapacak şekilde eğitilmeli: akıl yürüt → kalan belirsizliği tahmin et → devam edip etmeyeceğine karar ver → daha fazla akıl yürüt → tekrarla.
Neredeyse her gün kalitenin basamak basamak düştüğünü yaşadım ve genelde xhigh kullanıyordum.
Yılın başlarında Codex’in olağanüstü titiz kodlamasına dayanma deneyimi artık yok oldu; arada sırada akıl almaz derecede aptalca uygulamalar çıkmaya başladı ve OpenAI bu sorunu ciddiye alana kadar Claude’a geçtim.
Kişisel olarak bunu aylardır görüyorum; OpenAI’nin bunu ciddiye alıyormuş gibi görünmediğini düşündüm.
Bu yüzden 5.5 high → 5.5 xhigh → 5.4 high şeklinde geçiş yaptım.
5.4 high son 3 haftadır tamamen istikrarlıydı ve şu anda ondan memnunum.
Ara sıra işimi 5.5 xhigh ile çalıştırıp %100 istikrarlı hâle dönüp dönmediğini kontrol ediyorum ama şu an bu güvenilirlik sorununu düzeltmektense 5.6’nın çıkmasını bekleyeceklerini düşünüyorum.
Déjà vu gibi. Nisan ayındaki Claude Code performans gerilemesiyle birebir aynı görünüyor. O zaman Claude aboneliğimi iptal edip Codex’e geçmiştim.
Şimdi ikisini de token başına ücretlendirmeyle kullanmayı, işlerin çoğunda Fireworks’ün GLM 5.2’sini kullanıp yalnızca gerektiğinde büyük modellere para harcamayı düşünüyorum. Yine de başa baş noktasının tutup tutmayacağından emin değilim.
Kasıtlı olmasa bile, kalitesi düşmüş bir üründen kâr elde edilen bir yapıyı kabul etmek ya da mümkün kılmak istemiyorum.
ChatGPT’nin çıkışından bu yana her zamankinden daha fazla açık kaynak modeller ve açık çalıştırma ortamları, örneğin Pi gibi şeyler, çok daha cazip görünüyor.
Şimdi bu saçmalıklar için yeniden endişelenmemek adına 65.000 doları nasıl ek olarak kazanabileceğimi düşünüyorum. OpenRouter gibi şeylerin ekonomisini biliyorum.
2008 civarında “bulut”un bir pazarlama terimi olarak öne çıktığı zamanları hatırlatıyor. Zengin istemcilere dair beklentileri düşürüp yerel sahipliği aşındıran abonelik modelleriyle şirket marjlarını büyütmenin ambalajı gibi görünüyordu.
Sonra “gerçek özgür/açık kaynak yazılım”a yönelik coşku ve mutlakçılıktan bıkıp genç olduğumu düşünüp geçmiştim.
Aslında birçok abonelik modelini bir ölçüde anlayabiliyor ya da tolere edebiliyorum. Yazılım üretmek pahalı ve 2026’da Photoshop’un yıllık yükseltme değerini 200 dolar olarak görmek adil olmayabilir. Ama 20 yıldır iyi çalışan bir UI’ı keyfi şekilde değiştirmek ve klasik renk örnekleri gibi şeyleri tamamen kaldırmak aptalca.
O zaman ayda 200 dolar ödediğim iş açısından kritik aracım Codex ile klasik örnekler eklentisi yapabilirim.
Token kullanımım için ayda 200 dolar adil mi? Çok yoğun kullandığım aylarda belki 1 milyar token civarı kullanmış olabilirim.
Ama sorun da tam olarak bu. Bunlar hangi kârlılık düzeyinin uygun olduğunu somut olarak bilmeden durmaksızın kolları çekip duracak; borç vadeleri gibi fal bakma işaretlerine bakılırsa bu en azından 2030 ya da 2032’ye kadar sürecek gibi.
Bunları hiç düşünmek istemiyorum. Model tercihlerini ve performans düşüşlerini değerlendirmek; gerçekten para karşılığı üretip bakımını yaptığım çıktılarda kullanılan sonuçlara etki eden gizemli arka uç deneylerine göre yapay zekâya nasıl konuştuğumun nüanslarını sürekli güncellemek istemiyorum.
Yapay zekâ, araç ile işbirlikçi arasında bir yerde; akıl yürütme aşamasında pek iyi anlaşılmayan düğme ve kollarla oynanmasından kaynaklanan değişken “kişilik” değişimleri insanı çıldırtıyor. Bu yüzden köşedeki kutuyu gösterip, benden başka kimsenin değiştirmediği çıktı kalitesini tam olarak bilmek istiyorum.
Son zamanlarda basamak basamak değişen şey model performansı değil, kodcuların mızmızlanma ve şikâyet miktarı.
Codex’in açık kaynak olması sayesinde bu tür sorunların kamuya açık biçimde ortaya çıkıp ele alınabilmesi güzel
Codex’in açık kaynak olmasına genel olarak minnettarım, ama bu tür problemlerde model hâlâ kapalı olduğu için bunun pek anlamı yok gibi görünüyor
Hafızam yanıltıyor olabilir ama token kullanımı ve kod kalitesi ölçütlerine göre 5.3 en iyisiydi sanırım. 5.5 daha iyi çalışıyor ama token’ları resmen öğütüp bitiriyor
5.5 veya Opus’un aksine neredeyse her işte kullanılabilecek kadar ucuz ve verimliydi, buna rağmen oldukça iyiydi; Sonnet’e tercih ediyordum
Birkaç gün önce burada biri OpenAI’ın çığır açan bir optimizasyonla hesaplama maliyetini yarıya indirdiğini söylemiş gibiydi; bu o mu?
Haberde, konudan haberdar bir kişiye göre “OpenAI mühendisleri bu ayın başında bazı meslektaşlarına, yeni keşfedilen bir optimizasyon sayesinde mevcut modelleri çalıştırmanın, yani çıkarım maliyetini yarıdan fazla azaltmanın bir yolunu bulduklarını söyledi” deniyordu
Benim durumumda bu etki, şifrelenmiş akıl yürütme içeriğine base64 dizesi uzunluğu olarak bakınca görünüyor. Ama sunucunun raporladığı akıl yürütme token’larında görünmüyor
Bu yüzden bunun tamamen şifreleme veya obfuscation’ın bir parçası olduğunu düşündüm, gerçek bir sorun olmadığını varsaydım
GPT’nin en büyük eksiği, düşünme sürecinin şifrelenmiş olması nedeniyle Kimi, GLM ve DeepSeek’e kıyasla daha da kara kutu olması. Yine de düşünce özeti alınabildiği için tuhaf olsa da kullanılabiliyor
Nadiren de olsa “modeli aptallaştırdılar” sözü, her zamanki kullanıcı paranoyası değil de gerçekten modelin aptallaştırıldığı bir durum mu?
Issue ayrıntıları kasıtlı gizli zayıflatmanın kanıtı değil; hatta daha çok tersine işaret ediyor. Kök neden kaba saba ve sıradan bir kullanıcının bağımsız olarak doğrulanabilir, net ayrıntılarla rapor edebileceği kadar da pek gizli değil
“Her zamanki kullanıcı paranoyası” ifadesi ne adil ne de hoşuma gidiyor. Elinizde yalnızca bağlam penceresini yutup devam eden çıktıyı tüküren sihirli lavabo gibi bir API endpoint’i varsa geriye öznel yargı, tahmin ve şüpheden başka pek bir şey kalmıyor
Standartlaştırılmış model test paketleri olsa bile, gizli zayıflatma iddiası eninde sonunda şirketteki insanların niyetini okumaya dayanıyor. Açık bir niyet veya temel altyapı düşürmesi olmadan da model kalitesi düşebilir
Şaka yollu komplo teorileri kurmak ya da gerçek zayıflatma ihtimalini değerlendirmek kendi başına akıl hastalığı değil. Psikolojik tanı terimlerinin bu şekilde kötüye kullanılmasından hoşlanmıyorum
Elbette bu tür yargılarda aşırı emin olan insanlar da vardır ve bu onlar için geçerli olabilir, ama onlar azınlık. Sonuçta bu sadece abartı ve kimseye faydası yok
Frontier model aboneliği satıp zaman geçtikçe hızlıca nerf’lemeleri ve kimsenin bundan bahsetmemesi komik
Sunucu tarafında sessizce akıl yürütme yoğunluğunu düşürüyorlarsa indirim de yapmaları gerekir
Öte yandan ben 5.5-high’ı her gün paralel çoklu iş akışlarında kullanıyorum ve haftalık kotayı ancak kıl payı tüketiyorum. Planlama ve uygulamanın tamamını takip edip okuyacak kadar hızlı bir Human-as-a-Service değilim. İşin o yönü de var
İşlem hacmini optimize etmek için akıl yürütme çıkarımını 512 token katları hâlinde gruplayıp batch işledikleri açık görünüyor
Yoğun saat talebine göre ölçeklenmenin çok dürüst olmayan bir yolu da olabilir. Bu konuda model performansı algısının öznelliğiyle dalga geçen insanlar olduğunu biliyorum, ama en azından mayıs ayı boyunca yaptığım testlerde ABD’nin çevrimiçi olduğu saatlerde model daha az akıllı görünüyordu
Birkaç hafta önce şirket blog yazımda da çakışan saatlerde daha tutarlı bir kalıp olarak hissedildiği için buna değinmem gerektiğini düşündüm. Ek analiz için oturum günlüklerini saklamalıydım https://webesque.agency/blog/2026-06-19-llms.html