GPT-5.5 tanıtıldı
(openai.com)- Karmaşık işleri kendi başına planlayıp araçları birleştirerek sonuna kadar yürüten ajan tipi bir model olarak; kod yazma ve hata ayıklamadan web araştırmasına, veri analizinden belge·e-tablo oluşturmaya ve yazılım kullanımına kadar geniş bir alanı kapsıyor
- GPT-5.4 ile aynı per-token latency korunurken coding, computer use, bilgi işi ve erken aşama bilimsel araştırmada performans arttı; aynı Codex görevlerini daha az token ile tamamlayarak verimlilik de yükseldi
- Yazılım mühendisliğinde Terminal-Bench 2.0 %82,7, Expert-SWE %73,1, SWE-Bench Pro %58,6 sonuçlarını kaydetti; uygulama geliştirme, refactoring, debugging, testing, verification ve büyük kod tabanı bağlamını korumada güçlü yönler gösterdi
- Genel iş ve araştırma akışlarında da belge·e-tablo·slayt oluşturma, ekran etkileşimine dayalı computer use, çok aşamalı veri analizi, varsayım doğrulama ve sonuç yorumlamaya uzanan akış güçlendirildi; GPT-5.5 Pro ise daha yüksek doğruluk ve kapsamlılığı hedefliyor
- Yayın öncesinde güçlendirilmiş güvenlik önlemleri ile iç ve dış testlerden geçti; ChatGPT ve Codex’te Plus, Pro, Business, Enterprise odaklı olarak kademeli dağıtıma çıktığı için iş odaklı yapay zeka kullanım alanını daha da genişleten bir adım olarak görülüyor
Model genel bakışı ve dağıtım kapsamı
- GPT-5.5, niyeti daha hızlı anlayan, çok adımlı ve iç içe geçmiş işleri kendi başına planlayan, araç kullanarak işi sonuna kadar sürdüren bir model olarak tanıtılıyor
- Kod yazma ve hata ayıklama, web araştırması, veri analizi, belge ve e-tablo hazırlama, yazılım kullanımı ve birden çok araç arasında geçiş gerektiren işleri yapabiliyor
- Her adımı tek tek ayrıntılı yönetmek yerine, karmaşık ve dağınık işleri tek seferde verip planlama, araç kullanımı, doğrulama ve belirsizlik yönetimini birlikte yürütmesi için tasarlanmış
- Özellikle ajan tipi görevlerdeki gelişme vurgulanıyor ve coding·computer use·knowledge work·erken aşama bilimsel araştırmada güçlü performans gösteriyor
- Daha büyük modeller çoğu zaman yavaşlasa da, gerçek hizmet ölçütünde per-token latency GPT-5.4 ile aynı seviyede tutuldu
- Aynı Codex görevlerini daha az token ile bitirerek verimlilik de artırıldı
- Yayın öncesinde güvenlik önlemleri güçlendirildi; iç ve dış red team testleri, ileri düzey cybersecurity·biology yeteneklerine yönelik ek sınamalar ve yaklaşık 200 güvenilir iş ortağından alınan erken kullanım geri bildirimleri yansıtıldı
- Şu anda ChatGPT ve Codex’te Plus, Pro, Business, Enterprise kullanıcılarına kademeli olarak dağıtılıyor; GPT-5.5 Pro ise ChatGPT’de Pro·Business·Enterprise paketlerine sunuluyor
- API tarafı ayrı güvenlik gereksinimlerini karşılamak üzere hazırlanıyor ve GPT-5.5 ile GPT-5.5 Pro’nun yakında sunulması planlanıyor
Yazılım mühendisliği ve ajan tipi kodlama
- OpenAI, agentic AI infrastructure kuruyor ve son 1 yılda yapay zeka yazılım mühendisliğini büyük ölçüde hızlandırdı
- GPT-5.5’in Codex ve ChatGPT’ye gelmesiyle bu değişim bilimsel araştırma ve genel bilgisayar işlerine doğru genişlemeye başlıyor
- Artificial Analysis Coding Index ölçümüne göre rakip frontier coding modellerine kıyasla yarı maliyetle en üst düzey zekayı sunuyor
- GPT-5.5, OpenAI’ye göre en güçlü agentic coding modeli olarak tanıtılıyor
- Terminal-Bench 2.0’da %82,7 aldı; burada planlama, yineleme ve araç birleştirmesi gerektiren karmaşık komut satırı iş akışları değerlendiriliyor
- SWE-Bench Pro’da %58,6 elde etti; gerçek GitHub issue çözümünde önceki modellere göre daha fazla işi tek geçişte uçtan uca çözdü
- İç değerlendirme olan Expert-SWE’de de GPT-5.4’ü geçti
- Üç coding değerlendirmesinin tamamında GPT-5.4’ten daha az token kullanıp daha yüksek puan aldı
- Codex içindeki güçlü yanları uygulama geliştirme, refactoring, debugging, testing ve verification genelinde ortaya çıkıyor
- Büyük sistemlerin bağlamını koruma, belirsiz hata nedenlerini izleme, araçlarla varsayımları doğrulama ve değişiklikleri tüm kod tabanına yansıtma gibi gerçek mühendislik davranışlarında daha güçlü hale geldi
Kodlama kullanım örnekleri ve erken testler
- Artemis II gerçek verilerini kullanan bir WebGL + Vite uygulaması geliştirme prompt’u örnek olarak veriliyor
- NASA/JPL Horizons vektör verileri kullanılarak Orion, Moon ve Sun yörüngeleri render ediliyor
- Okunabilirlik için gösterim ölçeği uygulanıyor
- Erken test kullanıcıları GPT-5.5’in sistem mimarisini daha iyi kavradığını belirtiyor
- Neyin neden başarısız olduğunu, düzeltmenin nereye uygulanması gerektiğini ve kod tabanının diğer bölümlerini nasıl etkileyeceğini daha isabetli saptıyor
- Dan Shipper, yayından sonra bir arızayı geri sarıp aynı düzeyde bir yeniden tasarım üretip üretemeyeceğini test etti; GPT-5.4 başarısız olurken GPT-5.5 başarılı oldu
- Pietro Schirano, yüzlerce frontend ve refactor değişikliği içeren bir branch’i çok değişmiş ana branch’e yaklaşık 20 dakikada tek seferde birleştirdi
- Kıdemli mühendis testlerinde GPT-5.4 ve Claude Opus 4.7’ye kıyasla reasoning ve autonomy daha belirgin göründü
- Açık bir prompt olmadan da sorunları önceden yakalıyor, test ve inceleme ihtiyacını bile öngörüyor
- İşbirlikçi bir markdown editor için comment system yeniden tasarımı istendiğinde 12-diff stack neredeyse tamamlanmış halde çıktı
- Uygulama düzeltmeleri beklenenden daha az gerekti ve plana duyulan güven de GPT-5.4’e göre arttı
- Cursor’dan Michael Truell’in alıntısında, daha uzun süre çalışmayı sürdürebildiği ve erken durmadan karmaşık, uzun süre çalışan görevler için daha uygun olduğu görülüyor
Genel bilgi işi ve bilgisayar kullanımı
- Coding tarafında görülen güçlü yönler günlük bilgisayar işlerine de doğrudan yansıyor
- Niyeti daha iyi anladığı için bilgi arama, önemli bilgileri ayıklama, araç kullanma, sonuç doğrulama ve ham girdileri faydalı çıktılara dönüştürme sürecinin tamamını daha doğal şekilde yürütüyor
- Codex’te GPT-5.5, GPT-5.4’e göre belge, e-tablo ve slayt oluşturmada daha güçlü
- Alpha test kullanıcıları operasyon araştırması, e-tablo modelleme ve dağınık iş girdilerini plana dönüştürme işlerinde önceki modellerden daha iyi olduğunu söyledi
- Codex’in computer use yeteneğiyle birleştiğinde ekranı görüp tıklayabiliyor, yazı yazabiliyor, arayüzde gezinebiliyor ve birden çok araç arasında hassas biçimde geçiş yapabiliyor
- OpenAI içinde de halihazırda gerçek iş akışlarında kullanılıyor; şu anda çalışanların %85’inden fazlası her hafta Codex kullanıyor
- Yazılım mühendisliği, finans, iletişim, pazarlama, veri bilimi ve ürün yönetimi genelinde kullanılıyor
- İletişim ekibi, 6 aylık speaking request verisini analiz ederek puanlama·risk çerçevesi oluşturdu ve düşük riskli talepleri otomatik işleyip yüksek riskli talepleri insan incelemesine yönlendiren bir Slack agent’ı doğruladı
- Finance ekibi 24.771 adet K-1 vergi formu, toplam 71.637 sayfayı inceledi; kişisel bilgileri hariç tutan iş akışı sayesinde önceki yıla göre 2 hafta erken tamamladı
- Go-to-Market ekibinde haftalık iş raporu oluşturma otomatikleştirilerek haftada 5 ila 10 saat tasarruf sağlandı
ChatGPT'te GPT-5.5 Thinking ve GPT-5.5 Pro
- ChatGPT'nin GPT-5.5 Thinking modeli, daha zor sorulara daha hızlı yanıt verecek şekilde tasarlandı; daha akıllı ve özlü yanıtlarla karmaşık işleri daha verimli yürütmeyi sağlıyor
- coding, research, bilgi sentezi ve analizi, belge odaklı işlerde güçlü; özellikle plugin kullanırken avantaj sağlıyor
- GPT-5.5 Pro, daha zor görevleri ve daha yüksek kaliteyi hedefliyor; gecikmenin azalmasıyla gerçek iş ortamlarında uygulanabilirliği artıyor
- GPT-5.4 Pro'ya kıyasla yanıtlar daha kapsamlı, daha iyi yapılandırılmış, daha doğru, daha ilgili ve daha kullanışlı hale geliyor
- business, legal, education ve data science alanlarında özellikle güçlü
- Uzmanlık gerektiren işe yakın benchmark'larda da yüksek skorlar sunuyor
- GDPval %84,9, OSWorld-Verified %78,7, Tau2-bench Telecom %98,0 olarak kaydedildi
- Tau2-bench Telecom, prompt tuning olmadan tamamlandı
- FinanceAgent %60,0, internal investment-banking modeling tasks %88,5, OfficeQA Pro %54,1 sonuçları da paylaşıldı
- NVIDIA'dan Justin Boitano alıntısında, sistemin NVIDIA GB200 NVL72 üzerinde sunulduğu; doğal dil prompt'larıyla end-to-end işlevler teslim ettiği; debug süresini günlerden saatlere indirdiği ve haftalar sürecek deneyleri bir gecede yapılabilir hale getirdiği anlatılıyor
Bilimsel araştırma ve teknik araştırma iş akışı
- GPT-5.5, bilimsel ve teknik araştırma iş akışlarında da performans artışı gösteriyor
- Yalnızca zor sorulara yanıt vermenin ötesine geçerek fikir keşfi, kanıt toplama, varsayım doğrulama, sonuç yorumlama ve sonraki deneye karar verme döngüsünü daha iyi sürdürüyor
- GeneBench'te GPT-5.4'e göre belirgin iyileşme gösteriyor
- genetics ve quantitative biology için çok adımlı veri analizini hedefleyen yeni bir değerlendirme
- Belirsiz veya hatalı veriler, gizli confounder'lar, QC başarısızlıkları ve modern istatistik yöntemlerinin uygulanması ile yorumlanmasını ele alıyor
- Buradaki görevler, bilim uzmanları için bile birkaç günlük projelere karşılık geliyor
- BixBench'te de kamuya açık skoru bulunan modeller arasında lider performans sergiliyor
- Gerçek bioinformatics ve veri analizini yansıtan bir benchmark olarak tanıtılıyor
- biomedical research ön cephesinde co-scientist düzeyinde hızlandırma potansiyeli gösteriyor
- İç sürüm GPT-5.5 ve custom harness, Ramsey numbers için yeni bir kanıt bulmakta da kullanıldı
- Yeni kanıt bağlantısı
- combinatorics alanında, uzun süredir açık olan off-diagonal Ramsey numbers'ın asimptotik özelliklerine ilişkin bir kanıt bulundu ve daha sonra Lean ile doğrulandı
- Kod veya açıklamanın ötesine geçerek temel araştırma alanlarında yararlı matematiksel akıl yürütmeye de katkı sağlıyor
- İlk test kullanıcıları, GPT-5.5 Pro'yu tek seferlik yanıt motorundan çok bir araştırma ortağı gibi kullandı
- Taslakları birden çok kez eleştirel biçimde gözden geçiriyor, teknik argümanları stress test ediyor, analiz öneriyor ve kod, notlar, PDF bağlamıyla birlikte çalışıyor
- Sorudan deneye ve çıktıya uzanan akışta daha iyi destek sağlıyor
Araştırma örnekleri
- Jackson Laboratory for Genomic Medicine'dan Derya Unutmaz, GPT-5.5 Pro ile 62 örnek ve yaklaşık 28.000 gen içeren bir gene-expression veri setini analiz etti
- Ayrıntılı bir araştırma raporu üretti; yalnızca sonuç özeti değil, temel sorular ve içgörüler de ortaya koydu
- Bu çalışma, ekibinin yapması durumunda aylar sürecek ölçekteydi
- Adam Mickiewicz University'den Bartosz Naskręcki, Codex ile tek bir prompt'tan 11 dakikada bir algebraic-geometry uygulaması geliştirdi
- İki quadratic surface'in kesişimini görselleştirdi ve ortaya çıkan eğriyi Weierstrass modeline dönüştürdü
- Sonrasında singularity visualization'ı daha kararlı hale getirdi ve takip eden işler için yeniden kullanılabilir exact coefficients ekledi
- Özel araç gerektiren özelleştirilmiş matematik görselleştirmeleri ve computer-algebra iş akışlarının kurulmasında da Codex yardımcı oldu
- Credit: Bartosz Naskręcki
- Axiom Bio'dan Brandon White alıntısında, çok büyük bir biochemical dataset üzerinde çıkarım yaparak human drug outcomes tahmin edildiği ve en zor drug discovery değerlendirmelerinde anlamlı doğruluk artışı görüldüğü belirtiliyor
Çıkarım altyapısı ve performans optimizasyonu
- GPT-5.4 ile benzer gecikme süresinde GPT-5.5'i sunabilmek için, çıkarım altyapısının tek tek optimizasyon paketleri olarak değil birleşik bir sistem olarak yeniden tasarlanması gerekti
- GPT-5.5, NVIDIA GB200 ve GB300 NVL72 sistemleri temel alınarak ortak tasarım, eğitim ve servis süreçleriyle geliştirildi
- Codex ve GPT-5.5'in kendisi, performans hedeflerine ulaşmaya doğrudan katkı sağladı
- Codex, fikirleri hızla benchmark yapılabilir uygulamalara dönüştürmek, yaklaşımları taslaklandırmak, deneyleri birbirine bağlamak ve daha derin yatırım gerektiren optimizasyonları bulmak için kullanıldı
- GPT-5.5 ise yığının içindeki temel iyileştirme noktalarını bulup uygulamaya yardımcı oldu
- Sonuç olarak model, kendisini servis eden altyapının geliştirilmesine de katkıda bulundu
- Temsili iyileştirme örneği olarak load balancing ve partitioning heuristics öne çıkarılıyor
- Daha önce accelerator üzerindeki istekler sabit sayıda chunk'a bölünüyordu; böylece büyük ve küçük istekler aynı GPU üzerinde çalışıyordu
- Ancak statik chunk sayısı, tüm trafik biçimleri için en iyi çözüm değildi
- Codex, haftalar boyunca production traffic kalıplarını analiz etti ve işleri en iyi şekilde bölüp dengeleyecek özel bir heuristic algoritması yazdı
- Bu çalışmayla token generation speed %20'den fazla arttı
Siber güvenlik ve güvenlik önlemleri
- Güvenlik açığı tespiti ve yama konusunda yetkin bir modeli dünyaya hazırlamak, takım sporuna daha yakındır ve bir sonraki siber savunma çağı için tüm ekosistemin dayanıklılığı gerekir
- İlgili bağlantı: next era of cyber defense
- frontier modellerin cybersecurity yetenekleri giderek güçleniyor ve bu yetenek yaygınlaşacağı için bunun siber savunmayı hızlandırmak ve ekosistemi güçlendirmek için kullanılacağı yol önem kazanıyor
- GPT-5.5, cybersecurity gibi zor sorunları çözen yapay zekaya giden kademeli ama önemli bir adım olarak konumlandırılıyor
- GPT-5.2 döneminde potansiyel cyber kötüye kullanımını sınırlayan cyber safeguards proaktif olarak devreye alındı
- GPT-5.5'e potansiyel cyber risklerine karşı daha sıkı classifier'lar yerleştirildi ve bu durum ilk aşamada bazı kullanıcılara can sıkıcı gelebilir
- OpenAI, yıllardır Preparedness Framework içinde cybersecurity'yi ayrı bir kategori olarak ele alıyor ve yetenek artışına paralel olarak azaltım önlemlerini de tekrar tekrar ayarlıyor
- Sektör lideri düzeyde safeguards, bu seviyedeki cyber capability'ye uygun olacak şekilde devreye alındı
- GPT-5.2 ile ilk kez cyber-specific safeguard sunuldu ve sonrasındaki her dağıtımda test edilip iyileştirilip genişletildi
- GPT-5.5'te yüksek riskli faaliyetler, hassas cyber talepleri ve tekrarlayan kötüye kullanım için korumalar daha da güçlendirildi
- Geniş erişim; model güvenliği, doğrulanmış kullanım ve izin verilmeyen kullanımın izlenmesine yapılan yatırımlar sayesinde mümkün oldu
- Dış uzmanlarla birlikte aylar boyunca robustness geliştirildi, test edildi ve iyileştirildi
- Geliştiricilerin kodlarını kolayca koruyabilmesi sağlanırken, kötü niyetli aktörlerin zarar vermesini kolaylaştıran cyber iş akışlarında daha güçlü kontroller uygulanıyor
- Savunma amaçlı erişimin genişletilmesi de birlikte yürütülüyor
- Trusted Access for Cyber aracılığıyla cyber-permissive model erişimi sunuluyor ve başlangıç noktası Codex
- Belirli trust signals koşullarını karşılayan doğrulanmış kullanıcılara, GPT-5.5'in gelişmiş cybersecurity özellikleri daha az kısıtlamayla sunuluyor
- critical infrastructure savunması yürüten kuruluşlar, GPT-5.4-Cyber gibi cyber-permissive modellere erişim için başvurabiliyor
- Amaç, doğrulanmış savunma sorumlularına meşru güvenlik işleri için araçları daha az sürtünmeyle sunmak
- Başvuru bağlantısı: chatgpt.com/cyber
- Kamu ortaklarıyla iş birliği de buna dahil
- Vergi verilerini koruyan dijital sistemler, elektrik şebekeleri ve toplulukların temiz su sistemleri gibi kritik altyapıları savunan kamu görevlilerinin gelişmiş yapay zekadan nasıl destek alabileceği birlikte araştırılıyor
- GPT-5.5'in biological/chemical ve cybersecurity yetenekleri, Preparedness Framework kapsamında High olarak sınıflandırılıyor
- Critical düzeyde cybersecurity capability'ye ulaşmadı, ancak değerlendirme ve testlerde GPT-5.4'e kıyasla bir kademe daha yüksek cyber yeteneği doğrulandı
- Lansman öncesinde tam safety and governance process sürecinden geçti
- preparedness değerlendirmesi, alan bazlı testler, gelişmiş biology ve cybersecurity için yeni hedefli değerlendirmeler ve dış uzmanlarla yapılan sağlam testler buna dahil
- Ayrıntılar GPT-5.5 system card içinde sunuluyor
- Bu yaklaşım, daha güçlü modeller çağında gerekli olan AI resilience stratejisinin bir parçası
- Güçlü yapay zeka, sistemleri, kurumları ve kamuyu savunan kişilere de sunulmalı; güvene dayalı erişim, yetenekle orantılı biçimde güçlenen safeguards ve ciddi kötüye kullanımı tespit edip yanıt veren operasyonel kapasite temel yol olarak öne çıkarılıyor
Kullanılabilen planlar ve fiyatlandırma
- Şu anda ChatGPT ve Codex'te GPT-5.5, Plus, Pro, Business ve Enterprise kullanıcılarına sunuluyor; GPT-5.5 Pro ise ChatGPT'de Pro, Business ve Enterprise'a veriliyor
- ChatGPT'de GPT-5.5 Thinking, Plus, Pro, Business ve Enterprise için sunuluyor
- GPT-5.5 Pro, daha zor sorular ve daha yüksek doğruluk hedefliyor; Pro, Business ve Enterprise'da kullanılabiliyor
- Codex'te GPT-5.5; Plus, Pro, Business, Enterprise, Edu, Go planlarında sunuluyor ve 400K context window taşıyor
- Fast mode da mevcut; token üretim hızı 1,5 kat daha hızlı, maliyeti ise 2,5 kat
- API geliştiricileri için gpt-5.5, yakında Responses API ve Chat Completions API'de sunulacak
- Girdi için 1M token başına 5 dolar, çıktı için 1M token başına 30 dolar ve 1M context window olarak belirtiliyor
- Batch ve Flex fiyatları standart API ücretinin yarısı, Priority processing ise 2,5 kat ücretle sunuluyor
- gpt-5.5-pro da API'de yayınlanacak ve daha yüksek doğruluğu hedefliyor
- Girdi için 1M token başına 30 dolar, çıktı için 1M token başına 180 dolar olarak belirtiliyor
- Tüm fiyat bilgileri pricing page bağlantısında yer alıyor
- GPT-5.5, GPT-5.4'ten daha pahalı, ancak zeka ve token verimliliği de daha yüksek
- Codex'te deneyim, çoğu kullanıcı için GPT-5.4'e kıyasla daha az token ile daha iyi sonuç verecek şekilde ayarlandı
- Abonelik kademelerinin genelinde cömert kullanım miktarı sunulmaya devam ediliyor
Ayrıntılı benchmark'lar
-
Coding
- SWE-Bench Pro (Public)'da GPT-5.5 %58,6, GPT-5.4 %57,7, Claude Opus 4.7 %64,3, Gemini 3.1 Pro ise %54,2
- Terminal-Bench 2.0'da GPT-5.5 %82,7, GPT-5.4 %75,1, Claude Opus 4.7 %69,4, Gemini 3.1 Pro %68,5
- Expert-SWE (Internal) için GPT-5.5 %73,1, GPT-5.4 ise %68,5 olarak verildi
-
Uzmanlık gerektiren işler
- GDPval (wins or ties)'de GPT-5.5 %84,9, GPT-5.4 %83,0, GPT-5.5 Pro %82,3, GPT-5.4 Pro %82,0, Claude Opus 4.7 %80,3, Gemini 3.1 Pro %67,3
- FinanceAgent v1.1'de GPT-5.5 %60,0, GPT-5.4 %56,0, GPT-5.4 Pro %61,5, Claude Opus 4.7 %64,4, Gemini 3.1 Pro %59,7
- Investment Banking Modeling Tasks (Internal)'ta GPT-5.5 %88,5, GPT-5.4 %87,3, GPT-5.5 Pro %88,6, GPT-5.4 Pro %83,6
- OfficeQA Pro'da GPT-5.5 %54,1, GPT-5.4 %53,2, Claude Opus 4.7 %43,6, Gemini 3.1 Pro %18,1
-
Bilgisayar kullanımı ve görme
- OSWorld-Verified'da GPT-5.5 %78,7, GPT-5.4 %75,0, Claude Opus 4.7 %78,0
- MMMU Pro (no tools)'da GPT-5.5 ve GPT-5.4 %81,2 ile aynı, Gemini 3.1 Pro ise %80,5
- MMMU Pro (with tools)'da GPT-5.5 %83,2, GPT-5.4 %82,1
-
Araç kullanımı
- BrowseComp'ta GPT-5.5 %84,4, GPT-5.4 %82,7, GPT-5.5 Pro %90,1, GPT-5.4 Pro %89,3, Claude Opus 4.7 %79,3, Gemini 3.1 Pro %85,9
- MCP Atlas'ta GPT-5.5 %75,3, GPT-5.4 %70,6, Claude Opus 4.7 %79,1, Gemini 3.1 Pro %78,2
- Toolathlon'da GPT-5.5 %55,6, GPT-5.4 %54,6, Gemini 3.1 Pro %48,8
- Tau2-bench Telecom'da, özgün prompt temel alındığında, GPT-5.5 %98,0, GPT-5.4 ise %92,8
- MCP Atlas notunda, Scale AI'nin Nisan 2026'daki en güncel güncellemesinden sonraki sonuçlar olduğu yazıyor
- Tau2-bench Telecom notunda sonuçların prompt adjustment olmadan değerlendirildiği ve diğer araştırma laboratuvarlarının prompt adjustment sonuçlarının hariç tutulduğu açıkça belirtiliyor
-
Akademik
- GeneBench'te GPT-5.5 %25,0, GPT-5.4 %19,0, GPT-5.5 Pro %33,2, GPT-5.4 Pro %25,6
- FrontierMath Tier 1–3'te GPT-5.5 %51,7, GPT-5.4 %47,6, GPT-5.5 Pro %52,4, GPT-5.4 Pro %50,0, Claude Opus 4.7 %43,8, Gemini 3.1 Pro %36,9
- FrontierMath Tier 4'te GPT-5.5 %35,4, GPT-5.4 %27,1, GPT-5.5 Pro %39,6, GPT-5.4 Pro %38,0, Claude Opus 4.7 %22,9, Gemini 3.1 Pro %16,7
- BixBench'te GPT-5.5 %80,5, GPT-5.4 %74,0
- GPQA Diamond'da GPT-5.5 %93,6, GPT-5.4 %92,8, GPT-5.4 Pro %94,4, Claude Opus 4.7 %94,2, Gemini 3.1 Pro %94,3
- Humanity's Last Exam (no tools)'da GPT-5.5 %41,4, GPT-5.4 %39,8, GPT-5.5 Pro %43,1, GPT-5.4 Pro %42,7, Claude Opus 4.7 %46,9, Gemini 3.1 Pro %44,4
- Humanity's Last Exam (with tools)'da GPT-5.5 %52,2, GPT-5.4 %52,1, GPT-5.5 Pro %57,2, GPT-5.4 Pro %58,7, Claude Opus 4.7 %54,7, Gemini 3.1 Pro %51,4
-
Siber güvenlik
- Capture-the-Flags challenge tasks (Internal)'ta GPT-5.5 %88,1, GPT-5.4 %83,7
- CyberGym'de GPT-5.5 %81,8, GPT-5.4 %79,0, Claude Opus 4.7 %73,1
- Notta, system card'da yer alan en zor CTF'nin genişletildiği ve buna ek yüksek zorlukta challenge'ların eklendiği bir sonuç olduğu yazıyor
-
Uzun bağlam
- Graphwalks BFS 256k f1'de GPT-5.5 %73,7, GPT-5.4 %62,5, Claude Opus 4.7 %76,9
- Graphwalks BFS 1mil f1'de GPT-5.5 %45,4, GPT-5.4 %9,4, Claude Opus 4.6 ise %41,2
- Graphwalks parents 256k f1'de GPT-5.5 %90,1, GPT-5.4 %82,8, Claude Opus 4.7 %93,6
- Graphwalks parents 1mil f1'de GPT-5.5 %58,5, GPT-5.4 %44,4, Claude Opus 4.6 ise %72,0
- OpenAI MRCR v2 8-needle, bağlam uzunluğuna göre sunuluyor; 4K-8K %98,1, 8K-16K %93,0, 16K-32K %96,5, 32K-64K %90,0, 64K-128K %83,1, 128K-256K %87,5, 256K-512K %81,5, 512K-1M %74,0
- Aynı maddede GPT-5.4 için değerler sırasıyla %97,3, %91,4, %97,2, %90,5, %86,0, %79,3, %57,5, %36,6
- 128K-256K aralığında Claude Opus 4.7 için %59,2, 512K-1M aralığında ise Claude Opus 4.7 için %32,2 değeri yer alıyor
-
Soyut akıl yürütme
- ARC-AGI-1 (Verified)'de GPT-5.5 %95,0, GPT-5.4 %93,7, GPT-5.4 Pro %94,5, Claude Opus 4.7 %93,5, Gemini 3.1 Pro %98,0
- ARC-AGI-2 (Verified)'de GPT-5.5 %85,0, GPT-5.4 %73,3, GPT-5.4 Pro %83,3, Claude Opus 4.7 %75,8, Gemini 3.1 Pro %77,1
- GPT ailesi değerlendirmelerinin, reasoning effort değeri xhigh olarak ayarlanmış bir araştırma ortamında yapıldığı ve bazı durumlarda üretim ortamındaki ChatGPT çıktılarından küçük farklılıklar gösterebileceği belirtiliyor
1 yorum
Hacker News görüşleri
NVIDIA'da GPT-5.5 erişimini kaybetmenin sanki bir uzvunu kaybetmek gibi hissettirdiği sözü, niyetten çok daha ürkütücü geliyor
Bu, genel olarak frontier kodlama modellerine bağımlılık için de geçerli gibi; performans arttıkça kod yazarken onlara hızla yaslanılıyor
Bunu bizzat yaşayınca rahatsız edici bir duygu yaratıyor. Artık sabır gösterip kodu elle yazmaktansa modeli kullanarak işi tek seferde halletmek yaklaşık 10 kat daha hızlı ve benim rolüm de değişti
Çok şeyi çalışır hale getirebilmek harika ama token bittiğinde iş fiilen duruyor
Claude çöktüğünde zorla kod yazmaya çalışmaktansa yürüyüşe çıkıp gelmek daha yüksek kaldıraç sağlıyor. Bir saat sonra Claude geri gelirse, LLM'in ürettiği koda takılıp elle sorun çözmeye çalışarak tükenmekten daha fazla ilerleme kaydediliyor
Her hâlükârda bu durumun sürmesi biraz tedirgin edici
Mevcut piyasa, emeğin atomize olduğu ve pazarlık gücünün zayıf olduğu varsayımı üzerine kurulu; sermaye ise çok daha büyük pazarlık gücüyle emek fiyatını fiilen belirliyordu
Ama o emek daha büyük başka bir şirket tarafından sağlanıyorsa ve bu emek geleneksel emekten farklı olarak arzı süresiz biçimde kesilebiliyorsa ne olur
Artık emek başka bir sermaye biçimine dönüştü ve sermayenin karnını doyurmak gerekmiyor
Kendi modelini kullanmayan şirketler bunun sonucunu yaşayarak öğrenecek gibi görünüyor
Daha hızlı geliştirirsin, doğrudan yazdığın kod azalır, iç durum yönetimi ya da bellek yönetimi gibi işleri kütüphane üstlenir
Pointer'larla ve
malloc()ile doğrudan uğraşmak yerine kütüphane çağrılarına dayanmayı rahatsız edici bulanlar olabilir ama bazıları için bu, düşük seviyeli bağlam değişimlerine saplanmadan daha üst düzey mimariye odaklanmayı sağlayan bir özgürleşme hissi veriyorHazır cevap istemek yerine sık sık bağımsız çalışan CLI'lar veya araçlar yapmasını istiyorum
O sonuca nasıl ulaştığını da sorarak kendi bakış açımı genişletmeye çalışıyorum; hatta kendi metadata düzeyindeki sınıflandırma biçimini açıklamasını da istiyorum
Özellikle zorluğun kavramın kendisinden çok referans grafiğinin büyüklüğünden kaynaklandığı büyük kod tabanlarında, bunu problem çözme becerimi geliştirecek yönde kullanmaya çalışıyorum
Çünkü barındırılan modeller yok olsa veya aşırı pahalılaşsa bile sadece o küçük performans farkı kaybedilmiş olur
Elbette bu iki varsayımın hiçbiri kendiliğinden açık değil, o yüzden biraz da sadece öyle olmasını umuyorum
Ayrıca hâlâ 10 kat verimlilik sloganının tekrarlanması açıkçası pek inandırıcı gelmiyor
GPT-5.5'in çıkışı bugün ama ChatGPT ve Codex'e yansıması birkaç saate yayılan kademeli bir süreç olacakmış
Hizmet kararlılığı için önceki lansmanlarda olduğu gibi aşamalı açılıyor ve genelde önce Pro/Enterprise, ardından Plus geliyor
Hemen görünmeyebilir, o yüzden daha sonra tekrar kontrol edin deniyor
Rastgele beklemek sinir bozucu olabilir ama kararlılık için bunu yaptıklarını söylüyorlar
OpenAI'da çalıştığını belirtiyor
Anthropic OAuthgate'ten sonra alternatif olarak kullanmaya çalıştım fakat hızlı, güvenli ve zararsız alt görevleri bile tamamlayamadı
Konuşma sürekli “burada X'i yapmalıydım” “doğru, başarısız oldum” “o zaman şimdi yap” “yapmalıydım ama yapmadım” şeklinde sonsuz özür döngüsüne giriyordu
Sonradan GLM, Kimi, Minimax bunları sorunsuz yapınca daha da saçma geldi ve bu yüzden OpenAI'ı hemen bırakmak zorunda kaldım
Hatta UI'da modelin var olduğunu ama henüz benim hesabıma açılmadığını göstermek iyi olurdu
ETA da olsa harika olurdu ama rollout sırasında sorun çıkabileceği için tahmin etmek zor olabilir
Images 2.0 da ChatGPT içinde birlikte mi açılıyor, yoksa bir süre daha API/Playground'a özel bir özellik olarak mı kalacak merak ediyorum
Henüz resmî API erişimi yok ama son zamanlarda OpenAI'ın OpenClaw'ın kullandığı Codex API arka kapısını fiilen görmezden geldiği bir hava var
https://twitter.com/steipete/status/2046775849769148838 ve https://twitter.com/romainhuet/status/2038699202834841962
Bu arka kapı API'de GPT-5.5 de var
Bu yüzden pelikan örneğini çalıştırdım: https://simonwillison.net/2026/Apr/23/gpt-5-5/#and-some-peli...
Bunun için LLM'e yönelik yeni eklenti https://github.com/simonw/llm-openai-via-codex kullanıldı
Daha sonra reasoning effort'u xhigh seviyesine çıkarınca çok daha iyi bir pelikan çıktı
https://gist.github.com/simonw/a6168e4165a258e4d664aeae8e602...
Yine de bunda bacaklarını çaprazlaması komik olmuş
5.5 sürümüne gelinmişken hâlâ temel bir bisiklet kadrosunu düzgün çizemiyorsa bu iş nasıl olacak
Ön tekerleğin yana dönebileceği bir yapı yok ama çizim bunu tutturamıyor
Reasoning token'ın tam olarak ne olduğunu bilmiyorum ama her hâlükârda token sayısı şok edici derecede düşük görünüyor
Anthropic'in bu tür kullanımlardan hiç hoşlanmadığını hatırlıyorum
Dün paylaşılan Qwen gibi açık ağırlıklı yerel modeller bile daha iyi görünüyordu
Herkes Anthropic'in Mythos gating'i ve CyberGym %83 pazarlamasından bahsediyordu ama OpenAI GPT-5.5'i doğrudan yayımladı ve puanı da %82
Herkesin deneyebilmesi çok daha önemli
Saldırı/savunma siber güvenlik tarafında çalışan biriyseniz, abartılı tanıtım yerine böyle gerçekten yayımlanmış bir modeli doğrudan kullanmak daha anlamlı
Bunu söyleyeceğimi düşünmezdim ama artık OpenAI yeniden daha açık bir seçenek gibi görünüyor
Bu yüzden güvenlik sektörü korkuya kapıldı; çünkü yeni zero-day'leri engellemek için gerçekte sadece iki hafta kadar süre kalmış olabilirdi ve sonrasında blackhat'lerin topluca bulup istismar ettiği bir açık sezon başlayabilirdi
Anthropic hiçbir zaman açık bir model yayımlamadı, Claude Code kaynak kodunu da gönüllü olarak açmadı, tokenizer'ı da yayımlamadı
Belgelerde de siber güvenlikle ilgili görevlerin otomatik tespitte yakalanması hâlinde GPT-5.2'ye fallback edilebileceği yazıyor
https://developers.openai.com/codex/concepts/cyber-safety
https://chatgpt.com/cyber
Anthropic bana neredeyse palavranın vücut bulmuş hâli gibi geliyor
Eskiden Cialdini'yi okuduktan sonra Anthropic tarzı sunumlar bana sıkıcı gelmeye başladı
Buna karşılık OpenAI çok zeki davranıyor. Claude öne çıkınca bir süre manşetlerden çekildi ama şimdi dev kullanıcı tabanı sayesinde sadece Anthropic'in yayın temposunu takip etmesi bile karşı tarafı gülünç gösterebiliyor
Anthropic açısından her yeni GPT sürümü çıktıkça tablo daha da vahimleşecek gibi ve bu iş OpenAI'ın tamamen hakimiyet kurduğu bir resme benziyor
Bu sayfadaki fiyatlandırma/kullanım limiti bölümüne bakılmalı
https://developers.openai.com/codex/pricing?codex-usage-limi...
5.3, 5.4 ve 5.5 arasındaki Local Messages farkına bakın
5.5'in daha verimli olduğu için 5.4 ile başa baş olduğunu savunduklarını okudum ama yine de genel yön daha sıkı limitler ve daha yüksek fiyatlar gibi görünüyor
Görünüşe göre Anthropic örneğinden çıkarılan ders şu oldu: geliştiriciler kodlama ajanlarına çok hızlı bağımlı hâle geliyor, hatta adeta alışkanlık geliştiriyor; bu yüzden küçük iyileştirmeler için bile memnuniyetle para ödüyorlar
Codex ve GPT ile yapılan 3D dungeon arena prototipi oldukça iyi görünüyor
Codex oyun mimarisini, TypeScript/Three.js uygulamasını, savaş sistemini, düşman karşılaşmalarını ve HUD geri bildirimini üstlenmiş; ortam dokuları GPT tarafından üretilmiş, karakter modelleri ve animasyonlar ise üçüncü taraf asset üretim araçlarıyla yapılmış
Görsel olarak iyi görünmesinin nedeni muhtemelen mesh'leri GPT-5.5'in doğrudan üretmemiş, ayrı bir aracın üretmiş olması
Buna bakınca eski Flash dönemi gibi, oyuncuların ve hobi geliştiricilerinin oyun fikirlerini hızla üretip doğrudan web'de yayımlayabildiği bir dönemin geldiği hissi oluşuyor
Özellikle Three.js bir oyun motoru bile değilken, AI ile oyun tasarlamada fiilen temel araçlardan biri hâline geliyor gibi görünüyor
Sadece Three.js tarafına bakınca bu tek nesilde gördüğüm en büyük sıçramaydı; özellikle GLSL shader tarafında belirgindi ve birden fazla sayfa/bileşene ayrılmış sahneleri yapılandırma konusunda da iyileşme vardı
Baştan sona tam bir shader yazmak hâlâ zor ama mevcut shader'ları düzenleme becerisi artık oldukça işe yarar durumda
5.2 ve altında bir arka plan canvas'ını birden fazla route boyunca koruyan one canvas, multiple page desenini gerçekten beceremiyordu; 5.4 ise hâlâ biraz yönlendirme istese de refactoring ve optimization prompt'larına çok daha iyi yanıt veriyor
5.5'in gerçekte nasıl olduğunu denemek için heyecanlıyım
Yaptığım tuhaf saat görselleştirmesi de büyük ölçüde buna dayanıyordu
Bir oyun motoru değil ama web'de WebGL 3D için fiilen standart ve uzun süredir var olduğu için eğitim verisi de çok fazla
LLM'lerden önce daha üst düzey işlevler sunduğu için Babylon.js'e daha çok güvenirdim
Eski adı Spielwerk'tü; iOS'ta oyun yapıp paylaşmaya yarayan bir uygulama
Tamamen web tabanlı olduğu için paylaşımı kolay
https://apps.apple.com/uz/app/jamboree-game-maker/id67473110...
GPT ile denemedim ama Claude'da ne kadar prompt engineering yaparsam yapayım Rubik küpünü çözdüremedim; Opus 4.6 da bulmacanın ancak yaklaşık %70'ini çözüp tıkandı
Tek deneme başına 20 dolar gibi bir maliyet olduğu için bunu sürdürmek de zor
Eğer gerçekten üç boyutlu akıl yürütme yaptırılabilseydi, bugün çözülemeyen matematik problemlerine de aynı yaklaşım genişletilebilirdi
Belki Rubik's Cube MCP sunucumu yayımlayıp yalnızca prompt ile küpü çözen çıkacak mı diye insanlara meydan okuyabilirim
Bu duyuruda benchmark'lardan daha ilginç olan kısım, Codex'in birkaç haftalık gerçek trafik kalıplarını analiz ederek GPU kullanımını yükseltmesi ve iş bölme ile dengeleme için özel sezgisel algoritmalar yazıp token üretim hızını %20'den fazla artırmasıydı
Ajan tipi LLM'lerin bu şekilde hesaplama verimliliği optimizasyonu yapabildiği alanlar etkisi çok büyük olmasına rağmen benchmark'lara göre daha az test ediliyor gibi duruyor
Benim deneyimime göre bu alanda Opus hâlâ GPT/Codex'ten daha iyi ama OpenAI maliyet ve kapasite baskısı altında bu tür verim artışlarından gerçek fayda gördüğü için bu yönde ilerlemeyi sürdürecek gibi görünüyor
Eskiden meşhur olan Intel FizzBuzz code golf optimizasyonu aklıma geldi; bunun üzerine gemini pro'ya kodumu verip “bu türden akıllı optimizasyonlar öner” dedim ve öneriler gerçekten harikaydı
LLM'ler beni her gün şaşırtmaya devam ediyor
Ayrıca her şirket de kendi altyapı ve model optimizasyonunun rekabette kazanmanın temel yolu olduğunu bildiği için bu konuya çok ciddi yaklaşıyorlardır diye düşünüyorum
MMLU gibi geleneksel benchmark'ların ötesine geçilmesi sevindirici ama uygun kontrollü deneyler olmadan bu tarz sayılar paylaşmak çok faydalı olmuyor
Mythos ile GPT-5.5 rakamlara bakınca SWE-bench Pro'da fark hâlâ büyük ama diğer alanlarda oldukça benzer görünüyor
SWE-bench Pro %77,8'e %58,6
Terminal-bench-2.0 %82,0'a %82,7
GPQA Diamond %94,6'ya %93,6
H. Last Exam %56,8'e %41,4
H. Last Exam (tools) %64,7'ye %52,2
BrowseComp %86,9'a %84,4, Pro bazında %90,1
OSWorld-Verified %79,6'ya %78,7
Mythos rakamlarının kaynağı https://www.anthropic.com/glasswing
Şu anda Opus 4.7'yi kullanınca özerkliğinin hissedilir biçimde ciddi şekilde kırpıldığını ve sözde güvenlik nedeniyle yoğun kısıtlandığını görüyorsunuz
Bu yüzden Anthropic'in reklamını yaptığı kadar etkileyici olup olmadığı konusunda pek emin değilim
Burada yazıyor
https://www.anthropic.com/news/claude-opus-4-7#:~:text=memor...
Resmî gönderimleri https://github.com/SWE-bench/experiments/tree/main/evaluatio... içinden Sonnet 4 sonrası modellerle sınırlayıp 500 sorunun tamamı için topladığımda, tüm modellerin birleşik çözüm oranı tam olarak %93 çıktı
Buna karşılık Mythos %93,7 aldıysa, başka hiçbir modelin çözemediği soruları da çözüyor demektir; bu sorulara doğrudan bakınca iş daha da şüpheli geldi
Kalan %7'lik sorular, test patch'i önceden görülmeden çözülmesi neredeyse imkânsız görünen türdendi ve gerçek çözüm yolu da problem açıklamasından o kadar farklı ilerliyordu ki sanki bambaşka bir soru çözülüyormuş hissi veriyordu
Mythos'un hile yaptığını kesin olarak söylemiyorum ama depoların çeşitli durumlarını o kadar iyi ezberlemiş olabilir ki, içsel belleğindeki diff'lerden gerçek problem ifadesini tersine çıkarıyor olabilir
Aksi takdirde bu kadar muğlak problem açıklamalarını bu kadar isabetli yorumlamasını açıklamak zor
Her benchmark'ta her zaman tuhaf sonuçlar çıkar
Hâlâ halüsinasyon oranının %86 olması üzücü
Karşılaştırma için Opus yaklaşık %36 seviyesinde
Kaynak: https://artificialanalysis.ai/models?omniscience=omniscience...
Sorulara göre halüsinasyon aslında %100'e daha yakın bile olabilir; bu benchmark sezgisel olarak pek ikna edici gelmiyor
Soru soran kişi muhtemelen problemi tam olarak anlamıyor; bu yüzden sonuç ne olursa olsun kendinden emin verilen cevapları tercih ediyor gibi görünüyor
Amaç sanki teknolojinin gerçek kabiliyetini değil, yetkin görünme izlenimini satmak
LLM'ler ürünü mahvedebilir ama mesele milyarderlerin düşünme makinesinin çalışanların yerini alabileceğine inanıp emek bütçesinin %75'ini buna dökmekse, buna kananlar düşünsün demekten başka bir şey gelmiyor içimden
Bu model uzun soluklu görevlerde çok güçlü ve Codex'te artık heartbeats de var, böylece durum sürekli kontrol edilebiliyor
Doğrulanabilir kısıtları olan ve birkaç saat süren zor bir problem verildiğinde ne kadar iyi olduğunu anlayacağınızı söylüyor
OpenAI'da çalıştığını belirtiyor
Son zamanlarda diğer modellerden, özellikle Opus'un işin ortasında sık sık durmasından yoruldum
Çıkış için tebrikler