4 puan yazan GN⁺ 6 일 전 | 1 yorum | WhatsApp'ta paylaş
  • Karmaşık işleri kendi başına planlayıp araçları birleştirerek sonuna kadar yürüten ajan tipi bir model olarak; kod yazma ve hata ayıklamadan web araştırmasına, veri analizinden belge·e-tablo oluşturmaya ve yazılım kullanımına kadar geniş bir alanı kapsıyor
  • GPT-5.4 ile aynı per-token latency korunurken coding, computer use, bilgi işi ve erken aşama bilimsel araştırmada performans arttı; aynı Codex görevlerini daha az token ile tamamlayarak verimlilik de yükseldi
  • Yazılım mühendisliğinde Terminal-Bench 2.0 %82,7, Expert-SWE %73,1, SWE-Bench Pro %58,6 sonuçlarını kaydetti; uygulama geliştirme, refactoring, debugging, testing, verification ve büyük kod tabanı bağlamını korumada güçlü yönler gösterdi
  • Genel iş ve araştırma akışlarında da belge·e-tablo·slayt oluşturma, ekran etkileşimine dayalı computer use, çok aşamalı veri analizi, varsayım doğrulama ve sonuç yorumlamaya uzanan akış güçlendirildi; GPT-5.5 Pro ise daha yüksek doğruluk ve kapsamlılığı hedefliyor
  • Yayın öncesinde güçlendirilmiş güvenlik önlemleri ile iç ve dış testlerden geçti; ChatGPT ve Codex’te Plus, Pro, Business, Enterprise odaklı olarak kademeli dağıtıma çıktığı için iş odaklı yapay zeka kullanım alanını daha da genişleten bir adım olarak görülüyor

Model genel bakışı ve dağıtım kapsamı

  • GPT-5.5, niyeti daha hızlı anlayan, çok adımlı ve iç içe geçmiş işleri kendi başına planlayan, araç kullanarak işi sonuna kadar sürdüren bir model olarak tanıtılıyor
    • Kod yazma ve hata ayıklama, web araştırması, veri analizi, belge ve e-tablo hazırlama, yazılım kullanımı ve birden çok araç arasında geçiş gerektiren işleri yapabiliyor
    • Her adımı tek tek ayrıntılı yönetmek yerine, karmaşık ve dağınık işleri tek seferde verip planlama, araç kullanımı, doğrulama ve belirsizlik yönetimini birlikte yürütmesi için tasarlanmış
  • Özellikle ajan tipi görevlerdeki gelişme vurgulanıyor ve coding·computer use·knowledge work·erken aşama bilimsel araştırmada güçlü performans gösteriyor
    • Daha büyük modeller çoğu zaman yavaşlasa da, gerçek hizmet ölçütünde per-token latency GPT-5.4 ile aynı seviyede tutuldu
    • Aynı Codex görevlerini daha az token ile bitirerek verimlilik de artırıldı
  • Yayın öncesinde güvenlik önlemleri güçlendirildi; iç ve dış red team testleri, ileri düzey cybersecurity·biology yeteneklerine yönelik ek sınamalar ve yaklaşık 200 güvenilir iş ortağından alınan erken kullanım geri bildirimleri yansıtıldı
  • Şu anda ChatGPT ve Codex’te Plus, Pro, Business, Enterprise kullanıcılarına kademeli olarak dağıtılıyor; GPT-5.5 Pro ise ChatGPT’de Pro·Business·Enterprise paketlerine sunuluyor
    • API tarafı ayrı güvenlik gereksinimlerini karşılamak üzere hazırlanıyor ve GPT-5.5 ile GPT-5.5 Pro’nun yakında sunulması planlanıyor

Yazılım mühendisliği ve ajan tipi kodlama

  • OpenAI, agentic AI infrastructure kuruyor ve son 1 yılda yapay zeka yazılım mühendisliğini büyük ölçüde hızlandırdı
    • GPT-5.5’in Codex ve ChatGPT’ye gelmesiyle bu değişim bilimsel araştırma ve genel bilgisayar işlerine doğru genişlemeye başlıyor
  • Artificial Analysis Coding Index ölçümüne göre rakip frontier coding modellerine kıyasla yarı maliyetle en üst düzey zekayı sunuyor
  • GPT-5.5, OpenAI’ye göre en güçlü agentic coding modeli olarak tanıtılıyor
    • Terminal-Bench 2.0’da %82,7 aldı; burada planlama, yineleme ve araç birleştirmesi gerektiren karmaşık komut satırı iş akışları değerlendiriliyor
    • SWE-Bench Pro’da %58,6 elde etti; gerçek GitHub issue çözümünde önceki modellere göre daha fazla işi tek geçişte uçtan uca çözdü
    • İç değerlendirme olan Expert-SWE’de de GPT-5.4’ü geçti
  • Üç coding değerlendirmesinin tamamında GPT-5.4’ten daha az token kullanıp daha yüksek puan aldı
  • Codex içindeki güçlü yanları uygulama geliştirme, refactoring, debugging, testing ve verification genelinde ortaya çıkıyor
    • Büyük sistemlerin bağlamını koruma, belirsiz hata nedenlerini izleme, araçlarla varsayımları doğrulama ve değişiklikleri tüm kod tabanına yansıtma gibi gerçek mühendislik davranışlarında daha güçlü hale geldi

Kodlama kullanım örnekleri ve erken testler

  • Artemis II gerçek verilerini kullanan bir WebGL + Vite uygulaması geliştirme prompt’u örnek olarak veriliyor
    • NASA/JPL Horizons vektör verileri kullanılarak Orion, Moon ve Sun yörüngeleri render ediliyor
    • Okunabilirlik için gösterim ölçeği uygulanıyor
  • Erken test kullanıcıları GPT-5.5’in sistem mimarisini daha iyi kavradığını belirtiyor
    • Neyin neden başarısız olduğunu, düzeltmenin nereye uygulanması gerektiğini ve kod tabanının diğer bölümlerini nasıl etkileyeceğini daha isabetli saptıyor
  • Dan Shipper, yayından sonra bir arızayı geri sarıp aynı düzeyde bir yeniden tasarım üretip üretemeyeceğini test etti; GPT-5.4 başarısız olurken GPT-5.5 başarılı oldu
  • Pietro Schirano, yüzlerce frontend ve refactor değişikliği içeren bir branch’i çok değişmiş ana branch’e yaklaşık 20 dakikada tek seferde birleştirdi
  • Kıdemli mühendis testlerinde GPT-5.4 ve Claude Opus 4.7’ye kıyasla reasoning ve autonomy daha belirgin göründü
    • Açık bir prompt olmadan da sorunları önceden yakalıyor, test ve inceleme ihtiyacını bile öngörüyor
    • İşbirlikçi bir markdown editor için comment system yeniden tasarımı istendiğinde 12-diff stack neredeyse tamamlanmış halde çıktı
    • Uygulama düzeltmeleri beklenenden daha az gerekti ve plana duyulan güven de GPT-5.4’e göre arttı
  • Cursor’dan Michael Truell’in alıntısında, daha uzun süre çalışmayı sürdürebildiği ve erken durmadan karmaşık, uzun süre çalışan görevler için daha uygun olduğu görülüyor

Genel bilgi işi ve bilgisayar kullanımı

  • Coding tarafında görülen güçlü yönler günlük bilgisayar işlerine de doğrudan yansıyor
    • Niyeti daha iyi anladığı için bilgi arama, önemli bilgileri ayıklama, araç kullanma, sonuç doğrulama ve ham girdileri faydalı çıktılara dönüştürme sürecinin tamamını daha doğal şekilde yürütüyor
  • Codex’te GPT-5.5, GPT-5.4’e göre belge, e-tablo ve slayt oluşturmada daha güçlü
    • Alpha test kullanıcıları operasyon araştırması, e-tablo modelleme ve dağınık iş girdilerini plana dönüştürme işlerinde önceki modellerden daha iyi olduğunu söyledi
  • Codex’in computer use yeteneğiyle birleştiğinde ekranı görüp tıklayabiliyor, yazı yazabiliyor, arayüzde gezinebiliyor ve birden çok araç arasında hassas biçimde geçiş yapabiliyor
  • OpenAI içinde de halihazırda gerçek iş akışlarında kullanılıyor; şu anda çalışanların %85’inden fazlası her hafta Codex kullanıyor
    • Yazılım mühendisliği, finans, iletişim, pazarlama, veri bilimi ve ürün yönetimi genelinde kullanılıyor
  • İletişim ekibi, 6 aylık speaking request verisini analiz ederek puanlama·risk çerçevesi oluşturdu ve düşük riskli talepleri otomatik işleyip yüksek riskli talepleri insan incelemesine yönlendiren bir Slack agent’ı doğruladı
  • Finance ekibi 24.771 adet K-1 vergi formu, toplam 71.637 sayfayı inceledi; kişisel bilgileri hariç tutan iş akışı sayesinde önceki yıla göre 2 hafta erken tamamladı
  • Go-to-Market ekibinde haftalık iş raporu oluşturma otomatikleştirilerek haftada 5 ila 10 saat tasarruf sağlandı

ChatGPT'te GPT-5.5 Thinking ve GPT-5.5 Pro

  • ChatGPT'nin GPT-5.5 Thinking modeli, daha zor sorulara daha hızlı yanıt verecek şekilde tasarlandı; daha akıllı ve özlü yanıtlarla karmaşık işleri daha verimli yürütmeyi sağlıyor
    • coding, research, bilgi sentezi ve analizi, belge odaklı işlerde güçlü; özellikle plugin kullanırken avantaj sağlıyor
  • GPT-5.5 Pro, daha zor görevleri ve daha yüksek kaliteyi hedefliyor; gecikmenin azalmasıyla gerçek iş ortamlarında uygulanabilirliği artıyor
    • GPT-5.4 Pro'ya kıyasla yanıtlar daha kapsamlı, daha iyi yapılandırılmış, daha doğru, daha ilgili ve daha kullanışlı hale geliyor
    • business, legal, education ve data science alanlarında özellikle güçlü
  • Uzmanlık gerektiren işe yakın benchmark'larda da yüksek skorlar sunuyor
    • GDPval %84,9, OSWorld-Verified %78,7, Tau2-bench Telecom %98,0 olarak kaydedildi
    • Tau2-bench Telecom, prompt tuning olmadan tamamlandı
    • FinanceAgent %60,0, internal investment-banking modeling tasks %88,5, OfficeQA Pro %54,1 sonuçları da paylaşıldı
  • NVIDIA'dan Justin Boitano alıntısında, sistemin NVIDIA GB200 NVL72 üzerinde sunulduğu; doğal dil prompt'larıyla end-to-end işlevler teslim ettiği; debug süresini günlerden saatlere indirdiği ve haftalar sürecek deneyleri bir gecede yapılabilir hale getirdiği anlatılıyor

Bilimsel araştırma ve teknik araştırma iş akışı

  • GPT-5.5, bilimsel ve teknik araştırma iş akışlarında da performans artışı gösteriyor
    • Yalnızca zor sorulara yanıt vermenin ötesine geçerek fikir keşfi, kanıt toplama, varsayım doğrulama, sonuç yorumlama ve sonraki deneye karar verme döngüsünü daha iyi sürdürüyor
  • GeneBench'te GPT-5.4'e göre belirgin iyileşme gösteriyor
    • genetics ve quantitative biology için çok adımlı veri analizini hedefleyen yeni bir değerlendirme
    • Belirsiz veya hatalı veriler, gizli confounder'lar, QC başarısızlıkları ve modern istatistik yöntemlerinin uygulanması ile yorumlanmasını ele alıyor
    • Buradaki görevler, bilim uzmanları için bile birkaç günlük projelere karşılık geliyor
  • BixBench'te de kamuya açık skoru bulunan modeller arasında lider performans sergiliyor
    • Gerçek bioinformatics ve veri analizini yansıtan bir benchmark olarak tanıtılıyor
    • biomedical research ön cephesinde co-scientist düzeyinde hızlandırma potansiyeli gösteriyor
  • İç sürüm GPT-5.5 ve custom harness, Ramsey numbers için yeni bir kanıt bulmakta da kullanıldı
    • Yeni kanıt bağlantısı
    • combinatorics alanında, uzun süredir açık olan off-diagonal Ramsey numbers'ın asimptotik özelliklerine ilişkin bir kanıt bulundu ve daha sonra Lean ile doğrulandı
    • Kod veya açıklamanın ötesine geçerek temel araştırma alanlarında yararlı matematiksel akıl yürütmeye de katkı sağlıyor
  • İlk test kullanıcıları, GPT-5.5 Pro'yu tek seferlik yanıt motorundan çok bir araştırma ortağı gibi kullandı
    • Taslakları birden çok kez eleştirel biçimde gözden geçiriyor, teknik argümanları stress test ediyor, analiz öneriyor ve kod, notlar, PDF bağlamıyla birlikte çalışıyor
    • Sorudan deneye ve çıktıya uzanan akışta daha iyi destek sağlıyor

Araştırma örnekleri

  • Jackson Laboratory for Genomic Medicine'dan Derya Unutmaz, GPT-5.5 Pro ile 62 örnek ve yaklaşık 28.000 gen içeren bir gene-expression veri setini analiz etti
    • Ayrıntılı bir araştırma raporu üretti; yalnızca sonuç özeti değil, temel sorular ve içgörüler de ortaya koydu
    • Bu çalışma, ekibinin yapması durumunda aylar sürecek ölçekteydi
  • Adam Mickiewicz University'den Bartosz Naskręcki, Codex ile tek bir prompt'tan 11 dakikada bir algebraic-geometry uygulaması geliştirdi
    • İki quadratic surface'in kesişimini görselleştirdi ve ortaya çıkan eğriyi Weierstrass modeline dönüştürdü
    • Sonrasında singularity visualization'ı daha kararlı hale getirdi ve takip eden işler için yeniden kullanılabilir exact coefficients ekledi
    • Özel araç gerektiren özelleştirilmiş matematik görselleştirmeleri ve computer-algebra iş akışlarının kurulmasında da Codex yardımcı oldu
  • Credit: Bartosz Naskręcki
  • Axiom Bio'dan Brandon White alıntısında, çok büyük bir biochemical dataset üzerinde çıkarım yaparak human drug outcomes tahmin edildiği ve en zor drug discovery değerlendirmelerinde anlamlı doğruluk artışı görüldüğü belirtiliyor

Çıkarım altyapısı ve performans optimizasyonu

  • GPT-5.4 ile benzer gecikme süresinde GPT-5.5'i sunabilmek için, çıkarım altyapısının tek tek optimizasyon paketleri olarak değil birleşik bir sistem olarak yeniden tasarlanması gerekti
    • GPT-5.5, NVIDIA GB200 ve GB300 NVL72 sistemleri temel alınarak ortak tasarım, eğitim ve servis süreçleriyle geliştirildi
  • Codex ve GPT-5.5'in kendisi, performans hedeflerine ulaşmaya doğrudan katkı sağladı
    • Codex, fikirleri hızla benchmark yapılabilir uygulamalara dönüştürmek, yaklaşımları taslaklandırmak, deneyleri birbirine bağlamak ve daha derin yatırım gerektiren optimizasyonları bulmak için kullanıldı
    • GPT-5.5 ise yığının içindeki temel iyileştirme noktalarını bulup uygulamaya yardımcı oldu
    • Sonuç olarak model, kendisini servis eden altyapının geliştirilmesine de katkıda bulundu
  • Temsili iyileştirme örneği olarak load balancing ve partitioning heuristics öne çıkarılıyor
    • Daha önce accelerator üzerindeki istekler sabit sayıda chunk'a bölünüyordu; böylece büyük ve küçük istekler aynı GPU üzerinde çalışıyordu
    • Ancak statik chunk sayısı, tüm trafik biçimleri için en iyi çözüm değildi
    • Codex, haftalar boyunca production traffic kalıplarını analiz etti ve işleri en iyi şekilde bölüp dengeleyecek özel bir heuristic algoritması yazdı
    • Bu çalışmayla token generation speed %20'den fazla arttı

Siber güvenlik ve güvenlik önlemleri

  • Güvenlik açığı tespiti ve yama konusunda yetkin bir modeli dünyaya hazırlamak, takım sporuna daha yakındır ve bir sonraki siber savunma çağı için tüm ekosistemin dayanıklılığı gerekir
  • frontier modellerin cybersecurity yetenekleri giderek güçleniyor ve bu yetenek yaygınlaşacağı için bunun siber savunmayı hızlandırmak ve ekosistemi güçlendirmek için kullanılacağı yol önem kazanıyor
  • GPT-5.5, cybersecurity gibi zor sorunları çözen yapay zekaya giden kademeli ama önemli bir adım olarak konumlandırılıyor
    • GPT-5.2 döneminde potansiyel cyber kötüye kullanımını sınırlayan cyber safeguards proaktif olarak devreye alındı
    • GPT-5.5'e potansiyel cyber risklerine karşı daha sıkı classifier'lar yerleştirildi ve bu durum ilk aşamada bazı kullanıcılara can sıkıcı gelebilir
  • OpenAI, yıllardır Preparedness Framework içinde cybersecurity'yi ayrı bir kategori olarak ele alıyor ve yetenek artışına paralel olarak azaltım önlemlerini de tekrar tekrar ayarlıyor
  • Sektör lideri düzeyde safeguards, bu seviyedeki cyber capability'ye uygun olacak şekilde devreye alındı
    • GPT-5.2 ile ilk kez cyber-specific safeguard sunuldu ve sonrasındaki her dağıtımda test edilip iyileştirilip genişletildi
    • GPT-5.5'te yüksek riskli faaliyetler, hassas cyber talepleri ve tekrarlayan kötüye kullanım için korumalar daha da güçlendirildi
    • Geniş erişim; model güvenliği, doğrulanmış kullanım ve izin verilmeyen kullanımın izlenmesine yapılan yatırımlar sayesinde mümkün oldu
    • Dış uzmanlarla birlikte aylar boyunca robustness geliştirildi, test edildi ve iyileştirildi
    • Geliştiricilerin kodlarını kolayca koruyabilmesi sağlanırken, kötü niyetli aktörlerin zarar vermesini kolaylaştıran cyber iş akışlarında daha güçlü kontroller uygulanıyor
  • Savunma amaçlı erişimin genişletilmesi de birlikte yürütülüyor
    • Trusted Access for Cyber aracılığıyla cyber-permissive model erişimi sunuluyor ve başlangıç noktası Codex
    • Belirli trust signals koşullarını karşılayan doğrulanmış kullanıcılara, GPT-5.5'in gelişmiş cybersecurity özellikleri daha az kısıtlamayla sunuluyor
    • critical infrastructure savunması yürüten kuruluşlar, GPT-5.4-Cyber gibi cyber-permissive modellere erişim için başvurabiliyor
    • Amaç, doğrulanmış savunma sorumlularına meşru güvenlik işleri için araçları daha az sürtünmeyle sunmak
    • Başvuru bağlantısı: chatgpt.com/cyber
  • Kamu ortaklarıyla iş birliği de buna dahil
    • Vergi verilerini koruyan dijital sistemler, elektrik şebekeleri ve toplulukların temiz su sistemleri gibi kritik altyapıları savunan kamu görevlilerinin gelişmiş yapay zekadan nasıl destek alabileceği birlikte araştırılıyor
  • GPT-5.5'in biological/chemical ve cybersecurity yetenekleri, Preparedness Framework kapsamında High olarak sınıflandırılıyor
    • Critical düzeyde cybersecurity capability'ye ulaşmadı, ancak değerlendirme ve testlerde GPT-5.4'e kıyasla bir kademe daha yüksek cyber yeteneği doğrulandı
  • Lansman öncesinde tam safety and governance process sürecinden geçti
    • preparedness değerlendirmesi, alan bazlı testler, gelişmiş biology ve cybersecurity için yeni hedefli değerlendirmeler ve dış uzmanlarla yapılan sağlam testler buna dahil
    • Ayrıntılar GPT-5.5 system card içinde sunuluyor
  • Bu yaklaşım, daha güçlü modeller çağında gerekli olan AI resilience stratejisinin bir parçası
    • Güçlü yapay zeka, sistemleri, kurumları ve kamuyu savunan kişilere de sunulmalı; güvene dayalı erişim, yetenekle orantılı biçimde güçlenen safeguards ve ciddi kötüye kullanımı tespit edip yanıt veren operasyonel kapasite temel yol olarak öne çıkarılıyor

Kullanılabilen planlar ve fiyatlandırma

  • Şu anda ChatGPT ve Codex'te GPT-5.5, Plus, Pro, Business ve Enterprise kullanıcılarına sunuluyor; GPT-5.5 Pro ise ChatGPT'de Pro, Business ve Enterprise'a veriliyor
  • ChatGPT'de GPT-5.5 Thinking, Plus, Pro, Business ve Enterprise için sunuluyor
    • GPT-5.5 Pro, daha zor sorular ve daha yüksek doğruluk hedefliyor; Pro, Business ve Enterprise'da kullanılabiliyor
  • Codex'te GPT-5.5; Plus, Pro, Business, Enterprise, Edu, Go planlarında sunuluyor ve 400K context window taşıyor
    • Fast mode da mevcut; token üretim hızı 1,5 kat daha hızlı, maliyeti ise 2,5 kat
  • API geliştiricileri için gpt-5.5, yakında Responses API ve Chat Completions API'de sunulacak
    • Girdi için 1M token başına 5 dolar, çıktı için 1M token başına 30 dolar ve 1M context window olarak belirtiliyor
    • Batch ve Flex fiyatları standart API ücretinin yarısı, Priority processing ise 2,5 kat ücretle sunuluyor
  • gpt-5.5-pro da API'de yayınlanacak ve daha yüksek doğruluğu hedefliyor
    • Girdi için 1M token başına 30 dolar, çıktı için 1M token başına 180 dolar olarak belirtiliyor
    • Tüm fiyat bilgileri pricing page bağlantısında yer alıyor
  • GPT-5.5, GPT-5.4'ten daha pahalı, ancak zeka ve token verimliliği de daha yüksek
    • Codex'te deneyim, çoğu kullanıcı için GPT-5.4'e kıyasla daha az token ile daha iyi sonuç verecek şekilde ayarlandı
    • Abonelik kademelerinin genelinde cömert kullanım miktarı sunulmaya devam ediliyor

Ayrıntılı benchmark'lar

  • Coding

    • SWE-Bench Pro (Public)'da GPT-5.5 %58,6, GPT-5.4 %57,7, Claude Opus 4.7 %64,3, Gemini 3.1 Pro ise %54,2
    • Terminal-Bench 2.0'da GPT-5.5 %82,7, GPT-5.4 %75,1, Claude Opus 4.7 %69,4, Gemini 3.1 Pro %68,5
    • Expert-SWE (Internal) için GPT-5.5 %73,1, GPT-5.4 ise %68,5 olarak verildi
  • Uzmanlık gerektiren işler

    • GDPval (wins or ties)'de GPT-5.5 %84,9, GPT-5.4 %83,0, GPT-5.5 Pro %82,3, GPT-5.4 Pro %82,0, Claude Opus 4.7 %80,3, Gemini 3.1 Pro %67,3
    • FinanceAgent v1.1'de GPT-5.5 %60,0, GPT-5.4 %56,0, GPT-5.4 Pro %61,5, Claude Opus 4.7 %64,4, Gemini 3.1 Pro %59,7
    • Investment Banking Modeling Tasks (Internal)'ta GPT-5.5 %88,5, GPT-5.4 %87,3, GPT-5.5 Pro %88,6, GPT-5.4 Pro %83,6
    • OfficeQA Pro'da GPT-5.5 %54,1, GPT-5.4 %53,2, Claude Opus 4.7 %43,6, Gemini 3.1 Pro %18,1
  • Bilgisayar kullanımı ve görme

    • OSWorld-Verified'da GPT-5.5 %78,7, GPT-5.4 %75,0, Claude Opus 4.7 %78,0
    • MMMU Pro (no tools)'da GPT-5.5 ve GPT-5.4 %81,2 ile aynı, Gemini 3.1 Pro ise %80,5
    • MMMU Pro (with tools)'da GPT-5.5 %83,2, GPT-5.4 %82,1
  • Araç kullanımı

    • BrowseComp'ta GPT-5.5 %84,4, GPT-5.4 %82,7, GPT-5.5 Pro %90,1, GPT-5.4 Pro %89,3, Claude Opus 4.7 %79,3, Gemini 3.1 Pro %85,9
    • MCP Atlas'ta GPT-5.5 %75,3, GPT-5.4 %70,6, Claude Opus 4.7 %79,1, Gemini 3.1 Pro %78,2
    • Toolathlon'da GPT-5.5 %55,6, GPT-5.4 %54,6, Gemini 3.1 Pro %48,8
    • Tau2-bench Telecom'da, özgün prompt temel alındığında, GPT-5.5 %98,0, GPT-5.4 ise %92,8
    • MCP Atlas notunda, Scale AI'nin Nisan 2026'daki en güncel güncellemesinden sonraki sonuçlar olduğu yazıyor
    • Tau2-bench Telecom notunda sonuçların prompt adjustment olmadan değerlendirildiği ve diğer araştırma laboratuvarlarının prompt adjustment sonuçlarının hariç tutulduğu açıkça belirtiliyor
  • Akademik

    • GeneBench'te GPT-5.5 %25,0, GPT-5.4 %19,0, GPT-5.5 Pro %33,2, GPT-5.4 Pro %25,6
    • FrontierMath Tier 1–3'te GPT-5.5 %51,7, GPT-5.4 %47,6, GPT-5.5 Pro %52,4, GPT-5.4 Pro %50,0, Claude Opus 4.7 %43,8, Gemini 3.1 Pro %36,9
    • FrontierMath Tier 4'te GPT-5.5 %35,4, GPT-5.4 %27,1, GPT-5.5 Pro %39,6, GPT-5.4 Pro %38,0, Claude Opus 4.7 %22,9, Gemini 3.1 Pro %16,7
    • BixBench'te GPT-5.5 %80,5, GPT-5.4 %74,0
    • GPQA Diamond'da GPT-5.5 %93,6, GPT-5.4 %92,8, GPT-5.4 Pro %94,4, Claude Opus 4.7 %94,2, Gemini 3.1 Pro %94,3
    • Humanity's Last Exam (no tools)'da GPT-5.5 %41,4, GPT-5.4 %39,8, GPT-5.5 Pro %43,1, GPT-5.4 Pro %42,7, Claude Opus 4.7 %46,9, Gemini 3.1 Pro %44,4
    • Humanity's Last Exam (with tools)'da GPT-5.5 %52,2, GPT-5.4 %52,1, GPT-5.5 Pro %57,2, GPT-5.4 Pro %58,7, Claude Opus 4.7 %54,7, Gemini 3.1 Pro %51,4
  • Siber güvenlik

    • Capture-the-Flags challenge tasks (Internal)'ta GPT-5.5 %88,1, GPT-5.4 %83,7
    • CyberGym'de GPT-5.5 %81,8, GPT-5.4 %79,0, Claude Opus 4.7 %73,1
    • Notta, system card'da yer alan en zor CTF'nin genişletildiği ve buna ek yüksek zorlukta challenge'ların eklendiği bir sonuç olduğu yazıyor
  • Uzun bağlam

    • Graphwalks BFS 256k f1'de GPT-5.5 %73,7, GPT-5.4 %62,5, Claude Opus 4.7 %76,9
    • Graphwalks BFS 1mil f1'de GPT-5.5 %45,4, GPT-5.4 %9,4, Claude Opus 4.6 ise %41,2
    • Graphwalks parents 256k f1'de GPT-5.5 %90,1, GPT-5.4 %82,8, Claude Opus 4.7 %93,6
    • Graphwalks parents 1mil f1'de GPT-5.5 %58,5, GPT-5.4 %44,4, Claude Opus 4.6 ise %72,0
    • OpenAI MRCR v2 8-needle, bağlam uzunluğuna göre sunuluyor; 4K-8K %98,1, 8K-16K %93,0, 16K-32K %96,5, 32K-64K %90,0, 64K-128K %83,1, 128K-256K %87,5, 256K-512K %81,5, 512K-1M %74,0
    • Aynı maddede GPT-5.4 için değerler sırasıyla %97,3, %91,4, %97,2, %90,5, %86,0, %79,3, %57,5, %36,6
    • 128K-256K aralığında Claude Opus 4.7 için %59,2, 512K-1M aralığında ise Claude Opus 4.7 için %32,2 değeri yer alıyor
  • Soyut akıl yürütme

    • ARC-AGI-1 (Verified)'de GPT-5.5 %95,0, GPT-5.4 %93,7, GPT-5.4 Pro %94,5, Claude Opus 4.7 %93,5, Gemini 3.1 Pro %98,0
    • ARC-AGI-2 (Verified)'de GPT-5.5 %85,0, GPT-5.4 %73,3, GPT-5.4 Pro %83,3, Claude Opus 4.7 %75,8, Gemini 3.1 Pro %77,1
    • GPT ailesi değerlendirmelerinin, reasoning effort değeri xhigh olarak ayarlanmış bir araştırma ortamında yapıldığı ve bazı durumlarda üretim ortamındaki ChatGPT çıktılarından küçük farklılıklar gösterebileceği belirtiliyor

1 yorum

 
GN⁺ 6 일 전
Hacker News görüşleri
  • NVIDIA'da GPT-5.5 erişimini kaybetmenin sanki bir uzvunu kaybetmek gibi hissettirdiği sözü, niyetten çok daha ürkütücü geliyor
    Bu, genel olarak frontier kodlama modellerine bağımlılık için de geçerli gibi; performans arttıkça kod yazarken onlara hızla yaslanılıyor
    Bunu bizzat yaşayınca rahatsız edici bir duygu yaratıyor. Artık sabır gösterip kodu elle yazmaktansa modeli kullanarak işi tek seferde halletmek yaklaşık 10 kat daha hızlı ve benim rolüm de değişti
    Çok şeyi çalışır hale getirebilmek harika ama token bittiğinde iş fiilen duruyor
    Claude çöktüğünde zorla kod yazmaya çalışmaktansa yürüyüşe çıkıp gelmek daha yüksek kaldıraç sağlıyor. Bir saat sonra Claude geri gelirse, LLM'in ürettiği koda takılıp elle sorun çözmeye çalışarak tükenmekten daha fazla ilerleme kaydediliyor
    Her hâlükârda bu durumun sürmesi biraz tedirgin edici

    • Emek teorisinin kendisi LLM'ler yüzünden altüst oluyormuş gibi geliyor
      Mevcut piyasa, emeğin atomize olduğu ve pazarlık gücünün zayıf olduğu varsayımı üzerine kurulu; sermaye ise çok daha büyük pazarlık gücüyle emek fiyatını fiilen belirliyordu
      Ama o emek daha büyük başka bir şirket tarafından sağlanıyorsa ve bu emek geleneksel emekten farklı olarak arzı süresiz biçimde kesilebiliyorsa ne olur
      Artık emek başka bir sermaye biçimine dönüştü ve sermayenin karnını doyurmak gerekmiyor
      Kendi modelini kullanmayan şirketler bunun sonucunu yaşayarak öğrenecek gibi görünüyor
    • Buna kütüphane soyutlamaları kullanmak kadar farklı olmayan bir şey gözüyle de bakılabilir
      Daha hızlı geliştirirsin, doğrudan yazdığın kod azalır, iç durum yönetimi ya da bellek yönetimi gibi işleri kütüphane üstlenir
      Pointer'larla ve malloc() ile doğrudan uğraşmak yerine kütüphane çağrılarına dayanmayı rahatsız edici bulanlar olabilir ama bazıları için bu, düşük seviyeli bağlam değişimlerine saplanmadan daha üst düzey mimariye odaklanmayı sağlayan bir özgürleşme hissi veriyor
    • Kendi mezarımı fazla erken kazmamak için bilerek kullandığım bir yöntem var
      Hazır cevap istemek yerine sık sık bağımsız çalışan CLI'lar veya araçlar yapmasını istiyorum
      O sonuca nasıl ulaştığını da sorarak kendi bakış açımı genişletmeye çalışıyorum; hatta kendi metadata düzeyindeki sınıflandırma biçimini açıklamasını da istiyorum
      Özellikle zorluğun kavramın kendisinden çok referans grafiğinin büyüklüğünden kaynaklandığı büyük kod tabanlarında, bunu problem çözme becerimi geliştirecek yönde kullanmaya çalışıyorum
    • Yerel modeller en yeni barındırılan modellerin makul bir mesafe gerisinde kalırsa, örneğin 12 ay kadar geriden gelirse ve yerel donanıma erişim de sürerse risk sınırlı olabilir
      Çünkü barındırılan modeller yok olsa veya aşırı pahalılaşsa bile sadece o küçük performans farkı kaybedilmiş olur
      Elbette bu iki varsayımın hiçbiri kendiliğinden açık değil, o yüzden biraz da sadece öyle olmasını umuyorum
    • NVIDIA ve OpenAI'ın hisse çıkarlarını düşününce böyle sözlerin çıkması pek şaşırtıcı değil
      Ayrıca hâlâ 10 kat verimlilik sloganının tekrarlanması açıkçası pek inandırıcı gelmiyor
  • GPT-5.5'in çıkışı bugün ama ChatGPT ve Codex'e yansıması birkaç saate yayılan kademeli bir süreç olacakmış
    Hizmet kararlılığı için önceki lansmanlarda olduğu gibi aşamalı açılıyor ve genelde önce Pro/Enterprise, ardından Plus geliyor
    Hemen görünmeyebilir, o yüzden daha sonra tekrar kontrol edin deniyor
    Rastgele beklemek sinir bozucu olabilir ama kararlılık için bunu yaptıklarını söylüyorlar
    OpenAI'da çalıştığını belirtiyor

    • GPT-5.4 API xhigh ile OpenClaw çalıştırmayı denedim ama modele iş yaptıramadım
      Anthropic OAuthgate'ten sonra alternatif olarak kullanmaya çalıştım fakat hızlı, güvenli ve zararsız alt görevleri bile tamamlayamadı
      Konuşma sürekli “burada X'i yapmalıydım” “doğru, başarısız oldum” “o zaman şimdi yap” “yapmalıydım ama yapmadım” şeklinde sonsuz özür döngüsüne giriyordu
      Sonradan GLM, Kimi, Minimax bunları sorunsuz yapınca daha da saçma geldi ve bu yüzden OpenAI'ı hemen bırakmak zorunda kaldım
    • Herkese açık bir rollout dashboard olsa kafa karışıklığı çok azalırdı
      Hatta UI'da modelin var olduğunu ama henüz benim hesabıma açılmadığını göstermek iyi olurdu
      ETA da olsa harika olurdu ama rollout sırasında sorun çıkabileceği için tahmin etmek zor olabilir
    • Çıkış için tebrikler
      Images 2.0 da ChatGPT içinde birlikte mi açılıyor, yoksa bir süre daha API/Playground'a özel bir özellik olarak mı kalacak merak ediyorum
    • Plus kullanıcısı olarak Codex kullanım kotasını ne kadar tüketeceğini bilmediğim için denemeye çekiniyorum
    • GPT-5.5 fine-tuning de yakında geliyor mu merak ediyorum
  • Henüz resmî API erişimi yok ama son zamanlarda OpenAI'ın OpenClaw'ın kullandığı Codex API arka kapısını fiilen görmezden geldiği bir hava var
    https://twitter.com/steipete/status/2046775849769148838 ve https://twitter.com/romainhuet/status/2038699202834841962
    Bu arka kapı API'de GPT-5.5 de var
    Bu yüzden pelikan örneğini çalıştırdım: https://simonwillison.net/2026/Apr/23/gpt-5-5/#and-some-peli...
    Bunun için LLM'e yönelik yeni eklenti https://github.com/simonw/llm-openai-via-codex kullanıldı
    Daha sonra reasoning effort'u xhigh seviyesine çıkarınca çok daha iyi bir pelikan çıktı
    https://gist.github.com/simonw/a6168e4165a258e4d664aeae8e602...

    • Dün paylaşılan yerel model pelikanı bundan daha iyi görünüyordu
      Yine de bunda bacaklarını çaprazlaması komik olmuş
    • Bu dürüst olmak gerekirse çok kötü
      5.5 sürümüne gelinmişken hâlâ temel bir bisiklet kadrosunu düzgün çizemiyorsa bu iş nasıl olacak
      Ön tekerleğin yana dönebileceği bir yapı yok ama çizim bunu tutturamıyor
    • Varsayılan ayarlarda sadece 39 reasoning token kullanıp bu sonucu vermesi yine de oldukça şaşırtıcı
      Reasoning token'ın tam olarak ne olduğunu bilmiyorum ama her hâlükârda token sayısı şok edici derecede düşük görünüyor
    • Bu tür doğrudan API kullanımı koşullar açısından izinli mi merak ediyorum
      Anthropic'in bu tür kullanımlardan hiç hoşlanmadığını hatırlıyorum
    • Neden yakın zamanda paylaşılan diğer şeylere göre çok daha kötü çizdiğini merak ediyorum
      Dün paylaşılan Qwen gibi açık ağırlıklı yerel modeller bile daha iyi görünüyordu
  • Herkes Anthropic'in Mythos gating'i ve CyberGym %83 pazarlamasından bahsediyordu ama OpenAI GPT-5.5'i doğrudan yayımladı ve puanı da %82
    Herkesin deneyebilmesi çok daha önemli
    Saldırı/savunma siber güvenlik tarafında çalışan biriyseniz, abartılı tanıtım yerine böyle gerçekten yayımlanmış bir modeli doğrudan kullanmak daha anlamlı
    Bunu söyleyeceğimi düşünmezdim ama artık OpenAI yeniden daha açık bir seçenek gibi görünüyor

    • Asıl hype, Anthropic Mythos'u duyurur duyurmaz OpenAI'ın birkaç hafta içinde rakip bir model çıkaracağını ve Sam'in erişimi de kapatmayacağını herkesin fark etmesiydi
      Bu yüzden güvenlik sektörü korkuya kapıldı; çünkü yeni zero-day'leri engellemek için gerçekte sadece iki hafta kadar süre kalmış olabilirdi ve sonrasında blackhat'lerin topluca bulup istismar ettiği bir açık sezon başlayabilirdi
    • Anthropic ile kıyaslandığında OpenAI zaten baştan beri daha açıktı
      Anthropic hiçbir zaman açık bir model yayımlamadı, Claude Code kaynak kodunu da gönüllü olarak açmadı, tokenizer'ı da yayımlamadı
    • OpenAI siber güvenlik soruları sorulunca öfkeleniyor, devlet kimliği yüklemenizi istiyor ve bunu yapmazsanız sessizce daha düşük performanslı bir modele yönlendiriyor olabilir mi diye düşünüyorum
      Belgelerde de siber güvenlikle ilgili görevlerin otomatik tespitte yakalanması hâlinde GPT-5.2'ye fallback edilebileceği yazıyor
      https://developers.openai.com/codex/concepts/cyber-safety
      https://chatgpt.com/cyber
    • Ben bütün hype haberlerini yok sayıyorum
      Anthropic bana neredeyse palavranın vücut bulmuş hâli gibi geliyor
      Eskiden Cialdini'yi okuduktan sonra Anthropic tarzı sunumlar bana sıkıcı gelmeye başladı
      Buna karşılık OpenAI çok zeki davranıyor. Claude öne çıkınca bir süre manşetlerden çekildi ama şimdi dev kullanıcı tabanı sayesinde sadece Anthropic'in yayın temposunu takip etmesi bile karşı tarafı gülünç gösterebiliyor
      Anthropic açısından her yeni GPT sürümü çıktıkça tablo daha da vahimleşecek gibi ve bu iş OpenAI'ın tamamen hakimiyet kurduğu bir resme benziyor
    • OpenAI da siber soruları daha aptal bir modele yönlendiriyor olabilir diye düşünüyorum
  • Bu sayfadaki fiyatlandırma/kullanım limiti bölümüne bakılmalı
    https://developers.openai.com/codex/pricing?codex-usage-limi...
    5.3, 5.4 ve 5.5 arasındaki Local Messages farkına bakın
    5.5'in daha verimli olduğu için 5.4 ile başa baş olduğunu savunduklarını okudum ama yine de genel yön daha sıkı limitler ve daha yüksek fiyatlar gibi görünüyor

    • API tarafında GPT-5.5 fiyatı, GPT-5.4'ün 2 katı, GPT-5.1'in yaklaşık 4 katı ve Kimi-2.6'nın yaklaşık 10 katı
      Görünüşe göre Anthropic örneğinden çıkarılan ders şu oldu: geliştiriciler kodlama ajanlarına çok hızlı bağımlı hâle geliyor, hatta adeta alışkanlık geliştiriyor; bu yüzden küçük iyileştirmeler için bile memnuniyetle para ödüyorlar
  • Codex ve GPT ile yapılan 3D dungeon arena prototipi oldukça iyi görünüyor
    Codex oyun mimarisini, TypeScript/Three.js uygulamasını, savaş sistemini, düşman karşılaşmalarını ve HUD geri bildirimini üstlenmiş; ortam dokuları GPT tarafından üretilmiş, karakter modelleri ve animasyonlar ise üçüncü taraf asset üretim araçlarıyla yapılmış
    Görsel olarak iyi görünmesinin nedeni muhtemelen mesh'leri GPT-5.5'in doğrudan üretmemiş, ayrı bir aracın üretmiş olması
    Buna bakınca eski Flash dönemi gibi, oyuncuların ve hobi geliştiricilerinin oyun fikirlerini hızla üretip doğrudan web'de yayımlayabildiği bir dönemin geldiği hissi oluşuyor
    Özellikle Three.js bir oyun motoru bile değilken, AI ile oyun tasarlamada fiilen temel araçlardan biri hâline geliyor gibi görünüyor

    • Son 3 yıldır Three.js ve yapay zeka ile sürekli denemeler yapıyorum ve özellikle 5.4'te büyük bir sıçrama hissettim
      Sadece Three.js tarafına bakınca bu tek nesilde gördüğüm en büyük sıçramaydı; özellikle GLSL shader tarafında belirgindi ve birden fazla sayfa/bileşene ayrılmış sahneleri yapılandırma konusunda da iyileşme vardı
      Baştan sona tam bir shader yazmak hâlâ zor ama mevcut shader'ları düzenleme becerisi artık oldukça işe yarar durumda
      5.2 ve altında bir arka plan canvas'ını birden fazla route boyunca koruyan one canvas, multiple page desenini gerçekten beceremiyordu; 5.4 ise hâlâ biraz yönlendirme istese de refactoring ve optimization prompt'larına çok daha iyi yanıt veriyor
      5.5'in gerçekte nasıl olduğunu denemek için heyecanlıyım
    • Flash benzeri çağ aslında bir süredir zaten buradaydı; darboğaz her zaman yaratıcılıktı
    • Three.js tabanlı oyunlarda ve projelerde LLM yardımını çok kullandım ve iyi sonuçlar aldım
      Yaptığım tuhaf saat görselleştirmesi de büyük ölçüde buna dayanıyordu
      Bir oyun motoru değil ama web'de WebGL 3D için fiilen standart ve uzun süredir var olduğu için eğitim verisi de çok fazla
      LLM'lerden önce daha üst düzey işlevler sunduğu için Babylon.js'e daha çok güvenirdim
    • Bir tanıdığım Jamboree yapıyor
      Eski adı Spielwerk'tü; iOS'ta oyun yapıp paylaşmaya yarayan bir uygulama
      Tamamen web tabanlı olduğu için paylaşımı kolay
      https://apps.apple.com/uz/app/jamboree-game-maker/id67473110...
    • LLM'ler hâlâ mekânsal akıl yürütme yapamıyor
      GPT ile denemedim ama Claude'da ne kadar prompt engineering yaparsam yapayım Rubik küpünü çözdüremedim; Opus 4.6 da bulmacanın ancak yaklaşık %70'ini çözüp tıkandı
      Tek deneme başına 20 dolar gibi bir maliyet olduğu için bunu sürdürmek de zor
      Eğer gerçekten üç boyutlu akıl yürütme yaptırılabilseydi, bugün çözülemeyen matematik problemlerine de aynı yaklaşım genişletilebilirdi
      Belki Rubik's Cube MCP sunucumu yayımlayıp yalnızca prompt ile küpü çözen çıkacak mı diye insanlara meydan okuyabilirim
  • Bu duyuruda benchmark'lardan daha ilginç olan kısım, Codex'in birkaç haftalık gerçek trafik kalıplarını analiz ederek GPU kullanımını yükseltmesi ve iş bölme ile dengeleme için özel sezgisel algoritmalar yazıp token üretim hızını %20'den fazla artırmasıydı
    Ajan tipi LLM'lerin bu şekilde hesaplama verimliliği optimizasyonu yapabildiği alanlar etkisi çok büyük olmasına rağmen benchmark'lara göre daha az test ediliyor gibi duruyor
    Benim deneyimime göre bu alanda Opus hâlâ GPT/Codex'ten daha iyi ama OpenAI maliyet ve kapasite baskısı altında bu tür verim artışlarından gerçek fayda gördüğü için bu yönde ilerlemeyi sürdürecek gibi görünüyor

    • Rust ile yüksek performanslı veri işleme yaparken 100 katı aşan bir iyileştirme gerektiren bir performans duvarına çarptım
      Eskiden meşhur olan Intel FizzBuzz code golf optimizasyonu aklıma geldi; bunun üzerine gemini pro'ya kodumu verip “bu türden akıllı optimizasyonlar öner” dedim ve öneriler gerçekten harikaydı
      LLM'ler beni her gün şaşırtmaya devam ediyor
    • Zaten KernelBench, CUDA kernel optimizasyonunu test ediyor
      Ayrıca her şirket de kendi altyapı ve model optimizasyonunun rekabette kazanmanın temel yolu olduğunu bildiği için bu konuya çok ciddi yaklaşıyorlardır diye düşünüyorum
    • Bu tür iddiaların sorunu fazla ampirik olmaları ve yeniden üretimlerinin zor olması
      MMLU gibi geleneksel benchmark'ların ötesine geçilmesi sevindirici ama uygun kontrollü deneyler olmadan bu tarz sayılar paylaşmak çok faydalı olmuyor
  • Mythos ile GPT-5.5 rakamlara bakınca SWE-bench Pro'da fark hâlâ büyük ama diğer alanlarda oldukça benzer görünüyor
    SWE-bench Pro %77,8'e %58,6
    Terminal-bench-2.0 %82,0'a %82,7
    GPQA Diamond %94,6'ya %93,6
    H. Last Exam %56,8'e %41,4
    H. Last Exam (tools) %64,7'ye %52,2
    BrowseComp %86,9'a %84,4, Pro bazında %90,1
    OSWorld-Verified %79,6'ya %78,7
    Mythos rakamlarının kaynağı https://www.anthropic.com/glasswing

    • Mythos, gerçekten kullanılabildiği zaman anlamlı
      Şu anda Opus 4.7'yi kullanınca özerkliğinin hissedilir biçimde ciddi şekilde kırpıldığını ve sözde güvenlik nedeniyle yoğun kısıtlandığını görüyorsunuz
      Bu yüzden Anthropic'in reklamını yaptığı kadar etkileyici olup olmadığı konusunda pek emin değilim
    • Anthropic'in sürüm sayfasına göre Claude ekibi SWE-bench ezberini doğrulamış ve test gerçekten eğitim verilerinin içinde yer almış
      Burada yazıyor
      https://www.anthropic.com/news/claude-opus-4-7#:~:text=memor...
    • Ben SWE-bench Verified'a biraz baktım ve Mythos'un rakamları birçok soru işareti bırakıyor
      Resmî gönderimleri https://github.com/SWE-bench/experiments/tree/main/evaluatio... içinden Sonnet 4 sonrası modellerle sınırlayıp 500 sorunun tamamı için topladığımda, tüm modellerin birleşik çözüm oranı tam olarak %93 çıktı
      Buna karşılık Mythos %93,7 aldıysa, başka hiçbir modelin çözemediği soruları da çözüyor demektir; bu sorulara doğrudan bakınca iş daha da şüpheli geldi
      Kalan %7'lik sorular, test patch'i önceden görülmeden çözülmesi neredeyse imkânsız görünen türdendi ve gerçek çözüm yolu da problem açıklamasından o kadar farklı ilerliyordu ki sanki bambaşka bir soru çözülüyormuş hissi veriyordu
      Mythos'un hile yaptığını kesin olarak söylemiyorum ama depoların çeşitli durumlarını o kadar iyi ezberlemiş olabilir ki, içsel belleğindeki diff'lerden gerçek problem ifadesini tersine çıkarıyor olabilir
      Aksi takdirde bu kadar muğlak problem açıklamalarını bu kadar isabetli yorumlamasını açıklamak zor
    • Tek bir benchmark tek başına hiçbir şey ifade etmez
      Her benchmark'ta her zaman tuhaf sonuçlar çıkar
  • Hâlâ halüsinasyon oranının %86 olması üzücü
    Karşılaştırma için Opus yaklaşık %36 seviyesinde
    Kaynak: https://artificialanalysis.ai/models?omniscience=omniscience...

    • Grok'un %17 ile en düşük olması ve çoğu modelin %80'in üstünde görünmesi tuhaf
      Sorulara göre halüsinasyon aslında %100'e daha yakın bile olabilir; bu benchmark sezgisel olarak pek ikna edici gelmiyor
    • Burada bir tuhaflık var; Haiku'nun o kadar iyi çıkması pek olası görünmüyor
    • Bu bana şirketlerin tam da böyle davranışı istediğine dair bir işaret gibi geliyor
      Soru soran kişi muhtemelen problemi tam olarak anlamıyor; bu yüzden sonuç ne olursa olsun kendinden emin verilen cevapları tercih ediyor gibi görünüyor
      Amaç sanki teknolojinin gerçek kabiliyetini değil, yetkin görünme izlenimini satmak
      LLM'ler ürünü mahvedebilir ama mesele milyarderlerin düşünme makinesinin çalışanların yerini alabileceğine inanıp emek bütçesinin %75'ini buna dökmekse, buna kananlar düşünsün demekten başka bir şey gelmiyor içimden
  • Bu model uzun soluklu görevlerde çok güçlü ve Codex'te artık heartbeats de var, böylece durum sürekli kontrol edilebiliyor
    Doğrulanabilir kısıtları olan ve birkaç saat süren zor bir problem verildiğinde ne kadar iyi olduğunu anlayacağınızı söylüyor
    OpenAI'da çalıştığını belirtiyor

    • Güzel bir özellik gibi duruyor, umarım yakında test edebilirim
      Son zamanlarda diğer modellerden, özellikle Opus'un işin ortasında sık sık durmasından yoruldum
    • Canva iç değerlendirmelerinde GPT-5.5 birçok uzun görev tipi frontier challenge'ı çözdü; hatta test ettiğimiz yapay zeka modelleri arasında bunu ilk yapan örnekler de oldu
      Çıkış için tebrikler
    • heartbeats'in tam olarak ne olduğuna dair bir açıklama gerekiyor