1 puan yazan GN⁺ 2025-08-08 | 1 yorum | WhatsApp'ta paylaş
  • GPT-5 API resmi olarak sunuldu ve geliştiriciler için yeni bir düzeyde kodlama ve ajan görev performansı sağlıyor
  • SWE-bench Verified, Aider polyglot gibi başlıca benchmarklarda en iyi performans (SOTA) elde ederken; Cursor, Windsurf, Vercel gibi birçok müşteri örneğinde üstün başarı gösterdi
  • Uzun süreli ajan görevleri, gelişmiş araç entegrasyonu ve uzun bağlam işleme gibi karmaşık gerçek dünya görevlerinde güçlendiği gösterildi
  • verbosity, reasoning_effort gibi ince ayar parametreleri ve özel araç desteğiyle geliştirici odaklı kontrol sağlanıyor
  • gpt-5, gpt-5-mini, gpt-5-nano ile farklı maliyet-performans seçenekleri sunarak Microsoft ve çeşitli geliştirici araçlarına entegre ediliyor

GPT-5 Lansmanı ve Önemi

  • OpenAI, GPT-5'i API platformunda duyurarak, şimdiye kadar piyasaya sürdüğü modeller arasında kodlama ve ajan görevleri için en iyi performansa sahip olduğunu vurguladı
  • Başlıca kodlama benchmarklarında SOTA (en iyi performans) kaydetti ve gerçek startup ile şirket test ekipleriyle iş birliği içinde eğitildi
  • Kod üretimi, hata düzeltme, kod düzenleme, karmaşık kod tabanı sorgulama gibi gerçek geliştirme işlerinde güçlü bir iş ortağı rolü üstlendi
  • Ayrıntılı talimatları hassas şekilde izlerken, araç çağrılarından önce ve sonra davranış açıklaması ve plan sunma yeteneği geliştirilmiş durumda
  • Frontend geliştirme performansı da güçlü; iç testlerde önceki modellerden %70 oranında üstün bulundu

Önemli Müşteriler ve Gerçek Dünya Senaryoları

  • Cursor, Windsurf, Vercel, Manus, Notion, Inditex gibi firmalar GPT-5'in zekâsını, ayarlanabilirliğini, araç hata yönetimini ve kod kalitesini yüksek puanlarla değerlendirdi
  • Gerçek dağıtım senaryolarında karmaşık arka plan işleri, uzun süreli ajan rolleri ve gelişmiş araç entegrasyonlarında önceki modellere göre daha iyi stabilite ve verimlilik sağladı

Benchmarklar ve Performans Metrikleri

  • SWE-bench Verified (gerçek yazılım sorunları için yama): o3 karşısında daha yüksek %74.9 performans, token kullanımında %22 azalma ve araç çağrısında %45 azalma ile daha verimli
  • Aider polyglot (kod düzenleme değerlendirmesi): %88 puanla o3’e göre yanlış cevap oranını üçte bire düşürdü
  • Karmaşık kod tabanı analizinde, büyük LLM’lerin isteğe göre uyarlanması sayesinde geliştiricilerin ve araştırmacıların kullanımını kolaylaştırıyor
  • Frontend kod üretimi, hem görsel estetik hem doğruluk açısından testlerde %70 üstünlük gösterdi

Ajanlaştırılmış İş Akışı ve Uzun Bağlam Başarıları

  • τ2-bench telecom (araç çağırma benchmarkı) tarafında %96.7 ile en yeni SOTA kaydedildi
  • Ondalıklarca araç çağrısını ardışık veya paralel olarak çalıştırmada yüksek görev tamamlama yeteneği gösteriyor
  • COLLIE, Scale MultiChallenge gibi yönerge takip benchmarklarında en yüksek puanı aldı
  • OpenAI-MRCR, BrowseComp Long Context gibi uzun bağlamlı Soru-Cevap testlerinde o3 ve GPT-4.1’i geride bıraktı
  • 400.000 tokena kadar bağlam uzunluğu destekleyerek, büyük belge ve uzun konuşma analizine uygun

Güvenilirlik ve Güvenlik

  • LongFact, FactScore değerlendirmelerinde o3’e kıyasla yanlışlık oranı %80’in üzerinde düşürüldü
  • Kendi sınırlılıklarını tanıma ve bildirme davranışı güçlendi; özellikle sağlık sorularında doğruluk arttırıldı
  • Gerçek kullanımda kritik alanlarda hâlâ geliştirici doğrulaması öneriliyor

Geliştirici Kontrolü ve API Yenilikleri

  • reasoning_effort: minimal/low/medium/high değerleri ile yanıt hızı ile akıl yürütme kalitesi arasında denge kuruyor
    • minimal: hızlı yanıt, high: yüksek kaliteli mantıksal akıl yürütme
  • verbosity: low/medium/high ile çıktı uzunluğu ayarlanıyor
    • Açık talimat varsa, parametreden önce talimat öncelikli uygulanır
  • Özel araçlar: JSON dışında düz metin (plaintext) formatını da destekler; regex veya Context-Free Grammar ile araç giriş biçimini kısıtlamaya izin verir
  • Büyük kod parçaları/raporlarda JSON escape sorunları azaltılarak, geliştirici araç entegrasyonu kolaylaştırıldı

Çeşitli API Modelleri ve Fiyatlandırma

  • gpt-5: $1.25/milyon giriş token, $10/milyon çıkış token
  • gpt-5-mini: $0.25/milyon giriş, $2/milyon çıkış
  • gpt-5-nano: $0.05/milyon giriş, $0.40/milyon çıkış
  • Tüm modeller reasoning_effort, verbosity, özel araçlar, paralel araç çağrıları, yerleşik web/dosya/görsel araçları ve akış (streaming) gibi temel özellikleri destekliyor
  • gpt-5-chat-latest, ChatGPT için nedensel olmayan bir model olarak aynı fiyatla yayınlandı

Entegrasyon ve Ölçeklenebilirlik

  • Microsoft 365 Copilot, GitHub Copilot, Azure AI Foundry gibi çeşitli Microsoft platformlarına entegre edildi
  • Cursor, Windsurf, GitHub Copilot, Codex CLI gibi geliştirici ajan sistemlerinin merkezine motor olarak yerleştirildi
  • Alpha tester iç değerlendirmeler ve farklı kod/iş otomasyonu ürünlerinde, önceki modellere kıyasla yeni bir standart belirledi

Güvenilirlik, Şeffaflık ve Ek Kaynaklar

  • Yanlış/uydurma yanıt verme olasılığı (halüsinasyon) önemli ölçüde düşürüldü; model iş akışı ve sınırlamaları konusunda daha dürüst açıklamalar yapıyor
  • Sistem kartı, dahili araştırma blogu gibi dokümanlarda uygulama ve değerlendirme detayları ile güvenlik önlemleri açık şekilde sunuluyor
  • Yüksek düzeyde otomatik kodlama ortağı ve karmaşık agentic iş akışı otomasyonu için özel olarak optimize edilmiş

Sonuç

  • GPT-5, şimdiye kadar çıkan LLM’ler arasında en güçlü kodlama ve ajan iş odaklı model olarak, gerçek geliştirme ortamları ve iş otomasyonuna özel optimize edilmiş yenilikçi bir ortak.
  • Gelişmiş API ve araç mimarisi, farklı kapasite ve fiyat seçenekleri ile güçlü benchmark sonuçları sayesinde geliştiricilere ve organizasyonlara yeni bir üretkenlik çağı açıyor

1 yorum

 
GN⁺ 2025-08-08
Hacker News yorumları
  • Opus ile GPT-5 arasında yazılım geliştirme uzmanlığı açısından pratikte belirgin bir fark hissetmedim, ancak benim için gerçekten önemli olan şey, uzun süre boyunca bağlamı ne kadar iyi koruyup verilen hedefe doğru ilerlediğidir. Gerçekçi yazılım mühendisliğinde bunun en kritik taraf olduğuna inanıyorum; bunu tam olarak ölçüp doğrulayacak bir değerlendirme metriği merak ediyorum
    • Charlie Labs'ta son birkaç haftada GPT-5 ile uzun süreli görev bağlamı testi konusunda oldukça iyi sonuçlar gördüm. Gerçek GitHub issue'ları çözdürdüğüm bir denemede Claude Code ile karşılaştırınca performans farkı çarpıcıydı. İlgili deneyi burada görebilirsiniz. Genelde 30-45 dakikalık karmaşık bağlamlarda yön değişse bile çok iyi takip ediyor, Linear ve GitHub'daki büyük thread'ları da iyi yönetiyor. Issue sayısı hâlâ az ama sonuçlar çok etkileyiciydi; bunu büyüterek performansı daha da ölçmeyi planlıyorum
    • Gün içinde sıkça karmaşık ve bağlamı sık değişen hedefler üretmem gerekiyor; bu yüzden böyle bir bağlam koruma ihtiyacı çok kritik. Buna rağmen GitHub Copilot'ın mevcut kod yardımcı araçları arasında neredeyse gölgede kalması üzücü, Anthropic, OpenAI, Google gibi farklı modeller kadar öne çıkmıyor. Gerçekten de web tabanlı spaces özelliğini denedim; IDE'den çok daha büyük işlerde daha iyi oldu. Fakat bağlam toplama ve çıktı inceleme adımı, bizzat yaptığımmdan daha uzun sürüyor; bu bir dezavantaj. Yine de bağlamı toplayıp biriktirmede güçlü bir yanı olacağına inanıyorum
    • Bugünlerde frontier LLM'ler sadece sağlanan bağlam yeterliyse çoğu sorunu çözüyor; her başarısızlıkta hangi bağlamın eksik olduğunu anlamaya günümün çoğunu harcıyorum. Bu yüzden benim ihtiyacım, bağlamı daha odaklı toplayabilme becerisi. Kendi kullanım durumlarımda genelde kod dosyaları, issue'lar, PR'lar ve tartışmalarda gerçekten alakalı veriye odaklanmak önemli. GPT-5'in bu konuda bir adım öne geçmesini umuyorum; Opus'a göre daha ucuz olup sonuçları benzer veya daha iyiyse beklentim daha da artar
    • GPT-5'in fiyatlandırması Opus'a kıyasla çok daha iyi; şimdi Gemini 2.5 Pro seviyesine inmiş durumda
    • GPT-5 gerçekten 400k bağlamla çalışırsa Opus'u anlamlı biçimde aşmaya yetecek gibi görünüyor
  • GPT-5-mini ile bir RAG senaryosu testi yapıyorum; şu ana kadar etkileyici. reasoning_effort="minimal" ile birlikte kullanınca, önceki modellerin saçma ürettiği yerlerde tek başına yanlış üretim yapmadı. İlgili ekran görüntülerini burada paylaştım, ileride daha resmi bir değerlendirme de yapacağım
    • Ürün müdürü nedir? sorusunda GPT-4, bölüm iş birliği gibi süslü ifadeler döndürürken GPT-5 sadece bilmiyorum dedi. O bir cümlede yapay zekanın gerçekten uyandığını gördüm
    • phi-4 ve gemma-3n da RAG senaryosunda yalnızca verilen bağlamı kullanıp, bağlam dışı bir yanıtı zorla üretmeyerek halüsinasyon baskısını azalttıklarını doğruladım
    • Bence en büyük değişim burada: sıkça araç çağrısı yaptığım iş akışlarında modelin sahte araç üreterek saçmalaması büyük bir sorundu; hatta araç çağrısını atlayıp doğrudan dayanağı olmayan cevaplar da verebiliyordu. Yakın zamanda yapılan eğitim-reward güncellemelerinde halüsinasyon ve araç atlama baskısı anlamlı biçimde iyileşmiş gibi görünüyor
  • Son bir haftada Cursor, Claude Code gibi farklı araçlarla yaklaşık 70 saat test yaptım. Gerçekten etkileyici ve güvenilirliği arttı ama pratikte tutarlı çalışan hâlâ Claude türevleri. Benchmarklardan farklı olarak, gerçek kullanımda bunun çok daha kritik olduğunu hissediyorum. Yeni GPT modeli bu senaryoda iyi çalışsın istiyorum; rekabetin büyümesi ve fiyatların iyi olmasıyla umutluyum
    • Cursor (1.4) son araç güncellemesi sayesinde Gemini gibi modellerde bile araç kullanımı önceki sürüme göre çok daha güvenilir oldu; eskiden dosya düzenleme gibi temel adımlarda bile sık hata yaparlarken şimdi neredeyse her seferinde doğru çalışıyorlar
    • Bu da kullanılan stack'e göre değişiyor bence. Son günlerde t3.gg'nin Convex tanıtım videosunu izledim; Convex mimarisi ilk denemeden itibaren işi doğru şekilde çıkarmayı sağlıyor. Gerçekten deneyince aynı kanaate vardım. İleride geliştirme iş akışı, birden fazla AI'yı paralel çalıştırmayı maksimize etmek için doğrudan koda dalmak yerine PM araçlarında (Linear bugün çok popüler bir şekilde) çoklu bilet açıp, AI'ye bunların hangilerinin paralel yürütülebileceğini seçtirmek, sonra da IDE veya Warp ile aynı anda birden fazla bilet üzerinde çalışmak şeklinde değişeceğe benziyor. Ben de henüz tamamen bu forma geçmediğim halde, bundan sonra geçmem gerektiğini düşünüyorum. Bu tarz için git worktree şart: ilgili materyal, dokümantasyon, blog
    • Gerçekten ne kadar ürünü “iyi ve güvenilir” diye nitelendirebileceğimizi merak ediyorum; 70 saatle PoC aşamasına kadar çıkılabiliyor ama özellikler kat kat eklenirken olgunluk seviyesinin nasıl olması gerektiği de merak konusu
    • OpenAI'nin reasoning tabanlı modeli daha iyi kod ve problem çözme gösterse de Claude Code pratikte daha kullanışlı görünüyor; modelin kendisi daha zayıf olsa da gerçek kullanım için daha uygun olduğunu düşünüyorum
  • Benchmark performansı da iyi olursa fiyatlandırma da çok cazip: giriş tokeni $1.25/milyon, önbellekli giriş $0.125/milyon, çıktı $10/milyon. Referans olarak Claude Opus 4.1'de giriş $15/milyon, çıktı $75/milyon. Asıl kritik kısım, araç kullanımının Claude Code'a göre ne kadar iyi olduğudur. Demo iyi görünse de Tau2-bench airline'da o3'ten daha düşük kalmış, bu yüzden henüz kesin konuşamam
    • Son birkaç saatte doğrudan test ettiğimde Opus 4.1'e göre GPT-5'in giderek daha iyi olduğunu hissediyorum. Birkaç aydır Claude Code 200 planını kullandığımda çıktıların giderek daha hayal kırıklığına yol açtığını gördüm; GPT-5 bir adım önde gibi
    • İki veya daha fazla alt modelin karışık çalıştığı bir yapıda dahi tek tip token fiyatı uygulanması ilginç. Gerçekte, ucuz modelin daha çok kullanılmasını amaçlayan bir tahmine dayalı fiyatlandırma gibi duruyor. Eğer kullanıcılar daha güçlü modele sıkça yönelirse fiyat modeli nasıl durur merak ediyorum; ya da fiyat marjı çok geniş bırakıldığı için bunun önemsenmeyeceğini de düşünebilirim
    • Fiyat = maliyet değildir; mevcut fiyatlandırmanın, platform payını artırmak için kasıtlı olarak düşük tutulduğu anlaşılıyor. Gerçek işletim maliyetini yansıtmaktan epey uzak olabilir; Mart'ta alınan 40 milyar dolardan önemli bir kısmının bu tür şiddetli fiyat savaşına gideceğini düşünüyorum
  • GPT-5, agentic task araç çağrısı benchmark'ında (τ2-bench telecom) %96.7 ile rekor kırdığı söyleniyor, ancak airline benchmark'ında o3'ten geride kaldı; açıklama metni kendi lehine olan veriyi öne çıkarıyor gibi
    • Bu grafiği ve bölümü doğrudan hazırlayan biri olarak, güçlü değerlendirme verisinin telecom tarafında olduğunu özellikle vurgulamak istiyorum. Retail ve airline benchmarklarında otomatik değerlendirme çok katı: tek bir doğru yanıtı geçerli sayıyor ve birden çok iyi çözüm puan alamıyor. Telecom benchmarku ise sonuç durumuna göre puanlıyor, birden çok doğru çözümü kabul ediyor; otomatik puanlamanın zayıf yanlarını kapatıyor ve modelin gerçek performans sinyalini daha net gösteriyor. Bu yüzden telecom'a odaklanmak mantıklı. tau2-bench makalesi de bunun için bir referans. Bu tür değerlendirmelerde kısmi puan yok, bu yüzden küçük bir hata bile toplam puanı büyük etkiliyor; bu yüzden gerçek performans skorun altında da olabilir üstünde de
    • Maliyet tarafı da merak ettiren bir konu; o3'ün oldukça pahalı işletildiğini biliyoruz. GPT-5 daha ucuzsa performansı yakın dahi olsa bu anlamlı bir iyileşme demek
    • Hatta metnin içinde airline'de düşüşünün de belirtildiğini gördüğüm için bunun bir tuzak soru olmadığını düşünüyorum
  • CFG (context-free grammar) ve regex desteği beni gerçekten heyecanlandırıyor; özellikle OpenAI API'deki JSON şemasını uygulayan llguidance'in Lark-benzeri CFG'sinin farkı olup olmadığını merak ediyorum. ilgili kaynak
    • Bu duyuruda en çok beklediğim kısım CFG ile yapılandırılmış çıktı. Diğer platformlarda (API, Google, OpenAI vb.) bu alanda gerçek kullanımda sürekli sorun görülüyordu; çok hızlı denemek istiyorum
  • Cursor birden fazla günde ücretsiz kullanılabiliyor; birçok IDE/CLI'de agentic coding power user olarak çalışmış birisi olarak Cursor + GPT-5 kombinasyonu iyi hissettirdi. Zaman bulduğunuzda mutlaka denemenizi öneririm
  • Çıkışlarda context-free grammar'i doğrudan zorunlu kılma özelliği eklendiği için bu gerçekten şaşırtıcı ve ilginç; örnekleme aşamasında doğru grammar nasıl zorunlu kılınıyor merak ediyorum
    • Bunun 'yapılandırılmış üretim' ya da 'guided generation' yöntemi olduğu kanaatindeyim. LLM'yi doğrudan kullanabiliyorsanız, bu tekniği eskiden de uyguluyordunuz örnek1, örnek2. Temel fikir, her token üretim adımında tüm kelime dağarcığı yerine o anki gramerde izin verilen token kümesini seçmek; örneğin JSON gramerinde { sonrasında gelebilecek geçerli tokenları vermek
    • Geçerli tokenlar, gramer üretim kurallarına göre örnekleme havuzuna dahil edilerek çıkış üretiliyor; yani bu kısıtlama yalnızca saf çıkarım (inference) sürecinde uygulanıyor
  • Benchmarklarda rakip modellerle karşılaştırmaktan çok GPT-5'i yalnızca bir önceki jenerasyonuyla kıyaslamak, Apple'ın iPhone'u yalnızca önceki jenerasyonuyla karşılaştırmasına benziyor
  • Zor bir problemde GPT-5'i test ettiğimde Gemini'nin çözemediği şeyi iyi analiz edip çözdü; ardından kod düzeltmede 6 kez hata yaptı. GPT-5'in problem analizi sonucunu Google Gemini'ye verdiğimde Gemini hemen doğru düzeltilmiş kodu üretti. Sonuçta ChatGPT analiz ve kod inceleme konusunda iyi ama gerçek kodlama gücü zayıf kalıyor
    • Ben de Gemini(GCA) ve CoPilot(Claude) ile aynı sorun için aynı şekilde analiz edip aynı yanlış çözümü verdik; hatayı işaretlesem bile daha yanlış çözümler ürettiler. ChatGPT'yi henüz denemedim ama yakında deneme planım var