GPT-5 tanıtıldı
(openai.com)- GPT-5, kodlama, matematik, yazma, sağlık ve görsel algı dahil tüm alanlarda önceki modelleri aşan performans sunuyor ve hızlı yanıtlarla derin akıl yürütmeyi duruma göre birleştiren entegre bir sistem olarak konumlanıyor
- ‘GPT-5 Thinking’, karmaşık problemlerde daha uzun akıl yürütme uygulayarak doğruluğu artırıyor; Pro aboneleri bunun genişletilmiş sürümü olan GPT-5 Pro ile en yüksek seviyede performanstan yararlanabiliyor
- Gerçek kullanımda halüsinasyon (yanlış olgu üretimi) oranını büyük ölçüde düşürdü; çok modlu anlama, talimatları yerine getirme ve karmaşık araç zinciri görevlerindeki yetenekleri geliştirildi
- Frontend UI üretimi ve büyük ölçekli debugging gibi alanlarda geliştirici desteği güçlendirildi; sağlık alanında ise HealthBench’te en yüksek puanı alarak aktif bir sağlık partneri rolü üstleniyor
- Güvenlik tarafında, gereksiz retleri azaltmak için ‘safe completion’ eğitimi getirildi ve biyoloji ile kimya alanlarında yüksek seviyeli çok katmanlı savunma sistemi kuruldu
GPT-5’ye genel bakış
Entegre sistem
- Tek bir sistem içinde akıllı ve verimli model, derin akıl yürütme modeli (GPT-5 Thinking) ve bunları duruma, karmaşıklığa, araç gereksinimine ve kullanıcı niyetine göre seçen gerçek zamanlı yönlendirici bulunuyor
- Kullanım limiti aşıldığında her modelin ‘mini’ sürümü kalan sorguları işler
- Gelecekte bu işlevlerin tek bir modelde birleştirilmesi planlanıyor
Performans ve kullanım kolaylığında artış
- Benchmark’ların genelinde GPT-4o’ya kıyasla belirgin biçimde üstün performans
- Halüsinasyonlarda azalma, talimat uygulamada iyileşme, yalakalık içeren yanıtların (sycophancy) en aza indirilmesi
- Üç temel alanda iyileştirme
- Kodlama: Karmaşık frontend üretimi, büyük depolarda debugging ve estetik duyarlılık taşıyan UI/UX üretiminde yetenek artışı
- Yazma: Yapısal belirsizliği ele alabilme, edebi derinlik ve ritim taşıyan anlatım üretme, günlük belge yazımı ve düzenlemesinde daha güçlü destek
- Sağlık: HealthBench’te en yüksek skor, duruma, bilgi seviyesine ve bölgeye uygun güvenli ve hassas yanıtlar sunma
Değerlendirme sonuçları
- Matematik %94.6 (AIME 2025), kodlama SWE-bench Verified %74.9, çok modlu MMMU %84.2, sağlık HealthBench Hard %46.2 ile SOTA elde etti
- GPQA’da GPT-5 Pro %88.4 ile en yüksek skora ulaştı
- Çok modlu, araç entegrasyonu ve çok aşamalı görevleri işleme kabiliyetinde büyük gelişme sağlandı
Verimli akıl yürütme
- Aynı performans düzeyinde token kullanımı %50~80 azaltıldı
- Karmaşık ve yüksek zorluktaki görevlerde GPT-5 Thinking, o3’e kıyasla hata oranı ve halüsinasyon oranını belirgin şekilde düşürüyor
Güvenilirlik ve olgusal doğrulukta güçlenme
- Açık uçlu olgusallık testlerinde halüsinasyon oranı 6 kat azaldı
- İmkânsız görevlerde veya bilginin yetersiz olduğu durumlarda sınırlarını açıkça açıklıyor
- Sycophantic oranı %14.5’ten %6’nın altına düştü
Güvenlik iyileştirmeleri
- ‘safe completion’ eğitimi sayesinde risk taşıyabilecek isteklere karşı da güvenli ve faydalı yanıtlar veriyor
- Biyoloji ve kimya alanlarında yüksek riskli senaryolara karşı çok katmanlı savunma sistemi uygulandı
GPT-5 Pro
- En yüksek zorluktaki görevler için genişletilmiş akıl yürütme modeli
- Uzman değerlendirmelerinde GPT-5 Thinking’e göre %67.8 oranında tercih edildi, temel hata oranı %22 azaldı
- Sağlık, bilim, matematik ve kodlamada en yüksek performans
Kullanım yöntemi ve erişim
- GPT-5, ChatGPT’nin varsayılan modeli olarak uygulanıyor ve önceki modellerin (GPT-4o, o3 vb.) yerini alıyor
- ‘think hard about this’ girildiğinde akıl yürütme modu zorlanabiliyor
- Plus·Pro·Team·Free kullanıcılarına kademeli olarak sunuluyor; Enterprise ve Edu için 1 hafta sonra etkinleşecek
- Ücretsiz kullanıcılar limit aşımında GPT-5 mini’ye geçiyor
Geliştiriciler için GPT-5’in başlıca noktaları
Performans ve özellikler
-
Kodlama performansı:
- SWE-bench Verified %74.9 (o3: %69.1), token kullanımı %22↓, araç çağrısı %45↓
- Aider polyglot %88 ile kod düzenleme hata oranı 1/3 azaldı
- Frontend kod üretiminde o3’e kıyasla %70 tercih edildi
-
Ajan görevleri:
- τ 2-bench telecom %96.7, çoklu araç çağrısı ve paralel çağrı kararlılığı iyileşti
- İlerleme durumu ve planı kullanıcıya görünür şekilde bildiren preamble mesajları üretebiliyor
-
Uzun bağlam:
- OpenAI-MRCR(2 needle 128k) %95.2, BrowseComp Long Context(256k) %88.8
- En fazla 400 bin token bağlam işleyebiliyor
Yeni API özellikleri
reasoning_effort:minimal~higharalığında akıl yürütme süresini ayarlamaverbosity:low~highile yanıt uzunluğu varsayılanını belirleme- Özel araçlar: JSON yerine plaintext ile çağrılabilir, regex/dil bilgisi kısıtlarını destekler
- Paralel araç çağrısı, web search, file search, image generation gibi yerleşik araçlar içerir
- Prompt caching, Batch API gibi maliyet düşürücü özellikleri destekler
Kararlılık ve güvenilirlik
- LongFact ve FactScore benchmark’larında halüsinasyon oranı o3’e göre ~%80 azaldı
- Kendi sınırlarını tanıma ve beklenmedik durumlarla başa çıkma yeteneği güçlendirildi
- Yüksek riskli ve doğruluk gerektiren işler (kod, veri, karar verme) için uygun
Availability & pricing
Sunulan boyutlar ve endpoint’ler
- Boyut seçenekleri:
gpt-5,gpt-5-mini,gpt-5-nanosunuluyor - Desteklenen arayüzler: Responses API, Chat Completions API, Codex CLI varsayılanı olarak kullanılabiliyor
- Model özellikleri: API’deki GPT‑5 ailesi reasoning model’dir; ChatGPT’deki non‑reasoning model ise ayrı bir ID ile sunulur
Fiyat listesi ve ücretlendirme birimi
gpt-5: girdi $1.25/milyon token, çıktı $10/milyon tokengpt-5-mini: girdi $0.25/milyon, çıktı $2/milyongpt-5-nano: girdi $0.05/milyon, çıktı $0.40/milyongpt-5-chat-latest(akıl yürütmesiz): girdi $1.25/milyon, çıktı $10/milyon ilegpt-5ile aynı
Desteklenen özelliklerin özeti
- Akıl yürütme kontrolü:
reasoning_effortiçindeminimal·low·medium·highbelirlenerek hız↔doğruluk dengesi ayarlanabilir - Yanıt uzunluğu:
verbosityile kısa/varsayılan/uzun temel eğilim ayarlanabilir - Tooling: custom tools ile plaintext parametre çağrısı desteklenir ve regex/CFG kısıtları uygulanabilir
- Çalıştırma yetenekleri: paralel araç çağrısı, yerleşik araçlar (web search, file search, image generation vb.), streaming, Structured Outputs desteklenir
- Maliyet optimizasyonu: prompt caching, Batch API ile token ve gecikme maliyeti azaltılabilir
- Dağıtım kanalları: Microsoft 365 Copilot, Copilot, GitHub Copilot, Azure AI Foundry genelinde GPT‑5 kullanılmaya başlandı
Basit maliyet örneği
gpt-5ile 50k girdi + 5k çıktı token işlendiğinde toplam maliyet ≈ $0.1125 olur- Hesap: girdi 0.05M × $1.25 = $0.0625, çıktı 0.005M × $10 = $0.05, toplam $0.1125
- Aynı iş
gpt-5-miniile işlendiğinde toplam maliyet ≈ $0.0175 olur- girdi 0.05M × $0.25 = $0.0125, çıktı 0.005M × $2 = $0.01, toplam aslında $0.0225 ediyor; ancak çıktı birim fiyatı dikkate alındığında girdi ağırlıklı iş yüklerinde fark daha da büyüyor
- Büyük hacimli üretken çıktı içeren pipeline’larda çıktı birim fiyatı daha düşük modelleri seçmek için güçlü bir teşvik var
Seçim rehberi notları
- Doğruluk en yüksek öncelikse ve karmaşık araç zincirleri gereken bir backend ajanı kurulacaksa
gpt-5düşünülebilir - Günlük kod düzenleme, hafif ajanlar ve büyük hacimli batch işleri için
gpt-5-mini, maliyet/kalite dengesi açısından avantajlıdır - Çok düşük gecikme ve çok düşük maliyet isteyen ön işleme, kural kontrolü ve basit özetleme görevlerinde
gpt-5-nanouygundur
Not
- ChatGPT’nin non‑reasoning varsayılan modelini aynen kullanmak isterseniz API’de
gpt-5-chat-latestseçebilirsiniz - Yanıt uzunluğunda açık talimat önceliklidir; bu nedenle
verbosityne olursa olsun “5 paragraflık deneme” gibi belirli bir uzunluk istenirse talimata uyulur
5 yorum
Benim kişisel görüşüme göre refactoring konusunda
claude-codedaha iyi gibi görünüyor.cursor+ GPT5 ile gereksiz metotları silme gibi refactoring işleri yaptırdığımda,claude-codebunları iyi bulup silerken GPT5 ise projenin genelini kavrayamıyor gibi hissettirdi.Kullanılabilirliğin sıçramalı biçimde arttığı hissediliyor ama bu kadar yaygara koparılan AGI’ye yaklaştığı yönündeki tepkiler yine abartıymış.
Yalnızca kodlama (SWE-bench) tarafına bakarsak %74,9 (
thinking), %52,8 (without thinking) düzeyinde; Claude ise %74,5 (Opus 4.1), %72,5 (Opus 4.0), %62,3 (Sonnet 3.7) idi.Thinking modekullanılmazsa Sonnet'ten daha kötü, kullanılsa bile Opus 4.1'den sadece çok az daha iyi görünüyor.OpenAI'nin resmi tanıtım videosu (1 saat 17 dakika) https://www.youtube.com/watch?v=0Uu_VJeVVfo
Hacker News görüşleri
Yapay zeka şirketlerinden biri AGI (genel yapay zeka) eşiğini aşarsa tek başına öne geçeceği sıkça söyleniyordu, ancak gerçekte tüm modellerin performanslarının giderek birbirine benzemesi ilginç; şu anda GPT-5, Claude Opus, Grok 4, Gemini 2.5 Pro genel olarak iyi performans gösteriyor ve kullanıcı açısından rekabet her zamankinden daha çetin görünüyor; araştırmacıların, yapay zeka rakiplerinin hizmetlerinin gelecekte daha da benzeşip benzeşmeyeceği ya da farklılaşıp farklılaşmayacağı konusundaki görüşlerini merak ediyorum
Belirli bir eşiğin üzerinde kullanıcı açısından hangi modelin daha iyi olduğunu ayırt etmenin zorlaşabileceğine dikkat çekiliyor; örneğin ELO'su 1000 olan bir satranç oyuncusunun Magnus Carlsen ile başka bir büyükustayla oynayıp hangisinin daha güçlü olduğunu ayırt etmesinin kolay olmaması gibi, insan değerlendirme ölçütlerinden kaynaklanan kümelenme etkisi aslında bir yanılsama olabilir
AGI'nin bir tekillik yaratacağı söylenmesinin nedeni kendi kendine öğrenebilmesi; şu anda buna ulaşmaktan hâlâ çok uzağız ve kişisel olarak AGI'yi hayatım boyunca görme ihtimalimin neredeyse olmadığını düşünüyorum; 1970'lerin ana bilgisayarları ile LLM'ler arasındaki mesafe, bana göre bugünkü durumla AGI arasındaki mesafeye benziyor
Olasılıksal metin tahmin modelleriyle daha yüksek seviyede zekayı simüle etmenin baştan imkansız olabileceğini düşünüyorum; yapay zeka araştırmacısı arkadaşlarım da LLM tabanlı AGI konusunda, veriye kıyasla performans artışındaki sınırlar (azalan getiri) nedeniyle pek endişeli değil; insan zekası az örnekle bile çok iyi genelleme yapabilirken LLM'ler çoğunlukla eğitim verilerinde sık görülen cevapları yeniden üretir; ancak AGI olmasa bile mevcut AI/ML/SL teknolojilerinin dünyayı değiştireceği bir eşik olabilir, örneğin geniş bilgi yeniden üretiminin önemli olduğu arama gibi alanlarda
Eskiden AI konusunda karamsardım ama artık mevcut teknoloji paradigmasının kısa vadede bir AI kıyametine yol açmayacağı görüşüne yaklaşık %70 oranında yakınım; bugünkü AI'nın “bizi taklit etme” konusunda uzmanlaşmış olması ve ortalama insan çıktısının ötesine geçememesi şu anda adeta bir nimet; yine de ilkesel olarak “AI doom” savlarının haklı yanları olduğunu ve tehdidin ciddiye alınması gerektiğini düşünüyorum
Daha karmaşık bir ansiklopedi yapıp buna ilginç bir arama arayüzü ekleyerek insana benzer bir his vermenin AGI'ye yaklaşmak anlamına geldiği iddiasına katılamıyorum; asıl genel zeka (GI) kısmının nereden geldiğine dair kimsenin ne kanıtı var ne de anlayışı; bunlar sağlam temele dayanmayan abartılar ve yatırım toplamak için edilen laflar gibi geliyor, AGI'yi gerçekleştirilebilir bir şey gibi pazarlayanları şarlatan olarak görüyorum; sektörde pek çok mühendisin bu mantığa tamamen kapılmış olması gerçekten şaşırtıcı ve sektörün sağlığı konusunda kuşku uyandırıyor
GPT-5'in bilgi kesim tarihi: 30 Eylül 2024 (çıkıştan yaklaşık 10 ay önce), Gemini 2.5 Pro: Ocak 2025 (3 ay önce), Claude Opus 4.1: Mart 2025 (4 ay önce); ilgili bağlantılar: OpenAI model karşılaştırması, DeepMind Gemini Pro, Anthropic Claude model genel bakışı
Artık web araması mümkünken bilgi kesim tarihinin ne kadar önemli olduğu tartışmalı; daha çok post-training'in ne kadar sürdüğünü gösteren bir gösterge olabilir
Gemini neredeyse tüm sorgularda basit web aramasıyla bilgi kesim tarihinden sonraki boşluğu kapatmaya çalışıyor
GPT-5 nano ve mini'nin kesim tarihi daha da eski: 30 Mayıs 2024
Model web araması yapabildiği için bilgi kesim tarihinin kendisi çok da önemli olmayabilir
Hatta bu, OpenAI'ın güvenlik açısından hiçbir kestirme yola izin vermediği anlamına da gelebilir
GPT-5 sistem kartına göre GPT-5, birden fazla modelin (hızlı yanıt için, derin muhakeme için) ve bir yönlendiricinin birleştiği entegre bir sistem; sohbet sırasında “bunu ciddi ciddi düşün” gibi prompt'lara göre yönlendirici model seçiyor; dışarıdan tek bir sistem gibi görünse de gerçekte birden çok alt modelin birleşiminden oluşuyor; tek bir dev modeli end-to-end eğitmek fazla pahalı hâle geldiği için bu yol seçilmiş gibi görünüyor
Anlamsal bir fark olabilir ama bileşenler otomatik çalışıyor ve kullanıcı tek bir arayüz kullanıyorsa buna ‘entegre sistem’ denebilir; tabii ki ‘entegre model’ değil
Dev genel amaçlı sistemler yerine, belirli bir bütçe içinde elle tasarlanmış uzmanlaşmış sistemlerin çok daha üstün performans gösterdiğine dair 'bitter lesson'a karşılık gelen bir teoriyi bir kez daha doğruluyor gibi
Geliştiriciler için GPT-5 sayfasına göre ChatGPT'deki GPT-5, birden çok modelin (muhakeme, muhakemesiz, yönlendirici vb.) birleştiği bir sistem; API'deki GPT-5 ise maksimum performanslı muhakeme modelini tek başına sunuyor; ChatGPT'deki bazı muhakemesiz modeller
gpt-5-chat-latestolarak sunuluyor ve geliştirici odaklı ayarlanmışÇok sayıda küçük uzman modelin birleşimi doğru yönde bir ilerleme ise bu strateji mantıklı
Sorun maliyet değil de kullanılabilir eğitim verisinin tükenmesi ya da yeni verilerin AI üretimi içerikle kirlenmiş olması nedeniyle etkili eğitimin zorlaşması da olabilir
Büyük benchmark hataları da oldu ve demolar da beklendiği kadar etkileyici değildi; yıl sonunda en iyi AI'nın kim olacağına dair bahis piyasasında da büyük değişim yaşandı; Gemini 3.0'ı veya Google'ın yeni modelini daha çok bekliyorum ve LLM yarışında “sona kalan tarafın” daha avantajlı olabileceğini düşünüyorum
Bizzat Opus 4.1'de başarısız olan işleri GPT-5 ile denedim; sadece başarmakla kalmadı, Opus'un yaptığı hataları da düzeltti; gerçekten sağlam bir şey olduğu hissini verdi
Zaten trilyonlarca dolarlık piyasa değerine ulaşmış bir tekel şirketin dünyadaki her şeye sahip olmasını istemiyorum
Gerçek testlerde çok iyi bir model olduğu hissediliyor; soruları yanıtlarken 4.1 veya o3'e kıyasla araçları olabildiğince yoğun kullanmaya çok daha hevesli olduğu dikkat çekiyor; örneğin ilk yanıtta bilgi toplamak için tam 6 kez araç çağrısı yaptı; örnek: araç kullanımı örneği
Pazarlama dili ve canlı yayında sunulan mantık, “daha iyi çünkü daha iyi” düzeyinde kendi kendini tekrar ediyor; GPT-5'in neden büyük bir sürüm artışı gerektirdiğine dair hâlâ net bir gerekçe eksik; her zamanki gibi modelin güvenilirliğini belirleyecek olan şey, ortaya çıkan sonucun genel hissi, yani ‘vibe check’ olacak
Son 6 ayda popüler JS kütüphaneleri en yeni eğitim setine girdi diye artık ‘kodlamada daha iyi’ denmesi, bu yaklaşımın sürdürülebilir olup olmadığı konusunda endişe yaratıyor
Tanıtım çok ama gerçek veri/benchmark az; bu yüzden simonw gibi sahada kullanan kişilerin kısa yorumlarını bile bekliyorum
Zor kod refactoring işleri gibi LLM sınırlarını zorlayan şeyleri de denedim ama önceki modellere kıyasla temel bir kalite artışı hissetmek zor; şu aşamada kalite artışı sanki sınıra (S-eğrisi yavaşlama bölgesi) dayanmış gibi; aynı kaliteyi daha ucuza sunmak anlamlı ama günlük kullanımda kalite farkı hissedilmiyor
GPT-5 tanıtım sayfasında AIME 2025, SWE-bench gibi çeşitli benchmark sonuçları yer alıyor; çok çarpıcı sonuçlar değiller
Sanki artık 'en yenisi olduğu için almak istediğin akıllı telefonlar çağına' girmişiz gibi
Canlı yayına bakılırsa mevcut modellere kıyasla benchmark iyileşmesi çok küçük; çıkış öncesinde beklentileri düşürmeye çalışmalarını anlıyorum ama gerçekteki iyileşme beklentinin de çok altında
Çıkıştan önce Sam Altman Death Star görseli tweet'leyerek beklentiyi yükseltmişti
AI büyük teknoloji şirketleri benzer alanlarda rekabet ediyor ama yeterince farklılaşamıyor; OpenAI bundan sonra süper ileri zeka yerine maliyet optimizasyonu ve günlük/iş asistanlığı kullanımına daha çok odaklanacak gibi; buna karşılık Anthropic ve Google büyüme açısından daha rahat oldukları için daha yüksek zekaya yatırım yapabilir; sonuçta o serisi gibi alanlarda daha akıllı modeller çıkabilir ama nihayetinde gelir ve piyasa gerçekleri sınır koyuyor
GPT-5, WebDev Arena'da Gemini 2.5 Pro'nun 75, Claude Opus 4'ün ise 100 puan önünde ve 1. sırada; bkz. lmarena.ai lider tablosu
Kod demolarının çoğu Cursor tabanlı GPT-5 MAX ile yapılıyor ve kullanıcıların çoğu bu MAX modunu sık kullanamaz; keşke standart sürümle de gösterim yapılsaydı
Sam'in 2 yıl önce “şok edici tek seferlik duyurular yerine kademeli ilerlemeyi seçeceğim” dediğini hatırlatıyor; henüz 1. gün olduğu için önümüzdeki birkaç ay içinde ek %10-20 optimizasyon payı olabilir
Bu sunumdaki y ekseninin ne olduğu kafa karıştırıcı ilgili grafik tartışması
ChatGPT5 demo örneğinde “uçak kanadı (airfoil)” çalışma prensibi yanlış anlatılıyor; (üstteki havanın daha uzun yol aldığı için daha hızlı hareket ettiği ve basıncının düştüğü, alttaki havanın daha yavaş gidip basıncının arttığı ve böylece kaldırma kuvveti oluştuğu) söylenmiş, ancak üst ve alt taraftaki havanın aynı anda ulaşması gerektiğine dair fiziksel bir temel yok; ilgili yazı: Cambridge Üniversitesi; ilk demoda böyle hatalı bir açıklama kullanılması garipti
Bu tamamen yanlış bir açıklama; eğer doğru olsaydı düz plaka airfoil'lerin kaldırma üretmemesi gerekirdi ama gerçekte öyle değil; bunu bizzat uçak tasarımı alanında doktora deneyimi olan biri olarak söylüyorum
Bu çok bilinen bir yanlış inanış, yani equals transit time fallacy; havacılık mühendisi olmasanız bile bu hatayı duymuş olabilirsiniz
“PhD düzeyi” ifadesi tuhaf; gerçek bir doktora, mevcut bilgiyi tekrar etmekten öte yeni bilim üretmelidir, oysa şimdiye kadar LLM'lerin kendi başına yeni bilim ortaya koyduğunu görmedim; temelde LLM'ler olağanüstü kelime ayrıştırıcılarından ibaret
NASA da yanlış açıklama için ayrı bir açıklama sayfası işletiyor
Bartosz bu alanı şurada en iyi anlatıyor
GPT-5'in context window'u 400 bin, maksimum çıktı 128 bin token; girdi $1.25, çıktı $10.00; resmi belge; eğer bu performansla needle-in-haystack probleminde gerçekten çok iyi sonuç veriyorsa, Gemini 2.5 Pro ve Claude Opus 4.1'e kıyasla son derece rekabetçi olur; mini/nano sürümleri de gerçekten iyi çalışıyorsa bu başlı başına büyük bir sıçrama olabilir
gpt-5için kesim tarihi 1 Ekim 2024, buna karşılık mini/nano için 31 Mayıs 2024; önceki 4.1 ailesi 1M/32k token destekliyordu; fiyat yapısında giriş token'ları %37 daha ucuz, çıkış token'ları ise %25 daha pahalı; yalnızca nano ürününde giriş %50 daha ucuz ve çıkış fiyatı aynıAPI kullanmak istiyorsanız kimlik doğrulama maliyetini de (zaman, prosedür vb.) hesaba katmak gerekir