14 puan yazan GN⁺ 2025-08-08 | Henüz yorum yok. | WhatsApp'ta paylaş
  • GPT-5, kodlama, matematik, yazma, sağlık ve görsel algı dahil tüm alanlarda önceki modelleri aşan performans sunuyor ve hızlı yanıtlarla derin akıl yürütmeyi duruma göre birleştiren entegre bir sistem olarak konumlanıyor
  • ‘GPT-5 Thinking’, karmaşık problemlerde daha uzun akıl yürütme uygulayarak doğruluğu artırıyor; Pro aboneleri bunun genişletilmiş sürümü olan GPT-5 Pro ile en yüksek seviyede performanstan yararlanabiliyor
  • Gerçek kullanımda halüsinasyon (yanlış olgu üretimi) oranını büyük ölçüde düşürdü; çok modlu anlama, talimatları yerine getirme ve karmaşık araç zinciri görevlerindeki yetenekleri geliştirildi
  • Frontend UI üretimi ve büyük ölçekli debugging gibi alanlarda geliştirici desteği güçlendirildi; sağlık alanında ise HealthBench’te en yüksek puanı alarak aktif bir sağlık partneri rolü üstleniyor
  • Güvenlik tarafında, gereksiz retleri azaltmak için ‘safe completion’ eğitimi getirildi ve biyoloji ile kimya alanlarında yüksek seviyeli çok katmanlı savunma sistemi kuruldu

GPT-5’ye genel bakış

Entegre sistem

  • Tek bir sistem içinde akıllı ve verimli model, derin akıl yürütme modeli (GPT-5 Thinking) ve bunları duruma, karmaşıklığa, araç gereksinimine ve kullanıcı niyetine göre seçen gerçek zamanlı yönlendirici bulunuyor
  • Kullanım limiti aşıldığında her modelin ‘mini’ sürümü kalan sorguları işler
  • Gelecekte bu işlevlerin tek bir modelde birleştirilmesi planlanıyor

Performans ve kullanım kolaylığında artış

  • Benchmark’ların genelinde GPT-4o’ya kıyasla belirgin biçimde üstün performans
  • Halüsinasyonlarda azalma, talimat uygulamada iyileşme, yalakalık içeren yanıtların (sycophancy) en aza indirilmesi
  • Üç temel alanda iyileştirme
    • Kodlama: Karmaşık frontend üretimi, büyük depolarda debugging ve estetik duyarlılık taşıyan UI/UX üretiminde yetenek artışı
    • Yazma: Yapısal belirsizliği ele alabilme, edebi derinlik ve ritim taşıyan anlatım üretme, günlük belge yazımı ve düzenlemesinde daha güçlü destek
    • Sağlık: HealthBench’te en yüksek skor, duruma, bilgi seviyesine ve bölgeye uygun güvenli ve hassas yanıtlar sunma

Değerlendirme sonuçları

  • Matematik %94.6 (AIME 2025), kodlama SWE-bench Verified %74.9, çok modlu MMMU %84.2, sağlık HealthBench Hard %46.2 ile SOTA elde etti
  • GPQA’da GPT-5 Pro %88.4 ile en yüksek skora ulaştı
  • Çok modlu, araç entegrasyonu ve çok aşamalı görevleri işleme kabiliyetinde büyük gelişme sağlandı

Verimli akıl yürütme

  • Aynı performans düzeyinde token kullanımı %50~80 azaltıldı
  • Karmaşık ve yüksek zorluktaki görevlerde GPT-5 Thinking, o3’e kıyasla hata oranı ve halüsinasyon oranını belirgin şekilde düşürüyor

Güvenilirlik ve olgusal doğrulukta güçlenme

  • Açık uçlu olgusallık testlerinde halüsinasyon oranı 6 kat azaldı
  • İmkânsız görevlerde veya bilginin yetersiz olduğu durumlarda sınırlarını açıkça açıklıyor
  • Sycophantic oranı %14.5’ten %6’nın altına düştü

Güvenlik iyileştirmeleri

  • safe completion’ eğitimi sayesinde risk taşıyabilecek isteklere karşı da güvenli ve faydalı yanıtlar veriyor
  • Biyoloji ve kimya alanlarında yüksek riskli senaryolara karşı çok katmanlı savunma sistemi uygulandı

GPT-5 Pro

  • En yüksek zorluktaki görevler için genişletilmiş akıl yürütme modeli
  • Uzman değerlendirmelerinde GPT-5 Thinking’e göre %67.8 oranında tercih edildi, temel hata oranı %22 azaldı
  • Sağlık, bilim, matematik ve kodlamada en yüksek performans

Kullanım yöntemi ve erişim

  • GPT-5, ChatGPT’nin varsayılan modeli olarak uygulanıyor ve önceki modellerin (GPT-4o, o3 vb.) yerini alıyor
  • ‘think hard about this’ girildiğinde akıl yürütme modu zorlanabiliyor
  • Plus·Pro·Team·Free kullanıcılarına kademeli olarak sunuluyor; Enterprise ve Edu için 1 hafta sonra etkinleşecek
  • Ücretsiz kullanıcılar limit aşımında GPT-5 mini’ye geçiyor

Geliştiriciler için GPT-5’in başlıca noktaları

Performans ve özellikler

  • Kodlama performansı:

    • SWE-bench Verified %74.9 (o3: %69.1), token kullanımı %22↓, araç çağrısı %45↓
    • Aider polyglot %88 ile kod düzenleme hata oranı 1/3 azaldı
    • Frontend kod üretiminde o3’e kıyasla %70 tercih edildi
  • Ajan görevleri:

    • τ 2-bench telecom %96.7, çoklu araç çağrısı ve paralel çağrı kararlılığı iyileşti
    • İlerleme durumu ve planı kullanıcıya görünür şekilde bildiren preamble mesajları üretebiliyor
  • Uzun bağlam:

    • OpenAI-MRCR(2 needle 128k) %95.2, BrowseComp Long Context(256k) %88.8
    • En fazla 400 bin token bağlam işleyebiliyor

Yeni API özellikleri

  • reasoning_effort: minimal~high aralığında akıl yürütme süresini ayarlama
  • verbosity: low~high ile yanıt uzunluğu varsayılanını belirleme
  • Özel araçlar: JSON yerine plaintext ile çağrılabilir, regex/dil bilgisi kısıtlarını destekler
  • Paralel araç çağrısı, web search, file search, image generation gibi yerleşik araçlar içerir
  • Prompt caching, Batch API gibi maliyet düşürücü özellikleri destekler

Kararlılık ve güvenilirlik

  • LongFact ve FactScore benchmark’larında halüsinasyon oranı o3’e göre ~%80 azaldı
  • Kendi sınırlarını tanıma ve beklenmedik durumlarla başa çıkma yeteneği güçlendirildi
  • Yüksek riskli ve doğruluk gerektiren işler (kod, veri, karar verme) için uygun

Availability & pricing

Sunulan boyutlar ve endpoint’ler

  • Boyut seçenekleri: gpt-5, gpt-5-mini, gpt-5-nano sunuluyor
  • Desteklenen arayüzler: Responses API, Chat Completions API, Codex CLI varsayılanı olarak kullanılabiliyor
  • Model özellikleri: API’deki GPT‑5 ailesi reasoning model’dir; ChatGPT’deki non‑reasoning model ise ayrı bir ID ile sunulur

Fiyat listesi ve ücretlendirme birimi

  • gpt-5: girdi $1.25/milyon token, çıktı $10/milyon token
  • gpt-5-mini: girdi $0.25/milyon, çıktı $2/milyon
  • gpt-5-nano: girdi $0.05/milyon, çıktı $0.40/milyon
  • gpt-5-chat-latest (akıl yürütmesiz): girdi $1.25/milyon, çıktı $10/milyon ile gpt-5 ile aynı

Desteklenen özelliklerin özeti

  • Akıl yürütme kontrolü: reasoning_effort içinde minimal·low·medium·high belirlenerek hız↔doğruluk dengesi ayarlanabilir
  • Yanıt uzunluğu: verbosity ile kısa/varsayılan/uzun temel eğilim ayarlanabilir
  • Tooling: custom tools ile plaintext parametre çağrısı desteklenir ve regex/CFG kısıtları uygulanabilir
  • Çalıştırma yetenekleri: paralel araç çağrısı, yerleşik araçlar (web search, file search, image generation vb.), streaming, Structured Outputs desteklenir
  • Maliyet optimizasyonu: prompt caching, Batch API ile token ve gecikme maliyeti azaltılabilir
  • Dağıtım kanalları: Microsoft 365 Copilot, Copilot, GitHub Copilot, Azure AI Foundry genelinde GPT‑5 kullanılmaya başlandı

Basit maliyet örneği

  • gpt-5 ile 50k girdi + 5k çıktı token işlendiğinde toplam maliyet ≈ $0.1125 olur
    • Hesap: girdi 0.05M × $1.25 = $0.0625, çıktı 0.005M × $10 = $0.05, toplam $0.1125
  • Aynı iş gpt-5-mini ile işlendiğinde toplam maliyet ≈ $0.0175 olur
    • girdi 0.05M × $0.25 = $0.0125, çıktı 0.005M × $2 = $0.01, toplam aslında $0.0225 ediyor; ancak çıktı birim fiyatı dikkate alındığında girdi ağırlıklı iş yüklerinde fark daha da büyüyor
  • Büyük hacimli üretken çıktı içeren pipeline’larda çıktı birim fiyatı daha düşük modelleri seçmek için güçlü bir teşvik var

Seçim rehberi notları

  • Doğruluk en yüksek öncelikse ve karmaşık araç zincirleri gereken bir backend ajanı kurulacaksa gpt-5 düşünülebilir
  • Günlük kod düzenleme, hafif ajanlar ve büyük hacimli batch işleri için gpt-5-mini, maliyet/kalite dengesi açısından avantajlıdır
  • Çok düşük gecikme ve çok düşük maliyet isteyen ön işleme, kural kontrolü ve basit özetleme görevlerinde gpt-5-nano uygundur

Not

  • ChatGPT’nin non‑reasoning varsayılan modelini aynen kullanmak isterseniz API’de gpt-5-chat-latest seçebilirsiniz
  • Yanıt uzunluğunda açık talimat önceliklidir; bu nedenle verbosity ne olursa olsun “5 paragraflık deneme” gibi belirli bir uzunluk istenirse talimata uyulur

Henüz yorum yok.

Henüz yorum yok.