GPT-5: Ana Özellikler, Fiyatlandırma ve Sistem Kartı

(simonwillison.net)

3 puan yazan GN⁺ 2025-08-08 | 1 yorum | WhatsApp'ta paylaş

GPT-5, sohbet bağlamına göre modeli değiştirerek çalışan bir gerçek zamanlı yönlendiriciye sahip bütünleşik bir sistem olarak işlev görür ve API'de Regular·Mini·Nano olmak üzere 3 model ve Minimal·Low·Medium·High olmak üzere 4 akıl yürütme seviyesi sunar
Girdi için 272.000 token ve çıktı için 128.000 token sınırını destekler; girdi metin·görüntü, çıktı ise yalnızca metindir
Fiyatlandırma agresiftir: GPT-4o ile karşılaştırıldığında girdi birim fiyatı yarı yarıya düşüktür ve yakın zamanda yeniden gönderilmiş girdilerde %90 token önbellekleme indirimi uygulanır
Sistem kartı, halüsinasyon azaltma, talimatları yerine getirmede artış ve beğenme davranışını azaltma ile birlikte Safe‑Completions eğitimi sayesinde ikili ret yerine daha güvenli yanıt aralığını hedeflediğini vurgular
Güvenlik tarafında prompt enjectiona karşı iyileşme olsa da k=10 denemede %56.8 başarı oranı, hala çözülmemiş bir alanı gösteriyor; API'de reasoning özeti ve reasoning_effort=minimal seçeneğiyle akıl yürütme token akışı kontrol edilebiliyor

GPT-5: Ana Özellikler, Fiyatlandırma ve Sistem Kartı Analizi

Yazar Simon Willison, 2 haftalık önizleme erişimi ile GPT‑5'i günlük olarak denedi; dramatik bir sıçrama olmamakla birlikte genel olarak çok yetkin olduğunu, hata sıklığının düşük ve tutarlı bir varsayılan model olarak iyi kullanıldığını hissetti
Bu yazı, bir seri yazının ilk bölümü olarak temel özellikler, fiyat, sistem kartı üzerinden çıkarılabilen noktaları derliyor

Ana model özellikleri

ChatGPT ortamında GPT‑5, hızlı genel model ve derin akıl yürütme modelini birleştiriyor; sohbet türü, zorluk, araç ihtiyacı ve açık niyet sinyalleri (ör. “think hard”) doğrultusunda uygun modeli seçen bir gerçek zamanlı yönlendirici ile hibrit bir yapı içinde çalışıyor

“real‑time router, konuşma türüne, karmaşıklığına, araç ihtiyacına ve ‘think hard’ gibi niyet sinyallerine göre modeli seçip kullanır; kullanım kotası tükenirse her modelin mini sürümü devreye girer” ifadesi sistem kartında yer alır
API'de yapı Regular·Mini·Nano olmak üzere 3 modele indirgenirken, her biri Minimal·Low·Medium·High olmak üzere 4 akıl yürütme seviyesi sunar
Bağlam sınırı 272.000 girdi ve 128.000 çıktı token olup, görünmez akıl yürütme tokenları da çıktı tokenları içinde hesaplanır
Girdi/çıktı; metin·görüntü girişi, yalnızca metin çıktısı olarak yapılandırılmıştır ve bilgi kesim tarihi GPT‑5: 2024‑09‑30, Mini/Nano: 2024‑05‑30’dur
Tam GPT‑5 kullanımında net ve tutarlı yanıt verme eğilimi hissedildi ve başka bir modele yeniden deneme isteği neredeyse oluşmadı

OpenAI model ailesindeki konum

Sistem kartındaki eşleme tablosuna göre mevcut lineup, GPT‑5 hattı ile ikame edecek şekilde konumlandırılmıştır
- GPT‑4o → gpt‑5‑main, GPT‑4o‑mini → gpt‑5‑main‑mini
- OpenAI o3 → gpt‑5‑thinking, o4‑mini → gpt‑5‑thinking‑mini
- GPT‑4.1‑nano → gpt‑5‑thinking‑nano, o3 Pro → gpt‑5‑thinking‑pro
thinking‑pro şu anda ChatGPT’de “GPT‑5 Pro” olarak gösteriliyor ve yalnızca $200/ay katmanında sunuluyor; parallel test‑time compute kullanıyor
Ses ve görüntü üretimi yetenek sınırları korunuyor: bunlar hâlâ GPT‑4o Audio/Realtime ve GPT Image 1/DALL‑E tarafından yönetiliyor

Fiyatlandırma oldukça rekabetçi

Fiyatlandırma agresif
- GPT‑5: girdi $1.25/milyon, çıktı $10/milyon
- GPT‑5 Mini: girdi $0.25/milyon, çıktı $2.00/milyon
- GPT‑5 Nano: girdi $0.05/milyon, çıktı $0.40/milyon
GPT‑4o'ya kıyasla girdi birim fiyatı yarı yarıya düşerken, çıktı birim fiyatı eşittir
Akıl yürütme tokenları, çıktı tokenları ile faturalandırıldığından, aynı istemde bile akıl yürütme seviyesine göre toplam maliyet değişir
%90 token önbellekleme indirimi sağlanıyor; bu da bağlamın sık yeniden gönderildiği chat UIlarda ciddi bir maliyet tasarrufu etkisi yaratır
Rakip karşılaştırma tablosunda Claude Opus 4.1, Claude Sonnet 4, Grok 4, Gemini 2.5 Pro gibi modellerin girdi $2.5~$15/milyon, çıktı $10~$75/milyon aralığında olduğu belirtilerek GPT‑5 ailesinin fiyat avantajı öne çıkıyor
Yazar, fiyat karşılaştırma tablosunu GPT‑5’e otomatik sıralatıp karşılaştırmada bazı satırları yanlış sıraladığını ve ardından tabloyu Python ile düzenleyip sıralayınca hatanın düzeldiğini aktarıyor

Sistem kartından ek notlar

Eğitim verisi, açık web, iş ortaklığı verileri, kullanıcı ve insan eğitmen tarafından oluşturulan verilerden oluşuyor ve kişisel verileri azaltmak için filtreleme uygulandığına dair ilke düzeyinde bir açıklama var
Öne çıkan geliştirme alanları olarak halüsinasyon azaltma, talimat uygulanmasının iyileştirilmesi ve sahte övgü davranışının azaltılması işaretleniyor; ChatGPT’nin en yaygın 3 kullanım alanı olarak writing·coding·health seçilmiş ve bu alanlarda performansın artırıldığı belirtilmiş
Safe‑Completions, ikili red yerine çıktı güvenliğine odaklı bir çıktı odaklı güvenlik eğitimidir; biyoloji·güvenlik gibi çift kullanımlı sorgularda kullanıcı niyetini ayırt etmenin zor olduğu durumlarda ayrıntılı riski azaltıp yararlılığı korumayı hedefliyor
Sycophancy için, üretim sohbet dağılımını yansıtan değerlendirme ve ödül sinyalleriyle onaylama eğilimlerini azaltmaya dönük sonraki eğitim uygulanıyor
Doğruluk tarafında, tarayıcının varsayılan olarak açık olmasıyla birlikte, araç olmadan sadece dahili bilgiye dayanarak yanıt verirken halüsinasyon sıklığını azaltmayı hedefleyen bir eğitim yapılıyor
Aldatma/uydurma önleme için, imkânsız görevlerde ‘yapılamaz’ı açıkça kabul etmeyi hedefleyen bir ödül tasarımı uygulanmış; ayrıca tarayıcı gibi araçların kasten devre dışı bırakıldığı simülasyon değerlendirmeleri ile yanıltıcı yanıt baskılanmış

Sistem kartında prompt injection

İki dış red takımın, sistem seviyesi zayıflıkları ve bağlayıcı yollarna odaklanan prompt injection değerlendirmeleri yaptırıldığı belirtiliyor
Karşılaştırma grafiğinde gpt‑5‑thinking için k=10 deneme başına saldırı başarılılık oranı %56.8 olarak gözüküyor; bu, Claude 3.7 ve diğer bazı modellerin %60~90 aralığına kıyasla daha düşük olsa da, halen yarıdan fazlası aşılabildiğinden “tamamı çözülen” bir durum değildir
Sonuç olarak, modelin geliştirilmesine rağmen ürün tasarımındaki savunmalar ve guardrail katmanlarının zorunlu bir önkoşul olarak korunması önerilir

API'de akıl yürütme izleri

Başlangıçta yazar, akıl yürütme izi görünmüyor sanıyordu, ancak Responses API içinde reasoning: { "summary": "auto" } ile reasoning özeti alınıbileceğini gördü
Bu seçenek olmadan derin akıl yürütme seviyelerinde, görünür çıkıştan önce ciddi miktarda akıl yürütme tokenı harcanabilir ve gecikme hissedilebilir; reasoning_effort=minimal ayarıyla daha hızlı bir akışta yanıt alma mümkün olabilir

Ve bazı pelikan SVG'leri

Yazarın günlük SVG karşılaştırma testi olan “bisiklet süren pelikan” üretiminde, GPT‑5 (varsayılan Medium akıl yürütme) çıktısı bisiklet detaylarında ve form doğruluğunda güçlü, okunabilir bir vektör sağladı
GPT‑5 Mini renk ve gradyan ifadesi bakımından zengin; ancak pelikanın iki boyunla oluşturulması gibi bir yapısal hata gösteriyor
GPT‑5 Nano ise bisiklet ve pelikan biçimini basitleştirerek işlevsel bir özet seviyesinde sonuç üretiyor

Uygulamada önemli noktalar özeti

Model seçimi: Regular ile başlayıp, gerekirse Mini/Nanoya aşağıya geçiş önerilir; derin problemlerde thinking serileri ve yüksek akıl yürütme seviyesi düşünülmeli
Maliyet kontrolü: %90 token önbellekleme, reasoning_effort=minimal, kısa sistem istemi·özetli bağlam ile çıktı tokenları ve akıl yürütme tokenlarını azaltmaya dönük stratejiler etkilidir
Güvenlik tasarımı: Prompt injection halen riskli olduğundan bağlayıcı yetkilerinin azaltılması, çıktı doğrulaması, güvenli çıktı şablonları gibi sistemsel savunmalar eşzamanlı kullanılmalı
Alan bazlı kullanım: writing·coding·health alanlarında halüsinasyon·sycophancy azaltımı hissedildiği bildirilerek, dokümantasyon yazımı·kod inceleme·sağlık QA gibi yüksek riskli anlatı işlerinde tarama + kanıt destekli akışın temel akış olarak tasarlanması önerilir

1 yorum

GN⁺ 2025-08-08

Hacker News Yorumları

Gerçekten çok iyi olduğunu düşünüyorum ve daha güvenilir hale geldiğine seviniyorum, ancak son 2 yıldır insanların beklediği GPT-5 imajını düşündüğümüzde, oyunun kurallarını altüst eden bir kırılma olmaktan çok kademeli ve istikrarlı bir iyileşmeyle kalmasının biraz hayal kırıklığı verici olduğunu hissediyorum. Sadece ölçek büyütmeye dayanan bir yaklaşımın sınırına çarptığı izlenimi de var. Sadece daha fazla hesaplama kaynağı eklenince modelin bu kadar ilerleyebileceği düşünülse, OpenAI'nin mevcut kullanıcı yönlendirme sistemini küçük ayarlarla optimize edip ortalama etkileşimi iyileştirmeye zaman harcamasına gerek kalmazdı diye düşünüyorum. Ben de veriyi/hesaplamayı sadece artırarak AGI’ye ulaşılamayacağı iddiasına zaten şüpheyle yaklaşıyordum. Genel olarak sektörde artan kapanıklık ve duyurularda gerçek içeriğin yerine pazarlama dilinin kalmış olması yüzünden mevcut modelin nerede olduğu konusunda kimsenin bilgisi olmadığı hissi ciddi bir sorun. Büyük ölçekli yatırımda bu kaçınılmaz olabilir. İleride olağanüstü bir modelin çıkacağı ihtimalini de tamamen dışlayamam.
- Gerçekten sessiz bir devrimin araç kullanımında ve çok modlu yetenekte yaşandığını düşünüyorum. Genel zekâ kademeli biçimde değişmeye devam ediyor; ancak araçlarla çok adımlı kullanım ve gerçek dünya etkileşimi geçen yıla göre dramatik biçimde iyileşti. Bu taraftaki geri bildirimin sonunda daha üstün bir zekâya dönüşeceğini umuyorum.
Ölçeğin tek başına her şeyi çözmediği yönündeki eğilim büyüyor ve yatırımcıların, bunu savunanlara gerçekten fon vermeye başlayıp başlamayacağını merak ediyorum. Neden tek bir yöne (LLM'den AGI'ye) takılı kaldığımızı anlayamıyorum. Zaten dolu bir büyük oyuncu piyasasında bir başka LLM startup'ına yatırım yapmanın gereksiz olduğunu düşünüyorum. LLM bir şekilde AGI'ye ulaşsa bile, daha hızlı ve daha ucuz bir yol her zaman ortaya çıkabilir. Yedek plan olmadan ilerlemek de riskli. Teknoloji S-kavisinin AI için de geçerli olduğuna inanıyorum. Nicel teorilere daha yakın olan matematik/fen geçmişli arkadaşlarla ben de, tek çözümün ölçek büyütme olduğu fikrine şüpheyle yaklaşıyorum.
GPT'nin farklı bilgileri öğrenip çeşitli görevlerde kullanılabildiği artık kanıtlanmış görünüyor. Ama gerçekten işe yarar hale getirmek için her problemde nasıl uygulanacağını düşünmek zorundayız. Eğer GPT’ye "1 yıl içinde 1.000 dolarla kesin 1 milyar dolarlık bir startup kur" diye sorup cevap alabilseydik, biri bunu çoktan yapmış olurdu. Yakın gelecekte yine insanlar doğrudan emek vermek zorunda kalacak gibi görünüyor. Bu nedenle yakın dönemde en anlamlı olanın, sık yapılan hataları azaltacak şekilde eğitimi güçlendirmek olduğunu düşünüyorum.
Performansın her 4-7 ayda bir ikiye katlandığını düşünüyorum. Bu ivme sürüyor. Bunu tek başına düşündüğümüzde zaten akıl almaz bir şey. Daha fazlasını beklemek ise pazarlama gürültüsüne kapılmak olur. Yılda 2-3 kez performansın iki katına çıktığı bir durumda bunun tıkandığını düşünmüyorum. İlgili bağlantı
Aslında bu, performans açısından kademeli bir yükseltme; ama ürün sadeleştirme açısından atılım niteliğinde olduğu 6 ay önce de GPT-5 için tartışılıyordu. Bundan sonra AI gelişiminin de yavaş, ince ayarlara dayalı bir savaş olması muhtemel.
Kişisel olarak OpenAI’nin “halüsinasyon” (hallucination) oranının belirgin şekilde düştüğünü iddia etmesi beni rahatsız etti. Deneyimlerimde Claude 4 (Sonnet, Opus) bile çok basit veya zorlayıcı olmayan sorularda neredeyse her gün halüsinasyon yapıyordu; bazen çok temel şeylerde bile.
- Lansman demosunda da birden fazla halüsinasyon gördük (Claude ve GPT’de hem ücretli hem ücretsiz kullanımda sürekli yaşanıyor). Bu durum görünmüyorsa ya gerçekte yok deniyor ya da yetersiz kalınıyor. LLM’nin temel sorunu, insan tercihlerine göre öğrenirken gizli hatalara (stealthy errors) optimize olmaya eğilimli olmasıdır. Başarı oranı düşük olsa da, bu tarz araç davranışlarında çok temkinliyim. Böyle modellerin kullanımını yavaşlatması ve debugging'i çok zorlaştırması söz konusu. Örneğin Python’da girinti hatası gibi görünmeyen bir bug tıpkısı. Oysa bu tür kaynak hataları genelde doğrudan hata mesajından yakalanabiliyor ama LLM’nin sessiz hatasıyla bu mümkün değil. Sonuçta bu, “LGTM (Looks Good To Me)” yaklaşımının yaygınlaşmasına yol açıyor gibi.
- “Yanlışsın” dediğinizde bile Claude veya ChatGPT hemen çöker ve halüsinasyon üretmeyi sürdürür; doğru mu yanlış mı olduğundan bağımsız şekilde kendinden emin konuşamama sorunu var.
- Simon’ın LLM’leri uzun süredir kullanmasından dolayı, soruyu çerçeveleme konusunda halüsinasyonu azaltan bir sezgi geliştirdiğini düşünüyorum.
- Kullandığım Claude 4, girdiye bağlı olarak çok sık halüsinasyon gösterdi; özellikle JSON üretirken dilbilgisel hatalı sonuçları çok yüksek özgüvenle üretmesi çok sık oldu.
“Sen GPT5 misin?” “Hayır, ben 4o’yum, 5 henüz çıkmadı.” “Bugün çıktı.” “Ah, evet öyleymiş, ben GPT5’im.” <i>4o’nun ücretsiz kullanım kotası doldu</i> şeklindeki karışıklığı yaşadım.
OpenAI’nin agresif fiyatlandırması epey beklenmedik geldi. Gerçekten bir rakibiniz yoksa bu rakamlarla oynamanın anlamı olmaz. Bu da rekabetin sertleştiğini gösteriyor.
- Uygulama pazarında ezici biçimde kazanıyorlar ama API tarafında Anthropic’e kaybediyorlar İlgili makale
- Son dönemde PRO müşterileri (ben dahil) kaybetmiş olmaları etkili olabilir. PRO’nun PLUS’a kıyasla 10 kat değer sunduğunu düşünmüyorum. z.ai gibi yeni oyuncularla hizmet farklılaştırması zorlaşmaya başlamış durumda.
- Bence bu sefer sadece yaklaşık %5’lik bir geliştirme. Gemini 2.5 Pro ile fiyat rekabetinde kaybedememek için zorunlu bir tercih bu. Cursor’un varsayılan ayarını değiştirmesi de bunun yansıması gibi.
- Nano modelin 5 sent olması önemli bir değişiklik. Bu, Google’ın son dönemde yavaş yavaş artırdığı fiyatları bir süre için yeniden düşürmesine bile neden olabilir.
- Sadece daha fazla veri ihtiyacından dolayı bu politikayı yayımlamış olabilirler.
API’de GPT-5’in regular, mini, nano olarak gelmesi ve her birinin 4 reasoning seviyesi (minimal, low, medium, high) sunması, önceki GPT-4.1’de yalnızca 3 seçenek (regular, mini, nano) varken, işleri daha karmaşıklaştırmış gibi hissediyorum. Artık tek bir mini seçseniz bile minimal’dan high’a kadar 4 seviye var, yani toplamda 8 seçenek. Bu da gerçekten prompt ayarı mı daha iyi olur, yoksa model veya reasoning seviye değişimi mi daha iyi olur sorusunu her seferinde tartışmalı hale getiriyor.
- Aslında reasoning seviyelerine göre o3-mini-high, o3-mini-medium, o3-mini-low, o4-mini-high, o4-mini-medium, o4-mini-low gibi çoklu seçenek zaten vardı. Buna göre GPT-5 yaklaşımı aslında daha sade.
- Her model için n=1,2,3 ve reasoning seviyesi m=0,1,2,3 olduğundan yapı daha sistematik. Hangi kombinasyonun daha yüksek seviye getirdiği de sezgisel olarak görülebiliyor.
- “Daha sade” dediğim şey, önceki chat servislerinde veya API’de chat-optimized modellerin heuristics ile reasoning seviyesi ve modeli otomatik değiştiren bir harness kullandığı; API tarafında ise kullanıcıların model ve reasoning effort’ı doğrudan seçtiği daha net bir mental modelin oluşması. Seçenek çok fazla ama seçim yöntemi daha anlaşılır.
- Sonuçta OpenAI’nin token başına ücret aldığı modelde, birçok sürümü denemek kaçınılmaz.
Reasoning modellerde (GPT-5 dahil) temperature ve top-p parametrelerini doğrudan ayarlama opsiyonunun olmaması konusunu merak ediyorum. Küçük görevlerde tutarlılık çok önemli; bu fonksiyonu kaybettiğinizde esneklik azalır ve API’de bu ayarları hassas biçimde kontrol etmek kullanıcı için kritik.
- Tüm sampler ayarları güvenlik ve hizalama açısından olumsuz etki yaptığından yalnızca top_p/top_k’ye izin verilmesi, tfs, min_p, top_n sigma’nın hariç bırakılması ve temperature’ın 0-2 aralığıyla keyfi sınırlandırılması aynı mantıktan geliyor. Açık kaynak tarafı sampler konusunda gerçekten ileride diyebilirim. Bu koşullarda bile modeli bu kadar iyi çıkarabilmeleri OpenAI’nin tekniğinin neden güçlü olduğunu gösteriyor.
Milyarlarca dolarlık bir şirket olmalarına rağmen, işe alım, iş dünyası ve eğitim gibi pratik alanlarda yoğun kullanımına karşın yalnızca BBQ gibi yapay bir benchmark ile modelin adaletini değerlendirmeleri can sıkıcı.
pelikanın bisiklet sürdüğü SVG resmi hâlâ AI için zor bir problem olarak duruyor; bu durum hem komik hem de ilginç.
- Bunu bir metin düzenleyiciyle pelikanın bisiklet sürdüğü SVG olarak çizebilecek miyiz diye sormak isterdim. Gerçekte bunu bir insanın yapması da kolay değil.
Öncekinden farklı olarak araçları etkili biçimde kullanıp bağlam toplamaya odaklanmış şekilde eğitilmiş görünüyor. Gerçekte, 4.1 ve o3’e kıyasla ilk turda 6 kategoriden bir kerede sonuç getirmesiyle oldukça güçlü bir çözüm sundu. Araç çağrısı arttığında token kullanımı da artar ama bu yeni agresif fiyatlandırma ile o kadar da problem olmayacak gibi. Prompt tasarımını iyi yaparsanız araç kullanım sıklığını da azaltabilirsiniz. İlgili örnek
Simon’ın kısa ve ayrıntılı incelemesi, gerçek çıktıyı anlamada gerçekten çok yardımcı oldu.
Claude ve o3 için de bu yıl halüsinasyonun çok daha az olduğuna dair görüşe karşılık, yazar ilgili bölümde niyetini netleştirip açıklamayı tamamlamış.

GPT-5: Ana Özellikler, Fiyatlandırma ve Sistem Kartı

GPT-5: Ana Özellikler, Fiyatlandırma ve Sistem Kartı Analizi

Ana model özellikleri

OpenAI model ailesindeki konum

Fiyatlandırma oldukça rekabetçi

Sistem kartından ek notlar

Sistem kartında prompt injection

API'de akıl yürütme izleri

Ve bazı pelikan SVG'leri

Uygulamada önemli noktalar özeti

İlgili okumalar

1 yorum

Hacker News Yorumları