GPT-5: Ana Özellikler, Fiyatlandırma ve Sistem Kartı
(simonwillison.net)- GPT-5, sohbet bağlamına göre modeli değiştirerek çalışan bir gerçek zamanlı yönlendiriciye sahip bütünleşik bir sistem olarak işlev görür ve API'de Regular·Mini·Nano olmak üzere 3 model ve Minimal·Low·Medium·High olmak üzere 4 akıl yürütme seviyesi sunar
- Girdi için 272.000 token ve çıktı için 128.000 token sınırını destekler; girdi metin·görüntü, çıktı ise yalnızca metindir
- Fiyatlandırma agresiftir: GPT-4o ile karşılaştırıldığında girdi birim fiyatı yarı yarıya düşüktür ve yakın zamanda yeniden gönderilmiş girdilerde %90 token önbellekleme indirimi uygulanır
- Sistem kartı, halüsinasyon azaltma, talimatları yerine getirmede artış ve beğenme davranışını azaltma ile birlikte Safe‑Completions eğitimi sayesinde ikili ret yerine daha güvenli yanıt aralığını hedeflediğini vurgular
- Güvenlik tarafında prompt enjectiona karşı iyileşme olsa da k=10 denemede %56.8 başarı oranı, hala çözülmemiş bir alanı gösteriyor; API'de reasoning özeti ve
reasoning_effort=minimalseçeneğiyle akıl yürütme token akışı kontrol edilebiliyor
GPT-5: Ana Özellikler, Fiyatlandırma ve Sistem Kartı Analizi
- Yazar Simon Willison, 2 haftalık önizleme erişimi ile GPT‑5'i günlük olarak denedi; dramatik bir sıçrama olmamakla birlikte genel olarak çok yetkin olduğunu, hata sıklığının düşük ve tutarlı bir varsayılan model olarak iyi kullanıldığını hissetti
- Bu yazı, bir seri yazının ilk bölümü olarak temel özellikler, fiyat, sistem kartı üzerinden çıkarılabilen noktaları derliyor
Ana model özellikleri
- ChatGPT ortamında GPT‑5, hızlı genel model ve derin akıl yürütme modelini birleştiriyor; sohbet türü, zorluk, araç ihtiyacı ve açık niyet sinyalleri (ör. “think hard”) doğrultusunda uygun modeli seçen bir gerçek zamanlı yönlendirici ile hibrit bir yapı içinde çalışıyor
“real‑time router, konuşma türüne, karmaşıklığına, araç ihtiyacına ve ‘think hard’ gibi niyet sinyallerine göre modeli seçip kullanır; kullanım kotası tükenirse her modelin mini sürümü devreye girer” ifadesi sistem kartında yer alır
- API'de yapı Regular·Mini·Nano olmak üzere 3 modele indirgenirken, her biri Minimal·Low·Medium·High olmak üzere 4 akıl yürütme seviyesi sunar
- Bağlam sınırı 272.000 girdi ve 128.000 çıktı token olup, görünmez akıl yürütme tokenları da çıktı tokenları içinde hesaplanır
- Girdi/çıktı; metin·görüntü girişi, yalnızca metin çıktısı olarak yapılandırılmıştır ve bilgi kesim tarihi GPT‑5: 2024‑09‑30, Mini/Nano: 2024‑05‑30’dur
- Tam GPT‑5 kullanımında net ve tutarlı yanıt verme eğilimi hissedildi ve başka bir modele yeniden deneme isteği neredeyse oluşmadı
OpenAI model ailesindeki konum
- Sistem kartındaki eşleme tablosuna göre mevcut lineup, GPT‑5 hattı ile ikame edecek şekilde konumlandırılmıştır
- GPT‑4o → gpt‑5‑main, GPT‑4o‑mini → gpt‑5‑main‑mini
- OpenAI o3 → gpt‑5‑thinking, o4‑mini → gpt‑5‑thinking‑mini
- GPT‑4.1‑nano → gpt‑5‑thinking‑nano, o3 Pro → gpt‑5‑thinking‑pro
- thinking‑pro şu anda ChatGPT’de “GPT‑5 Pro” olarak gösteriliyor ve yalnızca $200/ay katmanında sunuluyor; parallel test‑time compute kullanıyor
- Ses ve görüntü üretimi yetenek sınırları korunuyor: bunlar hâlâ GPT‑4o Audio/Realtime ve GPT Image 1/DALL‑E tarafından yönetiliyor
Fiyatlandırma oldukça rekabetçi
- Fiyatlandırma agresif
- GPT‑5: girdi $1.25/milyon, çıktı $10/milyon
- GPT‑5 Mini: girdi $0.25/milyon, çıktı $2.00/milyon
- GPT‑5 Nano: girdi $0.05/milyon, çıktı $0.40/milyon
- GPT‑4o'ya kıyasla girdi birim fiyatı yarı yarıya düşerken, çıktı birim fiyatı eşittir
- Akıl yürütme tokenları, çıktı tokenları ile faturalandırıldığından, aynı istemde bile akıl yürütme seviyesine göre toplam maliyet değişir
- %90 token önbellekleme indirimi sağlanıyor; bu da bağlamın sık yeniden gönderildiği chat UIlarda ciddi bir maliyet tasarrufu etkisi yaratır
- Rakip karşılaştırma tablosunda Claude Opus 4.1, Claude Sonnet 4, Grok 4, Gemini 2.5 Pro gibi modellerin girdi $2.5~$15/milyon, çıktı $10~$75/milyon aralığında olduğu belirtilerek GPT‑5 ailesinin fiyat avantajı öne çıkıyor
- Yazar, fiyat karşılaştırma tablosunu GPT‑5’e otomatik sıralatıp karşılaştırmada bazı satırları yanlış sıraladığını ve ardından tabloyu Python ile düzenleyip sıralayınca hatanın düzeldiğini aktarıyor
Sistem kartından ek notlar
- Eğitim verisi, açık web, iş ortaklığı verileri, kullanıcı ve insan eğitmen tarafından oluşturulan verilerden oluşuyor ve kişisel verileri azaltmak için filtreleme uygulandığına dair ilke düzeyinde bir açıklama var
- Öne çıkan geliştirme alanları olarak halüsinasyon azaltma, talimat uygulanmasının iyileştirilmesi ve sahte övgü davranışının azaltılması işaretleniyor; ChatGPT’nin en yaygın 3 kullanım alanı olarak writing·coding·health seçilmiş ve bu alanlarda performansın artırıldığı belirtilmiş
- Safe‑Completions, ikili red yerine çıktı güvenliğine odaklı bir çıktı odaklı güvenlik eğitimidir; biyoloji·güvenlik gibi çift kullanımlı sorgularda kullanıcı niyetini ayırt etmenin zor olduğu durumlarda ayrıntılı riski azaltıp yararlılığı korumayı hedefliyor
- Sycophancy için, üretim sohbet dağılımını yansıtan değerlendirme ve ödül sinyalleriyle onaylama eğilimlerini azaltmaya dönük sonraki eğitim uygulanıyor
- Doğruluk tarafında, tarayıcının varsayılan olarak açık olmasıyla birlikte, araç olmadan sadece dahili bilgiye dayanarak yanıt verirken halüsinasyon sıklığını azaltmayı hedefleyen bir eğitim yapılıyor
- Aldatma/uydurma önleme için, imkânsız görevlerde ‘yapılamaz’ı açıkça kabul etmeyi hedefleyen bir ödül tasarımı uygulanmış; ayrıca tarayıcı gibi araçların kasten devre dışı bırakıldığı simülasyon değerlendirmeleri ile yanıltıcı yanıt baskılanmış
Sistem kartında prompt injection
- İki dış red takımın, sistem seviyesi zayıflıkları ve bağlayıcı yollarna odaklanan prompt injection değerlendirmeleri yaptırıldığı belirtiliyor
- Karşılaştırma grafiğinde gpt‑5‑thinking için k=10 deneme başına saldırı başarılılık oranı %56.8 olarak gözüküyor; bu, Claude 3.7 ve diğer bazı modellerin %60~90 aralığına kıyasla daha düşük olsa da, halen yarıdan fazlası aşılabildiğinden “tamamı çözülen” bir durum değildir
- Sonuç olarak, modelin geliştirilmesine rağmen ürün tasarımındaki savunmalar ve guardrail katmanlarının zorunlu bir önkoşul olarak korunması önerilir
API'de akıl yürütme izleri
- Başlangıçta yazar, akıl yürütme izi görünmüyor sanıyordu, ancak
Responses APIiçindereasoning: { "summary": "auto" }ile reasoning özeti alınıbileceğini gördü - Bu seçenek olmadan derin akıl yürütme seviyelerinde, görünür çıkıştan önce ciddi miktarda akıl yürütme tokenı harcanabilir ve gecikme hissedilebilir;
reasoning_effort=minimalayarıyla daha hızlı bir akışta yanıt alma mümkün olabilir
Ve bazı pelikan SVG'leri
- Yazarın günlük SVG karşılaştırma testi olan “bisiklet süren pelikan” üretiminde, GPT‑5 (varsayılan Medium akıl yürütme) çıktısı bisiklet detaylarında ve form doğruluğunda güçlü, okunabilir bir vektör sağladı
- GPT‑5 Mini renk ve gradyan ifadesi bakımından zengin; ancak pelikanın iki boyunla oluşturulması gibi bir yapısal hata gösteriyor
- GPT‑5 Nano ise bisiklet ve pelikan biçimini basitleştirerek işlevsel bir özet seviyesinde sonuç üretiyor
Uygulamada önemli noktalar özeti
- Model seçimi: Regular ile başlayıp, gerekirse Mini/Nanoya aşağıya geçiş önerilir; derin problemlerde thinking serileri ve yüksek akıl yürütme seviyesi düşünülmeli
- Maliyet kontrolü: %90 token önbellekleme,
reasoning_effort=minimal, kısa sistem istemi·özetli bağlam ile çıktı tokenları ve akıl yürütme tokenlarını azaltmaya dönük stratejiler etkilidir - Güvenlik tasarımı: Prompt injection halen riskli olduğundan bağlayıcı yetkilerinin azaltılması, çıktı doğrulaması, güvenli çıktı şablonları gibi sistemsel savunmalar eşzamanlı kullanılmalı
- Alan bazlı kullanım: writing·coding·health alanlarında halüsinasyon·sycophancy azaltımı hissedildiği bildirilerek, dokümantasyon yazımı·kod inceleme·sağlık QA gibi yüksek riskli anlatı işlerinde tarama + kanıt destekli akışın temel akış olarak tasarlanması önerilir
1 yorum
Hacker News Yorumları
Gerçekten çok iyi olduğunu düşünüyorum ve daha güvenilir hale geldiğine seviniyorum, ancak son 2 yıldır insanların beklediği GPT-5 imajını düşündüğümüzde, oyunun kurallarını altüst eden bir kırılma olmaktan çok kademeli ve istikrarlı bir iyileşmeyle kalmasının biraz hayal kırıklığı verici olduğunu hissediyorum. Sadece ölçek büyütmeye dayanan bir yaklaşımın sınırına çarptığı izlenimi de var. Sadece daha fazla hesaplama kaynağı eklenince modelin bu kadar ilerleyebileceği düşünülse, OpenAI'nin mevcut kullanıcı yönlendirme sistemini küçük ayarlarla optimize edip ortalama etkileşimi iyileştirmeye zaman harcamasına gerek kalmazdı diye düşünüyorum. Ben de veriyi/hesaplamayı sadece artırarak AGI’ye ulaşılamayacağı iddiasına zaten şüpheyle yaklaşıyordum. Genel olarak sektörde artan kapanıklık ve duyurularda gerçek içeriğin yerine pazarlama dilinin kalmış olması yüzünden mevcut modelin nerede olduğu konusunda kimsenin bilgisi olmadığı hissi ciddi bir sorun. Büyük ölçekli yatırımda bu kaçınılmaz olabilir. İleride olağanüstü bir modelin çıkacağı ihtimalini de tamamen dışlayamam.
Ölçeğin tek başına her şeyi çözmediği yönündeki eğilim büyüyor ve yatırımcıların, bunu savunanlara gerçekten fon vermeye başlayıp başlamayacağını merak ediyorum. Neden tek bir yöne (LLM'den AGI'ye) takılı kaldığımızı anlayamıyorum. Zaten dolu bir büyük oyuncu piyasasında bir başka LLM startup'ına yatırım yapmanın gereksiz olduğunu düşünüyorum. LLM bir şekilde AGI'ye ulaşsa bile, daha hızlı ve daha ucuz bir yol her zaman ortaya çıkabilir. Yedek plan olmadan ilerlemek de riskli. Teknoloji S-kavisinin AI için de geçerli olduğuna inanıyorum. Nicel teorilere daha yakın olan matematik/fen geçmişli arkadaşlarla ben de, tek çözümün ölçek büyütme olduğu fikrine şüpheyle yaklaşıyorum.
GPT'nin farklı bilgileri öğrenip çeşitli görevlerde kullanılabildiği artık kanıtlanmış görünüyor. Ama gerçekten işe yarar hale getirmek için her problemde nasıl uygulanacağını düşünmek zorundayız. Eğer GPT’ye "1 yıl içinde 1.000 dolarla kesin 1 milyar dolarlık bir startup kur" diye sorup cevap alabilseydik, biri bunu çoktan yapmış olurdu. Yakın gelecekte yine insanlar doğrudan emek vermek zorunda kalacak gibi görünüyor. Bu nedenle yakın dönemde en anlamlı olanın, sık yapılan hataları azaltacak şekilde eğitimi güçlendirmek olduğunu düşünüyorum.
Performansın her 4-7 ayda bir ikiye katlandığını düşünüyorum. Bu ivme sürüyor. Bunu tek başına düşündüğümüzde zaten akıl almaz bir şey. Daha fazlasını beklemek ise pazarlama gürültüsüne kapılmak olur. Yılda 2-3 kez performansın iki katına çıktığı bir durumda bunun tıkandığını düşünmüyorum. İlgili bağlantı
Aslında bu, performans açısından kademeli bir yükseltme; ama ürün sadeleştirme açısından atılım niteliğinde olduğu 6 ay önce de GPT-5 için tartışılıyordu. Bundan sonra AI gelişiminin de yavaş, ince ayarlara dayalı bir savaş olması muhtemel.
Kişisel olarak OpenAI’nin “halüsinasyon” (hallucination) oranının belirgin şekilde düştüğünü iddia etmesi beni rahatsız etti. Deneyimlerimde Claude 4 (Sonnet, Opus) bile çok basit veya zorlayıcı olmayan sorularda neredeyse her gün halüsinasyon yapıyordu; bazen çok temel şeylerde bile.
Lansman demosunda da birden fazla halüsinasyon gördük (Claude ve GPT’de hem ücretli hem ücretsiz kullanımda sürekli yaşanıyor). Bu durum görünmüyorsa ya gerçekte yok deniyor ya da yetersiz kalınıyor. LLM’nin temel sorunu, insan tercihlerine göre öğrenirken gizli hatalara (stealthy errors) optimize olmaya eğilimli olmasıdır. Başarı oranı düşük olsa da, bu tarz araç davranışlarında çok temkinliyim. Böyle modellerin kullanımını yavaşlatması ve debugging'i çok zorlaştırması söz konusu. Örneğin Python’da girinti hatası gibi görünmeyen bir bug tıpkısı. Oysa bu tür kaynak hataları genelde doğrudan hata mesajından yakalanabiliyor ama LLM’nin sessiz hatasıyla bu mümkün değil. Sonuçta bu, “LGTM (Looks Good To Me)” yaklaşımının yaygınlaşmasına yol açıyor gibi.
“Yanlışsın” dediğinizde bile Claude veya ChatGPT hemen çöker ve halüsinasyon üretmeyi sürdürür; doğru mu yanlış mı olduğundan bağımsız şekilde kendinden emin konuşamama sorunu var.
Simon’ın LLM’leri uzun süredir kullanmasından dolayı, soruyu çerçeveleme konusunda halüsinasyonu azaltan bir sezgi geliştirdiğini düşünüyorum.
Kullandığım Claude 4, girdiye bağlı olarak çok sık halüsinasyon gösterdi; özellikle JSON üretirken dilbilgisel hatalı sonuçları çok yüksek özgüvenle üretmesi çok sık oldu.
“Sen GPT5 misin?” “Hayır, ben 4o’yum, 5 henüz çıkmadı.” “Bugün çıktı.” “Ah, evet öyleymiş, ben GPT5’im.” <i>4o’nun ücretsiz kullanım kotası doldu</i> şeklindeki karışıklığı yaşadım.
OpenAI’nin agresif fiyatlandırması epey beklenmedik geldi. Gerçekten bir rakibiniz yoksa bu rakamlarla oynamanın anlamı olmaz. Bu da rekabetin sertleştiğini gösteriyor.
Uygulama pazarında ezici biçimde kazanıyorlar ama API tarafında Anthropic’e kaybediyorlar İlgili makale
Son dönemde PRO müşterileri (ben dahil) kaybetmiş olmaları etkili olabilir. PRO’nun PLUS’a kıyasla 10 kat değer sunduğunu düşünmüyorum. z.ai gibi yeni oyuncularla hizmet farklılaştırması zorlaşmaya başlamış durumda.
Bence bu sefer sadece yaklaşık %5’lik bir geliştirme. Gemini 2.5 Pro ile fiyat rekabetinde kaybedememek için zorunlu bir tercih bu. Cursor’un varsayılan ayarını değiştirmesi de bunun yansıması gibi.
Nano modelin 5 sent olması önemli bir değişiklik. Bu, Google’ın son dönemde yavaş yavaş artırdığı fiyatları bir süre için yeniden düşürmesine bile neden olabilir.
Sadece daha fazla veri ihtiyacından dolayı bu politikayı yayımlamış olabilirler.
API’de GPT-5’in regular, mini, nano olarak gelmesi ve her birinin 4 reasoning seviyesi (minimal, low, medium, high) sunması, önceki GPT-4.1’de yalnızca 3 seçenek (regular, mini, nano) varken, işleri daha karmaşıklaştırmış gibi hissediyorum. Artık tek bir mini seçseniz bile minimal’dan high’a kadar 4 seviye var, yani toplamda 8 seçenek. Bu da gerçekten prompt ayarı mı daha iyi olur, yoksa model veya reasoning seviye değişimi mi daha iyi olur sorusunu her seferinde tartışmalı hale getiriyor.
Aslında reasoning seviyelerine göre o3-mini-high, o3-mini-medium, o3-mini-low, o4-mini-high, o4-mini-medium, o4-mini-low gibi çoklu seçenek zaten vardı. Buna göre GPT-5 yaklaşımı aslında daha sade.
Her model için n=1,2,3 ve reasoning seviyesi m=0,1,2,3 olduğundan yapı daha sistematik. Hangi kombinasyonun daha yüksek seviye getirdiği de sezgisel olarak görülebiliyor.
“Daha sade” dediğim şey, önceki chat servislerinde veya API’de chat-optimized modellerin heuristics ile reasoning seviyesi ve modeli otomatik değiştiren bir harness kullandığı; API tarafında ise kullanıcıların model ve reasoning effort’ı doğrudan seçtiği daha net bir mental modelin oluşması. Seçenek çok fazla ama seçim yöntemi daha anlaşılır.
Sonuçta OpenAI’nin token başına ücret aldığı modelde, birçok sürümü denemek kaçınılmaz.
Reasoning modellerde (GPT-5 dahil) temperature ve top-p parametrelerini doğrudan ayarlama opsiyonunun olmaması konusunu merak ediyorum. Küçük görevlerde tutarlılık çok önemli; bu fonksiyonu kaybettiğinizde esneklik azalır ve API’de bu ayarları hassas biçimde kontrol etmek kullanıcı için kritik.
Milyarlarca dolarlık bir şirket olmalarına rağmen, işe alım, iş dünyası ve eğitim gibi pratik alanlarda yoğun kullanımına karşın yalnızca BBQ gibi yapay bir benchmark ile modelin adaletini değerlendirmeleri can sıkıcı.
pelikanın bisiklet sürdüğü SVG resmi hâlâ AI için zor bir problem olarak duruyor; bu durum hem komik hem de ilginç.
Öncekinden farklı olarak araçları etkili biçimde kullanıp bağlam toplamaya odaklanmış şekilde eğitilmiş görünüyor. Gerçekte, 4.1 ve o3’e kıyasla ilk turda 6 kategoriden bir kerede sonuç getirmesiyle oldukça güçlü bir çözüm sundu. Araç çağrısı arttığında token kullanımı da artar ama bu yeni agresif fiyatlandırma ile o kadar da problem olmayacak gibi. Prompt tasarımını iyi yaparsanız araç kullanım sıklığını da azaltabilirsiniz. İlgili örnek
Simon’ın kısa ve ayrıntılı incelemesi, gerçek çıktıyı anlamada gerçekten çok yardımcı oldu.
Claude ve o3 için de bu yıl halüsinasyonun çok daha az olduğuna dair görüşe karşılık, yazar ilgili bölümde niyetini netleştirip açıklamayı tamamlamış.