Every’nin GPT-5 uygulamalı incelemesi

(every.to)

11 puan yazan GN⁺ 2025-08-08 | 1 yorum | WhatsApp'ta paylaş

GPT-5, ChatGPT’de hız, sadelik ve yanıt kalitesini büyük ölçüde iyileştirerek çoğu genel kullanıcı için en iyi model olarak değerlendiriliyor
API fiyatlandırmasında rakiplerine karşı güçlü bir fiyat avantajı sunuyor; özellikle GPT-5-mini, Google Gemini 2.5 Flash’tan daha ucuz ve GPT-5 Standard, Claude 4 Opus’tan 12 kat daha ucuz
Günlük işler, eşli programlama, araştırma ve hata ayıklama konularında çok başarılı olsa da ajanik programlama ve yazı kalitesi değerlendirmesi alanlarında sınırlamaları var
Ekip incelemesinde GPT-5’in tanımlı görevler, kod birleştirme, taslak hazırlama ve derin analiz konularında güçlü olduğu, ancak uzun süreli otonom çalışma ve yaratıcı büyük ölçekli geliştirmede eksik kaldığı görüldü
Benchmark testlerinde belirli problem çözme, uygulama özelliği geliştirme ve araştırma becerileri çok iyiydi; ancak oyunlar, UI tasarımı ve yazı tutarlılığı gibi alanlarda Opus 4.1 daha yüksek puan aldı

ChatGPT’de GPT-5

En belirgin özelliği hız; basit sorgulara anında yanıt veriyor, karmaşık isteklerde ise kendi kendine daha fazla zaman ayırarak daha derin yanıtlar sunuyor
Model seçme menüsü kaldırılmış ve otomatik geçiş (auto-switcher) yaklaşımı getirilmiş; isteğe göre çıkarım yapmayan ve akıl yürütmeli sürüm otomatik seçiliyor
- Basit bilgi sorularında hızlı, çıkarım yapmayan sürüm kullanılıyor
- Karmaşık üretim, kodlama ve analiz isteklerinde akıl yürütmeli sürüm kullanılıyor
Yanıtlar, yapılandırılmış alt başlıklar, boşluklar ve kalın yazı gibi okunabilirlik odaklı bir düzenle sunuluyor
Canvas içinde frontend uygulamaları tek seferde oluşturmak mümkün olsa da 1.000 satır kod sınırı ve bazı özellik kısıtlamaları var
reasoning modelinin ücretsiz ve varsayılan sunulması, kitlesel yapay zeka deneyiminin kalitesini yükseltiyor

API’de GPT-5

GPT-5-mini: 1 milyon giriş tokenı başına $0.25 → Google Gemini 2.5 Flash’tan ($0.30) daha ucuz
GPT-5 Standard: 1 milyon giriş tokenı başına $1.25 → Google Gemini 2.5 Pro ile aynı, Claude 4 Opus’un ($15) 1/12 fiyatı
Çıkış tokenı birim fiyatı o4-mini’den yüksek olsa da prompt uyumluluğu (steerability) çok güçlü olduğu için ayrıntılı yönergeler gerektiren işlerde avantaj sağlıyor
Fiyat/performans açısından API pazarında rakip kullanıcıları kendine çekme ihtimali yüksek

Ajanik mühendislik

Hassas backend işleri, hata ayıklama ve kod anlama konularında başarılı; ancak uzun süreli otonom kod yazımı ve büyük ölçekli frontend işlerinde verimsiz
Cursor ve Codex CLI, tam yetki devredilmiş (fully agentic) geliştirmeden çok eşli programlama odağıyla tasarlanmış
Claude Code’a kıyasla uzun soluklu görevlerde dayanıklılık ve otonomi eksik; iş hacmini işleme hızı daha düşük

Kullanım senaryolarına göre ayrıntılı değerlendirme

Günlük işler: Model seçmeye gerek kalmadan hızlı soru-cevap, araştırma gerektiren soruları da kapsamlı biçimde ele alma, halüsinasyon sıklığında azalma
Eşli programlama: Hata düzeltme, özellik geliştirme ve büyük kod tabanlarını anlamada çok başarılı; hem hız hem doğruluk yüksek
Yazı yazma: Yapay zekaya özgü cümle kalıpları azalmış, ifade çeşitliliği artmış; taslak hazırlamak için uygun, belirli bir üslup öğrenebiliyor
Ajanik mühendislik: Uzun vadeli projelerde ve otonom kod üretiminde sık sık duraklıyor, çıktı kalitesi düşük
Metin düzenleme: Yazı kalitesi değerlendirmesi ve cümle doğallığı yargısında tutarsız; güvenilirliği düşük

Ekip yuvarlak masa içgörüleri

Kieran Klaassen (Cora yöneticisi) : GPT-5, ayrıntılı yönergelerle yürüyen tekrar eden işler için uygun; Sonnet 3.5’in yerini alabilecek düzeyde

"GPT-5 tam olarak söylediğinizi yapıyor. Dikkatli, küçük adımlarla ilerliyor ve asla rotadan çıkmıyor — benim sorunum da bu. Kodlamada güçlü ama ajanik çalışmaya optimize edilmemiş. Daha geleneksel, yinelemeli geliştirme süreçlerinde, ‘Bu iyi oldu, şimdi şunu yap’ dediğinizde yönetmesi kolay. Ama bu, 2024’te yapay zeka ile çalışma biçimiydi. GPT-5 geleceğe sıçrama değil, Sonnet 3.5 katili."
Danny Aziz (Spiral yöneticisi) : Karmaşık kod birleştirme gibi kapsamı tanımlı işler için ideal; uzun süreli inceleme ve büyük ölçekli analizlerde Claude’u tercih ediyor

"GPT-5 ile yaşadığım sihirli an, iki karmaşık kod tabanını birleştirdiğim zamandı. Kullandığım açık kaynak framework istediğim özelliği sunmayınca, başka bir framework’ün kodunu birleştirmesini istedim. Tek seferde bitmedi ama birlikte hedefe yaklaşan bir işbirliği hissi verdi. Açık ve iyi tanımlanmış kodlama işlerinde GPT-5’i severek kullanıyorum. Kod incelemesi gibi uzun ajanik işlerde hâlâ Claude Code kullanıyorum ama tıkandığımda ya da derin düşünmek istemediğimde GPT-5 beni hedefe ulaştırıyor."
Alex Duffy (yapay zeka eğitim lideri) : Ücretsiz kullanıcılar için GPT-4o’ya göre büyük bir yükseltme; büyük veri işleme ve yapılandırılmış görevlerde güçlü

"Tüketici tarafında GPT-5, GPT-4o’ya göre net bir yükseltme. Ücretsiz kullanıcıysanız farkı ciddi biçimde hissedersiniz. İleri düzey kullanıcılar hâlâ o3 veya Opus gibi özel araçları kullanabilir, ancak geliştiriciler için GPT-5’in değeri güvenilir olması ve promptlara iyi uyması. Özellikle büyük miktarda bilgiyi yüksek kalitede özetleme ve düzenleme işlerinde uygun. Çıkış tokenı fiyatı o4-mini’den pahalı ama yönergelere uyumu da o kadar güçlü. GPT-5-mini, Flash ile fiyat açısından yarışabilir; hız da yeterliyse gerçek bir sürpriz oyuncu olabilir."
Reklam
Naveen Naidu (EIR) : 4 gündür çözülemeyen uygulama donma hatasını GPT-5 ile işbirliği yaparak çözdü

"Geliştirdiğim AI dikte uygulaması ‘Monologue’da uygulamanın donmasına yol açan hatayı 4 gün boyunca bulamadım. Pazar günü yalnızca Claude Code ile 4 saat uğraşmama rağmen başarısız oldum. GPT-5 ile ise adeta bir iş arkadaşıyla çalışır gibi sorunun hangi bölümde olduğunu izledik ve sonunda doğru hatayı bulduk."
Katie Parrott (yazar ve yapay zeka operasyon lideri) : İlk taslak yazımında Opus’tan daha memnun kaldı; röportaj ve soru tasarımında güçlü, vibe coding’de ise verimsiz

"Yazı yazarken GPT-5’i kullanıp taslağı ilk metne dönüştürdüm ve sonuç iyiydi. Birkaç prompt ile Every’nin stilini öğrettikten sonra ‘bir Atlantic makalesi ile popüler bir Hacker News gönderisinin kesişimi’ tarzını istedim ve güçlü bir çıktı aldım. Yapay zeka metinlerinde sık görülen ‘It’s not just X, but Y’ gibi klişe kalıplar azalmıştı. Röportaj yaparken de soruların iskeletini iyi kurdu. İlk taslak hazırlamada Opus yerine GPT-5’ten daha memnun kaldım.
Ama Codex’te vibe coding yaparken daha verimsizdi. Görevleri yalnızca küçük parçalara bölerek ele almak istiyor, her seferinde ‘devam et’e basmam gerekiyordu. Claude gibi bir sonraki adım planını da açıklamıyordu."
Yash Poojary (Sparkle yöneticisi): Swift kodlamada hayal kırıklığı yaratsa da karmaşık teknik analiz, tasarım ve trade-off değerlendirmesinde en iyisi

"Benim için yalnızca Swift önemli. GPT-5 ilk başta etkileyici değildi. Ancak belirli ayar promptları verince kullanışlı hale geldi. Yine de Swift kodlamada Claude’un yerini alacak seviyede değildi.
Ama saf araştırma için en iyisiydi. Örneğin Mac’te yinelenen dosyaları nasıl bulabileceğimi sorduğumda, şimdiye kadar gördüğüm en teknik olarak hassas yapay zeka analizini verdi. Sanki IQ’su 140 olan bir sistem mimarı sistemi üç kez kurmuş ve öğrendiği tüm dersleri anlatıyordu. Saf uygulama için Claude kullanırım ama derin bağlam, trade-off analizi ve tasarım tartışmalarında GPT-5’i kullanırım."
Reklam
Dan’s mom (genel kullanıcı bakışı) : Bilgi miktarı, okunabilirlik ve akış açısından şimdiye kadarki en iyi ChatGPT yanıtlarından biri olarak değerlendirdi

"Bu model gerçekten inanılmaz. Şimdiye kadar ChatGPT’de aldığım yanıtlardan çok daha kapsamlı. Bilgiler rahat okunuyor ve akışı çok düzgün. Bu model tam bir altın madeni."

Benchmark ayrıntılı sonuçları

Yazı değerlendirmesi: Aynı metinde bile sonuç tutarlılığı zayıf; Opus’a kıyasla güvenilirlik düşük
Tek seferde oyun üretimi: Kararlı biçimde çalışıyor ama yaratıcılık ve eğlence tarafı zayıf; Opus 4.1 daha iyi değerlendirildi
AI Diplomacy: Varsayılan prompt performansı düşük ama optimize edilmiş yönergelerle Flash ile başa baş; steerability öne çıkıyor
İmkânsız bulmaca: 1 dakika 10 saniyede çözdü; o3’e kıyasla açık ara daha hızlı
Tek seferde müzik uygulaması üretimi: GarageBand benzeri işlevler oluşturdu, UI sade kaldı; tasarımda Opus 4 tercih edildi
Diğer testler: Pelican on a bicycle ve thup benchmarklarında Claude ile karakter farkı belirgin

1 yorum

anveloper 2025-08-11

GPT-5 için çoğunlukla 10 saniyeden fazla düşünüp verdiği yanıtlar alıyorum. Bu kadarsa herhalde 3-4 kez daha soru sorardım diye düşünürken, bir yandan da o zaman daha fazla soru sormalıymışım hissi veriyor
Teknik olarak ne kadar üstün olduğundan emin değilim; bana sadece daha iyi sonuç üretmek için daha fazla zaman harcayan bir yöntem gibi görünüyor