11 puan yazan GN⁺ 2025-08-08 | Henüz yorum yok. | WhatsApp'ta paylaş
  • GPT-5, ChatGPT’de hız, sadelik ve yanıt kalitesini büyük ölçüde iyileştirerek çoğu genel kullanıcı için en iyi model olarak değerlendiriliyor
  • API fiyatlandırmasında rakiplerine karşı güçlü bir fiyat avantajı sunuyor; özellikle GPT-5-mini, Google Gemini 2.5 Flash’tan daha ucuz ve GPT-5 Standard, Claude 4 Opus’tan 12 kat daha ucuz
  • Günlük işler, eşli programlama, araştırma ve hata ayıklama konularında çok başarılı olsa da ajanik programlama ve yazı kalitesi değerlendirmesi alanlarında sınırlamaları var
  • Ekip incelemesinde GPT-5’in tanımlı görevler, kod birleştirme, taslak hazırlama ve derin analiz konularında güçlü olduğu, ancak uzun süreli otonom çalışma ve yaratıcı büyük ölçekli geliştirmede eksik kaldığı görüldü
  • Benchmark testlerinde belirli problem çözme, uygulama özelliği geliştirme ve araştırma becerileri çok iyiydi; ancak oyunlar, UI tasarımı ve yazı tutarlılığı gibi alanlarda Opus 4.1 daha yüksek puan aldı

ChatGPT’de GPT-5

  • En belirgin özelliği hız; basit sorgulara anında yanıt veriyor, karmaşık isteklerde ise kendi kendine daha fazla zaman ayırarak daha derin yanıtlar sunuyor
  • Model seçme menüsü kaldırılmış ve otomatik geçiş (auto-switcher) yaklaşımı getirilmiş; isteğe göre çıkarım yapmayan ve akıl yürütmeli sürüm otomatik seçiliyor
    • Basit bilgi sorularında hızlı, çıkarım yapmayan sürüm kullanılıyor
    • Karmaşık üretim, kodlama ve analiz isteklerinde akıl yürütmeli sürüm kullanılıyor
  • Yanıtlar, yapılandırılmış alt başlıklar, boşluklar ve kalın yazı gibi okunabilirlik odaklı bir düzenle sunuluyor
  • Canvas içinde frontend uygulamaları tek seferde oluşturmak mümkün olsa da 1.000 satır kod sınırı ve bazı özellik kısıtlamaları var
  • reasoning modelinin ücretsiz ve varsayılan sunulması, kitlesel yapay zeka deneyiminin kalitesini yükseltiyor

API’de GPT-5

  • GPT-5-mini: 1 milyon giriş tokenı başına $0.25 → Google Gemini 2.5 Flash’tan ($0.30) daha ucuz
  • GPT-5 Standard: 1 milyon giriş tokenı başına $1.25 → Google Gemini 2.5 Pro ile aynı, Claude 4 Opus’un ($15) 1/12 fiyatı
  • Çıkış tokenı birim fiyatı o4-mini’den yüksek olsa da prompt uyumluluğu (steerability) çok güçlü olduğu için ayrıntılı yönergeler gerektiren işlerde avantaj sağlıyor
  • Fiyat/performans açısından API pazarında rakip kullanıcıları kendine çekme ihtimali yüksek

Ajanik mühendislik

  • Hassas backend işleri, hata ayıklama ve kod anlama konularında başarılı; ancak uzun süreli otonom kod yazımı ve büyük ölçekli frontend işlerinde verimsiz
  • Cursor ve Codex CLI, tam yetki devredilmiş (fully agentic) geliştirmeden çok eşli programlama odağıyla tasarlanmış
  • Claude Code’a kıyasla uzun soluklu görevlerde dayanıklılık ve otonomi eksik; iş hacmini işleme hızı daha düşük

Kullanım senaryolarına göre ayrıntılı değerlendirme

  • Günlük işler: Model seçmeye gerek kalmadan hızlı soru-cevap, araştırma gerektiren soruları da kapsamlı biçimde ele alma, halüsinasyon sıklığında azalma
  • Eşli programlama: Hata düzeltme, özellik geliştirme ve büyük kod tabanlarını anlamada çok başarılı; hem hız hem doğruluk yüksek
  • Yazı yazma: Yapay zekaya özgü cümle kalıpları azalmış, ifade çeşitliliği artmış; taslak hazırlamak için uygun, belirli bir üslup öğrenebiliyor
  • Ajanik mühendislik: Uzun vadeli projelerde ve otonom kod üretiminde sık sık duraklıyor, çıktı kalitesi düşük
  • Metin düzenleme: Yazı kalitesi değerlendirmesi ve cümle doğallığı yargısında tutarsız; güvenilirliği düşük

Ekip yuvarlak masa içgörüleri

  • Kieran Klaassen (Cora yöneticisi) : GPT-5, ayrıntılı yönergelerle yürüyen tekrar eden işler için uygun; Sonnet 3.5’in yerini alabilecek düzeyde
    > "GPT-5 tam olarak söylediğinizi yapıyor. Dikkatli, küçük adımlarla ilerliyor ve asla rotadan çıkmıyor — benim sorunum da bu. Kodlamada güçlü ama ajanik çalışmaya optimize edilmemiş. Daha geleneksel, yinelemeli geliştirme süreçlerinde, ‘Bu iyi oldu, şimdi şunu yap’ dediğinizde yönetmesi kolay. Ama bu, 2024’te yapay zeka ile çalışma biçimiydi. GPT-5 geleceğe sıçrama değil, Sonnet 3.5 katili."
  • Danny Aziz (Spiral yöneticisi) : Karmaşık kod birleştirme gibi kapsamı tanımlı işler için ideal; uzun süreli inceleme ve büyük ölçekli analizlerde Claude’u tercih ediyor
    > "GPT-5 ile yaşadığım sihirli an, iki karmaşık kod tabanını birleştirdiğim zamandı. Kullandığım açık kaynak framework istediğim özelliği sunmayınca, başka bir framework’ün kodunu birleştirmesini istedim. Tek seferde bitmedi ama birlikte hedefe yaklaşan bir işbirliği hissi verdi. Açık ve iyi tanımlanmış kodlama işlerinde GPT-5’i severek kullanıyorum. Kod incelemesi gibi uzun ajanik işlerde hâlâ Claude Code kullanıyorum ama tıkandığımda ya da derin düşünmek istemediğimde GPT-5 beni hedefe ulaştırıyor."
  • Alex Duffy (yapay zeka eğitim lideri) : Ücretsiz kullanıcılar için GPT-4o’ya göre büyük bir yükseltme; büyük veri işleme ve yapılandırılmış görevlerde güçlü
    > "Tüketici tarafında GPT-5, GPT-4o’ya göre net bir yükseltme. Ücretsiz kullanıcıysanız farkı ciddi biçimde hissedersiniz. İleri düzey kullanıcılar hâlâ o3 veya Opus gibi özel araçları kullanabilir, ancak geliştiriciler için GPT-5’in değeri güvenilir olması ve promptlara iyi uyması. Özellikle büyük miktarda bilgiyi yüksek kalitede özetleme ve düzenleme işlerinde uygun. Çıkış tokenı fiyatı o4-mini’den pahalı ama yönergelere uyumu da o kadar güçlü. GPT-5-mini, Flash ile fiyat açısından yarışabilir; hız da yeterliyse gerçek bir sürpriz oyuncu olabilir."
  • Naveen Naidu (EIR) : 4 gündür çözülemeyen uygulama donma hatasını GPT-5 ile işbirliği yaparak çözdü
    > "Geliştirdiğim AI dikte uygulaması ‘Monologue’da uygulamanın donmasına yol açan hatayı 4 gün boyunca bulamadım. Pazar günü yalnızca Claude Code ile 4 saat uğraşmama rağmen başarısız oldum. GPT-5 ile ise adeta bir iş arkadaşıyla çalışır gibi sorunun hangi bölümde olduğunu izledik ve sonunda doğru hatayı bulduk."
  • Katie Parrott (yazar ve yapay zeka operasyon lideri) : İlk taslak yazımında Opus’tan daha memnun kaldı; röportaj ve soru tasarımında güçlü, vibe coding’de ise verimsiz
    > "Yazı yazarken GPT-5’i kullanıp taslağı ilk metne dönüştürdüm ve sonuç iyiydi. Birkaç prompt ile Every’nin stilini öğrettikten sonra ‘bir Atlantic makalesi ile popüler bir Hacker News gönderisinin kesişimi’ tarzını istedim ve güçlü bir çıktı aldım. Yapay zeka metinlerinde sık görülen ‘It’s not just X, but Y’ gibi klişe kalıplar azalmıştı. Röportaj yaparken de soruların iskeletini iyi kurdu. İlk taslak hazırlamada Opus yerine GPT-5’ten daha memnun kaldım.
    > Ama Codex’te vibe coding yaparken daha verimsizdi. Görevleri yalnızca küçük parçalara bölerek ele almak istiyor, her seferinde ‘devam et’e basmam gerekiyordu. Claude gibi bir sonraki adım planını da açıklamıyordu."
  • Yash Poojary (Sparkle yöneticisi): Swift kodlamada hayal kırıklığı yaratsa da karmaşık teknik analiz, tasarım ve trade-off değerlendirmesinde en iyisi
    > "Benim için yalnızca Swift önemli. GPT-5 ilk başta etkileyici değildi. Ancak belirli ayar promptları verince kullanışlı hale geldi. Yine de Swift kodlamada Claude’un yerini alacak seviyede değildi.
    > Ama saf araştırma için en iyisiydi. Örneğin Mac’te yinelenen dosyaları nasıl bulabileceğimi sorduğumda, şimdiye kadar gördüğüm en teknik olarak hassas yapay zeka analizini verdi. Sanki IQ’su 140 olan bir sistem mimarı sistemi üç kez kurmuş ve öğrendiği tüm dersleri anlatıyordu. Saf uygulama için Claude kullanırım ama derin bağlam, trade-off analizi ve tasarım tartışmalarında GPT-5’i kullanırım."
  • Dan’s mom (genel kullanıcı bakışı) : Bilgi miktarı, okunabilirlik ve akış açısından şimdiye kadarki en iyi ChatGPT yanıtlarından biri olarak değerlendirdi
    > "Bu model gerçekten inanılmaz. Şimdiye kadar ChatGPT’de aldığım yanıtlardan çok daha kapsamlı. Bilgiler rahat okunuyor ve akışı çok düzgün. Bu model tam bir altın madeni."

Benchmark ayrıntılı sonuçları

  • Yazı değerlendirmesi: Aynı metinde bile sonuç tutarlılığı zayıf; Opus’a kıyasla güvenilirlik düşük
  • Tek seferde oyun üretimi: Kararlı biçimde çalışıyor ama yaratıcılık ve eğlence tarafı zayıf; Opus 4.1 daha iyi değerlendirildi
  • AI Diplomacy: Varsayılan prompt performansı düşük ama optimize edilmiş yönergelerle Flash ile başa baş; steerability öne çıkıyor
  • İmkânsız bulmaca: 1 dakika 10 saniyede çözdü; o3’e kıyasla açık ara daha hızlı
  • Tek seferde müzik uygulaması üretimi: GarageBand benzeri işlevler oluşturdu, UI sade kaldı; tasarımda Opus 4 tercih edildi
  • Diğer testler: Pelican on a bicycle ve thup benchmarklarında Claude ile karakter farkı belirgin

Henüz yorum yok.

Henüz yorum yok.