- GPT‑5.4'ün performansını hızlı ve verimli bir formda sunuyor
- GPT‑5.4 mini, kodlama·akıl yürütme·çok modlu anlama·araç kullanımı alanlarında GPT‑5 mini'ye kıyasla büyük ölçüde iyileştirildi ve hızı 2 katından fazla
- GPT‑5.4 nano, en küçük ve en ucuz model olarak sınıflandırma·veri çıkarımı·sıralama·yardımcı kodlama işleri için uygun
- Her iki model de gecikmenin (latency) kritik olduğu iş yüklerine göre tasarlandı; bu da onları tepki gerektiren kodlama yardımı veya gerçek zamanlı çok modlu uygulamalar için avantajlı kılıyor
- Bu modeller, hız·maliyet·performans dengesini optimize eden hafif yapay zeka sistemleri kurmayı mümkün kılıyor
GPT‑5.4 mini ve nano'ya genel bakış
- GPT‑5.4 mini ve nano, GPT‑5.4'ün küçük ve yüksek verimli sürümleri olarak, yüksek hacimli işleme ortamlarında hızlı yanıt vermek amacıyla tasarlandı
- mini, GPT‑5 mini'ye göre kodlama, akıl yürütme, çok modlu anlama ve araç kullanımında iyileştirmeler sunuyor
- nano, GPT‑5 nano'dan daha iyi performans veren en küçük ve en ucuz model
- İki model de gecikmenin ürün deneyimini doğrudan etkilediği ortamlara (kodlama yardımı, alt ajanlar, ekran görüntüsü yorumlama, gerçek zamanlı görüntü üzerinden akıl yürütme vb.) göre optimize edildi
- OpenAI, “en iyi model her zaman en büyük model değildir” diyerek hızlı yanıt verebilme ve istikrarlı araç kullanımı yeteneğini vurguluyor
Performans karşılaştırması
- Başlıca benchmark'larda GPT‑5.4 mini, GPT‑5 mini'den daha yüksek puan aldı ve GPT‑5.4'e yakın performans gösterdi
- SWE‑Bench Pro: GPT‑5.4 57.7%, mini 54.4%, nano 52.4%, GPT‑5 mini 45.7%
- OSWorld‑Verified: GPT‑5.4 75.0%, mini 72.1%, nano 39.0%, GPT‑5 mini 42.0%
- Terminal‑Bench 2.0, Toolathlon, GPQA Diamond gibi testlerde de mini, performansa kıyasla yüksek hız verimliliği gösteriyor
- nano, hız ve maliyetin önemli olduğu ortamlarda en iyi maliyet verimliliğini sunuyor
Kodlama iş akışı
- Her iki model de hızlı yineleme (iteration) gerektiren kodlama ortamları için uygun
- kod düzenleme, codebase keşfi, frontend üretimi, debugging döngüleri gibi işlerde düşük gecikmeyle çalışıyor
- GPT‑5.4 mini, GPT‑5 mini'ye göre benzer gecikmede daha yüksek geçiş oranı (pass rate) elde ediyor ve GPT‑5.4 seviyesine yaklaşıyor
- Codex ortamında büyük model planlama ve muhakemeyi yürütürken, mini ayrıntılı işleri paralel işleyen bir alt ajan rolü üstleniyor
- örnek: kod arama, büyük dosya inceleme, doküman işleme vb.
- Bu yapı, küçük modellerin hız ve performansı arttıkça daha da faydalı hale geliyor
Bilgisayar kullanımı ve çok modlu işleme
- GPT‑5.4 mini, bilgisayar kullanımıyla ilgili çok modlu görevlerde de güçlü performans gösteriyor
- karmaşık kullanıcı arayüzlerinin ekran görüntülerini hızla yorumlayarak görevleri yerine getirebiliyor
- OSWorld‑Verified'da GPT‑5.4'e yaklaşıyor ve GPT‑5 mini'yi açık farkla geride bırakıyor
Sunum şekli ve fiyatlandırma
- GPT‑5.4 mini
- API, Codex ve ChatGPT'de kullanılabiliyor
- desteklenen özellikler: metin·görsel girdi, araç kullanımı, function calling, web·dosya arama, bilgisayar kullanımı, skills
- 400k context window, 1 milyon input token başına $0.75, 1 milyon output token başına $4.50
- Codex'te GPT‑5.4 kotasının yalnızca %30'unu kullanıyor ve basit kodlama görevlerini yaklaşık 1/3 maliyetle işleyebiliyor
- ChatGPT'de Free·Go kullanıcılarına “Thinking” özelliği olarak sunuluyor; diğer kullanıcılarda ise GPT‑5.4 Thinking için yedek model (fallback) olarak kullanılıyor
- GPT‑5.4 nano
- yalnızca API üzerinden sunuluyor
- 1 milyon input token başına $0.20, 1 milyon output token başına $1.25
Ek benchmark ayrıntılı sonuçları
- Kodlama
- SWE‑Bench Pro: GPT‑5.4 mini 54.4%, nano 52.4%
- Terminal‑Bench 2.0: mini 60.0%, nano 46.3%
- Araç çağrısı
- MCP Atlas: mini 57.7%, nano 56.1%
- Toolathlon: mini 42.9%, nano 35.5%
- τ2‑bench(iletişim): mini 93.4%, nano 92.5%
- Zeka değerlendirmesi
- GPQA Diamond: mini 88.0%, nano 82.8%
- HLE w/ tool: mini 41.5%, nano 37.7%
- Çok modlu·görsel
- MMMUPro w/ Python: mini 78.0%, nano 69.5%
- OmniDocBench 1.5(no tools): mini 0.1263, nano 0.2419 (daha düşük daha iyidir)
- Uzun bağlam
- Graphwalks BFS 0K–128K: mini 76.3%, nano 73.4%
- MRCR v2 8‑needle 64K–128K: mini 47.7%, nano 44.2%
Genel değerlendirme
- GPT‑5.4 mini ve nano, hız·maliyet·performans dengesini en üst düzeye çıkaran hafif modeller olarak büyük ölçekli gerçek zamanlı uygulamalar için uygun
- mini, alt ajan yapıları veya çok modlu sistemlerde kilit rol oynayabilirken, nano basit ve yüksek hacimli işler için verimli
- OpenAI, bu iki modelle farklı ölçeklerde yapay zeka sistemlerini esnek biçimde kurmaya olanak tanıyan bir temel sunuyor
1 yorum
Hacker News yorumları
API üzerinden mevcut hızı kontrol ettim ve oldukça etkileyiciydi
GPT-5 Mini genelde 55~60 tokens/s, priority modunda ise yaklaşık 115~120 t/s idi; GPT-5.4 Mini ortalama 180~190 t/s, GPT-5.4 Nano ise yaklaşık 200 t/s seviyesindeydi
Karşılaştırma için Gemini 3 Flash yaklaşık 130 t/s (Gemini API), Vertex'te ise yaklaşık 120 t/s idi
Fiyatlara da bakınca Claude Opus 4.6'nın $5/$25, GPT-5.4'ün $2.5/$15, Gemini 3.1 Pro'nun ise $2/$12 şeklinde konumlandığını görüyoruz
Çeşitli modellerin pelikan görsellerini karşılaştıran bir grid paylaşıldı
GPT modelleri konuşma için iyi ama ajan türü işler (agentic work) tarafında deneyimim kötüydü
Hem yavaşlar hem de talimatları iyi anlamıyorlar. Aynı prompt ile başka modeller gayet iyi çalışıyor
Opus daha işbirlikçi ama bazen garip öneriler sunuyor. Codex prompt'u OpenCode deposunda yer alıyor
Bana göre küçük (mini) model sürümleri SOTA'dan daha anlamlı
Büyük modeller zaten yeterince iyi olduğu için farkı hissetmek zor, ama küçük modellerde sürüm değiştikçe kalite sıçraması büyük oluyor
Üstelik çok daha ucuz oldukları için gerçek hizmetlerde uygulamak daha kolay
anytipini fazla kullanıyorLLM değerlendirmelerinin neden hisle ('vibe check') yapıldığını sorguluyorum
Çoğu karşılaştırma sistematik deneylere değil, anlık testlere dayanıyor
Benchmark'lara göre GPT 5.4 Nano, çoğu alanda GPT-5 Mini'den daha iyi ama fiyatı ise tersine artmış
GPT 5 mini: girdi $0.25 / çıktı $2.00 → GPT 5.4 mini: girdi $0.75 / çıktı $4.50
OSWorld puanı ilginç. Mini %72.1, insan referansı %72.4 ile neredeyse aynı
Bu yüzden belirli bir başarısızlık senaryosu yoksa varsayılan olarak Mini kullanmakta sakınca olmayabilir
Ancak çoklu model pipeline içinde nano alt ajanı tüm mesaj geçmişini aynen aktarırsa “ucuz aşama”nın anlamı kalmıyor
Nano'nun hangi bağlam uzunluğundan sonra artık daha hızlı olmadığını gerçekten ölçen biri olup olmadığını merak ediyorum
Benim benchmark'ımda da Nano, Mini'den daha iyi sonuç verdi
5.4 mini'de tutarlılık sorunu var ve temperature 0'da bile doğru ve yanlış cevaplar karışık geliyor
Karşılaştırma bağlantısına bakabilirsiniz
5.4 Mini'nin OSWorld puanı şaşırtıcı. Geçmişte modeller yavaş ve hatalı olduğu için gerçek zamanlı ajanlarda kullanılamıyordu ama artık mümkün görünüyor
Örneğin Win32 uygulamalarıyla web sürümünün davranışını karşılaştırıp otomatik test oluşturabilirsiniz. Büyük ölçekte genişletildiğinde de maliyet açısından verimli
SWE-Bench'e göre 5.4 mini high, GPT 5.4 low ile doğruluk ve fiyat açısından benzer ama gecikme süresi (latency) daha uzun (254 saniye vs 171 saniye)
Basit işler için düşük effort seviyesiyle çalıştırmak maliyet tasarrufu açısından daha avantajlı. Ancak uzun bağlam işleme performansı hâlâ zayıf