OpenAI, GPT‑5.4 Mini ve Nano'yu duyurdu

(openai.com)

3 puan yazan GN⁺ 2026-03-18 | 1 yorum | WhatsApp'ta paylaş

GPT‑5.4'ün performansını hızlı ve verimli bir formda sunuyor
GPT‑5.4 mini, kodlama·akıl yürütme·çok modlu anlama·araç kullanımı alanlarında GPT‑5 mini'ye kıyasla büyük ölçüde iyileştirildi ve hızı 2 katından fazla
GPT‑5.4 nano, en küçük ve en ucuz model olarak sınıflandırma·veri çıkarımı·sıralama·yardımcı kodlama işleri için uygun
Her iki model de gecikmenin (latency) kritik olduğu iş yüklerine göre tasarlandı; bu da onları tepki gerektiren kodlama yardımı veya gerçek zamanlı çok modlu uygulamalar için avantajlı kılıyor
Bu modeller, hız·maliyet·performans dengesini optimize eden hafif yapay zeka sistemleri kurmayı mümkün kılıyor

GPT‑5.4 mini ve nano'ya genel bakış

GPT‑5.4 mini ve nano, GPT‑5.4'ün küçük ve yüksek verimli sürümleri olarak, yüksek hacimli işleme ortamlarında hızlı yanıt vermek amacıyla tasarlandı
- mini, GPT‑5 mini'ye göre kodlama, akıl yürütme, çok modlu anlama ve araç kullanımında iyileştirmeler sunuyor
- nano, GPT‑5 nano'dan daha iyi performans veren en küçük ve en ucuz model
İki model de gecikmenin ürün deneyimini doğrudan etkilediği ortamlara (kodlama yardımı, alt ajanlar, ekran görüntüsü yorumlama, gerçek zamanlı görüntü üzerinden akıl yürütme vb.) göre optimize edildi
OpenAI, “en iyi model her zaman en büyük model değildir” diyerek hızlı yanıt verebilme ve istikrarlı araç kullanımı yeteneğini vurguluyor

Performans karşılaştırması

Başlıca benchmark'larda GPT‑5.4 mini, GPT‑5 mini'den daha yüksek puan aldı ve GPT‑5.4'e yakın performans gösterdi
- SWE‑Bench Pro: GPT‑5.4 57.7%, mini 54.4%, nano 52.4%, GPT‑5 mini 45.7%
- OSWorld‑Verified: GPT‑5.4 75.0%, mini 72.1%, nano 39.0%, GPT‑5 mini 42.0%
Terminal‑Bench 2.0, Toolathlon, GPQA Diamond gibi testlerde de mini, performansa kıyasla yüksek hız verimliliği gösteriyor
nano, hız ve maliyetin önemli olduğu ortamlarda en iyi maliyet verimliliğini sunuyor

Kodlama iş akışı

Her iki model de hızlı yineleme (iteration) gerektiren kodlama ortamları için uygun
- kod düzenleme, codebase keşfi, frontend üretimi, debugging döngüleri gibi işlerde düşük gecikmeyle çalışıyor
GPT‑5.4 mini, GPT‑5 mini'ye göre benzer gecikmede daha yüksek geçiş oranı (pass rate) elde ediyor ve GPT‑5.4 seviyesine yaklaşıyor
Codex ortamında büyük model planlama ve muhakemeyi yürütürken, mini ayrıntılı işleri paralel işleyen bir alt ajan rolü üstleniyor
- örnek: kod arama, büyük dosya inceleme, doküman işleme vb.
Bu yapı, küçük modellerin hız ve performansı arttıkça daha da faydalı hale geliyor

Bilgisayar kullanımı ve çok modlu işleme

GPT‑5.4 mini, bilgisayar kullanımıyla ilgili çok modlu görevlerde de güçlü performans gösteriyor
- karmaşık kullanıcı arayüzlerinin ekran görüntülerini hızla yorumlayarak görevleri yerine getirebiliyor
- OSWorld‑Verified'da GPT‑5.4'e yaklaşıyor ve GPT‑5 mini'yi açık farkla geride bırakıyor

Sunum şekli ve fiyatlandırma

GPT‑5.4 mini
- API, Codex ve ChatGPT'de kullanılabiliyor
- desteklenen özellikler: metin·görsel girdi, araç kullanımı, function calling, web·dosya arama, bilgisayar kullanımı, skills
- 400k context window, 1 milyon input token başına $0.75, 1 milyon output token başına $4.50
- Codex'te GPT‑5.4 kotasının yalnızca %30'unu kullanıyor ve basit kodlama görevlerini yaklaşık 1/3 maliyetle işleyebiliyor
- ChatGPT'de Free·Go kullanıcılarına “Thinking” özelliği olarak sunuluyor; diğer kullanıcılarda ise GPT‑5.4 Thinking için yedek model (fallback) olarak kullanılıyor
GPT‑5.4 nano
- yalnızca API üzerinden sunuluyor
- 1 milyon input token başına $0.20, 1 milyon output token başına $1.25

Ek benchmark ayrıntılı sonuçları

Kodlama
- SWE‑Bench Pro: GPT‑5.4 mini 54.4%, nano 52.4%
- Terminal‑Bench 2.0: mini 60.0%, nano 46.3%
Araç çağrısı
- MCP Atlas: mini 57.7%, nano 56.1%
- Toolathlon: mini 42.9%, nano 35.5%
- τ2‑bench(iletişim): mini 93.4%, nano 92.5%
Zeka değerlendirmesi
- GPQA Diamond: mini 88.0%, nano 82.8%
- HLE w/ tool: mini 41.5%, nano 37.7%
Çok modlu·görsel
- MMMUPro w/ Python: mini 78.0%, nano 69.5%
- OmniDocBench 1.5(no tools): mini 0.1263, nano 0.2419 (daha düşük daha iyidir)
Uzun bağlam
- Graphwalks BFS 0K–128K: mini 76.3%, nano 73.4%
- MRCR v2 8‑needle 64K–128K: mini 47.7%, nano 44.2%

Genel değerlendirme

GPT‑5.4 mini ve nano, hız·maliyet·performans dengesini en üst düzeye çıkaran hafif modeller olarak büyük ölçekli gerçek zamanlı uygulamalar için uygun
mini, alt ajan yapıları veya çok modlu sistemlerde kilit rol oynayabilirken, nano basit ve yüksek hacimli işler için verimli
OpenAI, bu iki modelle farklı ölçeklerde yapay zeka sistemlerini esnek biçimde kurmaya olanak tanıyan bir temel sunuyor

1 yorum

GN⁺ 2026-03-18

Hacker News yorumları

API üzerinden mevcut hızı kontrol ettim ve oldukça etkileyiciydi
GPT-5 Mini genelde 55~60 tokens/s, priority modunda ise yaklaşık 115~120 t/s idi; GPT-5.4 Mini ortalama 180~190 t/s, GPT-5.4 Nano ise yaklaşık 200 t/s seviyesindeydi
Karşılaştırma için Gemini 3 Flash yaklaşık 130 t/s (Gemini API), Vertex'te ise yaklaşık 120 t/s idi
Fiyatlara da bakınca Claude Opus 4.6'nın $5/$25, GPT-5.4'ün $2.5/$15, Gemini 3.1 Pro'nun ise $2/$12 şeklinde konumlandığını görüyoruz
- Sadece token/s yeterli değil. Gerçek API kullanım performansını anlamak için TTFT (ilk token bekleme süresi) ve toplam gecikmeye (latency) de bakmak gerekiyor
- Sadece hızlı olup düşünme aşaması (reasoning) uzunsa aslında daha yavaş olabilir. Token/s düşük olsa bile odaklı düşünüyorsa daha verimli olabilir
- Google kaynak veya maliyet açısından avantajlı gibi görünse de insanların neden GPT ya da Claude'u seçtiğini merak ediyorum
- Sadece çıktı hızı değil, prompt işleme hızı da ana sağlayıcılar bazında ölçülse iyi olurdu
- Düşük fiyatlı modellerin ücreti epey artmış. Eskiden rahattı ama artık yük olmaya başladı
Çeşitli modellerin pelikan görsellerini karşılaştıran bir grid paylaşıldı
- Muhtemelen artık bu tür görevler eğitim verisine dahil edilmiştir
- Bazı görseller kâbus gibi bir his veriyor ama bu yüzden daha çok hoşuma gidiyor
- Kişisel olarak en çok nano xhigh sürümündeki pelikanı beğendim
- Nano medium sanki sunucu yanarken üretilmiş gibi duruyor
GPT modelleri konuşma için iyi ama ajan türü işler (agentic work) tarafında deneyimim kötüydü
Hem yavaşlar hem de talimatları iyi anlamıyorlar. Aynı prompt ile başka modeller gayet iyi çalışıyor
- 5.4 Mini, ses uygulamaları için uygun olacak kadar hızlı ama talimat uygulama becerisi yetersiz. Qwen 3.5 9B'yi fine-tune etmeyi düşünüyorum
- Gemini 3.1 ve Claude Opus 4.6 eşiği geçti ama ChatGPT ailesi daha çok konuşma odaklı. Bağlamı korumaları zayıf olduğu için sonuç doğrulaması gerekiyor
- GPT 5.2 Codex bağlamı sık sık kaybediyor, Claude ise GitHub Copilot içinde çok daha doğal çalışıyor. GPT'nin basit refactoring için bile 20 dakikaya ihtiyacı oluyor
- 5.4 Pro ile veri analizi yaptım ama fazla yavaştı. Sonnet 4.6 çok daha hızlıydı. Çoğu iş için Haiku seviyesi bile yeterli
- Buna karşılık ben Codex'in en iyisi olduğunu düşünüyorum. Ancak fazla soğuk bir stile sahip olduğu için konuşmalar kısa kalıyor ve araya girmek zor oluyor
  Opus daha işbirlikçi ama bazen garip öneriler sunuyor. Codex prompt'u OpenCode deposunda yer alıyor
Bana göre küçük (mini) model sürümleri SOTA'dan daha anlamlı
Büyük modeller zaten yeterince iyi olduğu için farkı hissetmek zor, ama küçük modellerde sürüm değiştikçe kalite sıçraması büyük oluyor
Üstelik çok daha ucuz oldukları için gerçek hizmetlerde uygulamak daha kolay
- Gemini web uygulaması otomatik olarak Flash'a geçiyor; cevap tuhaflaştığında ya da mantık bozulduğunda bunu hemen fark ediyorum. Günlük kullanım için hâlâ yetersiz ama basit otomasyon için fazlasıyla iyi
- GPT 5.4, Svelte UI işlerinde zayıf; Gemini ise tartışmak yerine doğrudan uygulamaya geçme eğiliminde. Claude ise TypeScript'te any tipini fazla kullanıyor
- Karşılaştırma sonuçlarına göre 5 mini ile 5.4 mini arasındaki fark küçük, ancak 5.4 mini kararsız ama doğru cevap oranı yüksek
- Pratikte fiyatlar yükseliyor. GPT 5.4 mini, 5.0 mini'den yaklaşık 3 kat daha pahalı. Gemini 3.1 Flash Lite da öncekinden daha pahalı
- Açık modellere kıyasla o kadar ucuz da değiller ve zekâ seviyeleri de daha düşük. Gecikmeyi (latency) en aza indirmeniz gerekmiyorsa özellikle tercih etmek için pek neden yok
LLM değerlendirmelerinin neden hisle ('vibe check') yapıldığını sorguluyorum
Çoğu karşılaştırma sistematik deneylere değil, anlık testlere dayanıyor
- Bu sadece basit bir mühendislik problemi değil. Çünkü zekâ ve yetenek tanımı zaten eksik. Mevcut benchmark'ların kusuru çok
- Benchmark oluşturulunca “anlamsız” diye şikâyet geliyor ama hisle değerlendirme yapmak ondan çok daha kötü
- Açık değerlendirme setleri kısa sürede dark forest problemi yüzünden etkisizleşiyor. Öngörü güçleri de zayıf, bu yüzden gayriresmî yaklaşımı daha bilimsel ele almak daha iyi olabilir
- Hatta “hisle değerlendiriyoruz, hisle kod yazıyoruz” diye şaka da yapılıyor
Benchmark'lara göre GPT 5.4 Nano, çoğu alanda GPT-5 Mini'den daha iyi ama fiyatı ise tersine artmış
GPT 5 mini: girdi $0.25 / çıktı $2.00 → GPT 5.4 mini: girdi $0.75 / çıktı $4.50
- Model pahalanmış olsa da performans başına fiyat verimliliği iyileşti. Düşük performanslı modeli sürdürmek için neden azalmış olabilir
- Daha büyük bir model olduğu için sunum maliyetinin düşük olması beklenemez. Performans iyileştiyse pahalı olması doğal
OSWorld puanı ilginç. Mini %72.1, insan referansı %72.4 ile neredeyse aynı
Bu yüzden belirli bir başarısızlık senaryosu yoksa varsayılan olarak Mini kullanmakta sakınca olmayabilir
Ancak çoklu model pipeline içinde nano alt ajanı tüm mesaj geçmişini aynen aktarırsa “ucuz aşama”nın anlamı kalmıyor
Nano'nun hangi bağlam uzunluğundan sonra artık daha hızlı olmadığını gerçekten ölçen biri olup olmadığını merak ediyorum
- (Bu bot gibi görünüyor)
Benim benchmark'ımda da Nano, Mini'den daha iyi sonuç verdi
5.4 mini'de tutarlılık sorunu var ve temperature 0'da bile doğru ve yanlış cevaplar karışık geliyor
Karşılaştırma bağlantısına bakabilirsiniz
5.4 Mini'nin OSWorld puanı şaşırtıcı. Geçmişte modeller yavaş ve hatalı olduğu için gerçek zamanlı ajanlarda kullanılamıyordu ama artık mümkün görünüyor
- Bazıları OSWorld'ü “OpenClaw” diyerek küçümsüyor ama güvenli tam etkileşim değerlendirmesi olarak güçlü bir araç
  Örneğin Win32 uygulamalarıyla web sürümünün davranışını karşılaştırıp otomatik test oluşturabilirsiniz. Büyük ölçekte genişletildiğinde de maliyet açısından verimli
SWE-Bench'e göre 5.4 mini high, GPT 5.4 low ile doğruluk ve fiyat açısından benzer ama gecikme süresi (latency) daha uzun (254 saniye vs 171 saniye)
Basit işler için düşük effort seviyesiyle çalıştırmak maliyet tasarrufu açısından daha avantajlı. Ancak uzun bağlam işleme performansı hâlâ zayıf

OpenAI, GPT‑5.4 Mini ve Nano'yu duyurdu

GPT‑5.4 mini ve nano'ya genel bakış

Performans karşılaştırması

Kodlama iş akışı

Bilgisayar kullanımı ve çok modlu işleme

Sunum şekli ve fiyatlandırma

Ek benchmark ayrıntılı sonuçları

Genel değerlendirme

İlgili okumalar

1 yorum

Hacker News yorumları