OpenAI, GPT-4.1’i duyurdu

(openai.com)

3 puan yazan GN⁺ 2025-04-15 | 1 yorum | WhatsApp'ta paylaş

GPT-4.1, GPT-4.1 mini ve GPT-4.1 nano olmak üzere 3 model duyuruldu
GPT-4o’ya kıyasla genel olarak iyileştirilmiş performans sunuyor; özellikle kodlama, komut takibi ve uzun bağlam anlama alanlarında belirgin gelişme sağlıyor
Üç modelin tamamı en fazla 1 milyon token bağlam penceresini destekliyor; bu da onları büyük kod tabanları ve karmaşık belge analizi için uygun hale getiriyor
Daha düşük gecikme ve daha düşük maliyet ile birlikte güçlü performans sunuyor
Başlıca performans iyileştirmeleri
- Kodlama yeteneği: SWE-bench Verified’da %54,6 ile GPT-4o’ya göre +21,4 puan artış
- Komut takibi: MultiChallenge skoru %38,3 ile GPT-4o’dan +10,5 puan daha yüksek
- Çok modlu uzun bağlam anlama: Video-MME(long, no subtitles)’da %72,0, GPT-4o’ya göre +6,7 puan
GPT-4.1 model ailesinin özellikleri
- GPT-4.1 mini: GPT-4o’dan daha iyi zeka değerlendirme sonuçları, yarı gecikme süresi, %83 daha düşük maliyet
- GPT-4.1 nano: En düşük maliyet ve en düşük gecikme süresiyle yüksek performansı koruyor
GPT-4.5 Preview, 14 Temmuz 2025’te sona erecek; GPT-4.1 serisine geçiş öneriliyor
Görsel yetenekler (görüntü anlama ve çok modluluk)
- GPT-4.1 mini, görüntü tabanlı benchmark’larda GPT-4o’yu geride bırakıyor
- MMMU, MathVista, CharXiv gibi testlerde yüksek doğruluk
- Video-MME (30~60 dakikalık altyazısız videolara dair soru-cevap): %72,0 doğruluk
Fiyatlandırma politikası
- Tüm modeller duyuruldu ve kullanıma açık
- GPT-4.1, GPT-4o’dan ortalama %26 daha ucuz
- GPT-4.1 nano, en düşük maliyetli model
- Önbellekli girişlerde maliyet %75 indirimli, uzun bağlam için ek ücret yok
Model bazında fiyatlar
- GPT-4.1: 1 milyon token başına giriş $2.00, çıkış $8.00, ortalama maliyet yaklaşık $1.84
- GPT-4.1 mini: giriş $0.40, çıkış $1.60, ortalama $0.42
- GPT-4.1 nano: giriş $0.10, çıkış $0.40, ortalama $0.12
- Prompt cache indirimi mevcut %50’den %75’e kadar genişletildi
- Uzun bağlamlı istekler için ek ücret yok; yalnızca token kullanımı baz alınıyor

1 yorum

GN⁺ 2025-04-15

Hacker News görüşleri

ChatGPT kullanıcıları, farklı modeller arasında seçim yapmak zorunda kalmanın yarattığı kafa karışıklığını dile getiriyor
- 4o; web arama, Canvas kullanımı, Python sunucu tarafı değerlendirme ve görsel üretimi destekliyor ancak düşünce zinciri yok
- o3-mini; web arama, CoT ve Canvas destekliyor ancak görsel üretemiyor
- o1; CoT destekliyor ancak Canvas, web arama veya görsel üretimi yok
- Deep Research güçlü ancak ayda yalnızca 10 kez kullanılabildiği için neredeyse hiç kullanılmıyor
- 4.5 yaratıcı yazımda başarılı ancak istek sınırı var ve diğer özellikleri destekleyip desteklemediği bilinmiyor
- 4o "with scheduled tasks" neden bir araç değil de model olarak sunuluyor, bu sorgulanıyor
SWE-bench Verified, Aider Polyglot, maliyet, saniye başına çıktı token'ı ve bilgi kesim tarihi ay/yıl karşılaştırması
- Claude, Gemini, GPT-4.1, DeepSeek R1 ve Grok 3 Beta'nın performans ve maliyet karşılaştırması
- Farklı test ortamları ve düşünme düzeyleri içerebildiği için doğrudan karşılaştırma yapmak zor
OAI, GPT 4.1 için bir prompt rehberi yayımladı
- Modele kalıcılık kazandırmanın performans artışına yardımcı olduğu belirtiliyor
- JSON yerine XML veya arxiv 2406.13121 (GDM biçimi) kullanılması öneriliyor
- Prompt'un üstte ve altta konumlandırılması gerektiği söyleniyor
OpenAI'nin duyurusuna göre GPT-4.1, Claude Sonnet 3.7 ile yapılan kod inceleme üretimi karşılaşmalarının %55'inde daha iyi öneriler sundu
- GPT-4.1'in hassasiyet ve kapsamlılıkta öne çıktığı belirtiliyor
Sam, yakın tarihli bir Ted Talk'ta modellerin gelip geçici olduğunu ancak kendilerinin en iyi platform olmak istediğini söyledi
- Bunun büyük bir değişim gibi hissettirdiği ifade ediliyor
GPT-4.1'in karmaşık kod tabanlarında kullanım deneyimi paylaşıldı
- OpenAI'nin ilk ajan modeli gibi hissettirdiği söyleniyor
- Hâlâ geliştirilmesi gerekiyor ve araç çağrıları sık sık başarısız oluyor
- Claude'a kıyasla karmaşıklığı ele alma becerisi daha zayıf
- İstek çok karmaşık değilse verilen talimata sadık kalıyor
Uzun maksimum token destekli modellerin performansı için benchmark ihtiyacı dile getiriliyor
- Gemini modellerinde 200k sonrasında kalite düşüşü yaşandığı belirtiliyor
- Maksimum token sınırını artırmanın gerçekten faydalı olup olmadığı sorgulanıyor
Büyük yapay zeka araştırma laboratuvarları aynı anda birden fazla pazar savaşını yürütüyor
- Tüketici büyümesi, kurumsal iş yükleri, son teknoloji araştırmalar, muhakeme vaatleri ve DeepSeek tehdidine karşı yanıt gibi birçok cephede rekabet yaşanıyor
GPT-4.1'in, 164 yorum içeren bir Hacker News başlığını özetleme sonucu
- Komutları iyi takip ettiği değerlendiriliyor
- Toplam token maliyeti ve diğer modellerle karşılaştırmalar sunuluyor

OpenAI, GPT-4.1’i duyurdu

İlgili okumalar

1 yorum

Hacker News görüşleri