3 puan yazan GN⁺ 2025-04-15 | 1 yorum | WhatsApp'ta paylaş
  • GPT-4.1, GPT-4.1 mini ve GPT-4.1 nano olmak üzere 3 model duyuruldu
  • GPT-4o’ya kıyasla genel olarak iyileştirilmiş performans sunuyor; özellikle kodlama, komut takibi ve uzun bağlam anlama alanlarında belirgin gelişme sağlıyor
  • Üç modelin tamamı en fazla 1 milyon token bağlam penceresini destekliyor; bu da onları büyük kod tabanları ve karmaşık belge analizi için uygun hale getiriyor
  • Daha düşük gecikme ve daha düşük maliyet ile birlikte güçlü performans sunuyor
  • Başlıca performans iyileştirmeleri
    • Kodlama yeteneği: SWE-bench Verified’da %54,6 ile GPT-4o’ya göre +21,4 puan artış
    • Komut takibi: MultiChallenge skoru %38,3 ile GPT-4o’dan +10,5 puan daha yüksek
    • Çok modlu uzun bağlam anlama: Video-MME(long, no subtitles)’da %72,0, GPT-4o’ya göre +6,7 puan
  • GPT-4.1 model ailesinin özellikleri
    • GPT-4.1 mini: GPT-4o’dan daha iyi zeka değerlendirme sonuçları, yarı gecikme süresi, %83 daha düşük maliyet
    • GPT-4.1 nano: En düşük maliyet ve en düşük gecikme süresiyle yüksek performansı koruyor
  • GPT-4.5 Preview, 14 Temmuz 2025’te sona erecek; GPT-4.1 serisine geçiş öneriliyor
  • Görsel yetenekler (görüntü anlama ve çok modluluk)
    • GPT-4.1 mini, görüntü tabanlı benchmark’larda GPT-4o’yu geride bırakıyor
    • MMMU, MathVista, CharXiv gibi testlerde yüksek doğruluk
    • Video-MME (30~60 dakikalık altyazısız videolara dair soru-cevap): %72,0 doğruluk
  • Fiyatlandırma politikası
    • Tüm modeller duyuruldu ve kullanıma açık
    • GPT-4.1, GPT-4o’dan ortalama %26 daha ucuz
    • GPT-4.1 nano, en düşük maliyetli model
    • Önbellekli girişlerde maliyet %75 indirimli, uzun bağlam için ek ücret yok
  • Model bazında fiyatlar
    • GPT-4.1: 1 milyon token başına giriş $2.00, çıkış $8.00, ortalama maliyet yaklaşık $1.84
    • GPT-4.1 mini: giriş $0.40, çıkış $1.60, ortalama $0.42
    • GPT-4.1 nano: giriş $0.10, çıkış $0.40, ortalama $0.12
    • Prompt cache indirimi mevcut %50’den %75’e kadar genişletildi
    • Uzun bağlamlı istekler için ek ücret yok; yalnızca token kullanımı baz alınıyor

1 yorum

 
GN⁺ 2025-04-15
Hacker News görüşleri
  • ChatGPT kullanıcıları, farklı modeller arasında seçim yapmak zorunda kalmanın yarattığı kafa karışıklığını dile getiriyor

    • 4o; web arama, Canvas kullanımı, Python sunucu tarafı değerlendirme ve görsel üretimi destekliyor ancak düşünce zinciri yok
    • o3-mini; web arama, CoT ve Canvas destekliyor ancak görsel üretemiyor
    • o1; CoT destekliyor ancak Canvas, web arama veya görsel üretimi yok
    • Deep Research güçlü ancak ayda yalnızca 10 kez kullanılabildiği için neredeyse hiç kullanılmıyor
    • 4.5 yaratıcı yazımda başarılı ancak istek sınırı var ve diğer özellikleri destekleyip desteklemediği bilinmiyor
    • 4o "with scheduled tasks" neden bir araç değil de model olarak sunuluyor, bu sorgulanıyor
  • SWE-bench Verified, Aider Polyglot, maliyet, saniye başına çıktı token'ı ve bilgi kesim tarihi ay/yıl karşılaştırması

    • Claude, Gemini, GPT-4.1, DeepSeek R1 ve Grok 3 Beta'nın performans ve maliyet karşılaştırması
    • Farklı test ortamları ve düşünme düzeyleri içerebildiği için doğrudan karşılaştırma yapmak zor
  • OAI, GPT 4.1 için bir prompt rehberi yayımladı

    • Modele kalıcılık kazandırmanın performans artışına yardımcı olduğu belirtiliyor
    • JSON yerine XML veya arxiv 2406.13121 (GDM biçimi) kullanılması öneriliyor
    • Prompt'un üstte ve altta konumlandırılması gerektiği söyleniyor
  • OpenAI'nin duyurusuna göre GPT-4.1, Claude Sonnet 3.7 ile yapılan kod inceleme üretimi karşılaşmalarının %55'inde daha iyi öneriler sundu

    • GPT-4.1'in hassasiyet ve kapsamlılıkta öne çıktığı belirtiliyor
  • Sam, yakın tarihli bir Ted Talk'ta modellerin gelip geçici olduğunu ancak kendilerinin en iyi platform olmak istediğini söyledi

    • Bunun büyük bir değişim gibi hissettirdiği ifade ediliyor
  • GPT-4.1'in karmaşık kod tabanlarında kullanım deneyimi paylaşıldı

    • OpenAI'nin ilk ajan modeli gibi hissettirdiği söyleniyor
    • Hâlâ geliştirilmesi gerekiyor ve araç çağrıları sık sık başarısız oluyor
    • Claude'a kıyasla karmaşıklığı ele alma becerisi daha zayıf
    • İstek çok karmaşık değilse verilen talimata sadık kalıyor
  • Uzun maksimum token destekli modellerin performansı için benchmark ihtiyacı dile getiriliyor

    • Gemini modellerinde 200k sonrasında kalite düşüşü yaşandığı belirtiliyor
    • Maksimum token sınırını artırmanın gerçekten faydalı olup olmadığı sorgulanıyor
  • Büyük yapay zeka araştırma laboratuvarları aynı anda birden fazla pazar savaşını yürütüyor

    • Tüketici büyümesi, kurumsal iş yükleri, son teknoloji araştırmalar, muhakeme vaatleri ve DeepSeek tehdidine karşı yanıt gibi birçok cephede rekabet yaşanıyor
  • GPT-4.1'in, 164 yorum içeren bir Hacker News başlığını özetleme sonucu

    • Komutları iyi takip ettiği değerlendiriliyor
    • Toplam token maliyeti ve diğer modellerle karşılaştırmalar sunuluyor