GPT-4.5: "Frontier bir model değil" mi?

(interconnects.ai)

2 puan yazan GN⁺ 2025-03-03 | 2 yorum | WhatsApp'ta paylaş

GPT-4.5’in duyurulmasıyla birlikte OpenAI önce modelin sistem kartını yayımladı
İlk sistem kartında "GPT-4.5 is not a frontier model" (GPT-4.5 frontier bir model değildir) ifadesi yer alıyordu
- Daha sonra resmi blog gönderisinden ve güncellenmiş sistem kartından bu ifade kaldırıldı
OpenAI’de birileri belli ki bu ifadeyi ekleme gereği hissetti. Ama "OpenAI bunu neden yayımladı?"
Frontier model olmadığı iddiasındaki temel çelişki, GPT-4.5’in genel kamuoyunun test edebileceği en büyük model olması
- Bu ölçekte bir modele büyütmek, ölçtüğümüz yeteneklerde belirgin bir sıçrama yaratmıyor
- GPT-3.5 → GPT-4 geçişi orta halli (Okay) seviyeden iyiye (Good) geçişti
- GPT-4o → GPT-4.5 değişimi ise harikadan (Great) gerçekten harikaya (Really Great)
En yeni modeller arasındaki farkları anlamak çok zor olduğu için, yapay zekaya yatırım yapan ve ilerleme bekleyen kişiler bunun gerçekte olduğundan daha iyi olduğunu sanabilir
Beklenen büyüklükte bir performans artışı olmadan, ölçeklemenin ekonomik sınırlarının netleştiği bir noktadayız
- Anthropic de benzer sorunlar yaşıyor; Claude 3.7’den sonra çok daha büyük modeller eğiteceği doğrulandı
GPT-4.5, kademeli ilerlemeyi gösteren bir model; önceki dönemdeki çığır açıcı sıçramalardan farklı
- Bu, yapay zeka araştırmalarında "yalnızca ön eğitim ölçeğini büyütmenin artık önceki düzeyde yenilik üretmediğini" gösteriyor
- OpenAI’nin GPT-4.5’i uzun süredir içeride kullandığı ve GPT-4.5 tabanlı başka modelleri eğitmek için kullanmış olma ihtimalinin yüksek olduğu anlaşılıyor (cutdate’in 2023 görünmesine bakılırsa)

GPT-4.5’in iyi olduğu taraf ne?

(Bunlar GPT-4.5 ve GPT-4o’nun parametre sayısına dair bazı tahminler; sızıntıya dayanmıyorlar, dolayısıyla hata payı yüksek olabilir)
GPT-4.5 çok büyük bir model ve muhtemelen Grok 3’ten daha büyük
- GPT-4, toplamda 1 trilyon (1T) üzeri parametreye sahip bir uzmanlar karışımı (MoE) modeliydi; aktif parametrelerin yaklaşık 200B olduğu tahmin ediliyordu
- Söylentilere göre GPT-4o veya Gemini Pro gibi modellerde aktif parametre sayısı 60B seviyesine kadar düştü
- Yani son dönemde modeller, aktif parametreleri azaltıp altyapıyı optimize ederek hız ve maliyeti iyileştirme yönünde gelişiyor
GPT-4.5’in, GPT-4’e kıyasla yaklaşık 10 kat daha fazla hesaplama (10X compute) gerektirdiği tahmin ediliyor
- 5 kat daha fazla parametre + 2 kat daha büyük veri kümesi = 10 kat hesaplama artışı
- Toplam parametre sayısı 5-7 trilyon (5T-7T) düzeyine ulaşabilir; aktif parametrelerin ise yaklaşık 600B olması bekleniyor
Reklam
Ancak bu kadar ölçeklense bile performans artışını hissedebilmek zor.
Buradan sonra tablo epey tuhaflaşıyor. OpenAI’nin bu duyuruda öne çıkardığı 2 şey:
- Halüsinasyonun azalması: Modelin gerçeğe aykırı bilgi üretme sıklığını düşürmesi
- Duygusal zekanın artması: Bağlamı ve duyguları daha iyi anlayıp ifade edebilmesi
- Ama bu iki özellik nesnel olarak değerlendirilmesi zor nitelikler
Benchmark performansı (OpenAI’nin verdiği verilere göre)
- SimpleQA: Dünya bilgisi değerlendirmesinde GPT-4.5 büyük performans artışı gösteriyor
- PersonQA: Belirli kişilerle ilgili soru değerlendirmesinde de en yüksek performans
- GPQA (Google-proof QA): Bilgi araması yapmadan mantıksal akıl yürütmeyi ölçen metrikte de güçlü sonuçlar
Lansmandan hemen sonra yapay zeka uzmanları arasında GPT-4.5’in kullanmasının rahat olduğu ve daha iyi yazdığı yönünde görüşler çıktı
- Ancak kod ve teknik performans değerlendirmelerinde Claude 3.7, R1 gibi rakip modellere kıyasla orta seviyede bulundu
Yazım stili karşılaştırması (Karpathy’nin X (Twitter) anketi sonucu)
- GPT-4.5 vs. GPT-4o-latest: Kullanıcıların çoğu GPT-4o-latest’in yazım stilini daha çok tercih ediyor
- Neden? GPT-4o-latest’in daha önce Orion1 diye anılan bu yeni modelden distile edilmiş (distilled) bir model olma ihtimali yüksek; ayrıca boyutu çok daha küçük olduğu için yineleme hızında geceyle gündüz kadar fark var ve bu da sonradan eğitimin daha iyi yapılabilmesini sağlayabilir
Bütün bunlar, OpenAI’nin ChatBotArena sıralamasında yeniden 1 numaraya çıkmak için ödemesi gereken bedel
- GPT-4.5’in bunu başaracağı düşünülüyor ama sonuç henüz kesin değil
Yazarın önceden bizzat yaptığı denemeye göre, başta yavaş olduğu için rahatsız ediciydi ama güvenilirliği yüksek olduğundan kullanmayı sürdürmeye değer
- Ancak ekstra ücret ödeyip GPT-4.5 seçmek gerekmiyor; OpenAI’nin o1 Pro’su ve diğer ücretli hizmetler daha iyi fiyat/performans sunuyor

GPT-4.5’in fiyatı neden pahalı?

GPT-4 çıktığında fiyatı da oldukça yüksekti ve aslında GPT-4.5’e benziyordu
GPT-4.5’in ilk fiyatı şöyle:
- Girdi (Input): $75.00 / 1M token
- Önbelleğe alınmış girdi (Cached Input): $37.50 / 1M token
- Çıktı (Output): $150.00 / 1M token
- Yani önceki modellere göre çok daha yüksek bir fiyatla başladı
OpenAI’nin önceki modelleri de ilk başta pahalıydı, ancak zaman içinde önemli ölçüde ucuzlatıldıkları oldu
- GPT-4 (Mart 2023’te çıktı)
  - Başlangıçta 1 milyon girdi başına $30, 1 milyon çıktı başına $60 idi
  - 32K bağlam sürümü daha pahalıydı: girdi $60, çıktı $120
- GPT-4 Turbo (Kasım 2023’te çıktı)
  - Fiyat ciddi biçimde düşerek girdi $10, çıktı $30 seviyesine indi
- GPT-4o (Mayıs 2024’te çıktı)
  - Fiyat daha da düşüp girdi $2.5, çıktı $10 oldu ve GPT-4’e göre 10 kattan fazla ucuzladı
- Yani OpenAI, her yeni modelde fiyatı büyük ölçüde düşürme eğilimi gösteriyor
GPT-4.5’in şu anda pahalı fiyatlanmasının nedeni muhtemelen erken lansman döneminde yüksek marj koyulmuş olması
- OpenAI, modelin API’de kalmaya devam edeceğini garanti etmiyor; kullanıcı tepkisine bakıp karar vereceğini söylüyor
Pek çok uzman, Nvidia’nın yeni nesil GPU’su Blackwell çıktığında daha büyük modellerin daha verimli çalıştırılabileceğini ve maliyetlerin düşeceğini düşünüyor
GPT-4’ten GPT-4 Turbo’ya ve GPT-4o’ya geçerken fiyatların kademeli düşmesi gibi, GPT-4.5’in de ileride GPT-4.5 Turbo benzeri bir sürümle ucuzlama ihtimali yüksek

Ölçeklemenin geleceği

Dil modellerinde ölçekleme henüz ölmedi
- Ama bu duyurunun neden bu kadar tuhaf hissettirdiğine dönüp bakmak, yapay zekadaki ilerlemeyi değerlendirirken soğukkanlı kalmak açısından çok önemli
- Artık farklı ölçekleme türleri arasında artı ve eksilerin bulunduğu bir döneme girdik
Kısaca özetlemek gerekirse, "GPT-4.5 tuhaf ama zamanının ilerisinde"
- GPT-4.5 yalnızca modelin büyümesi değil, yeni ölçekleme yöntemlerine ihtiyaç duyulduğunun işareti
- Bu, yapay zekadaki ilerlemenin yalnızca model boyutunu büyütmekle (Scaling Up) yetmeyeceği, başka yöntemler gerektirdiği anlamına geliyor; ama bunu zaten akıl yürütme modellerindeki hızlı ilerlemeden biliyorduk
- GPT-4.5’in asıl etkisi, birden çok hattaki hızlı ilerlemenin birleşmesiyle ortaya çıkacak
DeepSeek’in R1 makalesi ve devamındaki RL araştırmaları, model büyüdükçe RL eğitiminin daha etkili hale geldiği sonucuna varıyor
- OpenAI’nin o4 modelinin de GPT-4.5 tabanlı bir akıl yürütme modeli kullanılarak eğitilmesi muhtemel
- OpenAI’nin mevcut modelleri, GPT-4.5 olmasaydı muhtemelen bu kadar iyi olmazdı
En geç 1 yıl içinde çoğu modelin GPT-4.5 ölçeğine ulaşması ve çok daha hızlı hale gelmesi bekleniyor
- Bu tür dengeli iyileştirmeler, daha fazla uygulamanın daha sağlam hale gelmesine yardımcı olacak
- OpenAI ve diğer yapay zeka laboratuvarlarındaki araştırmacılar, mevcut altyapı sınırlarını aşacak ölçekte modeller kurmaya çalışıyor
Frontier laboratuvarı, ölçeklemenin bütün yönlerindeki sınırları zorlamıyorsa yeterince risk almıyor demektir
- Modeli herkese açmak zorunda değiller ama OpenAI’nin bunu gerçekte neden yapmak istediğini tahmin etmeye değer
- Şu anda başka iç sistemlerde ve yakında başka dış ürünlerde de GPT-4.5’in kullanılması olası olduğundan, bu modeli yayımlamak bir dolambaç değil; bir sonraki aşamaya geçişin doğal bir adımı
GPT-4.5 frontier bir model ama lansmanı heyecan verici değil
- Yapay zekadaki ilerleme bedelsiz değil; ciddi emek gerektiriyor
- Asıl önemli olan GPT-4.5’in kendisi değil; bu model başka teknolojilerle birleştiğinde gerçek değerini gösterecek olması

2 yorum

doolayer 2025-03-03

Zaten birçok benchmark doygunluğa ulaşmışken kullanılabilirlik ya da halüsinasyonlar gibi konulara odaklanmak doğal bir akış gibi görünüyor.

GN⁺ 2025-03-03

Hacker News görüşleri

GPT 4.5 de 2023 Ekim'e kadar bilgi kesim tarihine sahip
- Bu modelin ön eğitimi muhtemelen en az 1 yıl önce tamamlandı
- OpenAI, Q-star/strawberry gibi diğer projelere odaklanmış olabilir
OpenAI'nin muhakeme modelleri beklendiği kadar güçlü olmayabilir
- Gemini 2.0 Flash, Grok 3, Sonnet 3.7 gibi güçlü, muhakeme-dışı modeller ortaya çıktı
- OpenAI dışarıdan bakıldığında bir şeyler yayımlama gereği hissetmiş olabilir
Fiyatlandırma biraz gizemli
- En yeni verimlilik hileleri olmayan eski bir modelin yansıması olabilir
- GPT-4.5, OpenAI'nin ne kadar ücret talep edebileceğini anlamasının bir yolu olabilir
GPT-4o'dan 4.5'e sıçrama büyük bir sıçrama değil
- Lüks ürün gibi fiyatlandırıldı ama lüks sayılacak bir karşılığı yok
GPT-4.5 karmaşık ve incelikli düşünceleri çok hızlı işleyebiliyor
- Diğer yapay zekalardan çok daha üstün
GPT-4.5 tuhaf yönlere sapmadan gerçekliğe bağlı kalıyor
- Ton tercihine iyi yanıt veriyor ve nüansları iyi anlıyor
Uzun vadede altyapıyı gelirleştirmek zor olabilir
- Kodlama API'sinde Claude 3.5/3.7'nin daha çok kullanılması muhtemel
- Kodlama dışı API'de Gemini 2.0 Flash daha ucuz ve daha iyi performanslı
- Abonelik uygulamasında ChatGPT hâlâ en iyisi ama Grok rekabet ediyor
GPT-4.5 "yaratıcı yazarlık"ta biraz daha iyi
- Anthropic, daha pratik sorunları çözen yeni modeller yayımladı
Görünüşe göre teknolojinin sınırlarına ulaşılıyor
İki cümlenin birbiriyle çelişip çelişmediğini düşünen bir görüş var
- Model boyutunu büyütmek net bir yetenek artışı sağlamadı
- GPT-4o'dan GPT-4.5'e sıçrama modeli harika hâle getirdi
Kimin gerçekten benchmark'lardaki son yüzdeyi önemsediği sorgulanıyor
- Benchmark'ların %100 doğru olduğunu varsaymak hata olabilir
Azure'daki tüm GPT4o modellerinin mayıs ayında kullanımdan kaldırılması planlanıyor
- Anthropic'e geçip geçmemeyi düşünüyorlar
- Yeni "o" modelinin çıkış zamanına dair bilgiye ihtiyaç var