- GPT-4.5’in duyurulmasıyla birlikte OpenAI önce modelin sistem kartını yayımladı
- İlk sistem kartında "GPT-4.5 is not a frontier model" (GPT-4.5 frontier bir model değildir) ifadesi yer alıyordu
- Daha sonra resmi blog gönderisinden ve güncellenmiş sistem kartından bu ifade kaldırıldı
- OpenAI’de birileri belli ki bu ifadeyi ekleme gereği hissetti. Ama "OpenAI bunu neden yayımladı?"
- Frontier model olmadığı iddiasındaki temel çelişki, GPT-4.5’in genel kamuoyunun test edebileceği en büyük model olması
- Bu ölçekte bir modele büyütmek, ölçtüğümüz yeteneklerde belirgin bir sıçrama yaratmıyor
- GPT-3.5 → GPT-4 geçişi orta halli (Okay) seviyeden iyiye (Good) geçişti
- GPT-4o → GPT-4.5 değişimi ise harikadan (Great) gerçekten harikaya (Really Great)
- En yeni modeller arasındaki farkları anlamak çok zor olduğu için, yapay zekaya yatırım yapan ve ilerleme bekleyen kişiler bunun gerçekte olduğundan daha iyi olduğunu sanabilir
- Beklenen büyüklükte bir performans artışı olmadan, ölçeklemenin ekonomik sınırlarının netleştiği bir noktadayız
- Anthropic de benzer sorunlar yaşıyor; Claude 3.7’den sonra çok daha büyük modeller eğiteceği doğrulandı
- GPT-4.5, kademeli ilerlemeyi gösteren bir model; önceki dönemdeki çığır açıcı sıçramalardan farklı
- Bu, yapay zeka araştırmalarında "yalnızca ön eğitim ölçeğini büyütmenin artık önceki düzeyde yenilik üretmediğini" gösteriyor
- OpenAI’nin GPT-4.5’i uzun süredir içeride kullandığı ve GPT-4.5 tabanlı başka modelleri eğitmek için kullanmış olma ihtimalinin yüksek olduğu anlaşılıyor (cutdate’in 2023 görünmesine bakılırsa)
GPT-4.5’in iyi olduğu taraf ne?
- (Bunlar GPT-4.5 ve GPT-4o’nun parametre sayısına dair bazı tahminler; sızıntıya dayanmıyorlar, dolayısıyla hata payı yüksek olabilir)
- GPT-4.5 çok büyük bir model ve muhtemelen Grok 3’ten daha büyük
- GPT-4, toplamda 1 trilyon (1T) üzeri parametreye sahip bir uzmanlar karışımı (MoE) modeliydi; aktif parametrelerin yaklaşık 200B olduğu tahmin ediliyordu
- Söylentilere göre GPT-4o veya Gemini Pro gibi modellerde aktif parametre sayısı 60B seviyesine kadar düştü
- Yani son dönemde modeller, aktif parametreleri azaltıp altyapıyı optimize ederek hız ve maliyeti iyileştirme yönünde gelişiyor
- GPT-4.5’in, GPT-4’e kıyasla yaklaşık 10 kat daha fazla hesaplama (10X compute) gerektirdiği tahmin ediliyor
- 5 kat daha fazla parametre + 2 kat daha büyük veri kümesi = 10 kat hesaplama artışı
- Toplam parametre sayısı 5-7 trilyon (5T-7T) düzeyine ulaşabilir; aktif parametrelerin ise yaklaşık 600B olması bekleniyor
- Ancak bu kadar ölçeklense bile performans artışını hissedebilmek zor.
- Buradan sonra tablo epey tuhaflaşıyor. OpenAI’nin bu duyuruda öne çıkardığı 2 şey:
- Halüsinasyonun azalması: Modelin gerçeğe aykırı bilgi üretme sıklığını düşürmesi
- Duygusal zekanın artması: Bağlamı ve duyguları daha iyi anlayıp ifade edebilmesi
- Ama bu iki özellik nesnel olarak değerlendirilmesi zor nitelikler
- Benchmark performansı (OpenAI’nin verdiği verilere göre)
- SimpleQA: Dünya bilgisi değerlendirmesinde GPT-4.5 büyük performans artışı gösteriyor
- PersonQA: Belirli kişilerle ilgili soru değerlendirmesinde de en yüksek performans
- GPQA (Google-proof QA): Bilgi araması yapmadan mantıksal akıl yürütmeyi ölçen metrikte de güçlü sonuçlar
- Lansmandan hemen sonra yapay zeka uzmanları arasında GPT-4.5’in kullanmasının rahat olduğu ve daha iyi yazdığı yönünde görüşler çıktı
- Ancak kod ve teknik performans değerlendirmelerinde Claude 3.7, R1 gibi rakip modellere kıyasla orta seviyede bulundu
- Yazım stili karşılaştırması (Karpathy’nin X (Twitter) anketi sonucu)
- GPT-4.5 vs. GPT-4o-latest: Kullanıcıların çoğu GPT-4o-latest’in yazım stilini daha çok tercih ediyor
- Neden? GPT-4o-latest’in daha önce Orion1 diye anılan bu yeni modelden distile edilmiş (distilled) bir model olma ihtimali yüksek; ayrıca boyutu çok daha küçük olduğu için yineleme hızında geceyle gündüz kadar fark var ve bu da sonradan eğitimin daha iyi yapılabilmesini sağlayabilir
- Bütün bunlar, OpenAI’nin ChatBotArena sıralamasında yeniden 1 numaraya çıkmak için ödemesi gereken bedel
- GPT-4.5’in bunu başaracağı düşünülüyor ama sonuç henüz kesin değil
- Yazarın önceden bizzat yaptığı denemeye göre, başta yavaş olduğu için rahatsız ediciydi ama güvenilirliği yüksek olduğundan kullanmayı sürdürmeye değer
- Ancak ekstra ücret ödeyip GPT-4.5 seçmek gerekmiyor; OpenAI’nin o1 Pro’su ve diğer ücretli hizmetler daha iyi fiyat/performans sunuyor
GPT-4.5’in fiyatı neden pahalı?
- GPT-4 çıktığında fiyatı da oldukça yüksekti ve aslında GPT-4.5’e benziyordu
- GPT-4.5’in ilk fiyatı şöyle:
- Girdi (Input): $75.00 / 1M token
- Önbelleğe alınmış girdi (Cached Input): $37.50 / 1M token
- Çıktı (Output): $150.00 / 1M token
- Yani önceki modellere göre çok daha yüksek bir fiyatla başladı
- OpenAI’nin önceki modelleri de ilk başta pahalıydı, ancak zaman içinde önemli ölçüde ucuzlatıldıkları oldu
- GPT-4 (Mart 2023’te çıktı)
- Başlangıçta 1 milyon girdi başına $30, 1 milyon çıktı başına $60 idi
- 32K bağlam sürümü daha pahalıydı: girdi $60, çıktı $120
- GPT-4 Turbo (Kasım 2023’te çıktı)
- Fiyat ciddi biçimde düşerek girdi $10, çıktı $30 seviyesine indi
- GPT-4o (Mayıs 2024’te çıktı)
- Fiyat daha da düşüp girdi $2.5, çıktı $10 oldu ve GPT-4’e göre 10 kattan fazla ucuzladı
- Yani OpenAI, her yeni modelde fiyatı büyük ölçüde düşürme eğilimi gösteriyor
- GPT-4.5’in şu anda pahalı fiyatlanmasının nedeni muhtemelen erken lansman döneminde yüksek marj koyulmuş olması
- OpenAI, modelin API’de kalmaya devam edeceğini garanti etmiyor; kullanıcı tepkisine bakıp karar vereceğini söylüyor
- Pek çok uzman, Nvidia’nın yeni nesil GPU’su Blackwell çıktığında daha büyük modellerin daha verimli çalıştırılabileceğini ve maliyetlerin düşeceğini düşünüyor
- GPT-4’ten GPT-4 Turbo’ya ve GPT-4o’ya geçerken fiyatların kademeli düşmesi gibi, GPT-4.5’in de ileride GPT-4.5 Turbo benzeri bir sürümle ucuzlama ihtimali yüksek
Ölçeklemenin geleceği
- Dil modellerinde ölçekleme henüz ölmedi
- Ama bu duyurunun neden bu kadar tuhaf hissettirdiğine dönüp bakmak, yapay zekadaki ilerlemeyi değerlendirirken soğukkanlı kalmak açısından çok önemli
- Artık farklı ölçekleme türleri arasında artı ve eksilerin bulunduğu bir döneme girdik
- Kısaca özetlemek gerekirse, "GPT-4.5 tuhaf ama zamanının ilerisinde"
- GPT-4.5 yalnızca modelin büyümesi değil, yeni ölçekleme yöntemlerine ihtiyaç duyulduğunun işareti
- Bu, yapay zekadaki ilerlemenin yalnızca model boyutunu büyütmekle (Scaling Up) yetmeyeceği, başka yöntemler gerektirdiği anlamına geliyor; ama bunu zaten akıl yürütme modellerindeki hızlı ilerlemeden biliyorduk
- GPT-4.5’in asıl etkisi, birden çok hattaki hızlı ilerlemenin birleşmesiyle ortaya çıkacak
- DeepSeek’in R1 makalesi ve devamındaki RL araştırmaları, model büyüdükçe RL eğitiminin daha etkili hale geldiği sonucuna varıyor
- OpenAI’nin o4 modelinin de GPT-4.5 tabanlı bir akıl yürütme modeli kullanılarak eğitilmesi muhtemel
- OpenAI’nin mevcut modelleri, GPT-4.5 olmasaydı muhtemelen bu kadar iyi olmazdı
- En geç 1 yıl içinde çoğu modelin GPT-4.5 ölçeğine ulaşması ve çok daha hızlı hale gelmesi bekleniyor
- Bu tür dengeli iyileştirmeler, daha fazla uygulamanın daha sağlam hale gelmesine yardımcı olacak
- OpenAI ve diğer yapay zeka laboratuvarlarındaki araştırmacılar, mevcut altyapı sınırlarını aşacak ölçekte modeller kurmaya çalışıyor
- Frontier laboratuvarı, ölçeklemenin bütün yönlerindeki sınırları zorlamıyorsa yeterince risk almıyor demektir
- Modeli herkese açmak zorunda değiller ama OpenAI’nin bunu gerçekte neden yapmak istediğini tahmin etmeye değer
- Şu anda başka iç sistemlerde ve yakında başka dış ürünlerde de GPT-4.5’in kullanılması olası olduğundan, bu modeli yayımlamak bir dolambaç değil; bir sonraki aşamaya geçişin doğal bir adımı
- GPT-4.5 frontier bir model ama lansmanı heyecan verici değil
- Yapay zekadaki ilerleme bedelsiz değil; ciddi emek gerektiriyor
- Asıl önemli olan GPT-4.5’in kendisi değil; bu model başka teknolojilerle birleştiğinde gerçek değerini gösterecek olması
2 yorum
Zaten birçok benchmark doygunluğa ulaşmışken kullanılabilirlik ya da halüsinasyonlar gibi konulara odaklanmak doğal bir akış gibi görünüyor.
Hacker News görüşleri
GPT 4.5 de 2023 Ekim'e kadar bilgi kesim tarihine sahip
OpenAI'nin muhakeme modelleri beklendiği kadar güçlü olmayabilir
Fiyatlandırma biraz gizemli
GPT-4o'dan 4.5'e sıçrama büyük bir sıçrama değil
GPT-4.5 karmaşık ve incelikli düşünceleri çok hızlı işleyebiliyor
GPT-4.5 tuhaf yönlere sapmadan gerçekliğe bağlı kalıyor
Uzun vadede altyapıyı gelirleştirmek zor olabilir
GPT-4.5 "yaratıcı yazarlık"ta biraz daha iyi
Görünüşe göre teknolojinin sınırlarına ulaşılıyor
İki cümlenin birbiriyle çelişip çelişmediğini düşünen bir görüş var
Kimin gerçekten benchmark'lardaki son yüzdeyi önemsediği sorgulanıyor
Azure'daki tüm GPT4o modellerinin mayıs ayında kullanımdan kaldırılması planlanıyor