2 puan yazan GN⁺ 2025-03-03 | 2 yorum | WhatsApp'ta paylaş
  • GPT-4.5’in duyurulmasıyla birlikte OpenAI önce modelin sistem kartını yayımladı
  • İlk sistem kartında "GPT-4.5 is not a frontier model" (GPT-4.5 frontier bir model değildir) ifadesi yer alıyordu
    • Daha sonra resmi blog gönderisinden ve güncellenmiş sistem kartından bu ifade kaldırıldı
  • OpenAI’de birileri belli ki bu ifadeyi ekleme gereği hissetti. Ama "OpenAI bunu neden yayımladı?"
  • Frontier model olmadığı iddiasındaki temel çelişki, GPT-4.5’in genel kamuoyunun test edebileceği en büyük model olması
    • Bu ölçekte bir modele büyütmek, ölçtüğümüz yeteneklerde belirgin bir sıçrama yaratmıyor
    • GPT-3.5 → GPT-4 geçişi orta halli (Okay) seviyeden iyiye (Good) geçişti
    • GPT-4o → GPT-4.5 değişimi ise harikadan (Great) gerçekten harikaya (Really Great)
  • En yeni modeller arasındaki farkları anlamak çok zor olduğu için, yapay zekaya yatırım yapan ve ilerleme bekleyen kişiler bunun gerçekte olduğundan daha iyi olduğunu sanabilir
  • Beklenen büyüklükte bir performans artışı olmadan, ölçeklemenin ekonomik sınırlarının netleştiği bir noktadayız
    • Anthropic de benzer sorunlar yaşıyor; Claude 3.7’den sonra çok daha büyük modeller eğiteceği doğrulandı
  • GPT-4.5, kademeli ilerlemeyi gösteren bir model; önceki dönemdeki çığır açıcı sıçramalardan farklı
    • Bu, yapay zeka araştırmalarında "yalnızca ön eğitim ölçeğini büyütmenin artık önceki düzeyde yenilik üretmediğini" gösteriyor
    • OpenAI’nin GPT-4.5’i uzun süredir içeride kullandığı ve GPT-4.5 tabanlı başka modelleri eğitmek için kullanmış olma ihtimalinin yüksek olduğu anlaşılıyor (cutdate’in 2023 görünmesine bakılırsa)

GPT-4.5’in iyi olduğu taraf ne?

  • (Bunlar GPT-4.5 ve GPT-4o’nun parametre sayısına dair bazı tahminler; sızıntıya dayanmıyorlar, dolayısıyla hata payı yüksek olabilir)
  • GPT-4.5 çok büyük bir model ve muhtemelen Grok 3’ten daha büyük
    • GPT-4, toplamda 1 trilyon (1T) üzeri parametreye sahip bir uzmanlar karışımı (MoE) modeliydi; aktif parametrelerin yaklaşık 200B olduğu tahmin ediliyordu
    • Söylentilere göre GPT-4o veya Gemini Pro gibi modellerde aktif parametre sayısı 60B seviyesine kadar düştü
    • Yani son dönemde modeller, aktif parametreleri azaltıp altyapıyı optimize ederek hız ve maliyeti iyileştirme yönünde gelişiyor
  • GPT-4.5’in, GPT-4’e kıyasla yaklaşık 10 kat daha fazla hesaplama (10X compute) gerektirdiği tahmin ediliyor
    • 5 kat daha fazla parametre + 2 kat daha büyük veri kümesi = 10 kat hesaplama artışı
    • Toplam parametre sayısı 5-7 trilyon (5T-7T) düzeyine ulaşabilir; aktif parametrelerin ise yaklaşık 600B olması bekleniyor
  • Ancak bu kadar ölçeklense bile performans artışını hissedebilmek zor.
  • Buradan sonra tablo epey tuhaflaşıyor. OpenAI’nin bu duyuruda öne çıkardığı 2 şey:
    • Halüsinasyonun azalması: Modelin gerçeğe aykırı bilgi üretme sıklığını düşürmesi
    • Duygusal zekanın artması: Bağlamı ve duyguları daha iyi anlayıp ifade edebilmesi
    • Ama bu iki özellik nesnel olarak değerlendirilmesi zor nitelikler
  • Benchmark performansı (OpenAI’nin verdiği verilere göre)
    • SimpleQA: Dünya bilgisi değerlendirmesinde GPT-4.5 büyük performans artışı gösteriyor
    • PersonQA: Belirli kişilerle ilgili soru değerlendirmesinde de en yüksek performans
    • GPQA (Google-proof QA): Bilgi araması yapmadan mantıksal akıl yürütmeyi ölçen metrikte de güçlü sonuçlar
  • Lansmandan hemen sonra yapay zeka uzmanları arasında GPT-4.5’in kullanmasının rahat olduğu ve daha iyi yazdığı yönünde görüşler çıktı
    • Ancak kod ve teknik performans değerlendirmelerinde Claude 3.7, R1 gibi rakip modellere kıyasla orta seviyede bulundu
  • Yazım stili karşılaştırması (Karpathy’nin X (Twitter) anketi sonucu)
    • GPT-4.5 vs. GPT-4o-latest: Kullanıcıların çoğu GPT-4o-latest’in yazım stilini daha çok tercih ediyor
    • Neden? GPT-4o-latest’in daha önce Orion1 diye anılan bu yeni modelden distile edilmiş (distilled) bir model olma ihtimali yüksek; ayrıca boyutu çok daha küçük olduğu için yineleme hızında geceyle gündüz kadar fark var ve bu da sonradan eğitimin daha iyi yapılabilmesini sağlayabilir
  • Bütün bunlar, OpenAI’nin ChatBotArena sıralamasında yeniden 1 numaraya çıkmak için ödemesi gereken bedel
    • GPT-4.5’in bunu başaracağı düşünülüyor ama sonuç henüz kesin değil
  • Yazarın önceden bizzat yaptığı denemeye göre, başta yavaş olduğu için rahatsız ediciydi ama güvenilirliği yüksek olduğundan kullanmayı sürdürmeye değer
    • Ancak ekstra ücret ödeyip GPT-4.5 seçmek gerekmiyor; OpenAI’nin o1 Pro’su ve diğer ücretli hizmetler daha iyi fiyat/performans sunuyor

GPT-4.5’in fiyatı neden pahalı?

  • GPT-4 çıktığında fiyatı da oldukça yüksekti ve aslında GPT-4.5’e benziyordu
  • GPT-4.5’in ilk fiyatı şöyle:
    • Girdi (Input): $75.00 / 1M token
    • Önbelleğe alınmış girdi (Cached Input): $37.50 / 1M token
    • Çıktı (Output): $150.00 / 1M token
    • Yani önceki modellere göre çok daha yüksek bir fiyatla başladı
  • OpenAI’nin önceki modelleri de ilk başta pahalıydı, ancak zaman içinde önemli ölçüde ucuzlatıldıkları oldu
    • GPT-4 (Mart 2023’te çıktı)
      • Başlangıçta 1 milyon girdi başına $30, 1 milyon çıktı başına $60 idi
      • 32K bağlam sürümü daha pahalıydı: girdi $60, çıktı $120
    • GPT-4 Turbo (Kasım 2023’te çıktı)
      • Fiyat ciddi biçimde düşerek girdi $10, çıktı $30 seviyesine indi
    • GPT-4o (Mayıs 2024’te çıktı)
      • Fiyat daha da düşüp girdi $2.5, çıktı $10 oldu ve GPT-4’e göre 10 kattan fazla ucuzladı
    • Yani OpenAI, her yeni modelde fiyatı büyük ölçüde düşürme eğilimi gösteriyor
  • GPT-4.5’in şu anda pahalı fiyatlanmasının nedeni muhtemelen erken lansman döneminde yüksek marj koyulmuş olması
    • OpenAI, modelin API’de kalmaya devam edeceğini garanti etmiyor; kullanıcı tepkisine bakıp karar vereceğini söylüyor
  • Pek çok uzman, Nvidia’nın yeni nesil GPU’su Blackwell çıktığında daha büyük modellerin daha verimli çalıştırılabileceğini ve maliyetlerin düşeceğini düşünüyor
  • GPT-4’ten GPT-4 Turbo’ya ve GPT-4o’ya geçerken fiyatların kademeli düşmesi gibi, GPT-4.5’in de ileride GPT-4.5 Turbo benzeri bir sürümle ucuzlama ihtimali yüksek

Ölçeklemenin geleceği

  • Dil modellerinde ölçekleme henüz ölmedi
    • Ama bu duyurunun neden bu kadar tuhaf hissettirdiğine dönüp bakmak, yapay zekadaki ilerlemeyi değerlendirirken soğukkanlı kalmak açısından çok önemli
    • Artık farklı ölçekleme türleri arasında artı ve eksilerin bulunduğu bir döneme girdik
  • Kısaca özetlemek gerekirse, "GPT-4.5 tuhaf ama zamanının ilerisinde"
    • GPT-4.5 yalnızca modelin büyümesi değil, yeni ölçekleme yöntemlerine ihtiyaç duyulduğunun işareti
    • Bu, yapay zekadaki ilerlemenin yalnızca model boyutunu büyütmekle (Scaling Up) yetmeyeceği, başka yöntemler gerektirdiği anlamına geliyor; ama bunu zaten akıl yürütme modellerindeki hızlı ilerlemeden biliyorduk
    • GPT-4.5’in asıl etkisi, birden çok hattaki hızlı ilerlemenin birleşmesiyle ortaya çıkacak
  • DeepSeek’in R1 makalesi ve devamındaki RL araştırmaları, model büyüdükçe RL eğitiminin daha etkili hale geldiği sonucuna varıyor
    • OpenAI’nin o4 modelinin de GPT-4.5 tabanlı bir akıl yürütme modeli kullanılarak eğitilmesi muhtemel
    • OpenAI’nin mevcut modelleri, GPT-4.5 olmasaydı muhtemelen bu kadar iyi olmazdı
  • En geç 1 yıl içinde çoğu modelin GPT-4.5 ölçeğine ulaşması ve çok daha hızlı hale gelmesi bekleniyor
    • Bu tür dengeli iyileştirmeler, daha fazla uygulamanın daha sağlam hale gelmesine yardımcı olacak
    • OpenAI ve diğer yapay zeka laboratuvarlarındaki araştırmacılar, mevcut altyapı sınırlarını aşacak ölçekte modeller kurmaya çalışıyor
  • Frontier laboratuvarı, ölçeklemenin bütün yönlerindeki sınırları zorlamıyorsa yeterince risk almıyor demektir
    • Modeli herkese açmak zorunda değiller ama OpenAI’nin bunu gerçekte neden yapmak istediğini tahmin etmeye değer
    • Şu anda başka iç sistemlerde ve yakında başka dış ürünlerde de GPT-4.5’in kullanılması olası olduğundan, bu modeli yayımlamak bir dolambaç değil; bir sonraki aşamaya geçişin doğal bir adımı
  • GPT-4.5 frontier bir model ama lansmanı heyecan verici değil
    • Yapay zekadaki ilerleme bedelsiz değil; ciddi emek gerektiriyor
    • Asıl önemli olan GPT-4.5’in kendisi değil; bu model başka teknolojilerle birleştiğinde gerçek değerini gösterecek olması

2 yorum

 
doolayer 2025-03-03

Zaten birçok benchmark doygunluğa ulaşmışken kullanılabilirlik ya da halüsinasyonlar gibi konulara odaklanmak doğal bir akış gibi görünüyor.

 
GN⁺ 2025-03-03
Hacker News görüşleri
  • GPT 4.5 de 2023 Ekim'e kadar bilgi kesim tarihine sahip

    • Bu modelin ön eğitimi muhtemelen en az 1 yıl önce tamamlandı
    • OpenAI, Q-star/strawberry gibi diğer projelere odaklanmış olabilir
  • OpenAI'nin muhakeme modelleri beklendiği kadar güçlü olmayabilir

    • Gemini 2.0 Flash, Grok 3, Sonnet 3.7 gibi güçlü, muhakeme-dışı modeller ortaya çıktı
    • OpenAI dışarıdan bakıldığında bir şeyler yayımlama gereği hissetmiş olabilir
  • Fiyatlandırma biraz gizemli

    • En yeni verimlilik hileleri olmayan eski bir modelin yansıması olabilir
    • GPT-4.5, OpenAI'nin ne kadar ücret talep edebileceğini anlamasının bir yolu olabilir
  • GPT-4o'dan 4.5'e sıçrama büyük bir sıçrama değil

    • Lüks ürün gibi fiyatlandırıldı ama lüks sayılacak bir karşılığı yok
  • GPT-4.5 karmaşık ve incelikli düşünceleri çok hızlı işleyebiliyor

    • Diğer yapay zekalardan çok daha üstün
  • GPT-4.5 tuhaf yönlere sapmadan gerçekliğe bağlı kalıyor

    • Ton tercihine iyi yanıt veriyor ve nüansları iyi anlıyor
  • Uzun vadede altyapıyı gelirleştirmek zor olabilir

    • Kodlama API'sinde Claude 3.5/3.7'nin daha çok kullanılması muhtemel
    • Kodlama dışı API'de Gemini 2.0 Flash daha ucuz ve daha iyi performanslı
    • Abonelik uygulamasında ChatGPT hâlâ en iyisi ama Grok rekabet ediyor
  • GPT-4.5 "yaratıcı yazarlık"ta biraz daha iyi

    • Anthropic, daha pratik sorunları çözen yeni modeller yayımladı
  • Görünüşe göre teknolojinin sınırlarına ulaşılıyor

  • İki cümlenin birbiriyle çelişip çelişmediğini düşünen bir görüş var

    • Model boyutunu büyütmek net bir yetenek artışı sağlamadı
    • GPT-4o'dan GPT-4.5'e sıçrama modeli harika hâle getirdi
  • Kimin gerçekten benchmark'lardaki son yüzdeyi önemsediği sorgulanıyor

    • Benchmark'ların %100 doğru olduğunu varsaymak hata olabilir
  • Azure'daki tüm GPT4o modellerinin mayıs ayında kullanımdan kaldırılması planlanıyor

    • Anthropic'e geçip geçmemeyi düşünüyorlar
    • Yeni "o" modelinin çıkış zamanına dair bilgiye ihtiyaç var