8 puan yazan laeyoung 2025-11-26 | 2 yorum | WhatsApp'ta paylaş

Claude Opus 4.5 ve yeni LLM değerlendirmelerinin giderek daha zor hale gelmesinin nedeni

Fiyatlandırma oldukça tatmin edici

  • girdi için milyon dolar başına 5 dolar, çıktı için milyon dolar başına 25 dolar
  • önceki Opus’un 15 dolar / 75 dolar fiyatına göre çok daha ucuz
  • ayrıca GPT-5.1 ailesiyle (1,25 dolar / 10 dolar) ve Gemini 3 Pro’yla da (2 dolar / 12 dolar ya da 200 bin token üzeri alımlarda 4 dolar / 18 dolar) karşılaştırıldığında rekabetçi

Opus 4.5’teki ilginç iyileştirmeler

  • Opus 4.5’e varsayılan olarak yüksek ayarlı yeni bir effort parametresi eklendi
  • geliştirilmiş Computer use desteği sunuyor; özellikle ekranın büyütülmüş alanlarını incelemesini isteyebileceğiniz zoom aracını sağlıyor
  • önceki yardımcı dönüşlerin düşünce blokları, varsayılandan farklı olarak artık model bağlamında varsayılan biçimde korunuyor

Değerlendirmenin zorlukları

  • en ileri seviye LLM’lerin performansını birbirinden ayırmak giderek zorlaşıyor
  • SWE-bench Verified gibi benchmark’larda modeller arasında tek haneli yüzde puan farkları görülüyor
  • ancak bu, gerçek bir problemi çözmeye çalıştığınızda bunun nasıl bir sonuç doğuracağını ya da ne tür bir fark yaratacağını açıklamıyor
  • şimdilik bisiklete binen pelikan çizimi sürüyor.

2 yorum

 
laeyoung 2025-11-26

Anthropic'teki Opus 4.5 benchmark grafiğinde

  • Düz çizildiğinde yükseklikler neredeyse aynı göründüğü için, grafiğin Y eksenindeki 0-70 aralığı kısaltılmış.