Simon Willison’ın Claude 4.5 Opus incelemesi

(simonwillison.net)

8 puan yazan laeyoung 2025-11-26 | 2 yorum | WhatsApp'ta paylaş

Claude Opus 4.5 ve yeni LLM değerlendirmelerinin giderek daha zor hale gelmesinin nedeni

Fiyatlandırma oldukça tatmin edici

girdi için milyon dolar başına 5 dolar, çıktı için milyon dolar başına 25 dolar
önceki Opus’un 15 dolar / 75 dolar fiyatına göre çok daha ucuz
ayrıca GPT-5.1 ailesiyle (1,25 dolar / 10 dolar) ve Gemini 3 Pro’yla da (2 dolar / 12 dolar ya da 200 bin token üzeri alımlarda 4 dolar / 18 dolar) karşılaştırıldığında rekabetçi

Opus 4.5’teki ilginç iyileştirmeler

Opus 4.5’e varsayılan olarak yüksek ayarlı yeni bir effort parametresi eklendi
geliştirilmiş Computer use desteği sunuyor; özellikle ekranın büyütülmüş alanlarını incelemesini isteyebileceğiniz zoom aracını sağlıyor
önceki yardımcı dönüşlerin düşünce blokları, varsayılandan farklı olarak artık model bağlamında varsayılan biçimde korunuyor

Değerlendirmenin zorlukları

en ileri seviye LLM’lerin performansını birbirinden ayırmak giderek zorlaşıyor
SWE-bench Verified gibi benchmark’larda modeller arasında tek haneli yüzde puan farkları görülüyor
ancak bu, gerçek bir problemi çözmeye çalıştığınızda bunun nasıl bir sonuç doğuracağını ya da ne tür bir fark yaratacağını açıklamıyor
şimdilik bisiklete binen pelikan çizimi sürüyor.

2 yorum

youknowone 2025-11-26

Çeviri: https://rosettalens.com/s/ko/claude-opus

laeyoung 2025-11-26

Anthropic'teki Opus 4.5 benchmark grafiğinde

Düz çizildiğinde yükseklikler neredeyse aynı göründüğü için, grafiğin Y eksenindeki 0-70 aralığı kısaltılmış.