Simon Willison’ın Claude 4.5 Opus incelemesi
(simonwillison.net)Claude Opus 4.5 ve yeni LLM değerlendirmelerinin giderek daha zor hale gelmesinin nedeni
Fiyatlandırma oldukça tatmin edici
- girdi için milyon dolar başına 5 dolar, çıktı için milyon dolar başına 25 dolar
- önceki Opus’un 15 dolar / 75 dolar fiyatına göre çok daha ucuz
- ayrıca GPT-5.1 ailesiyle (1,25 dolar / 10 dolar) ve Gemini 3 Pro’yla da (2 dolar / 12 dolar ya da 200 bin token üzeri alımlarda 4 dolar / 18 dolar) karşılaştırıldığında rekabetçi
Opus 4.5’teki ilginç iyileştirmeler
- Opus 4.5’e varsayılan olarak yüksek ayarlı yeni bir
effortparametresi eklendi - geliştirilmiş Computer use desteği sunuyor; özellikle ekranın büyütülmüş alanlarını incelemesini isteyebileceğiniz
zoomaracını sağlıyor - önceki yardımcı dönüşlerin düşünce blokları, varsayılandan farklı olarak artık model bağlamında varsayılan biçimde korunuyor
Değerlendirmenin zorlukları
- en ileri seviye LLM’lerin performansını birbirinden ayırmak giderek zorlaşıyor
- SWE-bench Verified gibi benchmark’larda modeller arasında tek haneli yüzde puan farkları görülüyor
- ancak bu, gerçek bir problemi çözmeye çalıştığınızda bunun nasıl bir sonuç doğuracağını ya da ne tür bir fark yaratacağını açıklamıyor
- şimdilik bisiklete binen pelikan çizimi sürüyor.
2 yorum
Çeviri: https://rosettalens.com/s/ko/claude-opus
Anthropic'teki Opus 4.5 benchmark grafiğinde