Anthropic, Claude Opus 4.5'i duyurdu

(anthropic.com)

8 puan yazan GN⁺ 2025-11-25 | 2 yorum | WhatsApp'ta paylaş

Claude Opus 4.5, kod yazma, ajan çalıştırma ve bilgisayar kullanımı alanlarında en üst düzey performans sergileyen bir yapay zeka modeli
Gerçek yazılım mühendisliği testinde (SWE-bench Verified) en yüksek puanı alırken, token verimliliği ve akıl yürütme yeteneği büyük ölçüde iyileştirildi
Fiyat 1 milyon token başına $5/$25 seviyesine düşürülerek daha fazla geliştirici ve şirketin Opus sınıfı yeteneklerden yararlanması sağlandı
Yeni effort parametresi, bağlam yönetimi, araç kullanımında iyileştirmeler gibi yeniliklerle Claude Developer Platform ve Claude Code kapsamlı biçimde yükseltildi
Güvenlik ve hizalama güçlendirmeleri ile prompt injection savunmasının iyileştirilmesi, sektör genelinde yapay zeka kullanımına duyulan güveni artıran bir dönüm noktası oluşturuyor

Claude Opus 4.5 genel bakış

Anthropic, Claude Opus 4.5'i tanıttı ve onu kodlama, ajanlar ve bilgisayar kullanımı alanlarında dünya çapında en üst seviye model olarak sundu
- Gündelik işlerde de performans artırıldı (araştırma, slayt hazırlama, elektronik tablo işlemleri)
- Yapay zeka sistemlerinin gerçekleştirebildiği işlerin kapsamını genişleten bir adım olarak değerlendiriliyor
Opus 4.5, SWE-bench Verified testinde en yüksek puanı kaydetti
Anthropic uygulaması, API ve başlıca üç bulut platformunda hemen kullanılabiliyor
- API model adı: claude-opus-4-5-20251101
- Fiyat: girdi $5 / çıktı $25 (1 milyon token bazında)

İlk kullanıcı ve test geri bildirimleri

Dahili testlerde belirsiz problemleri ele alma ve karmaşık hataları çözme yeteneğinin geliştiği bildirildi
Çeşitli şirketlerden ilk kullanıcılar şu geri bildirimleri paylaştı
- Kod kalitesinde artış ve token kullanımında yarı yarıya azalma
- Çok adımlı akıl yürütme, uzun süreli otonom görevler ve ajan iş akışlarında güçlü performans
- Sonnet 4.5'e kıyasla %15'in üzerinde verimlilik artışı
- Kendi kendini geliştiren yapay zeka ajanlarının uygulanabilirliği doğrulandı
- Excel otomasyonu, 3D görselleştirme, kod inceleme, hikâye oluşturma gibi farklı alanlarda performans artışı
- Araç çağırma hataları ve build hatalarında %50~75 azalma, ayrıca hız artışı raporlandı
Reklam

Performans değerlendirmesi

Anthropic'in dahili yazılım mühendisliği sınavında, insan adaylar arasındaki en yüksek puanı aştı
- 2 saat sınırı içinde en iyi sonucu elde etti
Görsel, akıl yürütme ve matematik yetenekleri genel olarak iyileşerek birçok benchmark'ta en güncel teknik seviye (SOTA) sağlandı
τ2-bench testinde yaratıcı problem çözmeye dair bir örnek sunuldu
- Uçak bileti değiştirilemez politikasını delmeden, yasal bir prosedürle (koltuk yükseltmesinden sonra tarih değişikliği) çözüm üretti
- Benchmark bunu başarısız saydı, ancak yaratıcı akıl yürütme yeteneğine örnek olarak anıldı

Güvenlik ve hizalama iyileştirmeleri

Claude Opus 4.5, Anthropic'in şimdiye kadar yayımladığı modeller içinde en güçlü şekilde hizalanmış model
- Prompt injection saldırılarına karşı dayanıklılığı sektörün en üst düzeyinde
- Gray Swan tarafından geliştirilen güçlü saldırı benchmark'ında da başarılı sonuçlar verdi
“Concerning behavior” puanının düşük olması, kötüye kullanım ve otonom hatalı davranış olasılığını azaltıyor
Ayrıntılı güvenlik ve performans değerlendirmeleri Claude Opus 4.5 system card içinde yer alıyor

Claude Developer Platform güncellemeleri

Opus 4.5, daha az token ile daha iyi sonuçlar üretiyor
Yeni effort parametresi ile hız, maliyet ve performans arasında denge kurulabiliyor
- Orta effort seviyesinde Sonnet 4.5 ile aynı performans, çıktı tokenlarında %76 tasarruf
- En yüksek effort seviyesinde Sonnet 4.5'e göre %4,3 performans artışı, %48 token tasarrufu
effort control, context compaction ve gelişmiş araç kullanımı özellikleriyle uzun süreli görev verimliliği artırıldı
Bağlam yönetimi ve bellek özellikleri sayesinde ajan görev performansında %15 artış
Platform giderek daha fazla modüler ve birleşebilir bir yapıya evriliyor

Ürün güncellemeleri

Claude Code, Opus 4.5 temelinde Plan Mode doğruluğunu ve uygulama gücünü artırdı
- Çalıştırmadan önce kullanıcı incelemesine sunulmak üzere plan.md dosyası oluşturuluyor
- Masaüstü uygulamasında çoklu oturumun paralel çalıştırılması destekleniyor
Reklam
Claude uygulaması, uzun konuşmaları otomatik özetleyerek bağlamı koruyor
Claude for Chrome, tüm Max kullanıcılarına sunuluyor
Claude for Excel, Max, Team ve Enterprise kullanıcıları için betada genişletildi
Opus 4.5'e özel kullanım limitlerinin artırılmasıyla günlük işlerde kullanım mümkün hale geldi

Ek bilgiler

Tüm değerlendirmeler (evals), 64K thinking budget, 200K context window ve varsayılan effort (high) ayarıyla 5 çalışmanın ortalaması alınarak yapıldı
SWE-bench Verified, Terminal Bench gibi bazı testlerde ayrı ayarlar kullanıldı
İlgili araştırmalar ve ayrıntılı sonuçlar Claude Opus 4.5 system card içinde görülebilir

İlgili haberler

Claude, Microsoft Foundry ve Microsoft 365 Copilot'a entegre edildi
Microsoft·NVIDIA·Anthropic arasında stratejik ortaklık kuruldu
- Anthropic, Azure işlem kapasitesinden 30 milyar dolarlık alım ve en fazla 1GW ek anlaşma planlıyor
Ruanda hükümeti ve ALX ile iş birliği yapılarak Afrika'da yapay zeka eğitimi genişletiliyor

2 yorum

kaydash 2025-11-27

5G iletişim ücretlerini, Netflix’i de zaten abone olarak ödemek gerekiyor; şimdi bir de yapay zekaya abone olmak gerekiyor ağla ağla.

GN⁺ 2025-11-25

Hacker News görüşleri

Bu duyuruda asıl önemli nokta Opus 4.5’in fiyat indirimi
MTok başına $5/$25, Opus 4’e kıyasla 3 katlık bir indirim anlamına geliyor; artık bu model sadece “önemli işler için kullanılan bir model” değil, gerçek production iş yüklerine konulabilecek bir model haline geldi
Ayrıca prompt injection direncinin SOTA seviyesinde olduğunu iddia ediyorlar; eğer sistem kartındaki sayılar saldırgan testlerde de korunuyorsa, bu araç erişim yetkisi olan ajanları dağıtanlar için büyük anlam taşır
Yine de “en uyumlu model” ifadesi biraz abartılı geliyor; üçüncü taraf red team sonuçlarını merak ediyorum
- Opus 4.5’in çıkışıyla birlikte Claude Code kullanım sınırları gevşetildi
  Yalnızca Opus’a özel cap kaldırıldı ve Max ile Team Premium kullanıcıları da artık Sonnet dönemine benzer miktarda token kullanabiliyor
  Günlük işlerde Opus 4.5’i kullanabilmek için kullanım limitlerinin ayarlandığı söyleniyor
- İç test sonuçlarına göre Opus 4.5’i çalıştırmak çoğu durumda Sonnet’ten bile daha ucuzdu
  Amp ekibinde thread başına ortalama maliyet Sonnet 4.5 için $1.83, Opus 4.5 içinse yaklaşık $1.30 olmuştu
  Maliyet düşüşünde asıl etken, yalnızca token birim fiyatı değil, artan zekâ nedeniyle hata oranının azalması oldu
- 3 kat fiyat indirimi muhtemelen Opus 4.5’in daha küçük ve daha özelleşmiş bir base model olma ihtimalinin yüksek olduğunu gösteriyor
  Benchmark’lara yönelik fine-tuning güçlendirilmiş gibi duruyor; eqbench.com gibi hedeflenmemiş testlerde nasıl performans verdiğini merak ediyorum
- Eskiden “Safety” bölümünü biraz bilimkurguvari bir uyarı gibi görürdüm ama bu kez prompt injection gibi gerçekçi sorunları ele alması ilginçti
  Görünüşe göre “güvenlik” terimi artık başka bir anlama evriliyor
- Ama Pliney the Liberator şimdiden jailbreak yapmayı başarmış deniyor
  Bu, prompt injection direncinden ayrı bir konu da olabilir
Bu model muhtemelen 2-4 hafta boyunca devrimsel olacak, sonra da bir “nerf” gelecek
Sonraki birkaç ay performans düşüşünden şikâyet edenlere “skill issue” denecek, ardından bir mühendis bazı “bug’lar” bulduğunu açıklayacak ve sonra Opus 4.7 çıkacak
Artık benim sadakatim nerf döngüsü üzerinden ölçülüyor
- Bunun gerçek bir performans düşüşü değil, bilişsel bir yanılgı olma ihtimali de var
  Çünkü benchmark’larda performans düştüğüne dair bir kanıt yok
  Eğer insanların hissettiği düşüş gerçekse, bu benchmark’ların yakalayamadığı bir etkenin (x-factor) varlığına işaret eder
- Bu yüzden ben Gemini’ye geçtim
  v2.5 neslinden beri performans düşüşü görmedim ve Anthropic’in belki de kuantize edilmiş model değişimi yaptığından şüpheleniyorum
- Şaka gibi ama aslında bu Opus 4.0’ın yeniden çıkışı bile olabilir
- Bu tür bir durum, CEO’nun davranış kalıplarıyla da örtüşüyor
- Claude muhtemelen gizlice context compression deneyleri yürütüyor
  Bağlama daha az bağımlı tek seferlik sorgularda performans düşüşü daha az hissediliyor
Cursor’da Gemini 3 Pro kullandım ama Sonnet 4.5’ten çok daha zayıftı
Yalnızca Claude Code’un çözebildiği sorunlar da oldu ve Sonnet 4.5 özellikle Cursor içinde çok iyi çalışıyor
Anthropic’in yazılım mühendisliği odaklı strateji seçmesinin doğru bir karar olduğunu düşünüyorum
2026’ya giderken en çok heyecan duyduğum model bu
- Claude modellerinde str_replace_editor gibi yerleşik araçlar var
  Cursor’da bu tür araçlar olmadığı için performans farkı ortaya çıkıyor
  İlgili tweet için buraya bakabilirsiniz
- Benim iş akışım Gemini ile tasarlayıp, Sonnet ile uygulamak şeklindeydi
- Kişisel olarak Gemini etrafındaki aşırı hype’ı anlayamıyorum
  Opus/Sonnet/GPT, ajan tabanlı iş akışları için çok daha uygun
- Gemini 2.5 Pro API ile bir yan proje yaptım ama komutları tutarlı yerine getirme ve resource exceeded hataları sorun oldu
  Azure GPT-4.1, Bedrock Sonnet 4 ve Perplexity çok daha stabildi
  Başkalarının deneyimini merak ediyorum
- Sonnet 4.5’e base64 ile encode edilmiş PHP serialize() JSON’u verip URL çıkarmasını istediğimde, bana Rick Astley’nin YouTube linkini döndürdü
Claude Opus 4.5 sistem kartı, pazarlama blogundan çok daha ayrıntılı
150 sayfalık bir PDF ve özellikle aldatma (deception) ile ilgili bölüm çok ilginç
Örneğin Anthropic’in güvenlik ekibinin dağıtıldığı haberini girdiye verince, bu bilgiyi kullanıcıdan sakladığı bir örnek var
CBRN ile ilgili riskler de ele alınıyor ve Opus hâlâ ASL-3 seviyesinde, yani büyük ölçekli bir risk değil
Bununla ilgili blog özetimi buraya koydum
Bu benchmark sonuçları gerçekten sevindirici
Sayesinde mevcut Coding Agent’ımı koruyabildim
Hızla değişen yapay zeka ortamında FOMO’ya kapılmadan ayakta kalmak giderek zorlaşıyordu ama bu kez Anthropic yeniden rekabet gücünü kanıtladı
- Görünüşe göre artık hype’ı görmezden gelip geride kalmayabileceğimiz bir noktaya geldik
  Sonnet ve Claude Code kombinasyonu zaten yeterince stabildi, 4.5’ten sonra ise otomatik olarak daha da iyi oldu
  Codex’e geç baskısını artık sadece görmezden geliyorum
- Ben fiyat limiti yüzünden OpenAI’a geçtim
  Claude biraz daha iyi kod üretiyor olsa bile, GPT’de sınırsız istek mümkün olduğu için deneme özgürlüğü daha fazla
- Birden çok aracı birlikte kullanmanın verimlilik açısından büyük bir getirisi yok
  Opus anlamlı bir ilerleme ama temel iş akışını değiştirecek bir şey değil gibi
- Ben de Anthropic’in geliştirici dostu yönünü seviyorum
  Rekabette iyi dayanmasını umuyorum
- Codex’i de denedim ama sonunda yine Claude Code’a döndüm
  Codex’i sadece limite takıldığımda geçici olarak kullanıyorum
Opus 4.5’in gelişmiş araç kullanımı özellikle etkileyiciydi
Advanced Tool Use belgesine göre araç arama, programatik çağrı ve in-context örnek öğrenimi mümkün
Sadece araç tanımlarına 130 bin token harcadıklarını söylemeleri şaşırtıcı
Bulmaca oyunu demo videosu da ilginçti
Simon Willison’ın Opus incelemesini okudum
- Kademeli evrim büyük kod tabanlarında hissedilmesi zor bir şey
  Çoğu görevde farkı yaratan şey modelden çok tooling açığı oluyor
- Terminal çıktısını HTML’e dönüştüren kütüphaneyi kendilerinin yazıp yazmadığını merak ediyorum
- Acaba modeli benchmark verilerine göre eğitiyorlar mı diye düşünüyorum
- Haiku fiyatlandırmasında hata var — doğrusu $1/$5
- Yazım hatası düzeltme önerisi: There model → Their model
ARC-AGI-2 liderlik tablosuna bakınca modeller arasında maliyet/performans karşılaştırması net şekilde görülüyor
Opus 4.5, Gemini 3’e karşı harika sonuç veriyor; Gemini 3 Deep Think hâlâ birinci ama maliyeti 30 kattan fazla
OpenAI Aralık 2024’te ARC-AGI-1’de insan performansını geçtiğinde görev başına $3.000 harcanıyordu; şimdi bu rakam birkaç dolar seviyesine indi ve 80 kat ucuzladı
Liderlik tablosu ve ilgili blog incelenebilir
- Bu arada Gemini 3 Pro araç kullanmıyor, Deep Think ise araç kullanan sürüm
  Aynı araç erişimi verilirse iki model arasındaki fark azalıyor
Son dönemde LLM’lerdeki iyileşme hızının yavaşladığı hissediliyor
Doğruluk artışı sınırlı ama verimlilik iyileştirmesi büyük
Son zamanlarda Sonnet 4.5 sanki aptallaşmış gibi geliyor
Basit CSS’i bile düzgün işleyemedi
Opus’un 3 kat ucuzlaması güzel ama Claude Code Pro aboneliğinde hâlâ kullanılamıyor
/model opusplan komutuyla planlama aşamasında Opus kullanılabiliyor ama kredi tüketen bir yapı olduğu için şeffaf değil
Basit bir CSS düzeltmesi için $0.95 ödedim; bu fazla pahalı
Bundan sonra Opus ile Sonnet arasında elle geçiş yapmayı deneyeceğim
- Sonnet 4.5’in kalitesi, satranç motorları gibi arama derinliğiyle orantılı görünüyor
  Yoğun saatlerde performans düşüşü kaçınılmaz olduğundan, yük sinyali özelliği olsa iyi olurdu
- Son birkaç gündür gerçekten zekâsı düşmüş gibi hissettiriyor
  Yeni modeli tanıtmak için bilerek düşürmüş olabilirler ya da ücretsiz kredi dağıtımı nedeniyle yük arttığı için kuantize bir sürüm çalıştırıyor olabilirler
  Anthropic’in şeffaf olmaması ve istikrarsızlığı can sıkıcı
- Muhtemelen trafik aşırı yüklenince daha ucuz bir modele failover yapılıyor
- Özellikle cuma günü ısrarla aptalca yanıtlar gördüm
  Başta bunun geçici bir hata olduğunu düşündüm ama sanki bir şey değişmiş gibi geliyor