- Claude Opus 4.5, kod yazma, ajan çalıştırma ve bilgisayar kullanımı alanlarında en üst düzey performans sergileyen bir yapay zeka modeli
- Gerçek yazılım mühendisliği testinde (SWE-bench Verified) en yüksek puanı alırken, token verimliliği ve akıl yürütme yeteneği büyük ölçüde iyileştirildi
- Fiyat 1 milyon token başına $5/$25 seviyesine düşürülerek daha fazla geliştirici ve şirketin Opus sınıfı yeteneklerden yararlanması sağlandı
- Yeni
effort parametresi, bağlam yönetimi, araç kullanımında iyileştirmeler gibi yeniliklerle Claude Developer Platform ve Claude Code kapsamlı biçimde yükseltildi
- Güvenlik ve hizalama güçlendirmeleri ile prompt injection savunmasının iyileştirilmesi, sektör genelinde yapay zeka kullanımına duyulan güveni artıran bir dönüm noktası oluşturuyor
Claude Opus 4.5 genel bakış
- Anthropic, Claude Opus 4.5'i tanıttı ve onu kodlama, ajanlar ve bilgisayar kullanımı alanlarında dünya çapında en üst seviye model olarak sundu
- Gündelik işlerde de performans artırıldı (araştırma, slayt hazırlama, elektronik tablo işlemleri)
- Yapay zeka sistemlerinin gerçekleştirebildiği işlerin kapsamını genişleten bir adım olarak değerlendiriliyor
- Opus 4.5, SWE-bench Verified testinde en yüksek puanı kaydetti
- Anthropic uygulaması, API ve başlıca üç bulut platformunda hemen kullanılabiliyor
- API model adı:
claude-opus-4-5-20251101
- Fiyat: girdi $5 / çıktı $25 (1 milyon token bazında)
İlk kullanıcı ve test geri bildirimleri
- Dahili testlerde belirsiz problemleri ele alma ve karmaşık hataları çözme yeteneğinin geliştiği bildirildi
- Çeşitli şirketlerden ilk kullanıcılar şu geri bildirimleri paylaştı
- Kod kalitesinde artış ve token kullanımında yarı yarıya azalma
- Çok adımlı akıl yürütme, uzun süreli otonom görevler ve ajan iş akışlarında güçlü performans
- Sonnet 4.5'e kıyasla %15'in üzerinde verimlilik artışı
- Kendi kendini geliştiren yapay zeka ajanlarının uygulanabilirliği doğrulandı
- Excel otomasyonu, 3D görselleştirme, kod inceleme, hikâye oluşturma gibi farklı alanlarda performans artışı
- Araç çağırma hataları ve build hatalarında %50~75 azalma, ayrıca hız artışı raporlandı
Performans değerlendirmesi
- Anthropic'in dahili yazılım mühendisliği sınavında, insan adaylar arasındaki en yüksek puanı aştı
- 2 saat sınırı içinde en iyi sonucu elde etti
- Görsel, akıl yürütme ve matematik yetenekleri genel olarak iyileşerek birçok benchmark'ta en güncel teknik seviye (SOTA) sağlandı
- τ2-bench testinde yaratıcı problem çözmeye dair bir örnek sunuldu
- Uçak bileti değiştirilemez politikasını delmeden, yasal bir prosedürle (koltuk yükseltmesinden sonra tarih değişikliği) çözüm üretti
- Benchmark bunu başarısız saydı, ancak yaratıcı akıl yürütme yeteneğine örnek olarak anıldı
Güvenlik ve hizalama iyileştirmeleri
- Claude Opus 4.5, Anthropic'in şimdiye kadar yayımladığı modeller içinde en güçlü şekilde hizalanmış model
- Prompt injection saldırılarına karşı dayanıklılığı sektörün en üst düzeyinde
- Gray Swan tarafından geliştirilen güçlü saldırı benchmark'ında da başarılı sonuçlar verdi
- “Concerning behavior” puanının düşük olması, kötüye kullanım ve otonom hatalı davranış olasılığını azaltıyor
- Ayrıntılı güvenlik ve performans değerlendirmeleri Claude Opus 4.5 system card içinde yer alıyor
Claude Developer Platform güncellemeleri
- Opus 4.5, daha az token ile daha iyi sonuçlar üretiyor
- Yeni
effort parametresi ile hız, maliyet ve performans arasında denge kurulabiliyor
- Orta
effort seviyesinde Sonnet 4.5 ile aynı performans, çıktı tokenlarında %76 tasarruf
- En yüksek
effort seviyesinde Sonnet 4.5'e göre %4,3 performans artışı, %48 token tasarrufu
effort control, context compaction ve gelişmiş araç kullanımı özellikleriyle uzun süreli görev verimliliği artırıldı
- Bağlam yönetimi ve bellek özellikleri sayesinde ajan görev performansında %15 artış
- Platform giderek daha fazla modüler ve birleşebilir bir yapıya evriliyor
Ürün güncellemeleri
- Claude Code, Opus 4.5 temelinde Plan Mode doğruluğunu ve uygulama gücünü artırdı
- Çalıştırmadan önce kullanıcı incelemesine sunulmak üzere
plan.md dosyası oluşturuluyor
- Masaüstü uygulamasında çoklu oturumun paralel çalıştırılması destekleniyor
- Claude uygulaması, uzun konuşmaları otomatik özetleyerek bağlamı koruyor
- Claude for Chrome, tüm Max kullanıcılarına sunuluyor
- Claude for Excel, Max, Team ve Enterprise kullanıcıları için betada genişletildi
- Opus 4.5'e özel kullanım limitlerinin artırılmasıyla günlük işlerde kullanım mümkün hale geldi
Ek bilgiler
- Tüm değerlendirmeler (evals), 64K thinking budget, 200K context window ve varsayılan
effort (high) ayarıyla 5 çalışmanın ortalaması alınarak yapıldı
- SWE-bench Verified, Terminal Bench gibi bazı testlerde ayrı ayarlar kullanıldı
- İlgili araştırmalar ve ayrıntılı sonuçlar Claude Opus 4.5 system card içinde görülebilir
İlgili haberler
- Claude, Microsoft Foundry ve Microsoft 365 Copilot'a entegre edildi
- Microsoft·NVIDIA·Anthropic arasında stratejik ortaklık kuruldu
- Anthropic, Azure işlem kapasitesinden 30 milyar dolarlık alım ve en fazla 1GW ek anlaşma planlıyor
- Ruanda hükümeti ve ALX ile iş birliği yapılarak Afrika'da yapay zeka eğitimi genişletiliyor
2 yorum
5G iletişim ücretlerini, Netflix’i de zaten abone olarak ödemek gerekiyor; şimdi bir de yapay zekaya abone olmak gerekiyor ağla ağla.
Hacker News görüşleri
Bu duyuruda asıl önemli nokta Opus 4.5’in fiyat indirimi
MTok başına $5/$25, Opus 4’e kıyasla 3 katlık bir indirim anlamına geliyor; artık bu model sadece “önemli işler için kullanılan bir model” değil, gerçek production iş yüklerine konulabilecek bir model haline geldi
Ayrıca prompt injection direncinin SOTA seviyesinde olduğunu iddia ediyorlar; eğer sistem kartındaki sayılar saldırgan testlerde de korunuyorsa, bu araç erişim yetkisi olan ajanları dağıtanlar için büyük anlam taşır
Yine de “en uyumlu model” ifadesi biraz abartılı geliyor; üçüncü taraf red team sonuçlarını merak ediyorum
Yalnızca Opus’a özel cap kaldırıldı ve Max ile Team Premium kullanıcıları da artık Sonnet dönemine benzer miktarda token kullanabiliyor
Günlük işlerde Opus 4.5’i kullanabilmek için kullanım limitlerinin ayarlandığı söyleniyor
Amp ekibinde thread başına ortalama maliyet Sonnet 4.5 için $1.83, Opus 4.5 içinse yaklaşık $1.30 olmuştu
Maliyet düşüşünde asıl etken, yalnızca token birim fiyatı değil, artan zekâ nedeniyle hata oranının azalması oldu
Benchmark’lara yönelik fine-tuning güçlendirilmiş gibi duruyor; eqbench.com gibi hedeflenmemiş testlerde nasıl performans verdiğini merak ediyorum
Görünüşe göre “güvenlik” terimi artık başka bir anlama evriliyor
Bu, prompt injection direncinden ayrı bir konu da olabilir
Bu model muhtemelen 2-4 hafta boyunca devrimsel olacak, sonra da bir “nerf” gelecek
Sonraki birkaç ay performans düşüşünden şikâyet edenlere “skill issue” denecek, ardından bir mühendis bazı “bug’lar” bulduğunu açıklayacak ve sonra Opus 4.7 çıkacak
Artık benim sadakatim nerf döngüsü üzerinden ölçülüyor
Çünkü benchmark’larda performans düştüğüne dair bir kanıt yok
Eğer insanların hissettiği düşüş gerçekse, bu benchmark’ların yakalayamadığı bir etkenin (x-factor) varlığına işaret eder
v2.5 neslinden beri performans düşüşü görmedim ve Anthropic’in belki de kuantize edilmiş model değişimi yaptığından şüpheleniyorum
Bağlama daha az bağımlı tek seferlik sorgularda performans düşüşü daha az hissediliyor
Cursor’da Gemini 3 Pro kullandım ama Sonnet 4.5’ten çok daha zayıftı
Yalnızca Claude Code’un çözebildiği sorunlar da oldu ve Sonnet 4.5 özellikle Cursor içinde çok iyi çalışıyor
Anthropic’in yazılım mühendisliği odaklı strateji seçmesinin doğru bir karar olduğunu düşünüyorum
2026’ya giderken en çok heyecan duyduğum model bu
str_replace_editorgibi yerleşik araçlar varCursor’da bu tür araçlar olmadığı için performans farkı ortaya çıkıyor
İlgili tweet için buraya bakabilirsiniz
Opus/Sonnet/GPT, ajan tabanlı iş akışları için çok daha uygun
Azure GPT-4.1, Bedrock Sonnet 4 ve Perplexity çok daha stabildi
Başkalarının deneyimini merak ediyorum
serialize()JSON’u verip URL çıkarmasını istediğimde, bana Rick Astley’nin YouTube linkini döndürdüClaude Opus 4.5 sistem kartı, pazarlama blogundan çok daha ayrıntılı
150 sayfalık bir PDF ve özellikle aldatma (deception) ile ilgili bölüm çok ilginç
Örneğin Anthropic’in güvenlik ekibinin dağıtıldığı haberini girdiye verince, bu bilgiyi kullanıcıdan sakladığı bir örnek var
CBRN ile ilgili riskler de ele alınıyor ve Opus hâlâ ASL-3 seviyesinde, yani büyük ölçekli bir risk değil
Bununla ilgili blog özetimi buraya koydum
Bu benchmark sonuçları gerçekten sevindirici
Sayesinde mevcut Coding Agent’ımı koruyabildim
Hızla değişen yapay zeka ortamında FOMO’ya kapılmadan ayakta kalmak giderek zorlaşıyordu ama bu kez Anthropic yeniden rekabet gücünü kanıtladı
Sonnet ve Claude Code kombinasyonu zaten yeterince stabildi, 4.5’ten sonra ise otomatik olarak daha da iyi oldu
Codex’e geç baskısını artık sadece görmezden geliyorum
Claude biraz daha iyi kod üretiyor olsa bile, GPT’de sınırsız istek mümkün olduğu için deneme özgürlüğü daha fazla
Opus anlamlı bir ilerleme ama temel iş akışını değiştirecek bir şey değil gibi
Rekabette iyi dayanmasını umuyorum
Codex’i sadece limite takıldığımda geçici olarak kullanıyorum
Opus 4.5’in gelişmiş araç kullanımı özellikle etkileyiciydi
Advanced Tool Use belgesine göre araç arama, programatik çağrı ve in-context örnek öğrenimi mümkün
Sadece araç tanımlarına 130 bin token harcadıklarını söylemeleri şaşırtıcı
Bulmaca oyunu demo videosu da ilginçti
Simon Willison’ın Opus incelemesini okudum
Çoğu görevde farkı yaratan şey modelden çok tooling açığı oluyor
There model→Their modelARC-AGI-2 liderlik tablosuna bakınca modeller arasında maliyet/performans karşılaştırması net şekilde görülüyor
Opus 4.5, Gemini 3’e karşı harika sonuç veriyor; Gemini 3 Deep Think hâlâ birinci ama maliyeti 30 kattan fazla
OpenAI Aralık 2024’te ARC-AGI-1’de insan performansını geçtiğinde görev başına $3.000 harcanıyordu; şimdi bu rakam birkaç dolar seviyesine indi ve 80 kat ucuzladı
Liderlik tablosu ve ilgili blog incelenebilir
Aynı araç erişimi verilirse iki model arasındaki fark azalıyor
Son dönemde LLM’lerdeki iyileşme hızının yavaşladığı hissediliyor
Doğruluk artışı sınırlı ama verimlilik iyileştirmesi büyük
Son zamanlarda Sonnet 4.5 sanki aptallaşmış gibi geliyor
Basit CSS’i bile düzgün işleyemedi
Opus’un 3 kat ucuzlaması güzel ama Claude Code Pro aboneliğinde hâlâ kullanılamıyor
/model opusplankomutuyla planlama aşamasında Opus kullanılabiliyor ama kredi tüketen bir yapı olduğu için şeffaf değilBasit bir CSS düzeltmesi için $0.95 ödedim; bu fazla pahalı
Bundan sonra Opus ile Sonnet arasında elle geçiş yapmayı deneyeceğim
Yoğun saatlerde performans düşüşü kaçınılmaz olduğundan, yük sinyali özelliği olsa iyi olurdu
Yeni modeli tanıtmak için bilerek düşürmüş olabilirler ya da ücretsiz kredi dağıtımı nedeniyle yük arttığı için kuantize bir sürüm çalıştırıyor olabilirler
Anthropic’in şeffaf olmaması ve istikrarsızlığı can sıkıcı
Başta bunun geçici bir hata olduğunu düşündüm ama sanki bir şey değişmiş gibi geliyor