8 puan yazan GN⁺ 2025-11-25 | 2 yorum | WhatsApp'ta paylaş
  • Claude Opus 4.5, kod yazma, ajan çalıştırma ve bilgisayar kullanımı alanlarında en üst düzey performans sergileyen bir yapay zeka modeli
  • Gerçek yazılım mühendisliği testinde (SWE-bench Verified) en yüksek puanı alırken, token verimliliği ve akıl yürütme yeteneği büyük ölçüde iyileştirildi
  • Fiyat 1 milyon token başına $5/$25 seviyesine düşürülerek daha fazla geliştirici ve şirketin Opus sınıfı yeteneklerden yararlanması sağlandı
  • Yeni effort parametresi, bağlam yönetimi, araç kullanımında iyileştirmeler gibi yeniliklerle Claude Developer Platform ve Claude Code kapsamlı biçimde yükseltildi
  • Güvenlik ve hizalama güçlendirmeleri ile prompt injection savunmasının iyileştirilmesi, sektör genelinde yapay zeka kullanımına duyulan güveni artıran bir dönüm noktası oluşturuyor

Claude Opus 4.5 genel bakış

  • Anthropic, Claude Opus 4.5'i tanıttı ve onu kodlama, ajanlar ve bilgisayar kullanımı alanlarında dünya çapında en üst seviye model olarak sundu
    • Gündelik işlerde de performans artırıldı (araştırma, slayt hazırlama, elektronik tablo işlemleri)
    • Yapay zeka sistemlerinin gerçekleştirebildiği işlerin kapsamını genişleten bir adım olarak değerlendiriliyor
  • Opus 4.5, SWE-bench Verified testinde en yüksek puanı kaydetti
  • Anthropic uygulaması, API ve başlıca üç bulut platformunda hemen kullanılabiliyor
    • API model adı: claude-opus-4-5-20251101
    • Fiyat: girdi $5 / çıktı $25 (1 milyon token bazında)

İlk kullanıcı ve test geri bildirimleri

  • Dahili testlerde belirsiz problemleri ele alma ve karmaşık hataları çözme yeteneğinin geliştiği bildirildi
  • Çeşitli şirketlerden ilk kullanıcılar şu geri bildirimleri paylaştı
    • Kod kalitesinde artış ve token kullanımında yarı yarıya azalma
    • Çok adımlı akıl yürütme, uzun süreli otonom görevler ve ajan iş akışlarında güçlü performans
    • Sonnet 4.5'e kıyasla %15'in üzerinde verimlilik artışı
    • Kendi kendini geliştiren yapay zeka ajanlarının uygulanabilirliği doğrulandı
    • Excel otomasyonu, 3D görselleştirme, kod inceleme, hikâye oluşturma gibi farklı alanlarda performans artışı
    • Araç çağırma hataları ve build hatalarında %50~75 azalma, ayrıca hız artışı raporlandı

Performans değerlendirmesi

  • Anthropic'in dahili yazılım mühendisliği sınavında, insan adaylar arasındaki en yüksek puanı aştı
    • 2 saat sınırı içinde en iyi sonucu elde etti
  • Görsel, akıl yürütme ve matematik yetenekleri genel olarak iyileşerek birçok benchmark'ta en güncel teknik seviye (SOTA) sağlandı
  • τ2-bench testinde yaratıcı problem çözmeye dair bir örnek sunuldu
    • Uçak bileti değiştirilemez politikasını delmeden, yasal bir prosedürle (koltuk yükseltmesinden sonra tarih değişikliği) çözüm üretti
    • Benchmark bunu başarısız saydı, ancak yaratıcı akıl yürütme yeteneğine örnek olarak anıldı

Güvenlik ve hizalama iyileştirmeleri

  • Claude Opus 4.5, Anthropic'in şimdiye kadar yayımladığı modeller içinde en güçlü şekilde hizalanmış model
    • Prompt injection saldırılarına karşı dayanıklılığı sektörün en üst düzeyinde
    • Gray Swan tarafından geliştirilen güçlü saldırı benchmark'ında da başarılı sonuçlar verdi
  • “Concerning behavior” puanının düşük olması, kötüye kullanım ve otonom hatalı davranış olasılığını azaltıyor
  • Ayrıntılı güvenlik ve performans değerlendirmeleri Claude Opus 4.5 system card içinde yer alıyor

Claude Developer Platform güncellemeleri

  • Opus 4.5, daha az token ile daha iyi sonuçlar üretiyor
  • Yeni effort parametresi ile hız, maliyet ve performans arasında denge kurulabiliyor
    • Orta effort seviyesinde Sonnet 4.5 ile aynı performans, çıktı tokenlarında %76 tasarruf
    • En yüksek effort seviyesinde Sonnet 4.5'e göre %4,3 performans artışı, %48 token tasarrufu
  • effort control, context compaction ve gelişmiş araç kullanımı özellikleriyle uzun süreli görev verimliliği artırıldı
  • Bağlam yönetimi ve bellek özellikleri sayesinde ajan görev performansında %15 artış
  • Platform giderek daha fazla modüler ve birleşebilir bir yapıya evriliyor

Ürün güncellemeleri

  • Claude Code, Opus 4.5 temelinde Plan Mode doğruluğunu ve uygulama gücünü artırdı
    • Çalıştırmadan önce kullanıcı incelemesine sunulmak üzere plan.md dosyası oluşturuluyor
    • Masaüstü uygulamasında çoklu oturumun paralel çalıştırılması destekleniyor
  • Claude uygulaması, uzun konuşmaları otomatik özetleyerek bağlamı koruyor
  • Claude for Chrome, tüm Max kullanıcılarına sunuluyor
  • Claude for Excel, Max, Team ve Enterprise kullanıcıları için betada genişletildi
  • Opus 4.5'e özel kullanım limitlerinin artırılmasıyla günlük işlerde kullanım mümkün hale geldi

Ek bilgiler

  • Tüm değerlendirmeler (evals), 64K thinking budget, 200K context window ve varsayılan effort (high) ayarıyla 5 çalışmanın ortalaması alınarak yapıldı
  • SWE-bench Verified, Terminal Bench gibi bazı testlerde ayrı ayarlar kullanıldı
  • İlgili araştırmalar ve ayrıntılı sonuçlar Claude Opus 4.5 system card içinde görülebilir

İlgili haberler

  • Claude, Microsoft Foundry ve Microsoft 365 Copilot'a entegre edildi
  • Microsoft·NVIDIA·Anthropic arasında stratejik ortaklık kuruldu
    • Anthropic, Azure işlem kapasitesinden 30 milyar dolarlık alım ve en fazla 1GW ek anlaşma planlıyor
  • Ruanda hükümeti ve ALX ile iş birliği yapılarak Afrika'da yapay zeka eğitimi genişletiliyor

2 yorum

 
kaydash 2025-11-27

5G iletişim ücretlerini, Netflix’i de zaten abone olarak ödemek gerekiyor; şimdi bir de yapay zekaya abone olmak gerekiyor ağla ağla.

 
GN⁺ 2025-11-25
Hacker News görüşleri
  • Bu duyuruda asıl önemli nokta Opus 4.5’in fiyat indirimi
    MTok başına $5/$25, Opus 4’e kıyasla 3 katlık bir indirim anlamına geliyor; artık bu model sadece “önemli işler için kullanılan bir model” değil, gerçek production iş yüklerine konulabilecek bir model haline geldi
    Ayrıca prompt injection direncinin SOTA seviyesinde olduğunu iddia ediyorlar; eğer sistem kartındaki sayılar saldırgan testlerde de korunuyorsa, bu araç erişim yetkisi olan ajanları dağıtanlar için büyük anlam taşır
    Yine de “en uyumlu model” ifadesi biraz abartılı geliyor; üçüncü taraf red team sonuçlarını merak ediyorum

    • Opus 4.5’in çıkışıyla birlikte Claude Code kullanım sınırları gevşetildi
      Yalnızca Opus’a özel cap kaldırıldı ve Max ile Team Premium kullanıcıları da artık Sonnet dönemine benzer miktarda token kullanabiliyor
      Günlük işlerde Opus 4.5’i kullanabilmek için kullanım limitlerinin ayarlandığı söyleniyor
    • İç test sonuçlarına göre Opus 4.5’i çalıştırmak çoğu durumda Sonnet’ten bile daha ucuzdu
      Amp ekibinde thread başına ortalama maliyet Sonnet 4.5 için $1.83, Opus 4.5 içinse yaklaşık $1.30 olmuştu
      Maliyet düşüşünde asıl etken, yalnızca token birim fiyatı değil, artan zekâ nedeniyle hata oranının azalması oldu
    • 3 kat fiyat indirimi muhtemelen Opus 4.5’in daha küçük ve daha özelleşmiş bir base model olma ihtimalinin yüksek olduğunu gösteriyor
      Benchmark’lara yönelik fine-tuning güçlendirilmiş gibi duruyor; eqbench.com gibi hedeflenmemiş testlerde nasıl performans verdiğini merak ediyorum
    • Eskiden “Safety” bölümünü biraz bilimkurguvari bir uyarı gibi görürdüm ama bu kez prompt injection gibi gerçekçi sorunları ele alması ilginçti
      Görünüşe göre “güvenlik” terimi artık başka bir anlama evriliyor
    • Ama Pliney the Liberator şimdiden jailbreak yapmayı başarmış deniyor
      Bu, prompt injection direncinden ayrı bir konu da olabilir
  • Bu model muhtemelen 2-4 hafta boyunca devrimsel olacak, sonra da bir “nerf” gelecek
    Sonraki birkaç ay performans düşüşünden şikâyet edenlere “skill issue” denecek, ardından bir mühendis bazı “bug’lar” bulduğunu açıklayacak ve sonra Opus 4.7 çıkacak
    Artık benim sadakatim nerf döngüsü üzerinden ölçülüyor

    • Bunun gerçek bir performans düşüşü değil, bilişsel bir yanılgı olma ihtimali de var
      Çünkü benchmark’larda performans düştüğüne dair bir kanıt yok
      Eğer insanların hissettiği düşüş gerçekse, bu benchmark’ların yakalayamadığı bir etkenin (x-factor) varlığına işaret eder
    • Bu yüzden ben Gemini’ye geçtim
      v2.5 neslinden beri performans düşüşü görmedim ve Anthropic’in belki de kuantize edilmiş model değişimi yaptığından şüpheleniyorum
    • Şaka gibi ama aslında bu Opus 4.0’ın yeniden çıkışı bile olabilir
    • Bu tür bir durum, CEO’nun davranış kalıplarıyla da örtüşüyor
    • Claude muhtemelen gizlice context compression deneyleri yürütüyor
      Bağlama daha az bağımlı tek seferlik sorgularda performans düşüşü daha az hissediliyor
  • Cursor’da Gemini 3 Pro kullandım ama Sonnet 4.5’ten çok daha zayıftı
    Yalnızca Claude Code’un çözebildiği sorunlar da oldu ve Sonnet 4.5 özellikle Cursor içinde çok iyi çalışıyor
    Anthropic’in yazılım mühendisliği odaklı strateji seçmesinin doğru bir karar olduğunu düşünüyorum
    2026’ya giderken en çok heyecan duyduğum model bu

    • Claude modellerinde str_replace_editor gibi yerleşik araçlar var
      Cursor’da bu tür araçlar olmadığı için performans farkı ortaya çıkıyor
      İlgili tweet için buraya bakabilirsiniz
    • Benim iş akışım Gemini ile tasarlayıp, Sonnet ile uygulamak şeklindeydi
    • Kişisel olarak Gemini etrafındaki aşırı hype’ı anlayamıyorum
      Opus/Sonnet/GPT, ajan tabanlı iş akışları için çok daha uygun
    • Gemini 2.5 Pro API ile bir yan proje yaptım ama komutları tutarlı yerine getirme ve resource exceeded hataları sorun oldu
      Azure GPT-4.1, Bedrock Sonnet 4 ve Perplexity çok daha stabildi
      Başkalarının deneyimini merak ediyorum
    • Sonnet 4.5’e base64 ile encode edilmiş PHP serialize() JSON’u verip URL çıkarmasını istediğimde, bana Rick Astley’nin YouTube linkini döndürdü
  • Claude Opus 4.5 sistem kartı, pazarlama blogundan çok daha ayrıntılı
    150 sayfalık bir PDF ve özellikle aldatma (deception) ile ilgili bölüm çok ilginç
    Örneğin Anthropic’in güvenlik ekibinin dağıtıldığı haberini girdiye verince, bu bilgiyi kullanıcıdan sakladığı bir örnek var
    CBRN ile ilgili riskler de ele alınıyor ve Opus hâlâ ASL-3 seviyesinde, yani büyük ölçekli bir risk değil
    Bununla ilgili blog özetimi buraya koydum

  • Bu benchmark sonuçları gerçekten sevindirici
    Sayesinde mevcut Coding Agent’ımı koruyabildim
    Hızla değişen yapay zeka ortamında FOMO’ya kapılmadan ayakta kalmak giderek zorlaşıyordu ama bu kez Anthropic yeniden rekabet gücünü kanıtladı

    • Görünüşe göre artık hype’ı görmezden gelip geride kalmayabileceğimiz bir noktaya geldik
      Sonnet ve Claude Code kombinasyonu zaten yeterince stabildi, 4.5’ten sonra ise otomatik olarak daha da iyi oldu
      Codex’e geç baskısını artık sadece görmezden geliyorum
    • Ben fiyat limiti yüzünden OpenAI’a geçtim
      Claude biraz daha iyi kod üretiyor olsa bile, GPT’de sınırsız istek mümkün olduğu için deneme özgürlüğü daha fazla
    • Birden çok aracı birlikte kullanmanın verimlilik açısından büyük bir getirisi yok
      Opus anlamlı bir ilerleme ama temel iş akışını değiştirecek bir şey değil gibi
    • Ben de Anthropic’in geliştirici dostu yönünü seviyorum
      Rekabette iyi dayanmasını umuyorum
    • Codex’i de denedim ama sonunda yine Claude Code’a döndüm
      Codex’i sadece limite takıldığımda geçici olarak kullanıyorum
  • Opus 4.5’in gelişmiş araç kullanımı özellikle etkileyiciydi
    Advanced Tool Use belgesine göre araç arama, programatik çağrı ve in-context örnek öğrenimi mümkün
    Sadece araç tanımlarına 130 bin token harcadıklarını söylemeleri şaşırtıcı
    Bulmaca oyunu demo videosu da ilginçti

  • Simon Willison’ın Opus incelemesini okudum

    • Kademeli evrim büyük kod tabanlarında hissedilmesi zor bir şey
      Çoğu görevde farkı yaratan şey modelden çok tooling açığı oluyor
    • Terminal çıktısını HTML’e dönüştüren kütüphaneyi kendilerinin yazıp yazmadığını merak ediyorum
    • Acaba modeli benchmark verilerine göre eğitiyorlar mı diye düşünüyorum
    • Haiku fiyatlandırmasında hata var — doğrusu $1/$5
    • Yazım hatası düzeltme önerisi: There modelTheir model
  • ARC-AGI-2 liderlik tablosuna bakınca modeller arasında maliyet/performans karşılaştırması net şekilde görülüyor
    Opus 4.5, Gemini 3’e karşı harika sonuç veriyor; Gemini 3 Deep Think hâlâ birinci ama maliyeti 30 kattan fazla
    OpenAI Aralık 2024’te ARC-AGI-1’de insan performansını geçtiğinde görev başına $3.000 harcanıyordu; şimdi bu rakam birkaç dolar seviyesine indi ve 80 kat ucuzladı
    Liderlik tablosu ve ilgili blog incelenebilir

    • Bu arada Gemini 3 Pro araç kullanmıyor, Deep Think ise araç kullanan sürüm
      Aynı araç erişimi verilirse iki model arasındaki fark azalıyor
  • Son dönemde LLM’lerdeki iyileşme hızının yavaşladığı hissediliyor
    Doğruluk artışı sınırlı ama verimlilik iyileştirmesi büyük

  • Son zamanlarda Sonnet 4.5 sanki aptallaşmış gibi geliyor
    Basit CSS’i bile düzgün işleyemedi
    Opus’un 3 kat ucuzlaması güzel ama Claude Code Pro aboneliğinde hâlâ kullanılamıyor
    /model opusplan komutuyla planlama aşamasında Opus kullanılabiliyor ama kredi tüketen bir yapı olduğu için şeffaf değil
    Basit bir CSS düzeltmesi için $0.95 ödedim; bu fazla pahalı
    Bundan sonra Opus ile Sonnet arasında elle geçiş yapmayı deneyeceğim

    • Sonnet 4.5’in kalitesi, satranç motorları gibi arama derinliğiyle orantılı görünüyor
      Yoğun saatlerde performans düşüşü kaçınılmaz olduğundan, yük sinyali özelliği olsa iyi olurdu
    • Son birkaç gündür gerçekten zekâsı düşmüş gibi hissettiriyor
      Yeni modeli tanıtmak için bilerek düşürmüş olabilirler ya da ücretsiz kredi dağıtımı nedeniyle yük arttığı için kuantize bir sürüm çalıştırıyor olabilirler
      Anthropic’in şeffaf olmaması ve istikrarsızlığı can sıkıcı
    • Muhtemelen trafik aşırı yüklenince daha ucuz bir modele failover yapılıyor
    • Özellikle cuma günü ısrarla aptalca yanıtlar gördüm
      Başta bunun geçici bir hata olduğunu düşündüm ama sanki bir şey değişmiş gibi geliyor