- Anthropic’in geliştirilmiş kodlama yetenekleri ve uzun süreli görev devamlılığı sunan en yeni yapay zeka modeli; 1M token bağlam penceresini beta olarak destekliyor
- Başlıca benchmark’larda sektör lideri seviyesinde puanlar alırken, GPT-5.2’ye göre yaklaşık 144 Elo puan önde
- Kod inceleme·hata ayıklama, büyük kod tabanlarını işleme, finansal analiz·doküman yazımı gibi pratik iş odaklı görevlerde performansı güçlendirildi
- Adaptive thinking, context compaction, effort ayarı gibi geliştirici kontrol özellikleri eklenerek uzun süre çalışan ajanların yönetimi kolaylaştırıldı
- Güvenlik değerlendirmelerinde de hata·kötüye kullanım·aşırı reddetme oranlarının düşük olduğu sonuçlar göstererek, yüksek performans ile güvenliği aynı anda sağlayan bir model olarak değerlendiriliyor
Claude Opus 4.6’daki başlıca iyileştirmeler
- Opus 4.6, önceki sürüme kıyasla planlama yeteneği, ajan sürekliliği ve kod kalite yönetimi geliştirilmiş bir model
- Büyük kod tabanlarında daha kararlı çalışıyor ve kendi hatalarını tespit edip düzeltme yeteneği güçlendirildi
- 1M token bağlam penceresi (beta) ile uzun ve karmaşık görevleri işleyebiliyor
- Günlük işlerde kullanılabilirliği de genişletildi; finansal analiz, araştırma, doküman, elektronik tablo ve sunum üretimi gibi çeşitli görevleri yerine getirebiliyor
- Cowork ortamında çoklu görevi otonom şekilde yürütebiliyor, kullanıcı adına karmaşık işleri işleyebiliyor
Benchmark ve performans değerlendirmesi
- Terminal-Bench 2.0’da en yüksek puanı aldı; Humanity’s Last Exam’da da tüm frontier modeller arasında lider oldu
- GDPval-AA değerlendirmesinde GPT-5.2’den yaklaşık 144 Elo puan, Opus 4.5’ten ise 190 puan daha yüksek performans gösterdi
- BrowseComp testinde de en yüksek performansı kaydetti; çevrimiçi bilgi arama yeteneği güçlendi
- MRCR v2 (1M variant) testinde %76 puan alarak Sonnet 4.5’in %18.5’ine kıyasla büyük bir gelişme gösterdi
- Uzun bağlamı koruma ve bilgi takibi yetenekleri iyileştirilerek context rot etkisi azaltıldı
İlk kullanım deneyimleri ve partner geri bildirimleri
- Dahili mühendislik testlerinde karmaşık problem çözme ve muhakeme yeteneğinin geliştiği görüldü
- Zor problemlerde derin düşünmeyi yineleyerek daha iyi sonuçlar üretiyor
- Basit görevlerde aşırı düşünme nedeniyle gecikme yaşanabildiğinden
/effort parametresiyle ayarlanabiliyor
- İlk partnerler, Opus 4.6’nın otonom yürütme yeteneği, karmaşık istekleri işleme, ekip iş birliğini destekleme alanlarında öne çıktığını değerlendirdi
- Büyük kod tabanlarını keşfetme, paralel alt görev yürütme, engelleri tespit etme gibi konularda hassas performans gösteriyor
- Hukuk, finans ve teknik içerik analizinde yüksek doğruluk sağlıyor (ör. BigLaw Bench %90.2)
- Gerçek testlerde 40 siber güvenlik soruşturmasının 38’inde Opus 4.5’ten daha iyi sonuç verdi
- Milyonlarca satırlık kod göçünü yarı sürede tamamladığına dair örnekler bildirildi
Güvenlik ve emniyet güçlendirmeleri
- Otomatik davranış denetimlerinde aldatma, dalkavukluk, kötüye kullanıma iş birliği gibi hizasız davranış oranı düşük
- Aşırı reddetme oranı (over-refusal) en düşük Claude modeli oldu
- Kullanıcı refahı, riskli istekleri reddetme, gizli zararlı davranışları tespit etme gibi yeni güvenlik değerlendirmeleri yapıldı
- Yorumlanabilirlik araştırmaları ile modelin iç çalışma nedenleri analiz edilip potansiyel sorunlar tespit ediliyor
- Siber güvenlik yeteneklerinin güçlenmesine paralel olarak 6 yeni güvenlik probe’u devreye alındı, kötüye kullanım tespiti artırıldı
- Savunma amaçlı kullanım kapsamında açık kaynak zafiyetlerini tespit etme ve yama desteği sağlanıyor; ileride gerçek zamanlı kötüye kullanım engelleme planlanıyor
Ürün ve API güncellemeleri
- Claude Developer Platform’a şu özellikler eklendi
- Adaptive thinking: Model, duruma göre derin düşünmenin gerekip gerekmediğine otomatik karar veriyor
- Effort seviyesi: low, medium, high (varsayılan), max olmak üzere dört kademe sunuluyor
- Context compaction (beta): Konuşma uzadığında eski bağlamı özetleyip onun yerine geçiyor
- 1M token bağlam (beta) ve 128k çıktı tokenı desteği
- US-only inference seçeneği sunuluyor (1.1x ücret)
- Claude Code’a agent teams özelliği eklendi; birden fazla ajan paralel iş birliği yapabiliyor
- Claude in Excel, yapılandırılmamış veriyi yapılandırma ve çok aşamalı değişiklikleri işleme konusunda geliştirildi
- Claude in PowerPoint (research preview), slayt şablonlarını, yazı tiplerini ve düzenleri tanıyarak marka tutarlılığını koruyor
Erişim ve fiyatlandırma
- Opus 4.6, claude.ai, API ve başlıca bulut platformlarında hemen kullanılabiliyor
- API model adı
claude-opus-4-6; fiyatlandırma öncekiyle aynı şekilde milyon token başına $5/$25
- 200k tokenı aşan prompt’larda premium ücretlendirme uygulanıyor (milyon token başına $10/$37.50)
Sonuç
- Claude Opus 4.6, uzun bağlam işleme, otonom ajan görevleri ve gelişmiş akıl yürütme yetenekleri alanında büyük bir sıçrama yapıyor
- Performans, güvenlik ve geliştirici kontrolünü birlikte güçlendiren bir model olarak, iş odaklı yapay zeka araçları için yeni bir standart ortaya koyuyor
9 yorum
Max kullanıyorum; sanki ne kadar çok token harcarsam o kadar tatmin edici... kullanmayınca yazık oluyormuş gibi...
İnternette dolaşan fiyat indirimi uygulanmamış galiba :(
Reddit'te abonelerin limitlerini ışık hızında tükettiklerine dair paylaşımlar yağıyor gibi görünüyor.
Benim de uğraştığım işler var, o yüzden şimdilik 4.5 kullanmaya devam ediyorum
Sınırlı bir süre boyunca 50 dolar değerinde ek kullanım kredisi verdiklerini söylüyorlar. haha
API fiyatı düşerse haftalık limitin de doğal olarak artacağını umuyordum ama ne yazık ki öyle olmadı t_t 200 dolarlık planda haftalık limit pek rahat değil..
Off, gerçekten çok cimri.. Anthropic biraz token dağıtsın artık..!!
Ooo sonunda~~~~
Sonnet 5 bekliyordum ama meğer Opus 4.6 imiş haha
Hacker News görüşleri
Bisiklet kadrosu biraz eğri, ama pelikanın kendisi harika
Görsel buradan görülebilir
Pelikanın iki bacağının aynı tarafta olduğunu hemen fark ettim; aslında öyle olmadığını Wikipedia'dan kontrol ettim
Prompt'u tekrar tekrar düzenleyerek daha gerçekçi sonuçlar elde etmenin test edilip edilmediğini de merak ediyorum
Kadro yapısını ya da geometrik oranları sık sık yanlış çiziyorlar
Bağlantı
GPT‑5.3 Codex, Terminal Bench'te %77,3 ile ezici bir performans gösterdi
Rekorun sadece 35 dakika içinde kırılmış olması şaşırtıcı
Acaba lansmandan hemen sonra en yüksek performansta çalıştırıp daha sonra maliyet düşürmek için aşağı çekiyor olabilirler mi diye merak ediyorum
Bizzat kullandıktan sonra fikir paylaşmak isterim
Acaba artık benchmark doygunluğuna ulaşmış olabilir miyiz diye düşünüyorum
Claude Code sürüm notlarının özeti
Opus 4.6 eklendi; multi-agent işbirliği özelliği, otomatik bellek kaydı, kısmi sohbet özeti, VSCode iyileştirmeleri gibi çeşitli güncellemeler içeriyor
Bellek özelliği dokümanına bakınca bunun Google Antigravity'nin Knowledge artifact'i ile benzer bir kavram olduğu görülüyor
Tartışmada iki şeyin birbirine karıştırıldığını düşünüyorum
Birincisi token birim fiyatına dayalı kârlılık, ikincisi ise model yaşam döngüsü ekonomisi
Çıkarım birim fiyatı kârlı olabilir ama model programının tamamı hâlâ zarar ediyor olabilir
Asıl soru şu: “Bir modelin ekonomik olarak mantıklı olması için ne kadar süre rekabetçi kalması gerekir?”
En iyisi olmasa bile yeterince iyiyse ve geçiş maliyeti yüksekse pazara hâkim olabilir
Başlangıçta zarar etmeyi göze alıp belirli bir alanı (ör. kodlama) merkeze alarak pazar kazanmak mantıklı olabilir
Ama kullanımın 20 kat arttığı planların sürdürülebilirliği şüpheli
Şu anki “vibe-coding rönesansı”nın bu maliyet yapısıyla sürdürülebilir olup olmayacağından emin değilim
Yıllık kâr-zarar açısından değerlendirmek AI şirketlerinin doğasına pek uygun değil
Şu anki ajan tabanlı kodlama patlamasını bu taşıyor
Muhtemelen bir miktar sübvansiyon var, ama uzun vadede yaklaşık 2 kat zam gelmesi mümkün
1M context window gelmesi çok büyük bir yükseltme; bundan çok memnunum
Anthropic'in stratejisini hâlâ tam olarak anlayamıyorum
Kitle pazarına yönelik pazarlama yapıyorlar ama gerçek güçleri kodlama odaklı
Genel araştırma ya da bilgi keşfi tarafında ChatGPT ve Gemini çok daha derin ve ifade gücü daha yüksek
“Anayasa” ya da “insan hakları” gibi insani pazarlama dili kullanıyorlar ama buna rağmen en işlemsel hissettiren de onlar
Yine de kodlama için harika, bu yüzden ücretli kullanmaya devam ediyorum
Teknik olmayan arkadaşlarım da ChatGPT'den Claude'a geçti ve geri dönen görmedim
8 ay önce yalnızca API'de kullanılabilir gibiydi, şimdi çok daha iyi
Ben Çekçe kullanıcısıyım; Claude kelime uyduruyor, Grok ise bazen Rusça yanıt veriyor
Kodlama için iyi ama genel konuşma için kullanılamaz
Ajan tabanlı işler ya da araç kullanımı için iyi ama günlük sorular için kullanmıyorum
Opus 4.6 kurulumda görünmüyordu; kurulum komutunu yeniden çalıştırınca ortaya çıktı (v2.1.32)
Kurulum kılavuzu
AI/LLM'lerin işletme maliyetlerinin gerçekten düşüp düşmediğini merak ediyorum
“Ajan takımı” fikri havalı ama birden fazla modeli aynı anda çalıştırmak maliyeti büyüttüğü için pratikte zor geliyor
OpenAI, mühendislik optimizasyonlarıyla o3 fiyatını 1/5'e indirdi; diğer şirketler de benzer tasarruflar elde etti
Eskiden söylenen “her istekte zarar ediyorlar” iddiası gerçeği yansıtmıyor
Şirketin geneli Ar-Ge ve eğitim maliyetleri yüzünden zarar ediyor olabilir ama API kullanımı kendi başına kârlı
DeepSeek gibi açık modeller de çok daha düşük fiyatlarla kâr edebiliyor
Örneğin Claude 4 (yaklaşık 400B parametre), DeepSeek V3'ten (680B) çok daha pahalı
Claude girdi $1/M, çıktı $5/M; DeepSeek girdi $0.4/M, çıktı $1.2/M
Bu farkın nedeni Anthropic'in eğitim maliyetini geri kazanmak zorunda olması
DeepSeek fiyatı, Claude fiyatı
Yalnızca çıkarım gelirine bakarsanız kâr var, ama toplam maliyete bakınca durum farklı olabilir
Kodlama yardımcısı olarak kullanıyorum ama sık sık rota düzeltmesi gerekiyor
Yine de yetkin insanları işe almaktan çok daha ucuz
“We build Claude with Claude” ifadesi oldukça ilginç
60 gün hareketsiz kalınca otomatik temizlenmesine rağmen sayı artmaya devam ediyor
Bu ifade, önyargıyı ortaya koymasının dışında çok şey ifade etmiyor
Bir ürünü bizzat kullanmak kaliteyi artırmanın en iyi yolu
Şu an wrapper'ların patlama yaşamasının nedeni de bu; bir gün güvenlik olayı çıkacak gibi geliyor
Opus 4.6'yı denemeniz için ek $50 kredi veriliyor
Kullanım sayfasından doğrudan alınabiliyor
Muhtemelen token kullanımında artış bekliyorlar ya da modelin tanıtımını yapmak istiyorlar