- Kod yazma, bilgisayar kullanımı, uzun vadeli akıl yürütme, ajan planlama, bilgi çalışması ve tasarım dahil tüm alanlarda performansı artırılmış Anthropic’in en yeni Sonnet modeli
- 1M token context window desteği sunuyor ve Sonnet 4.5’e kıyasla tutarlılık, komut yerine getirme ve kod kalitesinde büyük iyileşmeler sağlıyor
- Opus 4.5 düzeyinde zekâyı daha düşük maliyetle sunuyor; gerçek iş akışları, belge anlama ve frontend tasarımı gibi alanlarda insan seviyesinde sonuçlar gösteriyor
- OSWorld benchmark üzerinde bilgisayar kullanım yeteneği istikrarlı biçimde gelişti ve prompt injection savunması da güçlendirildi
- Asıl önemli nokta, geliştiriciler ve şirketlerin artık yüksek maliyetli modellere gerek kalmadan frontier düzeyinde akıl yürütme ve kod kalitesinden yararlanabilmesi
Claude Sonnet 4.6 genel bakış
- Sonnet 4.6, Anthropic’in en güçlü Sonnet serisi modeli olarak; kodlama, bilgisayar kullanımı, uzun vadeli akıl yürütme, bilgi çalışması ve tasarım gibi alanlarda genel yetenek yükseltmeleri sunuyor
- 1M token context window (beta) desteği sayesinde büyük kod tabanlarını veya uzun belgeleri tek seferde işleyebiliyor
- Free ve Pro planı kullanıcıları için varsayılan model olarak uygulanıyor; fiyatlandırma Sonnet 4.5 ile aynı şekilde 1 milyon token başına $3/$15 olarak korunuyor
- İlk kullanıcılar Sonnet 4.6’yı Sonnet 4.5’e ezici biçimde tercih etti; bazıları ise Opus 4.5’e bile tercih etti
- Güvenlik değerlendirmelerine göre önceki modellere kıyasla daha güvenli ya da eşdeğer düzeyde; “sıcak, dürüst ve toplum yanlısı bir karakter” sergilediği değerlendirildi
Bilgisayar kullanma yeteneği
- Sonnet 4.6, insan gibi bilgisayar kullanabilen bir modele dönüştü
- Chrome, LibreOffice, VS Code gibi gerçek yazılımları sanal ortamda kullanarak OSWorld benchmark ile değerlendiriliyor
- 16 ay boyunca süren istikrarlı performans artışıyla, karmaşık spreadsheet gezinimi veya çok adımlı web formu doldurma gibi görevlerde insan seviyesine yakın yetenekler doğrulandı
- Hâlâ en yetkin insan uzmanların gerisinde olsa da, iş verimliliğini artırma hızı oldukça yüksek
- Prompt injection saldırılarına karşı savunma, Sonnet 4.5’e kıyasla büyük ölçüde iyileşti ve Opus 4.6’ya benzer düzeyde güvenlik sağlandı
Performans değerlendirmesi ve benchmark’lar
- Sonnet 4.6, Opus düzeyinde zekâyı daha düşük maliyetle sunuyor ve çeşitli benchmark’larda genel iyileşme gösteriyor
- Claude Code testlerinde kullanıcıların %70’i Sonnet 4.6’yı tercih etti; kod düzeltmede bağlamı anlama ve tekrarları en aza indirme yeteneği gelişti
- Opus 4.5’e karşı %59 tercih oranı elde etti; aşırı tasarım veya tembellik eğilimi azaldı, komut uygulama doğruluğu arttı
- Vending-Bench Arena üzerinde uzun vadeli işletme simülasyonunda, ilk yatırım sonrası geç dönemde kâra odaklanan stratejiyle rakip modelleri geride bıraktı
- OfficeQA’da Opus 4.6 ile eşdeğer belge anlama yeteneği, Financial Services Benchmark’ta ise yanıt eşleşme oranında artış görüldü
- Sigorta benchmark’ında %94 doğruluk, Box testinde %15 iyileşmiş derin akıl yürütme performansı kaydedildi
- Rakuten AI testinde en üst düzey iOS kod üretimi, modern tooling kullanımı ve mimari kalitesinde iyileşme gösterdi
Ürün ve platform güncellemeleri
- Claude Developer Platform üzerinde adaptive thinking, extended thinking ve context compaction(beta) desteği sunuluyor
- Eski bağlam otomatik olarak özetlenerek etkili context length artırılıyor
- API araç güncellemeleri:
- web search ve fetch, arama sonuçlarını filtrelemek için otomatik olarak kod yazıp çalıştırabiliyor
- code execution, memory, programmatic tool calling, tool search gibi özellikler genel kullanıma açıldı
- Claude in Excel eklentisinde MCP connector desteği var; S&P Global, LSEG ve PitchBook gibi dış veri kaynaklarıyla entegre olabiliyor
- Sonnet 4.6, extended thinking olmadan da yüksek performansını koruyor; Sonnet 4.5 kullanıcılarına geçiş yapmaları öneriliyor
- Opus 4.6 ise hâlâ en derin akıl yürütmenin gerektiği işler için uygun; örneğin kod refactoring veya çoklu ajan koordinasyonu
Erişim yolları
- Sonnet 4.6; tüm Claude planlarında, Claude Cowork, Claude Code, API ve başlıca cloud platform’larda kullanılabiliyor
- Ücretsiz plan da Sonnet 4.6’ya yükseltildi; dosya oluşturma, connector, skill ve compaction özelliklerini içeriyor
- Geliştiriciler,
claude-sonnet-4-6 model adıyla Claude API üzerinden hemen kullanabiliyor
Başlıca sayılar ve değerlendirme metrikleri (dipnot özeti)
- OSWorld: Gerçek yazılımlar üzerinden bilgisayar görevlerini değerlendiren benchmark; Sonnet 4.6, ‘thinking off’ durumunda ölçüldü
- SWE-bench Verified: 10 denemenin ortalamasında %80.2 puan
- ARC-AGI-2: maksimum çaba modunda %60.4’e ulaştı
- MMMU-Pro: değerlendirme yöntemi iyileştirildikten sonra puan yeniden ayarlandı
- Humanity’s Last Exam, BrowseComp ve çeşitli diğer deneylerde, tool use, web search ve context compaction özellikleri etkin durumdayken test edildi
1 yorum
Hacker News görüşleri
Bilgisayar kullanımına odaklanmaları etkileyici. Görünüşe göre bunu çok değerli görüyorlar. Ancak güvenlik tarafı hâlâ soru işareti. Kendi değerlendirmelerine göre, otomatik saldırı sistemi tek bir denemede %8 olasılıkla içeri sızmayı başarmış, sınırsız denemede ise başarı oranı %50’ye çıkmış. Bu tür rakamları kabul etmek zor. Bir şeyi yanlış anlamadıysam, bu gerçek kullanım için uygun olmayan bir seviye
Güvenlik değerlendirmesi PDF
Kişisel şiir derlememden yaklaşık 900 şiiri Sonnet 4.6’ya verip test ettim; Opus 4.6 ile kıyaslayınca büyük fark var. Opus 4.6 şaşırtıcı bir analiz yaptı ama Sonnet 4.6’da hâlâ halüsinasyon ve hata sık görülüyor. Kodlama testlerinde de benzer bir izlenim verdi. Opus’un oldukça gerisinde
Sonnet 4.6 hâlâ “araba yıkama sorusunu” yanlış cevaplıyor. Orijinal soru aynen verildiğinde “yürü” diyor. Farklı varyasyonlar denense de benzer şekilde başarısız olmuş
“Rekabet tüketici için iyidir” sözünü hissediyorum. Piyasadaki rekabet sertleştikçe ürünler iyileşiyor
“Helikopter araba yıkama” testi harikaydı. Sonnet 4.6 “yürü” diye cevap verdi; Amerikalıların kısa mesafelerde araba kullanma alışkanlığıyla dalga geçen bir yanıt gibi olduğu için komikti
Sonnet 4.6’nın Opus 4.5 seviyesinde performans göstermesi şaşırtıcı. İlerleme hızı 1990’lardaki hesaplama performansı artışını hatırlatıyor
Sonnet 4.5’in fiyatı million tokens başına $3/$15 ama bu fiyatı ödemeye razı olacak çok kişi var mı emin değilim. Open-weight modeller hızla yetişiyor ve çok daha ucuz
Opus/Sonnet 4.6 desteğini llm.datasette.io eklentisine eklemekle uğraştığım için pelikan görselini geç oluşturdum. Sonuç Opus 4.5 seviyesinde ve şık bir silindir şapka takan bir versiyon oldu
İlgili blog yazısı
Son birkaç gündür Sonnet 4.5 ile test yapıyordum; sohbetler alışılmadık derecede ilginç ve tutarlıydı.
Kişisel ayara “nesnel gerçekler ve eleştirel analiz öncelikli, duygusal empati yasak” yazdım ve gerçekten buna uydu. ChatGPT de benzer tepki veriyor
Birden fazla kullanıcı, Opus 4.6’nın 4.5’e göre 5-10 kat daha fazla token tükettiğini bildiriyor. Issue bağlantısı. Henüz resmî bir yanıt yok. Bu yüzden 4.5 kullanmaya devam etmeyi düşünüyorum
/modelsiçinde görülebiliyor. high ayarında token kullanımı keskin şekilde artıyor