9 puan yazan GN⁺ 2026-02-18 | 1 yorum | WhatsApp'ta paylaş
  • Kod yazma, bilgisayar kullanımı, uzun vadeli akıl yürütme, ajan planlama, bilgi çalışması ve tasarım dahil tüm alanlarda performansı artırılmış Anthropic’in en yeni Sonnet modeli
  • 1M token context window desteği sunuyor ve Sonnet 4.5’e kıyasla tutarlılık, komut yerine getirme ve kod kalitesinde büyük iyileşmeler sağlıyor
  • Opus 4.5 düzeyinde zekâyı daha düşük maliyetle sunuyor; gerçek iş akışları, belge anlama ve frontend tasarımı gibi alanlarda insan seviyesinde sonuçlar gösteriyor
  • OSWorld benchmark üzerinde bilgisayar kullanım yeteneği istikrarlı biçimde gelişti ve prompt injection savunması da güçlendirildi
  • Asıl önemli nokta, geliştiriciler ve şirketlerin artık yüksek maliyetli modellere gerek kalmadan frontier düzeyinde akıl yürütme ve kod kalitesinden yararlanabilmesi

Claude Sonnet 4.6 genel bakış

  • Sonnet 4.6, Anthropic’in en güçlü Sonnet serisi modeli olarak; kodlama, bilgisayar kullanımı, uzun vadeli akıl yürütme, bilgi çalışması ve tasarım gibi alanlarda genel yetenek yükseltmeleri sunuyor
    • 1M token context window (beta) desteği sayesinde büyük kod tabanlarını veya uzun belgeleri tek seferde işleyebiliyor
  • Free ve Pro planı kullanıcıları için varsayılan model olarak uygulanıyor; fiyatlandırma Sonnet 4.5 ile aynı şekilde 1 milyon token başına $3/$15 olarak korunuyor
  • İlk kullanıcılar Sonnet 4.6’yı Sonnet 4.5’e ezici biçimde tercih etti; bazıları ise Opus 4.5’e bile tercih etti
  • Güvenlik değerlendirmelerine göre önceki modellere kıyasla daha güvenli ya da eşdeğer düzeyde; “sıcak, dürüst ve toplum yanlısı bir karakter” sergilediği değerlendirildi

Bilgisayar kullanma yeteneği

  • Sonnet 4.6, insan gibi bilgisayar kullanabilen bir modele dönüştü
    • Chrome, LibreOffice, VS Code gibi gerçek yazılımları sanal ortamda kullanarak OSWorld benchmark ile değerlendiriliyor
  • 16 ay boyunca süren istikrarlı performans artışıyla, karmaşık spreadsheet gezinimi veya çok adımlı web formu doldurma gibi görevlerde insan seviyesine yakın yetenekler doğrulandı
  • Hâlâ en yetkin insan uzmanların gerisinde olsa da, iş verimliliğini artırma hızı oldukça yüksek
  • Prompt injection saldırılarına karşı savunma, Sonnet 4.5’e kıyasla büyük ölçüde iyileşti ve Opus 4.6’ya benzer düzeyde güvenlik sağlandı

Performans değerlendirmesi ve benchmark’lar

  • Sonnet 4.6, Opus düzeyinde zekâyı daha düşük maliyetle sunuyor ve çeşitli benchmark’larda genel iyileşme gösteriyor
    • Claude Code testlerinde kullanıcıların %70’i Sonnet 4.6’yı tercih etti; kod düzeltmede bağlamı anlama ve tekrarları en aza indirme yeteneği gelişti
    • Opus 4.5’e karşı %59 tercih oranı elde etti; aşırı tasarım veya tembellik eğilimi azaldı, komut uygulama doğruluğu arttı
  • Vending-Bench Arena üzerinde uzun vadeli işletme simülasyonunda, ilk yatırım sonrası geç dönemde kâra odaklanan stratejiyle rakip modelleri geride bıraktı
  • OfficeQA’da Opus 4.6 ile eşdeğer belge anlama yeteneği, Financial Services Benchmark’ta ise yanıt eşleşme oranında artış görüldü
  • Sigorta benchmark’ında %94 doğruluk, Box testinde %15 iyileşmiş derin akıl yürütme performansı kaydedildi
  • Rakuten AI testinde en üst düzey iOS kod üretimi, modern tooling kullanımı ve mimari kalitesinde iyileşme gösterdi

Ürün ve platform güncellemeleri

  • Claude Developer Platform üzerinde adaptive thinking, extended thinking ve context compaction(beta) desteği sunuluyor
    • Eski bağlam otomatik olarak özetlenerek etkili context length artırılıyor
  • API araç güncellemeleri:
    • web search ve fetch, arama sonuçlarını filtrelemek için otomatik olarak kod yazıp çalıştırabiliyor
    • code execution, memory, programmatic tool calling, tool search gibi özellikler genel kullanıma açıldı
  • Claude in Excel eklentisinde MCP connector desteği var; S&P Global, LSEG ve PitchBook gibi dış veri kaynaklarıyla entegre olabiliyor
  • Sonnet 4.6, extended thinking olmadan da yüksek performansını koruyor; Sonnet 4.5 kullanıcılarına geçiş yapmaları öneriliyor
  • Opus 4.6 ise hâlâ en derin akıl yürütmenin gerektiği işler için uygun; örneğin kod refactoring veya çoklu ajan koordinasyonu

Erişim yolları

  • Sonnet 4.6; tüm Claude planlarında, Claude Cowork, Claude Code, API ve başlıca cloud platform’larda kullanılabiliyor
  • Ücretsiz plan da Sonnet 4.6’ya yükseltildi; dosya oluşturma, connector, skill ve compaction özelliklerini içeriyor
  • Geliştiriciler, claude-sonnet-4-6 model adıyla Claude API üzerinden hemen kullanabiliyor

Başlıca sayılar ve değerlendirme metrikleri (dipnot özeti)

  • OSWorld: Gerçek yazılımlar üzerinden bilgisayar görevlerini değerlendiren benchmark; Sonnet 4.6, ‘thinking off’ durumunda ölçüldü
  • SWE-bench Verified: 10 denemenin ortalamasında %80.2 puan
  • ARC-AGI-2: maksimum çaba modunda %60.4’e ulaştı
  • MMMU-Pro: değerlendirme yöntemi iyileştirildikten sonra puan yeniden ayarlandı
  • Humanity’s Last Exam, BrowseComp ve çeşitli diğer deneylerde, tool use, web search ve context compaction özellikleri etkin durumdayken test edildi

1 yorum

 
GN⁺ 2026-02-18
Hacker News görüşleri
  • Bilgisayar kullanımına odaklanmaları etkileyici. Görünüşe göre bunu çok değerli görüyorlar. Ancak güvenlik tarafı hâlâ soru işareti. Kendi değerlendirmelerine göre, otomatik saldırı sistemi tek bir denemede %8 olasılıkla içeri sızmayı başarmış, sınırsız denemede ise başarı oranı %50’ye çıkmış. Bu tür rakamları kabul etmek zor. Bir şeyi yanlış anlamadıysam, bu gerçek kullanım için uygun olmayan bir seviye
    Güvenlik değerlendirmesi PDF

    • Bu teknolojinin hedefi aslında bilgisayar I/O ile ilgili emeği tekelleştirmek. Sadece SWE değil, çoğu ofis işi de hedefte. Bir kişiye üç kişinin işini yaptırarak personel azaltımını teşvik ediyor. Şirket açısından aynı parayı kazanırken işçilik maliyetini 1/3’e indirmek mümkünse reddetmek için sebep yok. Ama bu yapıda herkes LLM ile iş kurabilir ve sonuçta rekabet aşırı artıp kârlılık sıfıra yaklaşır. Herkes aynı modeli kullanırsa farklılaşma kaybolur. Hatta güçlü açık kaynak modeller bile sosyal hareketliliği zayıflatabilir
    • Bence %8 rakamı şaşırtıcı derecede iyi bile sayılır. Kritik olan modelin kendisinden çok çalışma ortamındaki kontrol mekanizmaları. Gerçek hizmetlerde izleme ve kill switch şart. Modelin “yeterince güvenli” olması gerekli koşul ama tek başına yeterli değil
    • Kimsenin konuşmak istemediği temel sorun bu. Güvenlik çözülmezse büyük ölçekli emek ikamesi mümkün değil. Özetleme ya da yardımcı düzeyde kullanım sorun değil ama otonom karar verme yetkisi verilirse hukuki risk patlar. Sonuçta AI şirketleri bu sorunu çözemezse paraları tükenecek. Gidişata bakınca AI, arama ya da yazım denetleyicisi gibi faydalı bir araç olarak kalacak ama büyük çaplı iş ikamesi gerçekleşmeyecek gibi görünüyor
    • Pratikte basit ve tekrarlayan iç uygulama otomasyonu gibi alanlarda faydalı olabilir. Örneğin her gün aynı web uygulamasına girip takvimi okuyup butona basmak gibi. Böyle ortamlarda saldırgan olmadığı için güvenlik sorunu neredeyse ortadan kalkar
    • %8 ve %50 rakamları kaygı verici ama bunlar “bilgisayar kullanım ortamı” içindeki sonuçlar. Kodlama ortamında ise extended thinking açıkken %0.0 olduğu söyleniyor. Yani hâlâ deneysel bir alan
  • Kişisel şiir derlememden yaklaşık 900 şiiri Sonnet 4.6’ya verip test ettim; Opus 4.6 ile kıyaslayınca büyük fark var. Opus 4.6 şaşırtıcı bir analiz yaptı ama Sonnet 4.6’da hâlâ halüsinasyon ve hata sık görülüyor. Kodlama testlerinde de benzer bir izlenim verdi. Opus’un oldukça gerisinde

    • Uzun zaman sonra şiir testini görmekten memnun olduklarını söyleyen bir yorum var. Bu analizleri bir araya toplayıp düzenlemenin güzel olacağı düşünülüyor
    • Opus 4.6, kod yazmada üretkenliği 3 kattan fazla artırıyor. Projenin tamamını sorumlulukla ele alıyor ve kullanıcının niyetini iyi kavrıyor. Önceki sürümler gibi gizlice kestirme yola sapıp sonucu mahvetmiyor
  • Sonnet 4.6 hâlâ “araba yıkama sorusunu” yanlış cevaplıyor. Orijinal soru aynen verildiğinde “yürü” diyor. Farklı varyasyonlar denense de benzer şekilde başarısız olmuş

    • Benim testimde ise tam tersine doğrudan “arabayla git” dedi. “Araba yıkatmaya gidiyorsun, o yüzden arabanın olması gerekir” gibi net bir tavır sergiledi. Muhtemelen farklı sürümler sunuldu
    • Bu cevapların iki uçta olması ilginç. Kendinden emin hata, tipik bir halüsinasyon örüntüsü
    • Bazı cevaplarda “arabayı iterek götür” önerisi var. Paylaşım bağlantısı
    • Başka bir cevapta ise “yürü, 30 saniyelik mesafe” denmiş; gerekçe olarak çevre ve sağlık gösterilmiş. Extended thinking kapalıymış
    • Bu soru bundan sonra sık kullanılan bir benchmark testi olacak gibi görünüyor
  • “Rekabet tüketici için iyidir” sözünü hissediyorum. Piyasadaki rekabet sertleştikçe ürünler iyileşiyor

    • Ama bugünkü AI rekabeti “korumasız bir silahlanma yarışı” gibi görünüyor. Kazananın her şeyi aldığı bir yapı olduğu için herkes zarar pahasına yatırım yapıyor. Aşırı yatırım yüzünden toplum genelinde verimsiz olabilir
    • GPT-2’nin 2019’da “tehlikeli olduğu için yayımlanamaz” denmesini düşününce, bu rekabeti ateşleyen kırılma noktası ChatGPT’nin çıkışı olmuştu
    • Tüm piyasaların tam rekabet gibi işlediğine inanmak tehlikeli. Gerçekte tekel ve bilgi asimetrisi çok yaygın
    • Şu anki AI pazarı insanlık tarihindeki en çetin rekabet düzenlerinden biri. Modellerin bilerek kötü yapıldığına dair komplo teorileri ikna edici değil
    • Sonunda geriye iki şirket kalırsa kâr toplama aşaması gelecektir
  • “Helikopter araba yıkama” testi harikaydı. Sonnet 4.6 “yürü” diye cevap verdi; Amerikalıların kısa mesafelerde araba kullanma alışkanlığıyla dalga geçen bir yanıt gibi olduğu için komikti

    • Bunun en sevdikleri test olduğunu söyleyen bir yorum var. Modelin Reddit tarzı mizah verisiyle eğitildiği hissediliyormuş
  • Sonnet 4.6’nın Opus 4.5 seviyesinde performans göstermesi şaşırtıcı. İlerleme hızı 1990’lardaki hesaplama performansı artışını hatırlatıyor

    • Asıl ilginç olan tepe performansın artmasından çok taban seviyenin yükselmesi. Opus düzeyi akıl yürütmeyi Sonnet fiyatı ve gecikmesiyle almak devrim gibi. Her 6-9 ayda bir aynı zekâ birimini yarı hesaplama maliyetiyle alıyormuşuz gibi
    • “1990’lar hızı” lafına karşılık “RAM fiyatları da o dönem seviyesinde” diye şaka yapılmış
    • simonw yerine “bisiklete binen pelikan SVG” üretilip paylaşılmış. Görsel bağlantısı
    • Opus’un NYC gece manzarası fotoğrafını yanlış betimlediği bir örnek de var. Mistral daha doğruydu. OpenAI URL yüklemeyi engellemiş, Gemini ise VertexAI’ya yönlendirmiş. Testler Langchain ortamında yapılmış
    • Sistem kartına göre Sonnet 4.6’nın ofis işleri ve finansal analizde Opus 4.6’dan daha iyi olduğu açıkça belirtiliyor
  • Sonnet 4.5’in fiyatı million tokens başına $3/$15 ama bu fiyatı ödemeye razı olacak çok kişi var mı emin değilim. Open-weight modeller hızla yetişiyor ve çok daha ucuz

    • Ben hibrit bir yaklaşım deniyorum. İşlerin çoğunu GLM5 ile yapıp son aşamada Opus/Sonnet ile hata kontrolü yaptırıyorum
    • Benim basit benchmark’ımda Claude 4.6, ücretsiz Stepfun 3.5’ten kötüydü. aibenchy.com bakılabilir. Talimat takip doğruluğu hâlâ düşük
    • Sonuçta mesele “gayet iyi” ile “SOTA” arasındaki farkı ne kadar değerli gördüğün. Hataları çok olan bir modeli kullanmak da sonuçta bir maliyet
    • Bazı insanlar Claude gibi bağlamsal akıl yürütmesi güçlü modelleri tercih ediyor. GLM’de çok daha ayrıntılı açık talimat vermek gerekiyor
  • Opus/Sonnet 4.6 desteğini llm.datasette.io eklentisine eklemekle uğraştığım için pelikan görselini geç oluşturdum. Sonuç Opus 4.5 seviyesinde ve şık bir silindir şapka takan bir versiyon oldu
    İlgili blog yazısı

    • Başka denemelerde de aynı silindir şapkalı pelikanın görüldüğünü söyleyen bir yorum var
  • Son birkaç gündür Sonnet 4.5 ile test yapıyordum; sohbetler alışılmadık derecede ilginç ve tutarlıydı.
    Kişisel ayara “nesnel gerçekler ve eleştirel analiz öncelikli, duygusal empati yasak” yazdım ve gerçekten buna uydu. ChatGPT de benzer tepki veriyor

  • Birden fazla kullanıcı, Opus 4.6’nın 4.5’e göre 5-10 kat daha fazla token tükettiğini bildiriyor. Issue bağlantısı. Henüz resmî bir yanıt yok. Bu yüzden 4.5 kullanmaya devam etmeyi düşünüyorum

    • Sorun yaşayanların sesi doğal olarak daha çok çıkıyor. Ben 4.6’nın daha hızlı ve tool çağırmada daha istekli olmasından memnunum. reasoning level’ı medium’a düşürmek aşırı düşünmeyi azaltabiliyor
    • Benim deneyimimde Opus 4.5 planına sadık kalan tipteyken, 4.6 uyumlu ve keşifçi bir yapıda. Kolay problemlerde verimsiz ama zor olanlarda çok daha hızlı
    • reasoning level değeri /models içinde görülebiliyor. high ayarında token kullanımı keskin şekilde artıyor
    • Ben de birkaç gün içinde aylık bütçemi bitirdim
    • Benim deneylerimde 4.6, 4.5’e göre yaklaşık %15-45 daha fazla token kullandı. Ama bu, eksik prompt’lardan akıl yürütme beklenen durumlar içindi. İyi yazılmış görevlerde fark büyük değil. Sonnet 4.6’nın reasoning token’ları eskisine göre daha yapısal ama giderek daha ayrıntılı olma eğiliminde. Google modellerine benzer bir tarzı var