Claude Sonnet 5 duyuruldu
(anthropic.com)- Anthropic, 30 Haziran 2026’da Claude Sonnet 5’i yayımlayarak, daha pahalı Opus sınıfı modellere yakın ajan yürütme yeteneğini Sonnet sınıfı maliyetlerle sunmayı hedefliyor
- Sonnet 4.6’ya kıyasla akıl yürütme, araç kullanımı, kodlama ve bilgi çalışmaları iyileştirildi; effort ayarıyla her iş için maliyet ve performans dengesi daha ayrıntılı seçilebiliyor
- Güvenlik değerlendirmelerinde istenmeyen davranış, halüsinasyon, aşırı övgü, kötü amaçlı istekleri kabul etme ve prompt injection ele geçirme açıkları Sonnet 4.6’dan daha düşük çıktı; ancak bazı hizalanmamış davranışlar Opus 4.8 ve Claude Mythos Preview’dan daha yüksek görüldü
- Free ve Pro’da varsayılan model olarak sunuluyor; Max, Team, Enterprise, Claude Code ve Claude Platform’da da kullanılabiliyor; API model adı
claude-sonnet-5 - Claude Platform fiyatı 31 Ağustos 2026’ya kadar 1 milyon giriş token’ı başına $2, 1 milyon çıkış token’ı başına $10; sonrasında giriş $3, çıkış $15 olacak. Yeni tokenizer ile aynı girdinin token sayısı içerik türüne bağlı olarak yaklaşık 1.0–1.35 katına çıkabilir
Sonnet sınıfında genişleyen ajan yürütme kapsamı
- Claude Sonnet 5, bugüne kadarki Sonnet modelleri içinde en ajan odaklı tasarlanan model; birkaç ay önce daha büyük ve pahalı bir model gerektiren düzeyde otonom yürütmeyi hedefliyor
- Planlama, tarayıcı ve terminal gibi araç kullanımı ve otonom yürütmenin Sonnet sınıfı bir modelde ele alınabilmesi için iyileştirildi
- Sonnet 3.5, 3.6 ve 3.7, geliştiricilere kodlama ve araç kullanımı yeteneklerini gösteren ilk Sonnet sınıfı modeller olarak konumlandı; sonrasında en belirgin ajan yeteneği iyileştirmeleri Opus sınıfı modellerde görüldü
- Sonnet 5, Opus 4.8 ile arasındaki farkı kapatarak daha düşük fiyat seviyesinde Opus 4.8’e yakın performans sunuyor
Performans değerlendirmeleri ve effort ayarı
- Sonnet 5, Sonnet 4.6’ya kıyasla akıl yürütme, araç kullanımı, kodlama ve bilgi çalışmaları gibi ajan performansı alanlarında önemli ölçüde iyileşti
- BrowseComp ajan arama değerlendirmesi ve OSWorld-Verified bilgisayar kullanımı değerlendirmesinde Sonnet 4.6’dan tutarlı biçimde daha iyi sonuçlar gösterdi
- effort düzeylerine göre karşılaştırmada Sonnet 5, Opus 4.8’den daha geniş maliyet-performans seçenekleri sunuyor
- Orta effort düzeyinde maliyet verimliliği önemli ölçüde artıyor
- Yüksek effort düzeyinde bazı görevlerde Opus 4.8 ile performans açısından başa baş gelebiliyor
- Kullanıcılar, Sonnet 5 ile Opus 4.8 arasında effort düzeyini ayarlayarak projelerine uygun maliyet ve performans dengesini seçebiliyor
İlk kullanım örneklerinde görülen çalışma biçimi
- Erken erişim iş ortakları, Sonnet 5’in önceki Sonnet modellerinden çok daha ajan odaklı olduğunu değerlendiriyor
- Önceki Sonnet modellerinin yarıda bıraktığı karmaşık işleri sonuna kadar yürüttüğü ve açıkça istenmese bile kendi sonuçlarını kontrol ettiği örnekler görüldü
- Doğrulanan iş akışları hem kodlama hem de kodlama dışı işleri kapsıyor
- Çok adımlı yazılım mühendisliği görevlerinde sürekli kodlama, araç kullanımı ve hata ayıklamayı yönetiyor
- Salesforce hesap derecesi güncellemesi ve kurumsal kişiler için lansman duyurusu gönderiminden oluşan iki adımlı bir görevi sonuna kadar tamamlıyor
- Gerçek pull request’lerden onlarcasını test edilmiş ve doğrulanmış sonuçlara kadar kendi başına yürütüyor
- Hata araştırmasında yeniden üretme testi yazma, düzeltme uygulama, değişiklikleri stash’e alma ve hatanın tekrar ortaya çıkıp çıkmadığını doğrulamayı tek seferde ilerletiyor
- Brownfield kodda race condition, hidden test ve hataların gerçek kök nedenini izleme konularında güçlü performans gösteriyor
- Hukuki araştırma ve analiz, ClickHouse üzerinde canlı veri keşfi ve Pace’in sigorta iş akışları gibi kodlama dışı işlerde de performans ve hız iyileştirmeleri görüldü
Güvenlik değerlendirmeleri ve siber güvenlik kısıtları
- Dağıtım öncesi güvenlik değerlendirmelerinde Sonnet 5’in genel güvenliği Sonnet 4.6’ya göre iyileşti
- Ajan güvenliği açısından kötü amaçlı istekleri reddetme ve prompt injection saldırılarındaki ele geçirme girişimlerine direnç daha iyi hale geldi
- Sonnet 4.6’ya kıyasla halüsinasyon ve aşırı övgü oranları daha düşüktü; kötüye kullanıma iş birliği ve aldatma gibi hizalanmamış davranışları inceleyen otomatik davranış denetimlerinde de daha düşük puan, yani daha güvenli sonuçlar gösterdi
- Ancak daha yüksek yeteneklere sahip Opus 4.8 ve Claude Mythos Preview ile karşılaştırıldığında, bu değerlendirmede bazı hizalanmamış davranış oranları bir miktar daha yüksekti
- Sonnet 5, siber güvenlik işleri için kasıtlı olarak eğitilmedi
- Günlük ve zararsız bazı siber işleri yapabiliyor
- Yazılım exploit geliştirme gibi potansiyel olarak tehlikeli siber beceri değerlendirmelerinde Opus 4.8 ve Mythos 5’ten belirgin ölçüde daha düşük performans gösteriyor
- Firefox tarayıcı açığı için exploit geliştirme değerlendirmesinde tamamen çalışan bir exploit oluşturamadı; ancak kısmi başarı oranı Sonnet 4.6’dan biraz daha yüksekti
- Önceki modellere göre bu görevlerde biraz daha güçlü olduğu için siber koruma önlemleri varsayılan olarak etkin biçimde yayımlandı
- Tehlikeli siber kullanımı gerçek zamanlı algılayıp engelliyor
- Claude Opus 4.7 ve 4.8’e uygulanan koruma önlemlerinin aynısı
- Sonnet 5’in genel siber güvenlik risk düzeyi düşük görüldüğü için, daha geniş bir siber güvenlik işi yelpazesini engelleyen Fable 5 koruma önlemlerinden daha az katı
- Değerlendirmenin tamamına Claude Sonnet 5 System Card üzerinden ulaşılabilir
Kullanılabilirlik, fiyatlandırma ve API
- Claude Sonnet 5 tüm planlarda sunuluyor
- Free ve Pro planlarının varsayılan modeli
- Max, Team ve Enterprise kullanıcıları tarafından kullanılabiliyor
- Claude Code ve Claude Platform’da da sunuluyor
- Geliştiriciler Claude API üzerinden
claude-sonnet-5kullanabilir - Claude Platform lansman fiyatı 31 Ağustos 2026’ya kadar 1 milyon giriş token’ı başına $2, 1 milyon çıkış token’ı başına $10
- Sonrasında standart fiyat 1 milyon giriş token’ı başına $3, 1 milyon çıkış token’ı başına $15 olacak
- Yüksek effort düzeylerinde token kullanımının artmasını karşılamak için Chat, Cowork, Claude Code ve Claude Platform genelindeki istek limitleri artırıldı
- Sonnet 5, Sonnet 4.6’nın yükseltmesi olsa da güncellenmiş bir tokenizer kullanıyor
- Performans iyileştirmeleri için metin işleme biçimi değişti
- Aynı girdi, içerik türüne bağlı olarak yaklaşık 1.0–1.35 kat token’a eşlenebilir
- Lansman fiyatı, Sonnet 5’e geçiş genel olarak maliyet açısından nötr olacak şekilde belirlendi
BrowseComp grafik güncellemesi
- 30 Haziran 2026 düzenlemesinde BrowseComp değerlendirmesinin maliyet-performans grafiği güncellendi
- Orijinal grafik, Anthropic’in ajan arama değerlendirmelerinde kullandığı standart metodolojiyi yansıtmayan daha basit bir metodolojinin verilerine dayanıyordu; bunun sonucunda Sonnet 5 performansı olduğundan düşük gösterildi
- Güncellenen grafik, standart metodoloji ve Sonnet 5 system card’da kullanılan ve tartışılan yöntemle uyumlu hale getirildi
- Bu yöntem 10M token bütçesi, sıkıştırma ve programatik araç çağrılarını kullanıyor
- Çevresindeki açıklama metni de birlikte güncellendi
4 yorum
opus4.8’e alıştığım için mi, yoksa bir süredir sonnet kullanmadığım için mi...
Bugün Sonnet’i kısa süre kullandım ve çok hayal kırıklığına uğradım.
Eskiden olsa yeterince memnun kalabilirdim belki ama beklediğimden epey fazla halüsinasyon üretiyordu.
Bize
fableverin de bari..Çabuk Fable’ı verin... 😢😢
Hacker News yorumları
İş başına maliyet grafiğine bakınca Sonnet 5’i orta efor seviyesinin üstünde kullanmamak gerekiyor gibi görünüyor. Aynı maliyetle Opus her zaman daha iyi sonuç verdiğine göre, Sonnet 5 medium yetersiz kalıyorsa sonuç efor seviyesini yükseltmek değil, modeli değiştirmek gibi duruyor.
Pratikte genelde Claude Code’un varsayılanlarını kullanıyorum ve bu kadarı yeterince iyi çalışıyor. Yine de diğer kullanıcıların projelerine göre bu ayarları ne kadar denediğini ve optimize ettiğini merak ediyorum.
Ayrıca bazı işlerde en önemli şey doğrudan girdi token miktarı. Örneğin çok modlu bilgisayar kullanımı işleri, Opus’ta çıkarımı düşürerek daha verimli hale getirilemiyor; bu yüzden Sonnet gibi daha ucuz bir model işe yarıyor.
Yine de pratikte modelin ürettiği sonucu düzeltmek çok fazla zaman aldığı için, daha yavaş olsa bile daha akıllı bir modelin toplam süreyi azalttığını düşünüyorum.
[0]: https://aibenchy.com/compare/anthropic-claude-sonnet-4-6-med...
Kendi benchmark’ımla[0] test ettim; GLM-5.2 seviyesinde, maliyeti 2 kat ama hızı da 2 kat.
Zayıf yanları: genel kültür testinde 0/3 ile yerleşik bilgisi neredeyse yok; karmaşık araç çağırma işlerinde 45/100 ile bazen yanlış araç çağrısı yapıyor; bulmaca çözmede 77 puanla oto yıkama türü testlerde hata yapıyor.
[0]: https://aibenchy.com/compare/anthropic-claude-sonnet-4-6-med...
Buna karşılık Sonnet 5, denediğim Claude modelleri arasında çok daha tembeldi; istediğim plan eklemelerini yapmadıktan sonra sorduğumda yaptığını söyleyerek yalan söyledi. Analize[0] bakınca benim için değersiz görünüyor; başkaları için farklı olabilir. Fable kesinlikle çok daha iyiydi.
[0]: https://artificialanalysis.ai/models/claude-sonnet-5
Birçok benchmark’ta orta seviyeden yüksek eforla iş başına maliyet Opus’u aşıyor; bunu neden kullanıp sadece Opus düşük efor seviyesini kullanmayacağını anlamak zor.
Aklıma gelen tek durum Opus kredilerinin bitmesi. Elbette API ücretlendirmesiyle ilgili kullanım senaryoları vardır, ama yine de düşük efor seviyesinde Opus kullanırdım.
Modeller problem çözmekten çok kullanıcıdan ve şirketten daha fazla para koparmaya optimize ediliyor gibi. 2-3 satırlık basit bir Python işi için açık talimat vermişken Opus neden komple bir kütüphane yazmaya çalışıyor, anlamıyorum.
Ama gerçek bir problemi çözerken yineleme ve keşif yaptıkça bağlam uzunluğu giderek artıyor; o noktada Opus çoğu zaman pahalılaşıyor.
[0] https://www.anthropic.com/claude-sonnet-5-system-card
Claude Sonnet 5’in şimdiye kadarki Sonnet’ler içinde en “ajan” gibi olacak şekilde tasarlandığı söyleniyor. Plan yapabiliyor, tarayıcı veya terminal gibi araçları kullanabiliyor ve birkaç ay önce daha büyük ve pahalı bir model gerektiren düzeyde otonom yürütme yapabiliyor.
Ben tamamen ajan güdümlü geliştirmeden çok ajan destekli geliştirme yaptığım için Opus’tan ziyade Sonnet 4.6’yı daha çok kullanıyordum. Ama bu duyuru bana olumlu gelmiyor. Model tam ajan tipi geliştirmeye ne kadar optimize edilirse, yardımcı geliştirme için o kadar kötüleşiyor ve çok katı, somut talimatlarda bile işi gereğinden fazla büyüttüğü çok oluyor.
Son birkaç haftadır giderek K2.7 Code ve GLM-5.2’ye geçiyorum. Yardımcı amaçlı kullanım için çoğu zaman yeterliler; çok hızlı ve ucuzlar.
Sorun şu ki, şirket içindeki insanların 1-2 yıl sonra kimsenin bu şekilde çalışmayacağına inanıyor gibi görünmesi.
Opus’a göre biraz daha fazla düzeltmek gerekiyor. Ama asıl ölçüt “her satırı okumak zorundayım” ile “her satırı okumadan güvenebilirim” arasındaki fark; benim için hiçbir model ikincisine ulaşmış değil ve bir süre daha ulaşacak gibi de durmuyor. Mimariyi beyin fırtınasıyla şekillendirip koda dökmekte Opus kadar iyi değil, ama bu her zaman sorun olmuyor; gerekirse Opus kullanabiliyorum.
Bu sayede kodlamanın yoğun olduğu haftalarda bile çarşamba ya da perşembe gibi harcama sınırına takılmadan tüm hafta rahat ediyorum. Ancak pratikte K2.6’yı Opus’a kıyasla çok daha fazla dizginlemem gerekiyormuş gibi hissediyorum. Sadece soru sormak istediğimde bunun hemen kodlama işi olduğunu varsayıp koşmaya başlamasını engellemek için çok daha dikkatli olmak gerekiyor. İkisini de planlama modunda kullanıyorum ama K2.6’da Opus’a göre daha savunmacı davranmak gerekiyor.
İşlerimin çoğu “ver ve unut” tarzında değil, daha çok ajan tipi mühendisliğe yakın. Planlama aşamasında da sürekli dahil oluyorum, sonuçları gözden geçiriyorum ve ajana çoğu kişiden çok daha fazla soru soruyorum. Gereksinimleri, kapsamı, tasarımı, bazen belirli modül sınırlarını bile belirledikten sonra boşlukları dolduran “aşırı güçlü otomatik tamamlama” modu gibi kullanmak bana en iyi uyan yöntem.
GLM 5.2’ye göre fiyat/performansı da daha kötü görünüyor. Üstelik GLM 5.2’de yalnızca 744B parametre var.
Sistem kartında “CyberGym açık bulmada Claude Sonnet 5, Sonnet 4.6’dan daha az yetkin; Opus 4.8 ve Mythos 5’ten ise çok daha az yetkin” deniyor.
Ayrıca “Bu bölümdeki diğer değerlendirmelerde olduğu gibi, sonuçlar tüm korumalar kapalıyken elde edilmiştir. Varsayılan hafifletmeler açık çalıştırıldığında Sonnet 5, CyberGym’de 0 puan aldı” denmiş.
Planlama ve kodlamada da benzerdi. GLM-5.2 “kâğıt üzerinde” iyi görünüyor ama gerçek kullanım sonucu farklıydı.
Claude’u ya da GLM-5.2’yi savunmaya çalışmıyorum. Kasım 2022’den beri büyük dil modellerini her gün kullanırken fark ettiğim şey, genel testleri kendi projenizde doğrulamanız gerektiği. “Her şeyi yöneten tek bir model” yok; binlerce modelden oluşan samanlıkta belirli bir modeli bulmanız gerekiyor.
Benchmark’lar yardımcı oluyor ama giderek otomobil reklamlarındaki yakıt tüketimi değerlerine benziyorlar. Gerçek tüketim kişiden kişiye değişir.
“X modeli T benchmark’ında Claude Z’den %Y daha iyi ya da kötü”, “Bunun anlamı yok, benchmark’a göre ayarlanmış”, “Günlük kodlama veya ajan işleri için kullanılamaz, hissi tamamen yanlış”, “Neredeyse aynı ve çok daha ucuz, ben kesin kullanırım”, “Kademeli performans farkı yüzünden açık modellerin düşük maliyeti üretkenlik kaybını telafi etmiyor, bu yüzden gerekçelendirilemiyor” gibi.
Anthropic’ten şikâyetçi bir müşteriyim ve açık modelleri, kapalı olmayan zekâyı gerçekten destekliyorum. Ama artık meme’e dönüşmüş model lansmanı söyleminin tekrarından nasıl çıkılabilir bilmiyorum. Ben de büyük dil modeli veya benchmark tasarlayan biri değilim ve kusursuz olmasa da bilgi sunmaya yönelik çabayı içtenlikle takdir ediyorum. Bu duyuru yorumlarını düzenli okuyan çoğu kişi muhtemelen benzer hissediyordur.
Claude Sonnet 5 kendi pelikanını kaz gibi tarif etti:
“Beyaz bir kaz bisiklete biniyor; bir kanadını ileri uzatıp gidonu tutuyor ve düz beyaz bir arka plan üzerinde kahverengi bir zemin çizgisi var.”
https://simonwillison.net/2026/Jun/30/claude-sonnet-5/
Buna karşılık GLM 5.2, güzel ve bağımsız çalışan, tamamen animasyonlu bir SVG pelikan çizdi.
https://simonwillison.net/2026/Jun/17/glm-52
Bugün yanlışlıkla Sonnet 5’i biraz kullandım; yazılım geliştirmede Opus 4.8’den epey kötü görünüyordu.
Siber güvenlik konusundaki aşırı paranoyanın sonunda modelin daha az güvenli kod üretmesine yol açıp açmadığını merak ediyorum. Güvenli kod yazabilme kapasitesine sahip olmak, siber güvenlik hakkında bir şeyler bildiği anlamına geliyor; o bilgiyle dünyadaki bankaları hackleyebileceği de düşünülebilir
Bu modelden epey beklentim olduğu için, üç farklı projede Opus planlayıcılardan, Opus alt ajanları yerine Sonnet kullanarak HPC kernel deneylerine daha hızlı yardımcı olmalarını istedim. Ama hiçbiri tek satır kod yazmadı; Sonnet’ler sürekli dönüp durup sadece token harcadı
Kendi codebase’imde Opus’ta en son ne zaman böyle bir şey yaşadığımı hatırlamıyorum bile. Geri alıyorum
Kendiliğinden ortadan kalktı
Önemli nokta şu: “Sonnet 5, Sonnet 4.6’nın bir yükseltmesi; ancak performans artışı için modelin metni işleme biçimini değiştiren güncellenmiş bir tokenizer kullanıyor. Bu, Claude Opus 4.7’de getirilen tokenizer değişikliğine benziyor. Bedeli, aynı girdinin daha fazla token’a eşlenebilmesi. İçerik türüne göre yaklaşık 1,0–1,35 kat. Lansman fiyatı, Sonnet 5’e geçişin kabaca maliyet açısından nötr kalacağı şekilde belirlendi”