6 puan yazan GN⁺ 3 시간 전 | 4 yorum | WhatsApp'ta paylaş
  • Anthropic, 30 Haziran 2026’da Claude Sonnet 5’i yayımlayarak, daha pahalı Opus sınıfı modellere yakın ajan yürütme yeteneğini Sonnet sınıfı maliyetlerle sunmayı hedefliyor
  • Sonnet 4.6’ya kıyasla akıl yürütme, araç kullanımı, kodlama ve bilgi çalışmaları iyileştirildi; effort ayarıyla her iş için maliyet ve performans dengesi daha ayrıntılı seçilebiliyor
  • Güvenlik değerlendirmelerinde istenmeyen davranış, halüsinasyon, aşırı övgü, kötü amaçlı istekleri kabul etme ve prompt injection ele geçirme açıkları Sonnet 4.6’dan daha düşük çıktı; ancak bazı hizalanmamış davranışlar Opus 4.8 ve Claude Mythos Preview’dan daha yüksek görüldü
  • Free ve Pro’da varsayılan model olarak sunuluyor; Max, Team, Enterprise, Claude Code ve Claude Platform’da da kullanılabiliyor; API model adı claude-sonnet-5
  • Claude Platform fiyatı 31 Ağustos 2026’ya kadar 1 milyon giriş token’ı başına $2, 1 milyon çıkış token’ı başına $10; sonrasında giriş $3, çıkış $15 olacak. Yeni tokenizer ile aynı girdinin token sayısı içerik türüne bağlı olarak yaklaşık 1.0–1.35 katına çıkabilir

Sonnet sınıfında genişleyen ajan yürütme kapsamı

  • Claude Sonnet 5, bugüne kadarki Sonnet modelleri içinde en ajan odaklı tasarlanan model; birkaç ay önce daha büyük ve pahalı bir model gerektiren düzeyde otonom yürütmeyi hedefliyor
  • Planlama, tarayıcı ve terminal gibi araç kullanımı ve otonom yürütmenin Sonnet sınıfı bir modelde ele alınabilmesi için iyileştirildi
  • Sonnet 3.5, 3.6 ve 3.7, geliştiricilere kodlama ve araç kullanımı yeteneklerini gösteren ilk Sonnet sınıfı modeller olarak konumlandı; sonrasında en belirgin ajan yeteneği iyileştirmeleri Opus sınıfı modellerde görüldü
  • Sonnet 5, Opus 4.8 ile arasındaki farkı kapatarak daha düşük fiyat seviyesinde Opus 4.8’e yakın performans sunuyor

Performans değerlendirmeleri ve effort ayarı

  • Sonnet 5, Sonnet 4.6’ya kıyasla akıl yürütme, araç kullanımı, kodlama ve bilgi çalışmaları gibi ajan performansı alanlarında önemli ölçüde iyileşti
  • BrowseComp ajan arama değerlendirmesi ve OSWorld-Verified bilgisayar kullanımı değerlendirmesinde Sonnet 4.6’dan tutarlı biçimde daha iyi sonuçlar gösterdi
  • effort düzeylerine göre karşılaştırmada Sonnet 5, Opus 4.8’den daha geniş maliyet-performans seçenekleri sunuyor
    • Orta effort düzeyinde maliyet verimliliği önemli ölçüde artıyor
    • Yüksek effort düzeyinde bazı görevlerde Opus 4.8 ile performans açısından başa baş gelebiliyor
  • Kullanıcılar, Sonnet 5 ile Opus 4.8 arasında effort düzeyini ayarlayarak projelerine uygun maliyet ve performans dengesini seçebiliyor

İlk kullanım örneklerinde görülen çalışma biçimi

  • Erken erişim iş ortakları, Sonnet 5’in önceki Sonnet modellerinden çok daha ajan odaklı olduğunu değerlendiriyor
  • Önceki Sonnet modellerinin yarıda bıraktığı karmaşık işleri sonuna kadar yürüttüğü ve açıkça istenmese bile kendi sonuçlarını kontrol ettiği örnekler görüldü
  • Doğrulanan iş akışları hem kodlama hem de kodlama dışı işleri kapsıyor
    • Çok adımlı yazılım mühendisliği görevlerinde sürekli kodlama, araç kullanımı ve hata ayıklamayı yönetiyor
    • Salesforce hesap derecesi güncellemesi ve kurumsal kişiler için lansman duyurusu gönderiminden oluşan iki adımlı bir görevi sonuna kadar tamamlıyor
    • Gerçek pull request’lerden onlarcasını test edilmiş ve doğrulanmış sonuçlara kadar kendi başına yürütüyor
    • Hata araştırmasında yeniden üretme testi yazma, düzeltme uygulama, değişiklikleri stash’e alma ve hatanın tekrar ortaya çıkıp çıkmadığını doğrulamayı tek seferde ilerletiyor
    • Brownfield kodda race condition, hidden test ve hataların gerçek kök nedenini izleme konularında güçlü performans gösteriyor
  • Hukuki araştırma ve analiz, ClickHouse üzerinde canlı veri keşfi ve Pace’in sigorta iş akışları gibi kodlama dışı işlerde de performans ve hız iyileştirmeleri görüldü

Güvenlik değerlendirmeleri ve siber güvenlik kısıtları

  • Dağıtım öncesi güvenlik değerlendirmelerinde Sonnet 5’in genel güvenliği Sonnet 4.6’ya göre iyileşti
  • Ajan güvenliği açısından kötü amaçlı istekleri reddetme ve prompt injection saldırılarındaki ele geçirme girişimlerine direnç daha iyi hale geldi
  • Sonnet 4.6’ya kıyasla halüsinasyon ve aşırı övgü oranları daha düşüktü; kötüye kullanıma iş birliği ve aldatma gibi hizalanmamış davranışları inceleyen otomatik davranış denetimlerinde de daha düşük puan, yani daha güvenli sonuçlar gösterdi
  • Ancak daha yüksek yeteneklere sahip Opus 4.8 ve Claude Mythos Preview ile karşılaştırıldığında, bu değerlendirmede bazı hizalanmamış davranış oranları bir miktar daha yüksekti
  • Sonnet 5, siber güvenlik işleri için kasıtlı olarak eğitilmedi
    • Günlük ve zararsız bazı siber işleri yapabiliyor
    • Yazılım exploit geliştirme gibi potansiyel olarak tehlikeli siber beceri değerlendirmelerinde Opus 4.8 ve Mythos 5’ten belirgin ölçüde daha düşük performans gösteriyor
    • Firefox tarayıcı açığı için exploit geliştirme değerlendirmesinde tamamen çalışan bir exploit oluşturamadı; ancak kısmi başarı oranı Sonnet 4.6’dan biraz daha yüksekti
  • Önceki modellere göre bu görevlerde biraz daha güçlü olduğu için siber koruma önlemleri varsayılan olarak etkin biçimde yayımlandı
    • Tehlikeli siber kullanımı gerçek zamanlı algılayıp engelliyor
    • Claude Opus 4.7 ve 4.8’e uygulanan koruma önlemlerinin aynısı
    • Sonnet 5’in genel siber güvenlik risk düzeyi düşük görüldüğü için, daha geniş bir siber güvenlik işi yelpazesini engelleyen Fable 5 koruma önlemlerinden daha az katı
  • Değerlendirmenin tamamına Claude Sonnet 5 System Card üzerinden ulaşılabilir

Kullanılabilirlik, fiyatlandırma ve API

  • Claude Sonnet 5 tüm planlarda sunuluyor
    • Free ve Pro planlarının varsayılan modeli
    • Max, Team ve Enterprise kullanıcıları tarafından kullanılabiliyor
    • Claude Code ve Claude Platform’da da sunuluyor
  • Geliştiriciler Claude API üzerinden claude-sonnet-5 kullanabilir
  • Claude Platform lansman fiyatı 31 Ağustos 2026’ya kadar 1 milyon giriş token’ı başına $2, 1 milyon çıkış token’ı başına $10
  • Sonrasında standart fiyat 1 milyon giriş token’ı başına $3, 1 milyon çıkış token’ı başına $15 olacak
  • Yüksek effort düzeylerinde token kullanımının artmasını karşılamak için Chat, Cowork, Claude Code ve Claude Platform genelindeki istek limitleri artırıldı
  • Sonnet 5, Sonnet 4.6’nın yükseltmesi olsa da güncellenmiş bir tokenizer kullanıyor
    • Performans iyileştirmeleri için metin işleme biçimi değişti
    • Aynı girdi, içerik türüne bağlı olarak yaklaşık 1.0–1.35 kat token’a eşlenebilir
    • Lansman fiyatı, Sonnet 5’e geçiş genel olarak maliyet açısından nötr olacak şekilde belirlendi

BrowseComp grafik güncellemesi

  • 30 Haziran 2026 düzenlemesinde BrowseComp değerlendirmesinin maliyet-performans grafiği güncellendi
  • Orijinal grafik, Anthropic’in ajan arama değerlendirmelerinde kullandığı standart metodolojiyi yansıtmayan daha basit bir metodolojinin verilerine dayanıyordu; bunun sonucunda Sonnet 5 performansı olduğundan düşük gösterildi
  • Güncellenen grafik, standart metodoloji ve Sonnet 5 system card’da kullanılan ve tartışılan yöntemle uyumlu hale getirildi
    • Bu yöntem 10M token bütçesi, sıkıştırma ve programatik araç çağrılarını kullanıyor
  • Çevresindeki açıklama metni de birlikte güncellendi

4 yorum

 
dhkd63 2 시간 전

opus4.8’e alıştığım için mi, yoksa bir süredir sonnet kullanmadığım için mi...
Bugün Sonnet’i kısa süre kullandım ve çok hayal kırıklığına uğradım.
Eskiden olsa yeterince memnun kalabilirdim belki ama beklediğimden epey fazla halüsinasyon üretiyordu.

 
sea715 2 시간 전

Bize fable verin de bari..

 
seoseonyu 3 시간 전

Çabuk Fable’ı verin... 😢😢

 
GN⁺ 3 시간 전
Hacker News yorumları
  • İş başına maliyet grafiğine bakınca Sonnet 5’i orta efor seviyesinin üstünde kullanmamak gerekiyor gibi görünüyor. Aynı maliyetle Opus her zaman daha iyi sonuç verdiğine göre, Sonnet 5 medium yetersiz kalıyorsa sonuç efor seviyesini yükseltmek değil, modeli değiştirmek gibi duruyor.

    • Böyle bilgileri paylaşmaları güzel, ama takip etmek giderek zorlaşıyor. Farklı modellerin ve efor seviyelerinin nasıl performans verdiğine ve hangi işlere uygun olduğuna dair zihinsel modelimi kaybediyorum.
      Pratikte genelde Claude Code’un varsayılanlarını kullanıyorum ve bu kadarı yeterince iyi çalışıyor. Yine de diğer kullanıcıların projelerine göre bu ayarları ne kadar denediğini ve optimize ettiğini merak ediyorum.
    • Burada iki değişken var. Claude.ai aboneliğinde Sonnet, Opus’tan çok daha ucuz gibi görünüyor; bu yüzden Max katmanında uzun süre Sonnet’e özel kullanım çubuğu vardı.
      Ayrıca bazı işlerde en önemli şey doğrudan girdi token miktarı. Örneğin çok modlu bilgisayar kullanımı işleri, Opus’ta çıkarımı düşürerek daha verimli hale getirilemiyor; bu yüzden Sonnet gibi daha ucuz bir model işe yarıyor.
    • Aynı grafiğe baktım; Opus’a kıyasla eğrinin konumu epey şaşırtıcıydı. Sonnet 5, “Opus’ta bir de ultra düşük efor seviyesi olsaydı?” gibi hissettiriyor.
    • Karşı argüman olarak Sonnet daha hızlı olabilir. Aynı iş için daha fazla token kullanabildiğinden kesin değil, ama senkron yinelemeli iş akışlarında daha fazla iş çıkarma ihtimali var.
      Yine de pratikte modelin ürettiği sonucu düzeltmek çok fazla zaman aldığı için, daha yavaş olsa bile daha akıllı bir modelin toplam süreyi azalttığını düşünüyorum.
    • Sonnet modeli olduğuna göre Sonnet 4.6’dan iyi olduğu doğru[0]. Daha akıllı, hızlı ve ucuz; ama Opus 4.8 low ya da GLM-5.2 yerine kullanmak için nedeni pek anlayamıyorum.
      [0]: https://aibenchy.com/compare/anthropic-claude-sonnet-4-6-med...
  • Kendi benchmark’ımla[0] test ettim; GLM-5.2 seviyesinde, maliyeti 2 kat ama hızı da 2 kat.
    Zayıf yanları: genel kültür testinde 0/3 ile yerleşik bilgisi neredeyse yok; karmaşık araç çağırma işlerinde 45/100 ile bazen yanlış araç çağrısı yapıyor; bulmaca çözmede 77 puanla oto yıkama türü testlerde hata yapıyor.
    [0]: https://aibenchy.com/compare/anthropic-claude-sonnet-4-6-med...

    • O benchmark’ta Gemini 3.5 Flash en iyi model olarak görünüyor; bana pek ikna edici gelmiyor.
    • Her zamanki gibi, GLM-5.2’den hızlı demek çok anlamlı değil. GLM-5.2 birden fazla sağlayıcı tarafından sunulduğu için çıkarım hızı sağlayıcıya veya zamana göre ciddi ölçüde değişebilir.
    • İkisini de planlama ve uygulama için kullanmış eksik bir karşılaştırmayla söyleyeyim: GLM5.2 çok aceleci ve bir şeyler yapma hevesi fazla olduğundan sık sık sorun çıkarıyor. Örneğin dağıtım ya da git kullanmaması gerektiğinde bile kullanmaya çalışıyor.
      Buna karşılık Sonnet 5, denediğim Claude modelleri arasında çok daha tembeldi; istediğim plan eklemelerini yapmadıktan sonra sorduğumda yaptığını söyleyerek yalan söyledi. Analize[0] bakınca benim için değersiz görünüyor; başkaları için farklı olabilir. Fable kesinlikle çok daha iyiydi.
      [0]: https://artificialanalysis.ai/models/claude-sonnet-5
  • Birçok benchmark’ta orta seviyeden yüksek eforla iş başına maliyet Opus’u aşıyor; bunu neden kullanıp sadece Opus düşük efor seviyesini kullanmayacağını anlamak zor.
    Aklıma gelen tek durum Opus kredilerinin bitmesi. Elbette API ücretlendirmesiyle ilgili kullanım senaryoları vardır, ama yine de düşük efor seviyesinde Opus kullanırdım.

    • Son zamanlarda Opus’un aptalca şeyler yapmasını engellemek giderek daha fazla iş haline geliyor; her seferinde işi fazla karmaşıklaştırmamasını söylemek gerekiyor.
      Modeller problem çözmekten çok kullanıcıdan ve şirketten daha fazla para koparmaya optimize ediliyor gibi. 2-3 satırlık basit bir Python işi için açık talimat vermişken Opus neden komple bir kütüphane yazmaya çalışıyor, anlamıyorum.
    • Belirli görevlere dayalı benchmark’ların günlük ajan tipi kullanım senaryolarını pek yansıtmadığını düşünüyorum. Tek tek görevleri işleyip her seferinde bağlamı temizleyebiliyorsanız, Opus düşük efor seviyesinde böyle bir verimlilik sağlayabilir.
      Ama gerçek bir problemi çözerken yineleme ve keşif yaptıkça bağlam uzunluğu giderek artıyor; o noktada Opus çoğu zaman pahalılaşıyor.
    • Eski Opus modellerinin eninde sonunda desteğinin sonlandırılması muhtemel ve zamanla bu en ucuz model olacak. Şu an fiyatı artırma biçimleri böyle.
    • Sistem kartının[0] 117-118. sayfalarındaki ajan tipi kodlama benchmark’larına bakınca, düşük efor seviyesinde bile Sonnet 4.6’nın herhangi bir seviyesinden daha iyi performans veriyor ve fiyatı da oldukça uygun görünüyor. Bu yüzden Opus’un planladığı işleri halleden bir işçi olarak fena olmayabilir.
      [0] https://www.anthropic.com/claude-sonnet-5-system-card
    • Hız büyük bir neden. Basit işleri hızlıca bitirmeniz gereken zamanlar oluyor; Opus’un düşünmeye başlamasını 30-60 saniye beklemek gerçekten çok yavaşlatıyor.
  • Claude Sonnet 5’in şimdiye kadarki Sonnet’ler içinde en “ajan” gibi olacak şekilde tasarlandığı söyleniyor. Plan yapabiliyor, tarayıcı veya terminal gibi araçları kullanabiliyor ve birkaç ay önce daha büyük ve pahalı bir model gerektiren düzeyde otonom yürütme yapabiliyor.
    Ben tamamen ajan güdümlü geliştirmeden çok ajan destekli geliştirme yaptığım için Opus’tan ziyade Sonnet 4.6’yı daha çok kullanıyordum. Ama bu duyuru bana olumlu gelmiyor. Model tam ajan tipi geliştirmeye ne kadar optimize edilirse, yardımcı geliştirme için o kadar kötüleşiyor ve çok katı, somut talimatlarda bile işi gereğinden fazla büyüttüğü çok oluyor.
    Son birkaç haftadır giderek K2.7 Code ve GLM-5.2’ye geçiyorum. Yardımcı amaçlı kullanım için çoğu zaman yeterliler; çok hızlı ve ucuzlar.

    • Bu şirketlerden birinin, tabiri caizse ajan destekli geliştirmeye göre ayarlanmış bir modele zaman ayırma fırsatı kesinlikle var.
      Sorun şu ki, şirket içindeki insanların 1-2 yıl sonra kimsenin bu şekilde çalışmayacağına inanıyor gibi görünmesi.
    • Bu aralar Kimi K2.6 kullanıyorum. Şirket onay süreci nedeniyle 2.7’yi henüz kullanamıyorum ama ne yapmaya çalıştığımı zaten bildiğim ve süreci parçalara ayırarak ilerletmek istediğim durumlarda fena değil.
      Opus’a göre biraz daha fazla düzeltmek gerekiyor. Ama asıl ölçüt “her satırı okumak zorundayım” ile “her satırı okumadan güvenebilirim” arasındaki fark; benim için hiçbir model ikincisine ulaşmış değil ve bir süre daha ulaşacak gibi de durmuyor. Mimariyi beyin fırtınasıyla şekillendirip koda dökmekte Opus kadar iyi değil, ama bu her zaman sorun olmuyor; gerekirse Opus kullanabiliyorum.
      Bu sayede kodlamanın yoğun olduğu haftalarda bile çarşamba ya da perşembe gibi harcama sınırına takılmadan tüm hafta rahat ediyorum. Ancak pratikte K2.6’yı Opus’a kıyasla çok daha fazla dizginlemem gerekiyormuş gibi hissediyorum. Sadece soru sormak istediğimde bunun hemen kodlama işi olduğunu varsayıp koşmaya başlamasını engellemek için çok daha dikkatli olmak gerekiyor. İkisini de planlama modunda kullanıyorum ama K2.6’da Opus’a göre daha savunmacı davranmak gerekiyor.
    • Bir süre tamamen M1 Mac Studio 64GB bellekte çalıştırdığım yerel modellere geçtim. Yine de yerel quantized Qwen3.6’nın yetersiz kaldığını hissettiğim nadir durumlarda Openrouter’a bağlanıp Kimi, GLM, Deepseek gibi modelleri Anthropic ve benzerlerinin fiyatının bir kısmına kullanıyorum.
    • Benim hissim de neredeyse aynı, durum da benzer. Sonnet kullanırken daha büyük avantaj yanıt süresi.
    • OpenAI modeli olan GPT 5.5 gibi bir şeyi denemek iyi olabilir. Prompt’ta belirlenen talimatlara ve sınırlara daha iyi uyuyor; zekâ kaybı olmadan Claude modellerinden daha yetkin bir ajan yardımcısı gibi hissettiriyor.
      İşlerimin çoğu “ver ve unut” tarzında değil, daha çok ajan tipi mühendisliğe yakın. Planlama aşamasında da sürekli dahil oluyorum, sonuçları gözden geçiriyorum ve ajana çoğu kişiden çok daha fazla soru soruyorum. Gereksinimleri, kapsamı, tasarımı, bazen belirli modül sınırlarını bile belirledikten sonra boşlukları dolduran “aşırı güçlü otomatik tamamlama” modu gibi kullanmak bana en iyi uyan yöntem.
  • GLM 5.2’ye göre fiyat/performansı da daha kötü görünüyor. Üstelik GLM 5.2’de yalnızca 744B parametre var.
    Sistem kartında “CyberGym açık bulmada Claude Sonnet 5, Sonnet 4.6’dan daha az yetkin; Opus 4.8 ve Mythos 5’ten ise çok daha az yetkin” deniyor.
    Ayrıca “Bu bölümdeki diğer değerlendirmelerde olduğu gibi, sonuçlar tüm korumalar kapalıyken elde edilmiştir. Varsayılan hafifletmeler açık çalıştırıldığında Sonnet 5, CyberGym’de 0 puan aldı” denmiş.

    • GLM-5.2 ve Sonnet 4.6 ile bir metni yeniden yazdırdım; büyük dil modelleri deterministik olmadığı için sonuçlar tamamen farklıydı. GLM-5.2 elle düzeltilmesi gereken çok sayıda ince hata yaptı; buna karşılık Sonnet ikinci turda tüm hataları bulup düzeltti.
      Planlama ve kodlamada da benzerdi. GLM-5.2 “kâğıt üzerinde” iyi görünüyor ama gerçek kullanım sonucu farklıydı.
      Claude’u ya da GLM-5.2’yi savunmaya çalışmıyorum. Kasım 2022’den beri büyük dil modellerini her gün kullanırken fark ettiğim şey, genel testleri kendi projenizde doğrulamanız gerektiği. “Her şeyi yöneten tek bir model” yok; binlerce modelden oluşan samanlıkta belirli bir modeli bulmanız gerekiyor.
      Benchmark’lar yardımcı oluyor ama giderek otomobil reklamlarındaki yakıt tüketimi değerlerine benziyorlar. Gerçek tüketim kişiden kişiye değişir.
    • Sonunda uygulanabilir bir iş stratejisi çıktı. Güvenlikten bihaber kod maymununu ucuza sat, o karmaşayı temizleyebilen ajandan da premium ücret al.
    • Belirli bir kişiyi hedef almıyorum ama HN’deki tartışma kalitesinin bir gün bu temel karşılaştırmaların ötesine geçmesini isterdim. Her model lansmanı başlığında aynı yorumlar tekrarlanıyor gibi.
      “X modeli T benchmark’ında Claude Z’den %Y daha iyi ya da kötü”, “Bunun anlamı yok, benchmark’a göre ayarlanmış”, “Günlük kodlama veya ajan işleri için kullanılamaz, hissi tamamen yanlış”, “Neredeyse aynı ve çok daha ucuz, ben kesin kullanırım”, “Kademeli performans farkı yüzünden açık modellerin düşük maliyeti üretkenlik kaybını telafi etmiyor, bu yüzden gerekçelendirilemiyor” gibi.
      Anthropic’ten şikâyetçi bir müşteriyim ve açık modelleri, kapalı olmayan zekâyı gerçekten destekliyorum. Ama artık meme’e dönüşmüş model lansmanı söyleminin tekrarından nasıl çıkılabilir bilmiyorum. Ben de büyük dil modeli veya benchmark tasarlayan biri değilim ve kusursuz olmasa da bilgi sunmaya yönelik çabayı içtenlikle takdir ediyorum. Bu duyuru yorumlarını düzenli okuyan çoğu kişi muhtemelen benzer hissediyordur.
  • Claude Sonnet 5 kendi pelikanını kaz gibi tarif etti:
    “Beyaz bir kaz bisiklete biniyor; bir kanadını ileri uzatıp gidonu tutuyor ve düz beyaz bir arka plan üzerinde kahverengi bir zemin çizgisi var.”
    https://simonwillison.net/2026/Jun/30/claude-sonnet-5/

    • Son dönemde büyük dil modellerinin yaptığı pelikanlar arasında en kötüsü olabilir.
      Buna karşılık GLM 5.2, güzel ve bağımsız çalışan, tamamen animasyonlu bir SVG pelikan çizdi.
      https://simonwillison.net/2026/Jun/17/glm-52
  • Bugün yanlışlıkla Sonnet 5’i biraz kullandım; yazılım geliştirmede Opus 4.8’den epey kötü görünüyordu.

  • Siber güvenlik konusundaki aşırı paranoyanın sonunda modelin daha az güvenli kod üretmesine yol açıp açmadığını merak ediyorum. Güvenli kod yazabilme kapasitesine sahip olmak, siber güvenlik hakkında bir şeyler bildiği anlamına geliyor; o bilgiyle dünyadaki bankaları hackleyebileceği de düşünülebilir

    • Görsel üretim modellerinde çıplaklığı sansürlemeye çalışırken anatomi tasvirlerinde türlü türlü sorunlar ortaya çıktı. Bu modellerde de güvenlik tarafında benzer sorunlar yaşanacak gibi
    • Hedef bu da olabilir
  • Bu modelden epey beklentim olduğu için, üç farklı projede Opus planlayıcılardan, Opus alt ajanları yerine Sonnet kullanarak HPC kernel deneylerine daha hızlı yardımcı olmalarını istedim. Ama hiçbiri tek satır kod yazmadı; Sonnet’ler sürekli dönüp durup sadece token harcadı
    Kendi codebase’imde Opus’ta en son ne zaman böyle bir şey yaşadığımı hatırlamıyorum bile. Geri alıyorum

    • Yeni model çıkışlarında bu daha önce de olmuştu. Opus 4.7 çıktığında da 20 dakikadan fazla “çalışıyor” durumundaydı; ben de tamamen kapatıp ertesi güne kadar bekledim
      Kendiliğinden ortadan kalktı
  • Önemli nokta şu: “Sonnet 5, Sonnet 4.6’nın bir yükseltmesi; ancak performans artışı için modelin metni işleme biçimini değiştiren güncellenmiş bir tokenizer kullanıyor. Bu, Claude Opus 4.7’de getirilen tokenizer değişikliğine benziyor. Bedeli, aynı girdinin daha fazla token’a eşlenebilmesi. İçerik türüne göre yaklaşık 1,0–1,35 kat. Lansman fiyatı, Sonnet 5’e geçişin kabaca maliyet açısından nötr kalacağı şekilde belirlendi”

    • O zaman lansman dönemi sonrasında fiyat, Sonnet 5 %100–135 daha pahalı olacak şekilde mi ayarlanacak?
    • “Fiyatı artırmanın iki yolu vardır. (1) Token başına fiyatı artırmak veya (2) sizin adınıza ürettiğimiz token sayısını artırmak. Biz (2)’yi kötü niyetle yapmayacağımıza söz veriyoruz. Söz”