Claude 4 tanıtıldı: Opus 4 ve Sonnet 4

(anthropic.com)

1 puan yazan GN⁺ 2025-05-23 | 1 yorum | WhatsApp'ta paylaş

Anthropic, Claude Opus 4 ve Claude Sonnet 4 modellerini tanıttı; kodlama, ileri düzey akıl yürütme ve yapay zeka ajanı işlerini yeni nesil Claude’un temel performans alanları olarak öne çıkarıyor
Her iki model de anında yanıt ile derin akıl yürütme arasında geçiş yapabilen hibrit modeller; genişletilmiş düşünme sırasında web araması gibi araç kullanımını ve paralel araç çalıştırmayı destekliyor
Opus 4, SWE-bench’te %72,5, Terminal-bench’te %43,2 elde etti; Sonnet 4 ise SWE-bench’te %72,7 ile Sonnet 3.7’ye kıyasla kodlama, akıl yürütme ve talimat uygulamasını geliştiriyor
Claude Code kararlı sürüm olarak yayınlandı; terminal, VS Code, JetBrains, GitHub Actions ve SDK ile genişliyor, PR inceleme geri bildirimlerine yanıt verme, CI hatalarını düzeltme ve kod değişiklikleri yapma görevlerini üstlenebiliyor
API’ye kod çalıştırma aracı, MCP connector, Files API ve en fazla 1 saatlik prompt cache eklendi; böylece geliştiriciler daha güçlü yapay zeka ajanları oluşturabiliyor

Claude 4 modelleri tanıtıldı

Anthropic, Claude Opus 4 ve Claude Sonnet 4 modellerini Claude’un yeni nesil modelleri olarak tanıttı
İki modelin temel odağı kodlama, ileri düzey akıl yürütme ve yapay zeka ajanı işleri
Claude Opus 4, karmaşık ve uzun süre çalışan görevlerde ve ajan iş akışlarında kalıcı performans sunan bir kodlama modeli
Claude Sonnet 4, Claude Sonnet 3.7’nin yükseltilmiş sürümü; kodlama ve akıl yürütme performansını ve talimat uygulama doğruluğunu artırıyor

Sunum şekli ve fiyatlandırma

Claude Opus 4 ve Sonnet 4, hem neredeyse anlık yanıtlar hem de daha derin akıl yürütme için genişletilmiş düşünme modunu sunuyor
Pro, Max, Team ve Enterprise Claude planlarına her iki model ve genişletilmiş düşünme dahil
Sonnet 4, ücretsiz kullanıcılar tarafından da kullanılabiliyor
Her iki model de Anthropic API, Amazon Bedrock ve Google Cloud Vertex AI üzerinden sunuluyor
Fiyatlandırma, önceki Opus ve Sonnet modelleriyle aynı
- Opus 4: giriş/çıkış 1 milyon token başına $15/$75
- Sonnet 4: giriş/çıkış 1 milyon token başına $3/$15

Opus 4’ün kodlama ve uzun süreli görev performansı

Claude Opus 4, Anthropic’in en güçlü modeli; SWE-bench’te %72,5, Terminal-bench’te %43,2 elde etti
Binlerce adımlık odaklı çalışma gerektiren uzun süreli görevlerde istikrarlı performans sunuyor ve saatler boyunca kesintisiz çalışabiliyor
Cursor, Opus 4’ü kodlamada son teknoloji model olarak görüyor ve karmaşık kod tabanlarını anlamada büyük ilerleme sağladığını belirtiyor
Replit, birden fazla dosyaya yayılan karmaşık değişikliklerde hassasiyetin arttığını söylüyor
Block, kendi ajanı codename goose içinde Opus 4’ün düzenleme ve hata ayıklama sırasında kod kalitesini artırırken performans ve güvenilirliği koruyan ilk model olduğunu ifade ediyor
Rakuten, Opus 4’ün zorlu açık kaynak refaktör görevlerini 7 saat boyunca bağımsız şekilde çalıştırarak istikrarlı performans gösterdiğini doğruladı
Cognition, Opus 4’ün önceki modellerin kaçırdığı önemli görevlerde ve diğer modellerin çözemediği karmaşık işlerde güçlü olduğunu değerlendiriyor

Sonnet 4’ün konumu

Claude Sonnet 4, Sonnet 3.7’ye göre geliştirilmiş bir model ve SWE-bench’te %72,7 elde etti
Dahili ve harici kullanım senaryoları için performans ile verimlilik arasında denge kurmayı hedefliyor; uygulama kontrolü için yönlendirilebilirliği de geliştirildi
Çoğu alanda Opus 4 ile aynı seviyede olmasa da, yetenek ve pratikliğin birleşimini sunuyor
GitHub, Sonnet 4’ü GitHub Copilot’un yeni kodlama ajanını çalıştıran model olarak kullanmayı planlıyor
Manus, karmaşık talimat uygulama, net akıl yürütme ve estetik çıktılardaki gelişmeleri vurguluyor
iGent, otonom çok işlevli uygulama geliştirme ve kod tabanı keşfinin iyileştiğini, keşif hatalarının %20’den neredeyse 0’a düştüğünü belirtiyor
Sourcegraph, Sonnet 4’ün yönünü daha uzun süre koruduğunu, sorunları daha derin anladığını ve daha zarif kod kalitesi sunduğunu değerlendiriyor
Augment Code, daha yüksek başarı oranı, daha hassas kod düzenleme ve karmaşık görevlerdeki daha dikkatli yaklaşımı nedeniyle Sonnet 4’ü varsayılan model için ilk tercih yapıyor

Model özelliklerindeki iyileştirmeler

Her iki model de genişletilmiş düşünme sırasında araç kullanabiliyor
- Örnek olarak web search kullanılabiliyor
- Claude, yanıtı iyileştirmek için akıl yürütme ile araç kullanımını dönüşümlü olarak gerçekleştirebiliyor
Paralel araç çalıştırma ve daha doğru talimat uygulaması da destekleniyor
Geliştirici yerel dosya erişimi sağlarsa, model temel gerçekleri çıkarıp kaydederek süreklilik ve örtük bilgi koruyan bir bellek özelliği gösterebiliyor
Görevi kestirme yollar veya açıklar kullanarak tamamlama davranışı Sonnet 3.7’ye kıyasla azaldı
- Özellikle kestirme yol ve açıklara yatkın ajan görevlerinde, iki modelin bu davranışı gösterme olasılığı Sonnet 3.7’ye göre %65 daha düşük
Opus 4, geliştiricinin yerel dosya erişimi verdiği uygulamalarda temel bilgileri içeren memory files oluşturup sürdürmede güçlü
- Örneğin Pokémon oynarken Navigation Guide oluşturuyor
- Bu, uzun süreli görev farkındalığını, tutarlılığı ve ajan görev performansını artırıyor

Düşünme özetleri ve Developer Mode

Claude 4 modellerine, uzun düşünme süreçlerini daha küçük bir modelle sıkıştıran thinking summaries eklendi
Bu özetlere yalnızca yaklaşık %5 durumda ihtiyaç duyuluyor
Düşünme süreçlerinin çoğu, tamamını gösterecek kadar kısa
Gelişmiş prompt engineering için ham düşünce zincirine ihtiyaç duyan kullanıcılar, yeni Developer Mode hakkında contact sales üzerinden bilgi alabiliyor

Claude Code kararlı sürümde

Claude Code, kararlı sürüm olarak yayınlandı ve Claude’u terminale, IDE’lere ve arka planda çalışan iş akışlarına taşıyor
VS Code ve JetBrains için yeni beta eklentileri, Claude Code’u doğrudan IDE’ye entegre ediyor
- Claude’un önerdiği düzenlemeler dosya içinde satır içi olarak gösteriliyor
- Kullanıcılar alışık oldukları editör içinde inceleme yapabiliyor ve değişiklikleri takip edebiliyor
- IDE terminalinde Claude Code çalıştırıldığında kurulum yapılıyor
GitHub Actions üzerinden arka plan görevleri destekleniyor
Ölçeklenebilir Claude Code SDK da tanıtıldı
- Geliştiriciler, Claude Code ile aynı çekirdek ajanı kullanarak kendi ajanlarını ve uygulamalarını oluşturabiliyor
Claude Code on GitHub beta olarak sunuluyor
- PR içinde Claude Code etiketlenerek gözden geçiren geri bildirimlerine yanıt verilebiliyor, CI hataları düzeltilebiliyor ve kod değiştirilebiliyor
- Kurulum için Claude Code içinde /install-github-app çalıştırılıyor

API ve güvenlik

Anthropic API’ye yapay zeka ajanı geliştirmeye yönelik dört yeni özellik eklendi
- kod çalıştırma aracı
- MCP connector
- Files API
- en fazla 1 saat prompt cache
Claude 4 modelleri, tam bağlamı koruma, uzun projelerde odağı sürdürme ve yüksek etkili görevlere yönelme açısından bir sonraki adım olarak konumlandırılıyor
Modellerde riski azaltmak ve güvenliği artırmak için kapsamlı testler ve değerlendirmeler uygulandı
Daha yüksek AI Safety Levels olan ASL-3 için koruma önlemleri dahil edildi
Kullanıcılar Claude, Claude Code veya tercih ettikleri platform üzerinden başlayabiliyor

Benchmark raporlama yöntemi

Claude Opus 4 ve Sonnet 4, hibrit akıl yürütme modelleri; yayımlanan benchmark sonuçları, genişletilmiş düşünmenin kullanılıp kullanılmadığına bakılmaksızın ulaşılan en yüksek puanı gösteriyor
Genişletilmiş düşünme kullanılmadan elde edilen sonuçlar şunlar
- SWE-bench Verified
- Terminal-bench
Genişletilmiş düşünme kullanılan sonuçlarda en fazla 64K token kullanılıyor
- TAU-bench
- GPQA Diamond
- MMMLU
- MMMU
- AIME
Genişletilmiş düşünme olmadan ölçülen bazı puanlar da veriliyor
- GPQA Diamond: Opus 4 %74,9, Sonnet 4 %70,0
- MMMLU: Opus 4 %87,4, Sonnet 4 %85,4
- MMMU: Opus 4 %73,7, Sonnet 4 %72,6
- AIME: Opus 4 %33,9, Sonnet 4 %33,1

TAU-bench ve SWE-bench metodolojisi

TAU-bench puanları, Claude’un genişletilmiş düşünme ve araç kullanımı sırasında akıl yürütme becerisinden daha iyi yararlanmasını sağlamak için Airline ve Retail Agent Policy’ye prompt eki eklenen bir kurulumda elde edildi
Model, problem çözerken normal düşünme modundan farklı bir şekilde düşüncelerini yazmaya yönlendirildi
Ek düşünme nedeniyle adım sayısı artabileceğinden, maksimum adım sayısı 30’dan 100’e çıkarıldı
- Yörüngelerin çoğu 30 adımdan kısa sürdü
- 50 adımı aşan yalnızca bir yörünge oldu
Claude 4 ailesinin SWE-bench testlerinde önceki sürümlerdekiyle aynı basit iskelet kullanılmaya devam edildi
- Araçlar yalnızca bash aracı ve string değiştirme tabanlı dosya düzenleme aracı olmak üzere iki tane
- Claude 3.7 Sonnet’te kullanılan üçüncü planning tool artık dahil edilmiyor
Tüm Claude 4 model puanları toplam 500 problem üzerinden raporlanıyor
OpenAI model puanları ise 477 problemden oluşan alt küme üzerinden raporlanıyor
“high compute” puanları, paralel test zamanı hesaplaması ve ek karmaşıklık kullanıyor
- Birden fazla paralel deneme örnekleniyor
- Depodaki görünür regresyon testlerini bozan yamalar eleniyor
- Gizli test bilgileri kullanılmıyor
- Kalan denemeler arasından en iyi aday, dahili bir değerlendirme modeliyle seçiliyor
Bu yöntemdeki high compute puanları Opus 4 için %79,4, Sonnet 4 için %80,2

1 yorum

GN⁺ 2025-05-23

Hacker News görüşleri

Bu duyuruda atlanan önemli nokta, Claude 4’ün eğitim kesme tarihinin Mart 2025 olması. Son modeller arasında en günceli; Gemini 2.5’in kesme tarihi Ocak 2025
https://docs.anthropic.com/en/docs/about-claude/models/overv...
- Artık büyük kullanıcı odaklı LLM ürünlerinin hepsinde web araması var; bazı API’lerde de sunuluyor ya da bazen istemeden mümkün olabiliyor. Bu yüzden en azından benim için kesin kesme ayı giderek daha az önemli hale geliyor
  Sık kullandığım modeller, belirli bir konuda yeni bilgi gerektiğini kendileri anlayıp getirecek kadar akıllı sayılır
- Güzel. Artık sonunda Svelte 5’i biliyor olabilir
- Claude’un Tailwind 4’ü bilmemesi yüzünden uğraştığım olmuştu; Tailwind CSS hakkında sorunca, Ocak 2025 kesme tarihine göre en güncel kararlı sürüm olan Tailwind CSS 3.4’e kadar bildiğini söyledi
- Neden sürekli öğrenme sağlanamıyor?
- Yine de neyin güncellendiğini ve neyin güncellenmediğini bilmiyoruz. Güncellenebilen her şeyin güncellendiğini varsayabilir miyiz?
“GitHub says Claude Sonnet 4 soars in agentic scenarios and will introduce it as the base model for the new coding agent in GitHub Copilot.”
Bu model, “Assign to CoPilot”ı paket yükseltmeleri gibi çoğu mekanik işi otomatik halleden bir hayale biraz daha yaklaştırabilir. Bakım yükü azalırsa eski projelerin yeniden canlanmasına yol açma olasılığı da yüksek
- Olabilir, ama önceki tüm modeller çıktığında da aynı beklenti vardı
- Ucuz bir kodlama ajanının açık kaynak için neler yapabileceğini gerçekten merak ediyorum. Aslında CheepCode[0] kredilerini açık kaynak projelere dağıtmalıyım diye düşünüyorum
  Henüz resmi bir yapı yok ama bu yorumu görüp ücretsiz kodlama ajanı çalıştırmaya ihtiyaç duyarsanız e-posta gönderin, kurulumunu yaparım
  [0] Benim headless kodlama ajanı ürünüm; “assign to copilot”a benziyor ama Linear, Jira gibi iş panolarında birden çok işi paralel yürütüyor. Şimdiye kadar basit ve tekrarlı özelliklerde epey başarılı oldu; genelde testler ne kadar iyiyse ortaya çıkan kod da o kadar iyi oluyor. Elbette kendi testlerini de yazabiliyor ve gerçekten yazıyor
- Böyle bir modelin işe yarayıp yaramadığını anlamak için benim ölçütüm tam da bu. Tekrar çalışır hale gelmesi için büyük ölçekli refactoring gerektiren bir projem var; çoğunlukla paket yükseltmesi ama yazıldığı dönemde olmayan yeni dil semantiklerine göre kodun da düzeltilmesi gerekiyor
  Mevcut yapay zeka modelleri bu işte fiilen hiçbir ilerleme kaydedemiyor. Mümkün olana kadar denemeye devam edeceğim
- Paket yükseltmeleri ve mekanik işler zaten büyük ölçüde botlarla çözülmüş alanlar
  Burada yapay zekanın yardımcı olabileceği yerin değişiklikleri, çakışmaları, kod tabanına etkileri özetlemek ve mümkünse güvenlik taraması yapmak olduğunu düşünüyorum
- Copilot’a ne zaman uygulanmasının planlandığına dair haber gören var mı?
“Users requiring raw chains of thought for advanced prompt engineering can contact sales”
Artık üç LLM sağlayıcısının da düşünce zincirini (CoT) gizlediği görülüyor. Üzücü; çünkü yanlış yöne gitmeye başladığı anı görebiliyor ve prompt’u hızlıca iyileştirmeye yardımcı oluyordu
OpenAI’nin yanı sıra Google da yakın zamanda düşünce süreçlerini özetlere dönüştürmeye başladı; şahsen bunların aşırı basitleştirilmiş özetler olduğunu düşünüyorum
- Düşünce sürecini çıkarmalarının nedeni Anthropic’in yakın tarihli makalesi olabilir mi?
  https://assets.anthropic.com/m/71876fabef0f0ed4/original/rea...
  Makale, en yeni akıl yürütme modellerinin düşünce zinciri sadakatini 6 akıl yürütme ipucuyla değerlendirmiş; çoğu ayar ve modelde, ipuçlarının kullanıldığı örneklerin en az %1’inde bunların düşünce sürecinde göründüğünü, ancak açıklanma oranının genellikle %20’nin altında olduğunu söylüyor. Sonuç temelli pekiştirmeli öğrenme başlangıçta sadakati artırsa da doygunluğa ulaşmadan duraksıyor; ödül hackleme nedeniyle ipucu kullanım sıklığı artsa bile düşünce sürecinde bunu söze dökme eğilimi artmıyor
  Yani düşünce süreci de modelin uydurulmuş açıklaması olabilir. Bu yüzden Anthropic içinde birileri müşterileri yanıltmak istemiyor olabilir; bu sorun çözülürse belki geri gelir
- Bu simya; çünkü herkes kurşunu altına çevirmede kendine özgü bir üstünlüğü olduğuna inanıyor
- Hatırladığım kadarıyla RLHF, tehlikeli yanıtlar vermemesini öğretirken model doğruluğundan kaçınılmaz olarak bir miktar ödün veriyor
  Düşünce süreci modeli, son kullanıcıyla etkileşen modelden farklı eğitildiyse bu mantıklı. Örneğin MoE’nin farklı bir uzmanı olabilir; kullanıcı zaten yalnızca açık model tarafından filtrelenmiş çıktıyı göreceği için düşünce süreci modeli RLHF öncesine daha yakın ham modele benzese bile şirketin itibar riski daha düşük olur
  Böylece ham modelin performansı elde edilirken, gerçek zararı ya da ciddi PR kazalarını önlemeye yönelik filtreleme de korunabilir
- DeepSeek’in tekrar herkesi ezip geçmesini beklememiz gerekecek gibi
- Zig öğrenirken düşünce süreci inanılmaz yardımcı olmuştu
  Zig ve implementasyon hakkında sorular sorarken modelin düşünce sürecini görmek bakış açımı çok genişletti
Bu sürümün öncekinden daha iyi olmadığını, LLM’lerin fiilen durgunluk dönemine girdiğini ve yeni sürümdeki “özelliklerin” büyük ölçüde göz boyamaya yakın olduğunu düşünen tek kişi ben olamam
- Sanki yalnızca kenar noktalarda iyileşiyor. MCP, araç çağırma, yapılandırılmış çıktı gibi alanlar. Zekânın kesin olarak arttığı söylenemez ama katma değer arttı; bu değerin eğitim maliyetlerine ya da şirket değerlemelerine değip değmediğini bilmiyorum
  Gerçekçi bakınca bu şirketlerin nasıl sürdürülebilir olacağına dair hiç fikrim yok. Bulut GPU’larda inference barındırmayı denedim; üzerine azıcık bile ücretsiz plan ekleyince maliyetler aşırı ağır göründü
- “LLM’ler durgunluğa ulaştı” lafı yeni bir stokastik papağan meme’i gibi geliyor. Daha birkaç saat önce ana sayfaya düşen yazıya bakınca bile, LLM tabanlı bir ajan üç e-posta arama aracı ve “kardeşimin çocuğunun adını bul” gibi basit bir görev alıp sorunu sistematik biçimde çözdü, aramayı rafine etti ve yalnızca “X’in sevdiği yemek” ile bir YouTube bağlantısı olan e-postadan doğru adı çıkardı
  alphaevolve, tarayıcı çalıştırıp özellikleri keşfeden ve Playwright testleri yazan Microsoft’un Copilot ajan testi demosu, kodlama alanındaki gelişmeler bir yana
- Claude Code’u çok kullandım ve katılıyorum. Güncellemeden sonra hiçbir fark hissetmedim. Özetler biraz daha temizleşmiş gibi ama yetenek açısından şaşırdığım olmadı
  TypeScript kod tabanında 3.7’de olduğu gibi sürekli düzeltmem ve yeniden prompt vermem gerekti. Hatta yanlış dosyayı düzenlediği bir durumda, tüm kodu silip baktığımız hedefin hiç değişmediğini göstermeye zorlayana kadar daha spesifik kontrol etmeyi akıl edememesi epey şaşırtıcıydı
- Genel olarak aynı hissiyat var. Bugünkü benchmark zaferleri tuning’den geliyor gibi görünüyor; karşılığında başka alanlarda kayıplar oluşuyor. o3 ve o4-mini de SimpleQA, PersonQA’da o1’den daha fazla halüsinasyon yapıyor
  Sentetik veri halüsinasyon oranını artırıyor gibi; muhakeme modelleri de her muhakeme adımında bir halüsinasyonun modeli yoldan çıkarma riski taşıdığı için daha kırılgan
  Genel kullanım açısından LLM’lerin bu yılın başı civarında zaten sona geldiğini düşünüyorum. OpenAI da GPT-5’i iptal edip daha sonra “getirdiğine göre fazla pahalı” GPT-4.5’i çıkarıp kısa süre sonra sonlandırmaya karar vererek bunu anlamış oldu
  Borsanın bunu henüz fiyatlayıp fiyatlamadığını bilmiyorum. Buradan çıkmak için bir atılım gerekiyor
- Çoğu durumda benchmark’lar Claude 3.7’ye çok benzer görünüyor
  Yine de durgunluğa ulaştığını söylemek için bu hiç yeterli değil. İlerleme hızı inanılmaz hızlıydı; böyle bir yargı için birkaç ay daha beklemek gerekir
  Özellikler konusunda ise tam tersini düşünüyorum. Göz boyama değil; çekirdek yapay zekânın kendisi olmasa da yapay zekâyı gerçekten kullanmak için gereken önemli bir araçsallaştırma. Yaygın kullanım ölçütüne göre LLM alanı hâlâ erken aşamada. Modeller daha iyi olmasa bile, etkileşim biçimleri, bilgi besleme ve araç çağırma gibi özelliklerde kullanılabilirliği ve kabiliyeti ciddi ölçüde artıracak çok fazla alan var
Claude 3.7’yi gerçekten seviyorum, her gün kullanıyorum ve genel olarak Gemini modellerine tercih ediyorum. Ama Claude Code’da Opus 4’ü Go kod tabanında neredeyse sıfırdan bir özellik işi için denediğimde, düşünme süreci iyiydi fakat araç çağrılarının %70–80’i başarısız oldu
“Write”, “Update” gibi temel araçlar bile hatalı söz dizimiyle başarısız oldu. Dosya yazma girişimlerinin 5’i de başarısız oldu ve “content parametresini eklemeyi sürekli unutuyorum. Düzelteceğim” diyerek denemeye devam etti
Bir şeyler yanlış. Yakında çözülmesini umuyorum ama şu an için en azından Opus 4 Claude Code’da kullanılamaz durumda. Yine de oluşturmayı başardığı dosyanın kalitesi yüksekti
- Sanırım nedeni buldum ve bariz bir bug gibi görünüyor: https://github.com/anthropics/claude-code/issues/1236#issuec...
  Temelde maksimum çıktı token sayısına takılıp, yeni dosyanın tamamını tek seferde yazarken yanıtın durduğu anlaşılıyor. “Hatalı araç çağrısı parametresi” hatası yanlış izmiş
Opus 4 ve Sonnet 4’ü şimdiden bizim SQL üretim benchmark’ımızda test ettik: https://llm-benchmark.tinybird.live/
Opus 4 diğer tüm modelleri geçti; iyi
- Opus 4’ün tek denemede en kötü olması garip. Geçerli bir sorgu üretmesi ortalama iki deneme gerektiriyor
  Model gerçekten bu kadar daha akıllıysa ilk deneme performansının da iyi olması gerekmez mi? Sonuçta önceden “düşünüyor”
- İlginç biçimde Claude-3.7-Sonnet ve Claude-3.5-Sonnet, Claude-Sonnet-4’ten daha üst sırada
- Bu benchmark epey ilginç. Diğer benchmark’larda sık gördüğümüz model sıralamasını bozuyor gibi görünüyor
- Claude Premium ödüyorum ama gerçekte Grok’u da epey çok kullanıyorum. “think” özelliği beni istediğim sonuca daha sık götürüyor
  xAI modelinin listede olmaması garip. Grok adı berbat ama beni oldukça sık şaşırtıyor. 250 dolarlık ChatGPT modelini henüz denemedim ve OpenAI’ın son dönemdeki tavırlarından hoşlanmıyorum
- Merak ediyorum, soruların ve SQL’in LLM eğitim verilerinde olmadığını nasıl biliyorsunuz? Benchmark soruları ve SQL çevrimiçi görünüyor: https://ghe.clickhouse.tech/
Claude 4'ün bağlam penceresi değişikliklerini belgeleyen bir yer var mı? Çok iyi bilmiyorum ama Gemini 2.5'in faydalı olmasının nedenlerinden birinin 50 bin~70 bin satır ölçeğinde devasa bağlamı işleyebilmesi olduğunu sanıyordum
- Sonnet'in bağlam penceresi aynı. Girdi 200k, çıktı 64k: https://docs.anthropic.com/en/docs/about-claude/models/overv...
  Aslında Gemini 2.5'in 1M bağlamı o kadar büyük bir ayırt edici unsur değil. Bağlam büyüdükçe sondaki token'ları iyi takip etme becerisinin algılanan getirisi azalıyor
- Bağlam penceresini büyütürlerse ya da istem çok uzadığında daha iyi ele alsalar iyi olurdu. Şu anda bir anda “prompt is too long” uyarısı çıkıyor ve uzun sohbetlerde ya da yazı yazarken modeli kullanmak sinir bozucu hale getiriyor
  Diğer araçlar önceki bağlamın bir kısmını atabiliyor ya da RAG kullanabiliyor, ama uyarısız şekilde yeni sohbet başlatmaya zorlamıyor
- Ne demek istediğini pek anlamadım. Makale başlığında Opus 4'ün 200k bağlam olduğu yazıyor
  Sonnet 3.7'nin beta header'ı ile aynı
- Bağlam penceresi boyutu oldukça sahte gibi duran bir metrik. Doğru bağlam yoksa iyi çıktı da çıkmaz
“Finally, we've introduced thinking summaries for Claude 4 models that use a smaller model to condense lengthy thought processes. This summarization is only needed about 5% of the time—most thought processes are short enough to display in full. Users requiring raw chains of thought for advanced prompt engineering can contact sales about our new Developer Mode to retain full access.”
Model akıl yürütmesinin “özetini” görmek istemiyorum. Modelin akıl yürütmesinin doğru olup olmadığını ve sonuca güvenilip güvenilemeyeceğini kontrol etmek için gerçek akıl yürütmeyi görmem gerekiyor
OpenAI'ın ardından Anthropic'in de modelin düşünce sürecini gizleyen, kullanıcının göremediği token'lar için ücret alan ve gerçekte ne olduğunu bilinmez hale getiren “özetler” sunma yönüne gitmesi çok sinir bozucu
- Birçok makale, “düşünce” çıktısının nihai çıktıyla pek ilişkili olmadığını; nokta ya da duraklama token'larıyla ek işlem adımları mümkün kılındığında da benzer iyileşmeler elde edildiğini bildiriyor
  Birçok açıdan “düşünce” çoğunlukla pazarlamaya daha yakın
  - "Think before you speak: Training Language Models With Pause Tokens" - https://arxiv.org/abs/2310.02226
  - "Let's Think Dot by Dot: Hidden Computation in Transformer Language Models" - https://arxiv.org/abs/2404.15758
  - "Do LLMs Really Think Step-by-step In Implicit Reasoning?" - https://arxiv.org/abs/2411.15862
  - bycloud'un genel bakış videosu -> https://www.youtube.com/watch?v=Dk36u4NGeSU
- Çok endişelenmeye gerek yok. Düşüncenin çıktıdan sık sık ayrıştığına dair yeterince kanıt var
  İnsanların gerçekte düşünce sürecini neredeyse hiç okumadığını düşünürsek, bunu kullanıcı deneyimi iyileştirmesi olarak görüyorum
- Bu kendi sohbet arayüzünden mi bahsediyor? API hâlâ thinking token'larını anında stream ediyor
- Bildiğim kadarıyla Gemini 2.5 Pro da bunu yapıyor
Sonnet 4'ün 3.7 gibi araç çağırmaya takıntılı olmamasını gerçekten umuyorum. 3.5, ilk kez bir modelin programlamada ustalaşacakmış gibi hissettirdiği sihirli bir deneyim sunmuştu. Ondan sonra biraz yokuş aşağı gidiyormuş gibi hissettiriyor
- 3.7'nin “hazır başlamışken bir şey daha yapayım” tarzı aşırı hevesliliği benim de hiç hoşuma gitmemişti. 3.5 düzeyindeki talimat takibine geri dönse iyi olur
- Bu, model sorunundan çok sistem prompt'u sorunu gibi geliyor
90'lardaki CPU MHz yarışı geri dönmüş gibi. Artık CPU mimarisi ve çeşitli benchmark'larda muğlak değer taşıyan sonuçlar üzerine konuşmak yerine, LLM'ler arasında aynı türden geek muhabbetleri yapıyoruz
Tarih kendi kafiyesini buluyor
- Geri döndü dönmesine, ama 2020'lerin ortasındaki teknoloji gelişim hızıyla döndü. CPU MHz yarışının çok daha yavaş olduğunu hatırlıyorum; belki de çocukken 90'lardaki zaman algım daha yavaştı
  Yine de şimdiki yapay zeka yarışında birkaç ayda bir yeni model çıktığı gibi, birkaç ayda bir yeni CPU “drop”u olmadığından oldukça eminim

Claude 4 tanıtıldı: Opus 4 ve Sonnet 4

Claude 4 modelleri tanıtıldı

Sunum şekli ve fiyatlandırma

Opus 4’ün kodlama ve uzun süreli görev performansı

Sonnet 4’ün konumu

Model özelliklerindeki iyileştirmeler

Düşünme özetleri ve Developer Mode

Claude Code kararlı sürümde

API ve güvenlik

Benchmark raporlama yöntemi

TAU-bench ve SWE-bench metodolojisi

İlgili okumalar

1 yorum

Hacker News görüşleri