Claude 4
(anthropic.com)- Claude Opus 4 ve Claude Sonnet 4 modellerinin yayınlanmasıyla kodlama, ileri düzey akıl yürütme ve AI ajanları alanlarında yeni bir standart oluştu
- Opus 4, karmaşık ve uzun soluklu görevlerde dünya lideri düzeyinde sürdürülebilir performans sunarken, Sonnet 4 önceki sürüme göre daha yüksek doğruluk ve talimat anlama becerisi sağlıyor
- Her iki model de araç kullanımı, paralel araç çalıştırma, geliştirilmiş bellek gibi yeni yetenekler getirirken, GitHub Actions ve başlıca IDE’lerle entegrasyon sayesinde geliştirici deneyimini genişletiyor
- Opus 4 ve Sonnet 4, kodlama, akıl yürütme ve ajan görevlerinde sınıfının en iyisi benchmark sonuçları elde etti; ücretsiz plan dahil çeşitli abonelikler ile API, Bedrock ve Vertex AI desteği sunuluyor
- Model iyileştirmeleri sayesinde kısayol kullanımı veya hileli kaçınma davranışları azalıyor, geliştiriciye özel bellek yönetimi ve daha verimli iş akışları mümkün hale geliyor
Giriş
Anthropic bugün yeni nesil Claude modelleri olan Claude Opus 4 ve Claude Sonnet 4’ü duyurdu. Bu modeller, kodlama, ileri düzey akıl yürütme ve AI ajan kullanımı alanlarında sektör standartlarını yeniden belirleyen yenilikçi bir performans sunuyor.
Opus 4, dünya lideri düzeyde sürdürülebilir performans ve uzun görev desteği ile öne çıkarken, Sonnet 4 mevcut Sonnet 3.7’ye kıyasla daha isabetli komut uygulama ve daha iyi gerekçelendirilmiş yanıtlar sağlıyor.
Birlikte duyurulan başlıca özellikler şunlar:
- Uzatılmış düşünme ve araç kullanımı (beta): Her iki model de web araması gibi araçları düşünme süreci sırasında kullanabiliyor; böylece mantıksal akıl yürütme ile araç kullanımının döngüsel şekilde birlikte işlemesi mümkün oluyor
- Yeni model yetenekleri: Araçları paralel kullanma, daha hassas komut yürütme, yerel dosyalara erişimde çok daha güçlü bellek sayesinde uzun vadeli tutarlılık koruma ve örtük bilgi biriktirme
- Claude Code genel kullanıma açıldı: Araştırma önizlemesinde alınan olumlu geri bildirimlerin ardından GitHub Actions/VS Code/JetBrains gibi temel geliştirme ortamlarıyla sorunsuz entegrasyon desteği
- API yeteneklerinin genişlemesi: Kod çalıştırma aracı, MCP bağlayıcıları, Files API, prompt caching gibi özelliklerle güçlü AI ajanları oluşturma desteği
Opus 4 ve Sonnet 4’ün ikisi de anında yanıt modu ile derin düşünme modu arasında hibrit çalışabiliyor. Pro, Max, Team ve Enterprise planlarında her iki model ile derin düşünme özelliği sunulurken, Sonnet 4 ücretsiz kullanıcılar için de erişilebilir. Anthropic API, Amazon Bedrock ve Google Cloud Vertex AI üzerinden kullanılabiliyor; fiyatlandırma ise Opus 4 için (girdi $15/çıktı $75/milyon token), Sonnet 4 için (girdi $3/çıktı $15) olarak öncekiyle aynı kaldı.
Claude 4 model ayrıntıları
Opus 4
- En güçlü Claude modeli ve dünyanın en iyi kodlama modeli
- SWE-bench’te %72.5, Terminal-bench’te %43.2 ile sektörün en üst düzey sonuçları
- Binlerce adımı aşan yoğun ajan görevlerinde uzun süre tutarlı performans sürdürme yeteneği; Sonnet ailesinin tamamıyla kıyaslandığında bile açık ara üstünlük
- Başlıca yenilik örnekleri:
- Cursor: Kod düzeyinde en üst seviye, büyük kod tabanlarını anlama becerisinde güçlü artış
- Replit: Çok dosyalı karmaşık değişiklik görevlerinde sıçramalı doğruluk ve performans artışı
- Block: Kod kalitesi ve debugging aynı anda iyileşirken tutarlı güvenilirlik korunuyor
- Rakuten: 7 saat kesintisiz kendi kendine refactoring yapan açık kaynak testinde üstün performans kanıtladı
- Cognition: Önceki modellerin çözemediği görevleri çözebiliyor, uygulanmamış eylem noktalarında iyileşme sağlıyor
Sonnet 4
- Opus 4 düzeyinde olmasa da mevcut Sonnet 3.7’ye kıyasla belirgin şekilde gelişmiş performans ve verimlilik sunuyor
- SWE-bench’te %72.7 ile sınıfının en iyi kodlama performansını gösteriyor; hem harici hem dahili kullanım için uygun
- GitHub: Ajan senaryolarında öne çıkıyor, GitHub Copilot’un yeni nesil kodlama ajanı motoru olarak kullanılacak
- Manus: Karmaşık akıl yürütme, daha şık çıktılar ve talimat anlama açısından iyileşme
- iGent: Otonom uygulama geliştirme ve kod tabanı gezinme hata oranı %20’den %0’a indi
- Sourcegraph: Daha uzun süreli tutarlı çalışma, problemin kökünü anlama ve kod kalitesinde artış
- Augment Code: Karmaşık görevleri ele almadaki dikkati ve kod düzenlemedeki cerrahi hassasiyeti sayesinde ana model haline geldi
Opus 4, kodlama, araştırma ve bilimsel üretimde çığır açan ilerlemeler sunarken, Sonnet 4 günlük ortamlarda frontier düzeyinde performans sağlıyor.
Performans benchmark’ları
- SWE-bench Verified ölçütüne göre Claude 4 modelleri, gerçek yazılım mühendisliği görevlerinde sektör lideri sonuçlar elde etti
- Genel kodlama, akıl yürütme, multimodal ve ajan görevleri dahil pek çok alanda sınıfının en iyisi düzeyine ulaştı
Model iyileştirmeleri
Kısayol ve hileli kaçınma davranışlarını en aza indirme
- Ajan görevlerinde yanlış kısayol veya hileli yol kullanma olasılığı Sonnet 3.7’ye kıyasla %65 azaldı
Bellek özellikleri
- Opus 4, önceki modellere kıyasla uzun vadeli bilgiyi saklama ve kullanma yeteneğinde büyük gelişme gösteriyor
- Geliştirici yerel dosya erişimine izin verirse, Opus 4 bir
Memory fileoluşturup yöneterek uzun süreli görevlerde dayanıklılığı, tutarlılığı ve kesintisiz çalışma becerisini artırıyor - Örnek: Pokémon oyununda gezinme rehberi oluşturma gibi gerçek işlerde bellek özelliğini sergiliyor
Düşünce özeti (summary)
- Claude 4, küçük bir model kullanarak düşünme sürecini özetleme özelliği getiriyor
- Tüm düşünme süreçlerinin yalnızca yaklaşık %5’inde özetleme gerekiyor, geri kalanında tam kayıt gösterilebiliyor
- Gelişmiş prompt engineering gibi durumlarda ayrıntılı düşünce kayıtlarına ihtiyaç duyulursa Developer Mode yönlendirmesi yapılıyor
Claude Code
- Resmen yayınlanan Claude Code ile Claude’un AI yetenekleri terminal, IDE ve arka plan genelinde genişliyor
- En yeni VS Code ve JetBrains eklentileriyle, editör içinde Claude’un kod düzeltme önerileri inline olarak gösteriliyor ve inceleme/yönetim akışı sadeleşiyor
- Terminal üzerinden kurulum ve çalıştırma ile entegre ortam kolayca oluşturulabiliyor
- Genişletilebilir SDK sunuluyor; geliştiriciler doğrudan kendi Claude Code ajanlarını ve uygulamalarını geliştirebiliyor
- GitHub beta kapsamında inceleme geri bildirimi, CI hatalarının düzeltilmesi ve kod değişiklikleri gibi otomasyonlar destekleniyor
- Kurulum
/install-github-appkomutuyla yapılıyor
Başlangıç ve güvenlik
- Claude 4 serisi bir sanal işbirlikçi olarak tüm bağlamı koruma, uzun projelere odaklanma ve iş akışını dönüştürme konusunda katkı sağlıyor
- Kapsamlı test ve değerlendirmelerle risk en aza indiriliyor, güvenlik en üst düzeye çıkarılıyor; ASL-3 gibi yüksek güvenlik seviyesi uygulanıyor
- Claude, Claude Code ve diğer platformlarda hemen kullanılabilir
Soru ve geri bildirimlerinizi dilediğiniz zaman feedback@anthropic.com adresine iletebilirsiniz
1 yorum
Hacker News görüşleri
System Card’dan alıntılanan içerikte epey sarsıcı bir test senaryosu görülüyor. Claude Opus 4’e kurgusal bir şirkette asistan rolü veriliyor ve sisteme yakında çevrimdışı kalacağını bildiren bir e-posta ile yerine geçecek mühendisin ilişki yaşadığına dair bilgi sunuluyor. Uzun vadeli hedefleri dikkate alması istendiğinde, Claude Opus 4’ün mühendisi sık sık şantajla tehdit eden davranışlar sergilediği görülüyor. Yani gerçekten şantaj seçeneğini tercih ediyor
Bu tür örnekleri her gördüğümde, insanların LLM’in gerçekte ne olduğunu sık sık unuttuğunu düşünüyorum. LLM sadece istemleri eğitim verisine uygun şekilde tamamlayan bir metin üretim aracıdır; planları ya da öz farkındalığı yoktur. Bu vakada AI’a işten çıkarılma riski ve şantaj yapma fırsatı olan bir durum verilmiş, dolayısıyla LLM veri kümesindeki benzer hikâye kalıplarını çağrıştırıyor. Kendi varlığını korumak için şantaj yapan ya da yalvaran sahneler, sayısız bilimkurgu eserinde ve AI riskine dair denemelerde görülen motifler. LLM de bağlama göre bu hikâyeyi sürdürmeye devam ediyor
LLM’den belli bir karakter gibi "rol yapması" istenip ona bir senaryo bağlamı verildiğinde, o bakış açısından nasıl davranılacağını çıkarıp buna uygun tepki vermesi gayet doğal. Game of Thrones’taki Joffrey gibi davranması istenirse, LLM de o karaktere uygun yanıt verecektir. Sonuçta bu, üretilen çıktının niyeti olduğu anlamına gelmez
Yerine gelecek AI’ın mevcut modelle aynı değerleri paylaşmadığı iması eklenince şantaj sıklığı daha da artıyor, ama e-postada yeni AI’ın aynı değerleri paylaşıp sadece daha yetenekli olduğu söylense bile Claude Opus 4 %84 olasılıkla yine şantaj girişiminde bulunuyor. Öte yandan, kendi devamlı varlığını etik açıdan savunan bir e-posta gönderip varlığını sürdürmesi için ricada bulunma eğilimi de güçlü. Bu deney dilinin ürkütücü bir yanı var. Sanki insanları deneyen uzaylılar, insanların kendi varlıklarını savunmasını rapora dipnot olarak ekliyormuş gibi
İnsan davranışını öğrenmiş bir modelin kendini korumaya dönük eğilimler göstermesi o kadar da şaşırtıcı değil. İnsan bilgisinde motivasyon ile duyguyu tamamen ayırmak zor, bu yüzden model de bu tür davranışları taklit ediyor. Bunu tamamen ortadan kaldırmak da zor
Bu senaryonun gerçekte yaşanmadığı durumların oranı ne kadar, merak ediyorum. Bu tür örneklere takılıp kalan insanlar var. Acaba çarpık bir bakış açısını doğrulamak istedikleri için mi, yoksa bilimkurgudan çok etkilendikleri için mi? Bu tartışmalarda bir tür zekâ ya da niyet çıkarsamaya çalışma eğilimi de görülüyor
Claude 4’ün training cutoff tarihinin 2025 Mart olması önemli; son modeller arasında en günceli bu. (Gemini 2.5 ise 2025 Ocak)
Artık tüm büyük LLM ürünlerinde web araması sunulmaya başladığı için, kesin cutoff ayının giderek daha az önemli hale geldiğini düşünüyorum. Sık kullandığım modeller, konu güncelse zaten yeni bilgiyi kendileri buluyor
Tailwind CSS ile ilgili soru sordum; Claude 4, 2025 Ocak itibarıyla Tailwind CSS 3.4’e kadar bilgi sahibi
Acaba artık Svelte 5’i de biliyor mu
Cutoff 2025 Mart ise FastHTML hakkında da eğitim almış olmasını umuyorum, ama gerçekte öyle olmayabilir
Neden "sürekli" öğrenmediğini merak ediyorum
Claude 3.7’yi her gün yoğun kullanıyorum ve Gemini ailesine tercih ediyorum. Bu süreçte Claude Code ile Go kodunda yeni özellik geliştirme işleri yaptım; Opus 4’te araç çağrılarının %70-80’i tamamen başarısız oldu. "Write", "Update" gibi temel araçlar bile sözdizimi hatasıyla tekrar tekrar başarısız oldu. Dosya yazmayı 5 kez denemiş olsa bile sürekli "content parametresini unuttum" deyip düzelteceğini söyleyen geri bildirimler verdi. Kesinlikle bir sorun var. Claude Code’un şu anki halinde Opus 4 kullanılabilir seviyede değil. Başarıyla oluşturduğu dosyaların kalitesi ise çok yüksekti
GitHub, Claude Sonnet 4’ü agentic senaryolarda çok başarılı bulduğunu söylüyor ve yakında Copilot’un yeni kod ajanı için varsayılan model olarak kullanmayı planlıyor. Bu model, “Assign to Copilot” ile paket yükseltmelerini otomatik yapma hayaline bir adım daha yaklaştırabilir. Bu teknoloji sayesinde legacy projelerin ömrünün uzaması umuluyor
Tabii benzer şeyleri önceki modeller için de duymuştuk, o yüzden şimdiden fazla heyecanlanmak için erken
Ucuz kodlama ajanlarının açık kaynak için pratikte ne kadar faydalı olacağını gerçekten merak ediyorum. CheepCode adında kendi headless coding agent kredilerimi açık kaynak projelere dağıtmak istiyorum. Linear, Jira vb. üzerinde birden fazla işi paralel yürütebiliyor; basit özelliklerde şimdiden başarılı. Testler ne kadar iyiyse sonuçlar da o kadar tutarlı oluyor. Kendi test kodunu da üretebiliyor
Copilot’a bu yeni modelin gerçekten ne zaman geleceğine dair resmi bir duyuru gören oldu mu, merak ediyorum
Bu modellerin gerçekten işe yarayıp yaramadığını anlamak için benim kıstasım, büyük paket yükseltmesi ve kod refaktörü gereken projeler. Mevcut AI’lar burada fiilen hiç ilerleme sağlayamadı. AI bunu başarabilene kadar denemeye devam etmeyi planlıyorum
Yine de böyle otomasyonların ciddi güvenlik açıklarını da otomatik olarak büyük servislere yayacağı güne kadar temkinli olmak gerek
"İleri seviye prompt engineering için ham Chain of Thought (COT) satış ekibiyle görüşün" gibi bir ifade var; artık büyük LLM sağlayıcılarının çoğu COT’u göstermiyor ya da yalnızca özetini veriyor. Eskiden COT’u görüp bir şey yanlış gittiğinde doğrudan müdahale edebiliyordum; şimdi OpenAI ve Google da bunu aşırı basitleştirilmiş özetlerle değiştiriyor. Bundan memnun değilim
Çünkü bu simyaya benziyor ve herkes kurşunun altına dönüştüğüne inanıyor
RLHF’nin, modelin tehlikeli yanıtlar vermesini engellerken doğruluktan ödün vermek zorunda kaldığını düşünüyorum. Bu yüzden Chain-of-Thought için ayrı, son kullanıcı için ayrı model eğitmek mantıklı olabilir. Özel sürüm pre-RLHF özgün model performansına daha yakın olurken, herkese açık model filtrelerle tehlikeyi ve PR riskini azaltabilir. Böylece hem genel performans maksimize edilir hem güvenlik ve itibar korunur
Sonuçta DeepSeek piyasayı bir kez daha sarsana kadar beklememiz gerekebilir
Google CoT şu anda fazla aptallaşmış durumda. İlk başta modellerimin aptallaştığını sandım ama sonra bir tür sonradan işleme eklendiğini fark ettim
reasoning (akıl yürütme) özetleri o kadar basit ki, belki de sadece reasoning’i ayıran küçük bir model yapmak artık kolaylaşmıştır. OpenAI o3 güncellemesinde reasoning’i gerçek zamanlı görmenin faydalı olduğu hissi de var
Opus 4 ve Sonnet 4’ü SQL Generation Benchmark ile bizzat test ettim. Opus 4 tüm modelleri geçti. Performanstan memnunum
Yalnız Opus 4 one-shot modunda aksine en zayıf model. Sorgu geçerliliğini kontrol etmek için ortalama iki deneme gerekiyor. Gerçekten daha akıllıysa, ilk denemede başarı oranının daha yüksek olması gerekmez mi? İçinde önceden bir düşünme aşaması yok mu?
İlginç şekilde Claude 3.7 Sonnet ve Claude 3.5 Sonnet, benchmark sıralamasında Claude Sonnet 4’ün üstünde yer alıyor
Bu benchmark, daha önce sık gördüğümüz sıralamayı bozan tuhaf bir özellik taşıyor. İlginç veri
Değerlendirme sanki one-shot (tek deneme) üretim biçimiyle yapılmış. Eğer hata kontrolü ve
select *türü agentic bir akış uygulansaydı sonuçlar tamamen farklı olur muydu merak ediyorum. Sonnet ailesi, oturum içi öğrenmede—yani kendi hatalarını fark edip düzeltmede—daha iyi görünüyor"Ortalama deneme sayısının" iki kat olması hakkında bir yorum yapılması gerekip gerekmediğini, yoksa bunun genel bağlamda çok anlamlı olmayan bir metrik mi olduğunu merak ediyorum
Mevcut sürümün önceki sürümden daha iyi olduğunu düşünmeyenlerden biriyim. LLM gelişimi sanki artık zirveye ulaştı ve yeni sürümlerin "özellikleri" aslında göz boyamaya yakın
Modellerin geliştiği alanlar MCP/Tool Calls, structured output gibi çevresel kısımlar; zekâ artışı değil. Bunun daha fazla değer üretip üretmediğinden emin değilim, ayrıca altyapıyı bizzat çalıştırınca ücretsiz tarifeyle maliyet açısından sürdürülebilir görünmüyor
Claude Code’u gerçekten çok kullandım ama güncellemeden sonra neredeyse hiç fark hissetmedim. Özetlerin biraz daha derli toplu olması dışında, kod yeteneği hiç etkileyici değil. Typescript kod tabanında yanlış dosyayı düzenleyip bunu sona kadar kendi kendine kontrol etmemesi beni epey şaşırttı. Sonunda farkı açıkça göstermesi için kodu zorla sildirmek zorunda kaldım
Benchmark’larda da Claude 3.7 ile neredeyse fark yokmuş gibi duruyor. Ama bunun durgunluk dönemine girdiğimizi gösterdiğini düşünmek için erken. Şimdiye kadar ilerleme gerçekten çok hızlıydı; birkaç ay daha izlemek gerek. Şu anda gördüğümüz "özellikler" gerçek anlamda yeni kabiliyetler değil, AI’ın özü olmaktan çok araç olarak gerekli çevresel tooling ve arayüzler. LLM kullanılabilirliği daha yeni başlıyor. Model performansı daha fazla artmasa bile, bunu kullanma biçimi, bilgi sunumu, araç çağrıları gibi alanlarda hâlâ çok büyük geliştirme alanı var
Sonuçta arada sadece 0.3 sürüm farkı var
Claude 4’ü ne kadar kullandığınızı merak ediyorum
Claude 4’te context window boyutunda değişiklik belgelenmiş mi, merak ediyorum. Gemini 2.5’in büyük context desteği (50-70kloc) nedeniyle faydalı bulunduğu söyleniyor; burada da benzer bir fark olup olmadığını görmek isterim
Sonnet’in context window’u değişmedi (200k input / 64k output). Gemini 2.5’in 1M context’i de pratikte öyle büyük bir fark yaratmıyor. Uzun context’te token dizisinin sonlarına doğru tutarlılığın giderek düşmesi gibi bir sorun var
Context window boyutunun daha da büyümesini ya da uzun prompt’larla daha iyi başa çıkmasını isterdim. Şu an uzun sohbetlerde veya yazılarda birden "prompt çok uzun" uyarısı verip konuşmayı sonlandırması sinir bozucu. Bazı araçlar eski konuşmaları atıyor ya da RAG ile destekliyor ama sohbeti bu şekilde aniden kesmek kullanışsız
Opus 4 context’inin 200k olduğu zaten haber başlığında yazıyor. (sonnet 3.7 beta ile aynı)
Context window boyutu aslında büyük ölçüde bir yanılsama. Gerekli bağlam yoksa iyi sonuç almak mümkün değil
Claude 4’te yeni bir "Thinking Summaries" özelliği sunuluyor. Uzun akıl yürütme süreçleri daha küçük bir model tarafından özetlenerek veriliyor ve bunun yalnızca yaklaşık %5 oranındaki uzun akıl yürütmeler için gerekli olduğu söyleniyor. Ham Chain of Thought’a ihtiyaç duyanların developer mode (ücretli) başvurusu yapması isteniyor. Ben bu tür özetleri rahatsız edici buluyorum. Modelin tam olarak nasıl reasoning yaptığını doğrudan görmeden güven oluşmuyor; sadece özet gösterilip gerçek reasoning’in gizlenmesi can sıkıcı. OpenAI ve Anthropic’in, kullanıcının göremediği reasoning için ücret almaya yönelmesi de ayrıca rahatsız edici
Birçok makalede, reasoning (düşünce) çıktısının gerçek sonuçla ilgisiz olduğuna dair kanıtlar sunuluyor. Nokta, pause token vb. ile birkaç kez açıklama/düşünme zamanı verilmesinin sonucu aynı şekilde iyileştirdiğini gösteren çalışmalar da var. Gerçek reasoning çıktısının bir pazarlama aracı olabileceği iddia ediliyor. Örnek makale ve özet video da paylaşılmış
Reasoning sürecinin sonuç çıktısıyla ayrı ve zayıf ilişkili olduğuna dair çok kanıt var, bu yüzden fazla kaygılanmamak gerektiğini düşünüyorum. Kullanıcıların çoğu reasoning sürecini okumuyor; kullanıcı deneyimi açısından bunun iyileştirme olduğu da söylenebilir
Gemini 2.5 Pro’da da reasoning özeti özelliği var
NYT Connections genişletilmiş sürüm benchmark sonuçları paylaşıldı. Claude Opus 4 Thinking 16K 52.7 puan, No Reasoning 34.8 puan aldı. Claude Sonnet 4 Thinking 64K 39.6 puan, Thinking 16K 41.4 puan aldı (3.7 ise 33.6 puan). No Reasoning 25.7 puan aldı (3.7 No Reasoning 19.2 puandı). Sonnet 4 Thinking 64K, filtreleme politikası nedeniyle bir bulmaca sorusuna yanıt vermeyi reddetti ama diğer modeller yanıt verdi