Anthropic, Claude Opus 4.1'i duyurdu

(anthropic.com)

7 puan yazan GN⁺ 2025-08-06 | 1 yorum | WhatsApp'ta paylaş

Claude Opus 4.1, gerçek dünya kodlama, ajan görevleri ve çıkarım yeteneğinde iyileştirilmiş bir yükseltme sürümüdür
SWE-bench Verified'de %74,5 ile en yüksek kod performansını elde ederek, büyük kod tabanlarında hassas hata ayıklama, çok dosyalı refaktörleme gibi görevlerde olağanüstü sonuçlar verdi
Rakuten, GitHub, Windsurf gibi gerçek kullanıcılar tarafından; kod düzeltme doğruluğu, günlük hata ayıklama verimliliği ve junior geliştirici benchmarklarındaki belirgin artış nedeniyle olumlu geri bildirim alındı
Çok dosyalı refaktörleme ve ayrıntılı kod düzenleme ile gerçek geliştirme ortamlarında daha hassas bir performans sergiliyor
Mevcut Opus 4 kullanıcıları, ek ücret ödemeden API, Claude Code, Amazon Bedrock, Google Vertex AI üzerinden hemen kullanabilir

Claude Opus 4.1 ana özellikleri

Mevcut Claude Opus 4'e kıyasla agentic görevler, gerçek kod yazımı ve karmaşık çıkarım görevlerinde performans artırıldı
Modelde önümüzdeki haftalarda daha büyük ölçekte iyileştirme yapılacağı öngörülüyor

Temel iyileştirmeler

SWE-bench Verified'de %74,5 kod performansı yakaladı
- Derinlemesine araştırma ve veri analizi yeteneği, özellikle ayrıntı takibi ve agentic aramada dikkat çekici bir artış gösterdi
- Büyük ölçekli açık kaynak depolarındaki hata düzeltme problemlerini çözen gerçek kod temelli kıyaslamalarda yüksek puanlar aldı
Çoklu dosya refaktörleme ve büyük kod tabanlarında hassas hata ayıklama gibi gerçek geliştirici işlerine odaklı
- GitHub'da Opus 4.1, Opus 4 ile karşılaştırıldığında çoğu işlevde daha iyi performans gösteriyor; özellikle çoklu dosya kod refaktörleme görevlerinde belirgin sonuçlar elde etti
- Rakuten Group, Opus 4.1'in devasa bir kod tabanında yalnızca gerçekten gerekli olan bölümleri düzenlediğini, gereksiz değişiklik veya hata girişi olmadan stilin korunmasını övdü
- Windsurf, kendi junior geliştirici kıyaslamasında Opus 4.1'in Opus 4'e göre bir standart sapma yükseldiğini ve bunun Sonnet 3.7'den Sonnet 4'e geçişteki performans sıçramasıyla eşdeğer olduğunu belirtti

Bölüm bazında performans karşılaştırması

Agentic coding (SWE-bench Verified)
- Claude Opus 4.1: 74.5%
- Önceki Claude (Opus 4): 72.5%, Claude Sonnet 4: 72.7%
- OpenAI o3: 69.1%
- Gemini 2.5 Pro: 67.2%
- → Gerçek açık kaynak kod düzeltme işlerinde en yüksek doğruluğu kaydetti
Agentic terminal coding (Terminal-Bench)
- Claude Opus 4.1: 43.3% (en iyi)
- Opus 4: 39.2%
- Sonnet 4: 35.5%
- OpenAI o3: 30.2%
- Gemini 2.5 Pro: 25.3%
Graduate-level reasoning (GPQA Diamond)
- Claude Opus 4.1: 80.9%
- Opus 4: 79.6%
- Sonnet 4: 75.4%
- OpenAI o3: 83.3% (en iyi)
- Gemini 2.5 Pro: 86.4% (en iyi)
Agentic tool use (TAU-bench)
- Perakende senaryosu: Claude Opus 4.1 82.4% (en iyi), Opus 4 81.4%, Sonnet 4 80.5%, OpenAI o3 70.4%
- Havayolu senaryosu: Claude Opus 4.1 56.0%, Opus 4 59.6%, Sonnet 4 60.0%, OpenAI o3 52.0%
- Gemini 2.5 Pro bu alanda puan yayımlamadı
Çok dilli Soru-Cevap (MMMLU)
- Claude Opus 4.1: 89.5% (en iyi)
- Opus 4: 88.8%
- Sonnet 4: 86.5%
- OpenAI o3: 88.8%
- Gemini 2.5 Pro: yayımlanmadı
Görsel çıkarım (MMMU)
- Claude Opus 4.1: 77.1%
- Opus 4: 76.5%
- Sonnet 4: 74.4%
- OpenAI o3: 82.9% (en iyi)
- Gemini 2.5 Pro: 82% (en iyi)
Lisansüstü düzey matematik yarışması (AIME 2025)
- Claude Opus 4.1: 78.0%
- Opus 4: 75.5%
- Sonnet 4: 70.5%
- OpenAI o3: 88.9% (en iyi)
- Gemini 2.5 Pro: 88% (en iyi)
Kıyaslama Tablosu Özeti
- Claude Opus 4.1, önceki sürüme kıyasla tüm alanlarda tutarlı bir artış göstermiş; gerçek kod otomasyonu, çoklu dosya refaktörleme, çok dilli QA ve araç kullanımı gibi iş odaklı kıyaslamalarda en yüksek puanları aldı
- Matematik, görsel çıkarım ve ileri düzey çıkarım (GPQA) alanlarında OpenAI o3 ve Gemini 2.5 Pro bazı segmentlerde önde olsa da, gerçek kod üretkenliği ve çok dilli QA alanlarında Claude Opus 4.1 en iyi durumda
- Agentic tool use havayolu senaryosunda hafif düşüş görüldü; görsel çıkarım ve matematikte ise rakip modeller küçük farkla önde

Gerçek kullanım ve dağıtım ortamı

Mevcut Opus 4 kullanıcılarına, API'de claude-opus-4-1-20250805 ile doğrudan yükseltme öneriliyor
API, Claude Code, Amazon Bedrock, Google Vertex AI gibi birçok kanalda dağıtım ve kullanım mümkün
Opus 4 ile aynı fiyatlandırma politikası uygulanıyor; mevcut kullanıcılar derhal güncelleyebilir
Sistem kartı, model açıklaması, fiyatlandırma, resmi dokümanlar ve detaylı kıyaslama/değerlendirme yöntemleri de yayınlandı

Gelecek planlar

Opus 4.1, kodlama ve çıkarım alanındaki en yeni ilerlemeleri yansıtan bir ara yükseltme olup, önümüzdeki haftalarda çok daha büyük bir sıçrama vaat ediyor
Kullanıcı geri bildirimine hızlıca dayalı olarak sürekli performans iyileştirmesi ve işlev genişletmesi planlanıyor

Notlar

OpenAI o3, Gemini 2.5 Pro gibi rakip model karşılaştırma verisi kaynakları, kıyaslama sonuçları ve model bazında genişletilmiş düşünce/akıl yürütme kullanım durumu şeffaf şekilde listelenmiş durumda

1 yorum

GN⁺ 2025-08-06

Hacker News yorumları

Üç büyük laboratuvarın saatler arayla aynı anda bir şeyler duyurmuş olması, adeta bir animasyonun delice bir bölümünü andırıyor
- Bunun için PR ekiplerinin olduğu düşünülüyor; HN ana sayfasında ya da haber sitelerinde görünür olmak çok kritik. Birinciliği alsınlar gerekmiyor ama rakiplerin dikkatini dağıtmak şart
- GPT5 söylentileriyle birlikte bunun sadece ağustosun başı olduğunu düşünüyorum
- Bu çağda yaşamanın kendisi bile garip
- Rekabetçinin önce ne zaman duyuru yapacağını bekleyip, sonra eşzamanlı çıkıp piyasada hangisinin daha iyi olduğuna karar verdirtmek istiyor gibi geliyor
- Bu tamamen tesadüf olsa gerek sanmıyorum
Opus 4(.1) gerçekten pahalı bağlantı. Sonnet’i OpenRouter + Codename Goose ile kullanırsan saat başı yaklaşık 5 dolara geliyor. Şaşırtıcı şekilde Sonnet 3.5 de bağlantı aynı fiyat. Gemini Flash bağlantı en makul olanı ama yine de sonuçta net bir karar veremeyip döner duruyorum. OpenAI kötü değil ama Claude performansına yetmiyor; sadece Claude’da ortadayken CTRL-C’e basınca API’den 400 hatası dönmesi can sıkıcı. Ekonomik olması benim için önemliyse, en iyi değer oranı OpenAI ChatGPT 4.1 mini bağlantı oldu. Anlamsız token saçması yok ve API hep düzgün çalışıyor; bazen kafa karışıklığı yaşansa da idare ediyor
- Büyük modeli soru-cevap için, küçük modeli bağlam soruları için kullanmak gerektiğini düşünüyorum; Opus da niche kullanımda ucuz kalabiliyor
- Claude Code’u abonelikle kullanırsan çok daha mantıklı bir fiyatla kullanabiliyorsun. Ben Max aboneliğinde bütün gün Claude Code kullansam bile son 2 haftada sadece 2 kere limitime takıldım
- Her fiyat kıyaslamamda Claude API hep en ucuzdu. Bağlam önbelleğini doğru döndürürsen giriş birim fiyatı neredeyse %90 düşüyor; bu çok büyük bir fark
- GLM 4.5, Kimi K2, Qwen Coder 3, Gemini Pro 2.5 gibi alternatiflerin de olduğunu söylemek isterim
Opus’un kodlamada neredeyse her alanda daha iyi olduğu söyleniyor ama pratikte Sonnet’in çok daha iyi olduğunu hissediyorum. Acaba Sonnet’ten tamamen Opus’a geçen biri oldu mu, yoksa yalnızca bazı işlerde Opus’a kayanlar mı var merak ediyorum
- Opus teknik olarak daha iyi olabilir ama pratikte fark hiç belirgin değil. LLM’nin tek seferde karmaşık bir implementasyon yapması zaten neredeyse imkânsız; anlatacak şey çok oluyor ve sonuçta doğru yanıtı bile kod içine gömülerek bulmak zorunda kalıyorsun. Opus görkemli bir yanıt verse bile bunun neden böyle çıktığını, bağlamımda neden doğru olduğunu anlaman gerekiyor. Sonuçta işimin çoğu tekrar eden küçük adımlardan oluştuğu için Sonnet tek başına yeterli sanıyorum
- Sonnet birden garipleşince (günde bir-iki kez) Opus’a geçince sorun hızla çözülüyormuş gibi, tabii bu bilimsel bir gözlem değil; zaten hangi modelle değiştirirseniz biraz iyiye giden bir etki oluyor olabilir
- “Sonnet daha iyi” diyen şeyin arkasında bir bilimsel kanıt yok; büyük modelin daha iyi olduğu zaten bariz olduğu için insanlar bunu söylemek istemiyor gibi görünüyor, tersine “küçük modelin daha iyi olabildiği” bir öneri gibi algılandığı için bu görüşün daha çok öne çıktığı düşünülebilir. Dün bununla baya uğraştım; herkes farklı şeyler söylüyordu. Çıkarım şu: Max paketinde Opus’tan Sonnet’e anlık geçseniz bile kalitede bu kadar dramatik bir düşüşe endişe etmenize gerek yok
- Opus’un, çok adımlı problem çözme veya bağlam takibi gereken uzun işlerde daha iyi olduğu gibi görünüyor; bu yüzden yalnızca zor problemlerde Opus, diğerlerinde Sonnet kullanıyorum, bu da genelde yeterli ve token limitine daha az çarpılıyoruz
- Benim durumumda Max planında Opus’un Sonnet’ten biraz daha iyi çıktı verdiğini düşünüyorum; ancak bu sadece Opus kullanılabildiğinde geçerli. Komik olan, Max planında olmama rağmen kullanım limiti çabuk doluyor; dün işe gelir gelmez sadece birkaç dakikada limite ulaştım
Opus 4.1’in Opus 4 gibi görünüp aslında gereksizmiş gibi geldiği, tokeni daha hızlı tükettiği hissi var; kullanım miktarını görebilsek iyi olurdu. En azından Sonnet 4 hâlâ kullanılabilir ama çıktı giderek bulanıklaşıyor. Bugünün sabahını Claude Code’a harcamakla geçirdim; doğrudan yapmış olsam daha iyi olurdu
- Ben de Sonnet’in performansının giderek düştüğünü hissediyorum; açıklamaları uzuyor, gereksiz detay ekliyor, her şeyi listeleyip koymaya çalışıyor ve hatta fazlaca onaylıyor; bu da rakip karşısında bıkkınlık yaratıyor
- Bunu projemin büyümesine bağlıyorum: Claude Code’u 2 bin satırdan 100 bin satırın ötesine geçmiş projede takibe çalıştırmak doğal olarak zor
- Yeni Opus 4.1 ilk sohbette doğrudan tüm web uygulamasını yapmaya girişti ama eski tıkanmış robottan farklı olarak bağlamı daha hızlı kavradı ve sistemi doğru sorularla sorgulayıp güncelleme dokümanını da tamamladı. Eskiden her sohbette aynı açıklamayı tekrarlamam gerekiyordu; canımı sıkardı. Şimdi böyle değil. Karşılığında token tüketim hızı kesinlikle daha yüksek, eski gibi saatlerce konuşmak zorlaştı; ama token bitmeden son görevi bitiriyorsa sorun değil
- “Bugünün sabahını Claude Code’a harcadım” yorumuna karşılık ‘Welcome to the machine’ bağlantı
Yeni modelle Claude Plays Pokemon yayını yeniden başlatıldı bağlantı; önce Team Rocket’ın saklı yerinde haftalarca kapanmıştı
Haberde “önümüzdeki birkaç hafta içinde modelin büyük ölçüde iyileştirileceği” yazıyor. Ürünümüzde Sonnet 4 en iyi uyumu sağlıyordu ama Haiku 4 (ya da 4.1) ucuz olduğu için bir denemek istiyorum; Anthropic’ın bu sefer Haiku 4’ten hiç bahsetmemesi şaşırtıcı
Bugün Claude kullanırken gördüğüm en kötü gündü, adeta bozulmuştu. Bu deploy yüzünden mi bilmiyorum ama belgelerde küfür çıktı, saatlerce gidip geldiğim hâlde hata düzelmedi
Haberdeki “önümüzdeki birkaç hafta içinde modelin ciddi olarak geliştirileceği” kısmı bana en çok ilgimi çekti
- Bunu insanların doğrudan GPT5’e geçmesini biraz geciktirmek için söylendiğini düşünüyorum
Bu güncelleme onların ölçütlerine göre neredeyse fark edilmeyen bir iyileşme gibi; kötü anlamına gelmiyor ama fark edilir bir değişiklik pek beklenmiyor
- Bence çoğu şey vibe farkı ama bu da önemli bir unsur. Resmi benchmarklarda görmüyoruz ama Opus 4.1’in Junior Developer benchmark testinde Opus 4’e göre yaklaşık 1 standart sapma daha iyi performans verdiği belirtiliyor; bu, Sonnet 3.7’den Sonnet 4’e atladıklarında gördüğümüz seviyeye benziyor
- Hâlâ düzgün test etmedim; çıktı kalitesinde bariz bir fark yok gibi ama verilen dokümanları ve yönergeleri daha iyi takip ettiği hissediliyor. Yine de bunu sayısallaştırıp objektif doğrulamaya uğramadım. Opus 4.1, Needles-in-the-Haystack bulmada olduğu kadar, o tür şeyleri özel olarak söylemesem bile daha iyi takip ediyormuş gibi
- Bu yüzden sürümünü 4.1 olarak etiketlediklerini düşünüyorum, 4.5 değil
- Bence ileride 10 model daha çıkaracak alan bırakmışlar; benchmark skorunu 100 yapınca yeni model gerekmez, bu yüzden ölçümlerde oynamak gibi biraz bir pazarlama kokusu var. Zaten eğitim setiyle aynı problem türlerini çözdüklerinden tamamen yeni sorularda zayıf kalmaları normal
- Performans kartı görselinde sadece Opus 4.1’in vurgulanmış olması eğlenceliydi. Opus 4.1 benchmarkların sadece yarısında en yüksek skoru alıyor; kalanlarda ya yok ya da Opus 4.0’ın altında, rakip modellerin puanları ise hiç verilmemiş
Opus ve Sonnet fiyatı aynı derecede pahalı olduğunda, Opus kullanımının Sonnet’i asla geçmeyeceğine inanıyorum. OpenRouter sıralamasında bağlantı Sonnet 3.7 ve 4, birlikte Opus 4’ten 17 kat daha fazla token işliyor

Anthropic, Claude Opus 4.1'i duyurdu

Claude Opus 4.1 ana özellikleri

Temel iyileştirmeler

Bölüm bazında performans karşılaştırması

Kıyaslama Tablosu Özeti

Gerçek kullanım ve dağıtım ortamı

Gelecek planlar

Notlar

İlgili okumalar

1 yorum

Hacker News yorumları