7 puan yazan GN⁺ 2025-08-06 | 1 yorum | WhatsApp'ta paylaş
  • Claude Opus 4.1, gerçek dünya kodlama, ajan görevleri ve çıkarım yeteneğinde iyileştirilmiş bir yükseltme sürümüdür
  • SWE-bench Verified'de %74,5 ile en yüksek kod performansını elde ederek, büyük kod tabanlarında hassas hata ayıklama, çok dosyalı refaktörleme gibi görevlerde olağanüstü sonuçlar verdi
  • Rakuten, GitHub, Windsurf gibi gerçek kullanıcılar tarafından; kod düzeltme doğruluğu, günlük hata ayıklama verimliliği ve junior geliştirici benchmarklarındaki belirgin artış nedeniyle olumlu geri bildirim alındı
  • Çok dosyalı refaktörleme ve ayrıntılı kod düzenleme ile gerçek geliştirme ortamlarında daha hassas bir performans sergiliyor
  • Mevcut Opus 4 kullanıcıları, ek ücret ödemeden API, Claude Code, Amazon Bedrock, Google Vertex AI üzerinden hemen kullanabilir

Claude Opus 4.1 ana özellikleri

  • Mevcut Claude Opus 4'e kıyasla agentic görevler, gerçek kod yazımı ve karmaşık çıkarım görevlerinde performans artırıldı
  • Modelde önümüzdeki haftalarda daha büyük ölçekte iyileştirme yapılacağı öngörülüyor

Temel iyileştirmeler

  • SWE-bench Verified'de %74,5 kod performansı yakaladı
    • Derinlemesine araştırma ve veri analizi yeteneği, özellikle ayrıntı takibi ve agentic aramada dikkat çekici bir artış gösterdi
    • Büyük ölçekli açık kaynak depolarındaki hata düzeltme problemlerini çözen gerçek kod temelli kıyaslamalarda yüksek puanlar aldı
  • Çoklu dosya refaktörleme ve büyük kod tabanlarında hassas hata ayıklama gibi gerçek geliştirici işlerine odaklı
    • GitHub'da Opus 4.1, Opus 4 ile karşılaştırıldığında çoğu işlevde daha iyi performans gösteriyor; özellikle çoklu dosya kod refaktörleme görevlerinde belirgin sonuçlar elde etti
    • Rakuten Group, Opus 4.1'in devasa bir kod tabanında yalnızca gerçekten gerekli olan bölümleri düzenlediğini, gereksiz değişiklik veya hata girişi olmadan stilin korunmasını övdü
    • Windsurf, kendi junior geliştirici kıyaslamasında Opus 4.1'in Opus 4'e göre bir standart sapma yükseldiğini ve bunun Sonnet 3.7'den Sonnet 4'e geçişteki performans sıçramasıyla eşdeğer olduğunu belirtti

Bölüm bazında performans karşılaştırması

  • Agentic coding (SWE-bench Verified)
    • Claude Opus 4.1: 74.5%
    • Önceki Claude (Opus 4): 72.5%, Claude Sonnet 4: 72.7%
    • OpenAI o3: 69.1%
    • Gemini 2.5 Pro: 67.2%
    • Gerçek açık kaynak kod düzeltme işlerinde en yüksek doğruluğu kaydetti
  • Agentic terminal coding (Terminal-Bench)
    • Claude Opus 4.1: 43.3% (en iyi)
    • Opus 4: 39.2%
    • Sonnet 4: 35.5%
    • OpenAI o3: 30.2%
    • Gemini 2.5 Pro: 25.3%
  • Graduate-level reasoning (GPQA Diamond)
    • Claude Opus 4.1: 80.9%
    • Opus 4: 79.6%
    • Sonnet 4: 75.4%
    • OpenAI o3: 83.3% (en iyi)
    • Gemini 2.5 Pro: 86.4% (en iyi)
  • Agentic tool use (TAU-bench)
    • Perakende senaryosu: Claude Opus 4.1 82.4% (en iyi), Opus 4 81.4%, Sonnet 4 80.5%, OpenAI o3 70.4%
    • Havayolu senaryosu: Claude Opus 4.1 56.0%, Opus 4 59.6%, Sonnet 4 60.0%, OpenAI o3 52.0%
    • Gemini 2.5 Pro bu alanda puan yayımlamadı
  • Çok dilli Soru-Cevap (MMMLU)
    • Claude Opus 4.1: 89.5% (en iyi)
    • Opus 4: 88.8%
    • Sonnet 4: 86.5%
    • OpenAI o3: 88.8%
    • Gemini 2.5 Pro: yayımlanmadı
  • Görsel çıkarım (MMMU)
    • Claude Opus 4.1: 77.1%
    • Opus 4: 76.5%
    • Sonnet 4: 74.4%
    • OpenAI o3: 82.9% (en iyi)
    • Gemini 2.5 Pro: 82% (en iyi)
  • Lisansüstü düzey matematik yarışması (AIME 2025)
    • Claude Opus 4.1: 78.0%
    • Opus 4: 75.5%
    • Sonnet 4: 70.5%
    • OpenAI o3: 88.9% (en iyi)
    • Gemini 2.5 Pro: 88% (en iyi)
  • Kıyaslama Tablosu Özeti

    • Claude Opus 4.1, önceki sürüme kıyasla tüm alanlarda tutarlı bir artış göstermiş; gerçek kod otomasyonu, çoklu dosya refaktörleme, çok dilli QA ve araç kullanımı gibi iş odaklı kıyaslamalarda en yüksek puanları aldı
    • Matematik, görsel çıkarım ve ileri düzey çıkarım (GPQA) alanlarında OpenAI o3 ve Gemini 2.5 Pro bazı segmentlerde önde olsa da, gerçek kod üretkenliği ve çok dilli QA alanlarında Claude Opus 4.1 en iyi durumda
    • Agentic tool use havayolu senaryosunda hafif düşüş görüldü; görsel çıkarım ve matematikte ise rakip modeller küçük farkla önde

Gerçek kullanım ve dağıtım ortamı

  • Mevcut Opus 4 kullanıcılarına, API'de claude-opus-4-1-20250805 ile doğrudan yükseltme öneriliyor
  • API, Claude Code, Amazon Bedrock, Google Vertex AI gibi birçok kanalda dağıtım ve kullanım mümkün
  • Opus 4 ile aynı fiyatlandırma politikası uygulanıyor; mevcut kullanıcılar derhal güncelleyebilir
  • Sistem kartı, model açıklaması, fiyatlandırma, resmi dokümanlar ve detaylı kıyaslama/değerlendirme yöntemleri de yayınlandı

Gelecek planlar

  • Opus 4.1, kodlama ve çıkarım alanındaki en yeni ilerlemeleri yansıtan bir ara yükseltme olup, önümüzdeki haftalarda çok daha büyük bir sıçrama vaat ediyor
  • Kullanıcı geri bildirimine hızlıca dayalı olarak sürekli performans iyileştirmesi ve işlev genişletmesi planlanıyor

Notlar

  • OpenAI o3, Gemini 2.5 Pro gibi rakip model karşılaştırma verisi kaynakları, kıyaslama sonuçları ve model bazında genişletilmiş düşünce/akıl yürütme kullanım durumu şeffaf şekilde listelenmiş durumda

1 yorum

 
GN⁺ 2025-08-06
Hacker News yorumları
  • Üç büyük laboratuvarın saatler arayla aynı anda bir şeyler duyurmuş olması, adeta bir animasyonun delice bir bölümünü andırıyor

    • Bunun için PR ekiplerinin olduğu düşünülüyor; HN ana sayfasında ya da haber sitelerinde görünür olmak çok kritik. Birinciliği alsınlar gerekmiyor ama rakiplerin dikkatini dağıtmak şart
    • GPT5 söylentileriyle birlikte bunun sadece ağustosun başı olduğunu düşünüyorum
    • Bu çağda yaşamanın kendisi bile garip
    • Rekabetçinin önce ne zaman duyuru yapacağını bekleyip, sonra eşzamanlı çıkıp piyasada hangisinin daha iyi olduğuna karar verdirtmek istiyor gibi geliyor
    • Bu tamamen tesadüf olsa gerek sanmıyorum
  • Opus 4(.1) gerçekten pahalı bağlantı. Sonnet’i OpenRouter + Codename Goose ile kullanırsan saat başı yaklaşık 5 dolara geliyor. Şaşırtıcı şekilde Sonnet 3.5 de bağlantı aynı fiyat. Gemini Flash bağlantı en makul olanı ama yine de sonuçta net bir karar veremeyip döner duruyorum. OpenAI kötü değil ama Claude performansına yetmiyor; sadece Claude’da ortadayken CTRL-C’e basınca API’den 400 hatası dönmesi can sıkıcı. Ekonomik olması benim için önemliyse, en iyi değer oranı OpenAI ChatGPT 4.1 mini bağlantı oldu. Anlamsız token saçması yok ve API hep düzgün çalışıyor; bazen kafa karışıklığı yaşansa da idare ediyor

    • Büyük modeli soru-cevap için, küçük modeli bağlam soruları için kullanmak gerektiğini düşünüyorum; Opus da niche kullanımda ucuz kalabiliyor
    • Claude Code’u abonelikle kullanırsan çok daha mantıklı bir fiyatla kullanabiliyorsun. Ben Max aboneliğinde bütün gün Claude Code kullansam bile son 2 haftada sadece 2 kere limitime takıldım
    • Her fiyat kıyaslamamda Claude API hep en ucuzdu. Bağlam önbelleğini doğru döndürürsen giriş birim fiyatı neredeyse %90 düşüyor; bu çok büyük bir fark
    • GLM 4.5, Kimi K2, Qwen Coder 3, Gemini Pro 2.5 gibi alternatiflerin de olduğunu söylemek isterim
  • Opus’un kodlamada neredeyse her alanda daha iyi olduğu söyleniyor ama pratikte Sonnet’in çok daha iyi olduğunu hissediyorum. Acaba Sonnet’ten tamamen Opus’a geçen biri oldu mu, yoksa yalnızca bazı işlerde Opus’a kayanlar mı var merak ediyorum

    • Opus teknik olarak daha iyi olabilir ama pratikte fark hiç belirgin değil. LLM’nin tek seferde karmaşık bir implementasyon yapması zaten neredeyse imkânsız; anlatacak şey çok oluyor ve sonuçta doğru yanıtı bile kod içine gömülerek bulmak zorunda kalıyorsun. Opus görkemli bir yanıt verse bile bunun neden böyle çıktığını, bağlamımda neden doğru olduğunu anlaman gerekiyor. Sonuçta işimin çoğu tekrar eden küçük adımlardan oluştuğu için Sonnet tek başına yeterli sanıyorum
    • Sonnet birden garipleşince (günde bir-iki kez) Opus’a geçince sorun hızla çözülüyormuş gibi, tabii bu bilimsel bir gözlem değil; zaten hangi modelle değiştirirseniz biraz iyiye giden bir etki oluyor olabilir
    • “Sonnet daha iyi” diyen şeyin arkasında bir bilimsel kanıt yok; büyük modelin daha iyi olduğu zaten bariz olduğu için insanlar bunu söylemek istemiyor gibi görünüyor, tersine “küçük modelin daha iyi olabildiği” bir öneri gibi algılandığı için bu görüşün daha çok öne çıktığı düşünülebilir. Dün bununla baya uğraştım; herkes farklı şeyler söylüyordu. Çıkarım şu: Max paketinde Opus’tan Sonnet’e anlık geçseniz bile kalitede bu kadar dramatik bir düşüşe endişe etmenize gerek yok
    • Opus’un, çok adımlı problem çözme veya bağlam takibi gereken uzun işlerde daha iyi olduğu gibi görünüyor; bu yüzden yalnızca zor problemlerde Opus, diğerlerinde Sonnet kullanıyorum, bu da genelde yeterli ve token limitine daha az çarpılıyoruz
    • Benim durumumda Max planında Opus’un Sonnet’ten biraz daha iyi çıktı verdiğini düşünüyorum; ancak bu sadece Opus kullanılabildiğinde geçerli. Komik olan, Max planında olmama rağmen kullanım limiti çabuk doluyor; dün işe gelir gelmez sadece birkaç dakikada limite ulaştım
  • Opus 4.1’in Opus 4 gibi görünüp aslında gereksizmiş gibi geldiği, tokeni daha hızlı tükettiği hissi var; kullanım miktarını görebilsek iyi olurdu. En azından Sonnet 4 hâlâ kullanılabilir ama çıktı giderek bulanıklaşıyor. Bugünün sabahını Claude Code’a harcamakla geçirdim; doğrudan yapmış olsam daha iyi olurdu

    • Ben de Sonnet’in performansının giderek düştüğünü hissediyorum; açıklamaları uzuyor, gereksiz detay ekliyor, her şeyi listeleyip koymaya çalışıyor ve hatta fazlaca onaylıyor; bu da rakip karşısında bıkkınlık yaratıyor
    • Bunu projemin büyümesine bağlıyorum: Claude Code’u 2 bin satırdan 100 bin satırın ötesine geçmiş projede takibe çalıştırmak doğal olarak zor
    • Yeni Opus 4.1 ilk sohbette doğrudan tüm web uygulamasını yapmaya girişti ama eski tıkanmış robottan farklı olarak bağlamı daha hızlı kavradı ve sistemi doğru sorularla sorgulayıp güncelleme dokümanını da tamamladı. Eskiden her sohbette aynı açıklamayı tekrarlamam gerekiyordu; canımı sıkardı. Şimdi böyle değil. Karşılığında token tüketim hızı kesinlikle daha yüksek, eski gibi saatlerce konuşmak zorlaştı; ama token bitmeden son görevi bitiriyorsa sorun değil
    • “Bugünün sabahını Claude Code’a harcadım” yorumuna karşılık ‘Welcome to the machine’ bağlantı
  • Yeni modelle Claude Plays Pokemon yayını yeniden başlatıldı bağlantı; önce Team Rocket’ın saklı yerinde haftalarca kapanmıştı

  • Haberde “önümüzdeki birkaç hafta içinde modelin büyük ölçüde iyileştirileceği” yazıyor. Ürünümüzde Sonnet 4 en iyi uyumu sağlıyordu ama Haiku 4 (ya da 4.1) ucuz olduğu için bir denemek istiyorum; Anthropic’ın bu sefer Haiku 4’ten hiç bahsetmemesi şaşırtıcı

  • Bugün Claude kullanırken gördüğüm en kötü gündü, adeta bozulmuştu. Bu deploy yüzünden mi bilmiyorum ama belgelerde küfür çıktı, saatlerce gidip geldiğim hâlde hata düzelmedi

  • Haberdeki “önümüzdeki birkaç hafta içinde modelin ciddi olarak geliştirileceği” kısmı bana en çok ilgimi çekti

    • Bunu insanların doğrudan GPT5’e geçmesini biraz geciktirmek için söylendiğini düşünüyorum
  • Bu güncelleme onların ölçütlerine göre neredeyse fark edilmeyen bir iyileşme gibi; kötü anlamına gelmiyor ama fark edilir bir değişiklik pek beklenmiyor

    • Bence çoğu şey vibe farkı ama bu da önemli bir unsur. Resmi benchmarklarda görmüyoruz ama Opus 4.1’in Junior Developer benchmark testinde Opus 4’e göre yaklaşık 1 standart sapma daha iyi performans verdiği belirtiliyor; bu, Sonnet 3.7’den Sonnet 4’e atladıklarında gördüğümüz seviyeye benziyor
    • Hâlâ düzgün test etmedim; çıktı kalitesinde bariz bir fark yok gibi ama verilen dokümanları ve yönergeleri daha iyi takip ettiği hissediliyor. Yine de bunu sayısallaştırıp objektif doğrulamaya uğramadım. Opus 4.1, Needles-in-the-Haystack bulmada olduğu kadar, o tür şeyleri özel olarak söylemesem bile daha iyi takip ediyormuş gibi
    • Bu yüzden sürümünü 4.1 olarak etiketlediklerini düşünüyorum, 4.5 değil
    • Bence ileride 10 model daha çıkaracak alan bırakmışlar; benchmark skorunu 100 yapınca yeni model gerekmez, bu yüzden ölçümlerde oynamak gibi biraz bir pazarlama kokusu var. Zaten eğitim setiyle aynı problem türlerini çözdüklerinden tamamen yeni sorularda zayıf kalmaları normal
    • Performans kartı görselinde sadece Opus 4.1’in vurgulanmış olması eğlenceliydi. Opus 4.1 benchmarkların sadece yarısında en yüksek skoru alıyor; kalanlarda ya yok ya da Opus 4.0’ın altında, rakip modellerin puanları ise hiç verilmemiş
  • Opus ve Sonnet fiyatı aynı derecede pahalı olduğunda, Opus kullanımının Sonnet’i asla geçmeyeceğine inanıyorum. OpenRouter sıralamasında bağlantı Sonnet 3.7 ve 4, birlikte Opus 4’ten 17 kat daha fazla token işliyor