20 puan yazan GN⁺ 2026-02-06 | 9 yorum | WhatsApp'ta paylaş
  • Anthropic’in geliştirilmiş kodlama yetenekleri ve uzun süreli görev devamlılığı sunan en yeni yapay zeka modeli; 1M token bağlam penceresini beta olarak destekliyor
  • Başlıca benchmark’larda sektör lideri seviyesinde puanlar alırken, GPT-5.2’ye göre yaklaşık 144 Elo puan önde
  • Kod inceleme·hata ayıklama, büyük kod tabanlarını işleme, finansal analiz·doküman yazımı gibi pratik iş odaklı görevlerde performansı güçlendirildi
  • Adaptive thinking, context compaction, effort ayarı gibi geliştirici kontrol özellikleri eklenerek uzun süre çalışan ajanların yönetimi kolaylaştırıldı
  • Güvenlik değerlendirmelerinde de hata·kötüye kullanım·aşırı reddetme oranlarının düşük olduğu sonuçlar göstererek, yüksek performans ile güvenliği aynı anda sağlayan bir model olarak değerlendiriliyor

Claude Opus 4.6’daki başlıca iyileştirmeler

  • Opus 4.6, önceki sürüme kıyasla planlama yeteneği, ajan sürekliliği ve kod kalite yönetimi geliştirilmiş bir model
    • Büyük kod tabanlarında daha kararlı çalışıyor ve kendi hatalarını tespit edip düzeltme yeteneği güçlendirildi
    • 1M token bağlam penceresi (beta) ile uzun ve karmaşık görevleri işleyebiliyor
  • Günlük işlerde kullanılabilirliği de genişletildi; finansal analiz, araştırma, doküman, elektronik tablo ve sunum üretimi gibi çeşitli görevleri yerine getirebiliyor
  • Cowork ortamında çoklu görevi otonom şekilde yürütebiliyor, kullanıcı adına karmaşık işleri işleyebiliyor

Benchmark ve performans değerlendirmesi

  • Terminal-Bench 2.0’da en yüksek puanı aldı; Humanity’s Last Exam’da da tüm frontier modeller arasında lider oldu
  • GDPval-AA değerlendirmesinde GPT-5.2’den yaklaşık 144 Elo puan, Opus 4.5’ten ise 190 puan daha yüksek performans gösterdi
  • BrowseComp testinde de en yüksek performansı kaydetti; çevrimiçi bilgi arama yeteneği güçlendi
  • MRCR v2 (1M variant) testinde %76 puan alarak Sonnet 4.5’in %18.5’ine kıyasla büyük bir gelişme gösterdi
  • Uzun bağlamı koruma ve bilgi takibi yetenekleri iyileştirilerek context rot etkisi azaltıldı

İlk kullanım deneyimleri ve partner geri bildirimleri

  • Dahili mühendislik testlerinde karmaşık problem çözme ve muhakeme yeteneğinin geliştiği görüldü
    • Zor problemlerde derin düşünmeyi yineleyerek daha iyi sonuçlar üretiyor
    • Basit görevlerde aşırı düşünme nedeniyle gecikme yaşanabildiğinden /effort parametresiyle ayarlanabiliyor
  • İlk partnerler, Opus 4.6’nın otonom yürütme yeteneği, karmaşık istekleri işleme, ekip iş birliğini destekleme alanlarında öne çıktığını değerlendirdi
    • Büyük kod tabanlarını keşfetme, paralel alt görev yürütme, engelleri tespit etme gibi konularda hassas performans gösteriyor
    • Hukuk, finans ve teknik içerik analizinde yüksek doğruluk sağlıyor (ör. BigLaw Bench %90.2)
    • Gerçek testlerde 40 siber güvenlik soruşturmasının 38’inde Opus 4.5’ten daha iyi sonuç verdi
    • Milyonlarca satırlık kod göçünü yarı sürede tamamladığına dair örnekler bildirildi

Güvenlik ve emniyet güçlendirmeleri

  • Otomatik davranış denetimlerinde aldatma, dalkavukluk, kötüye kullanıma iş birliği gibi hizasız davranış oranı düşük
  • Aşırı reddetme oranı (over-refusal) en düşük Claude modeli oldu
  • Kullanıcı refahı, riskli istekleri reddetme, gizli zararlı davranışları tespit etme gibi yeni güvenlik değerlendirmeleri yapıldı
  • Yorumlanabilirlik araştırmaları ile modelin iç çalışma nedenleri analiz edilip potansiyel sorunlar tespit ediliyor
  • Siber güvenlik yeteneklerinin güçlenmesine paralel olarak 6 yeni güvenlik probe’u devreye alındı, kötüye kullanım tespiti artırıldı
  • Savunma amaçlı kullanım kapsamında açık kaynak zafiyetlerini tespit etme ve yama desteği sağlanıyor; ileride gerçek zamanlı kötüye kullanım engelleme planlanıyor

Ürün ve API güncellemeleri

  • Claude Developer Platform’a şu özellikler eklendi
    • Adaptive thinking: Model, duruma göre derin düşünmenin gerekip gerekmediğine otomatik karar veriyor
    • Effort seviyesi: low, medium, high (varsayılan), max olmak üzere dört kademe sunuluyor
    • Context compaction (beta): Konuşma uzadığında eski bağlamı özetleyip onun yerine geçiyor
    • 1M token bağlam (beta) ve 128k çıktı tokenı desteği
    • US-only inference seçeneği sunuluyor (1.1x ücret)
  • Claude Code’a agent teams özelliği eklendi; birden fazla ajan paralel iş birliği yapabiliyor
  • Claude in Excel, yapılandırılmamış veriyi yapılandırma ve çok aşamalı değişiklikleri işleme konusunda geliştirildi
  • Claude in PowerPoint (research preview), slayt şablonlarını, yazı tiplerini ve düzenleri tanıyarak marka tutarlılığını koruyor

Erişim ve fiyatlandırma

  • Opus 4.6, claude.ai, API ve başlıca bulut platformlarında hemen kullanılabiliyor
  • API model adı claude-opus-4-6; fiyatlandırma öncekiyle aynı şekilde milyon token başına $5/$25
  • 200k tokenı aşan prompt’larda premium ücretlendirme uygulanıyor (milyon token başına $10/$37.50)

Sonuç

  • Claude Opus 4.6, uzun bağlam işleme, otonom ajan görevleri ve gelişmiş akıl yürütme yetenekleri alanında büyük bir sıçrama yapıyor
  • Performans, güvenlik ve geliştirici kontrolünü birlikte güçlendiren bir model olarak, iş odaklı yapay zeka araçları için yeni bir standart ortaya koyuyor

9 yorum

 
heim2 2026-02-06

Max kullanıyorum; sanki ne kadar çok token harcarsam o kadar tatmin edici... kullanmayınca yazık oluyormuş gibi...

 
duse0001 2026-02-06

İnternette dolaşan fiyat indirimi uygulanmamış galiba :(

 
wegaia 2026-02-06

Reddit'te abonelerin limitlerini ışık hızında tükettiklerine dair paylaşımlar yağıyor gibi görünüyor.
Benim de uğraştığım işler var, o yüzden şimdilik 4.5 kullanmaya devam ediyorum

 
duse0001 2026-02-06

API fiyatı düşerse haftalık limitin de doğal olarak artacağını umuyordum ama ne yazık ki öyle olmadı t_t 200 dolarlık planda haftalık limit pek rahat değil..

 
princox 2026-02-06

Off, gerçekten çok cimri.. Anthropic biraz token dağıtsın artık..!!

 
hmmhmmhm 2026-02-06

Ooo sonunda~~~~

 
princox 2026-02-06

Sonnet 5 bekliyordum ama meğer Opus 4.6 imiş haha

 
GN⁺ 2026-02-06
Hacker News görüşleri
  • Bisiklet kadrosu biraz eğri, ama pelikanın kendisi harika
    Görsel buradan görülebilir

    • Bunun pelikan çizimine overfitting yapmış olup olmadığını merak ediyorum
    • “generate” gibi kelime seçimlerinin modelin çıktısını etkileyip etkilemediğini merak ediyorum
      Pelikanın iki bacağının aynı tarafta olduğunu hemen fark ettim; aslında öyle olmadığını Wikipedia'dan kontrol ettim
      Prompt'u tekrar tekrar düzenleyerek daha gerçekçi sonuçlar elde etmenin test edilip edilmediğini de merak ediyorum
    • Aslında çoğu insan da bisikleti düzgün çizemiyor
      Kadro yapısını ya da geometrik oranları sık sık yanlış çiziyorlar
    • Animasyonlu bir versiyonu da var
      Bağlantı
    • Bu tür çıktıların eninde sonunda tekrar model eğitimine girip benchmark'ı geçmesini sağlayacağı bir noktanın gelip gelmeyeceğini düşünüyorum
  • GPT‑5.3 Codex, Terminal Bench'te %77,3 ile ezici bir performans gösterdi
    Rekorun sadece 35 dakika içinde kırılmış olması şaşırtıcı

    • Model performansı günün saatine ya da sunucu yüküne göre değişiyor; bu tür benchmark güvenilirliğine ne kadar güvenilebileceği şüpheli
      Acaba lansmandan hemen sonra en yüksek performansta çalıştırıp daha sonra maliyet düşürmek için aşağı çekiyor olabilirler mi diye merak ediyorum
    • Kapsamlı benchmark raporları olmadığı için işin benchmaxxing tarafına kaymış olup olmadığını merak ediyorum
      Bizzat kullandıktan sonra fikir paylaşmak isterim
    • Skorun 10 puan birden artması büyük bir değişim; gerçek kullanım hissinde de niteliksel bir fark olup olmayacağını merak ediyorum
      Acaba artık benchmark doygunluğuna ulaşmış olabilir miyiz diye düşünüyorum
    • Claude swe-bench 80,8 iken Codex 56,8; bu yüzden genel olarak hâlâ Claude 4.6 daha üstün görünüyor
  • Claude Code sürüm notlarının özeti
    Opus 4.6 eklendi; multi-agent işbirliği özelliği, otomatik bellek kaydı, kısmi sohbet özeti, VSCode iyileştirmeleri gibi çeşitli güncellemeler içeriyor

    • “Claude'un çalışırken belleğe otomatik olarak kayıt yapıp bunu geri çağırması” kısmı ilginç
      Bellek özelliği dokümanına bakınca bunun Google Antigravity'nin Knowledge artifact'i ile benzer bir kavram olduğu görülüyor
  • Tartışmada iki şeyin birbirine karıştırıldığını düşünüyorum
    Birincisi token birim fiyatına dayalı kârlılık, ikincisi ise model yaşam döngüsü ekonomisi
    Çıkarım birim fiyatı kârlı olabilir ama model programının tamamı hâlâ zarar ediyor olabilir
    Asıl soru şu: “Bir modelin ekonomik olarak mantıklı olması için ne kadar süre rekabetçi kalması gerekir?”

    • worse is better” sözünü hatırlamak lazım
      En iyisi olmasa bile yeterince iyiyse ve geçiş maliyeti yüksekse pazara hâkim olabilir
      Başlangıçta zarar etmeyi göze alıp belirli bir alanı (ör. kodlama) merkeze alarak pazar kazanmak mantıklı olabilir
    • API fiyatlandırmasına göre biraz kâr var gibi görünüyor
      Ama kullanımın 20 kat arttığı planların sürdürülebilirliği şüpheli
      Şu anki “vibe-coding rönesansı”nın bu maliyet yapısıyla sürdürülebilir olup olmayacağından emin değilim
    • Dario'nun podcast'te söylediği gibi, modeller tüm ömürleri boyunca bakıldığında kârlı
      Yıllık kâr-zarar açısından değerlendirmek AI şirketlerinin doğasına pek uygun değil
    • Asıl ilginç soru “$200/ay planı sübvanse ediliyor mu?”
      Şu anki ajan tabanlı kodlama patlamasını bu taşıyor
      Muhtemelen bir miktar sübvansiyon var, ama uzun vadede yaklaşık 2 kat zam gelmesi mümkün
  • 1M context window gelmesi çok büyük bir yükseltme; bundan çok memnunum

  • Anthropic'in stratejisini hâlâ tam olarak anlayamıyorum
    Kitle pazarına yönelik pazarlama yapıyorlar ama gerçek güçleri kodlama odaklı
    Genel araştırma ya da bilgi keşfi tarafında ChatGPT ve Gemini çok daha derin ve ifade gücü daha yüksek
    “Anayasa” ya da “insan hakları” gibi insani pazarlama dili kullanıyorlar ama buna rağmen en işlemsel hissettiren de onlar
    Yine de kodlama için harika, bu yüzden ücretli kullanmaya devam ediyorum

    • Kod dışındaki genel konuşmalarda da Claude oldukça iyi çalışıyor
      Teknik olmayan arkadaşlarım da ChatGPT'den Claude'a geçti ve geri dönen görmedim
      8 ay önce yalnızca API'de kullanılabilir gibiydi, şimdi çok daha iyi
    • İngilizce dışındaki dillerde kalite ciddi biçimde düşüyor
      Ben Çekçe kullanıcısıyım; Claude kelime uyduruyor, Grok ise bazen Rusça yanıt veriyor
      Kodlama için iyi ama genel konuşma için kullanılamaz
    • Model gündelik kullanım için doğal hissettirmiyor
      Ajan tabanlı işler ya da araç kullanımı için iyi ama günlük sorular için kullanmıyorum
  • Opus 4.6 kurulumda görünmüyordu; kurulum komutunu yeniden çalıştırınca ortaya çıktı (v2.1.32)
    Kurulum kılavuzu

    • Zaten kullanıyorum
  • AI/LLM'lerin işletme maliyetlerinin gerçekten düşüp düşmediğini merak ediyorum
    “Ajan takımı” fikri havalı ama birden fazla modeli aynı anda çalıştırmak maliyeti büyüttüğü için pratikte zor geliyor

    • Token başına maliyet istikrarlı biçimde düşüyor
      OpenAI, mühendislik optimizasyonlarıyla o3 fiyatını 1/5'e indirdi; diğer şirketler de benzer tasarruflar elde etti
      Eskiden söylenen “her istekte zarar ediyorlar” iddiası gerçeği yansıtmıyor
    • O söylenti tekrar edilip duruyor ama gerçekte çıkarım birim fiyatının maliyetin altında olması pek mümkün değil diye düşünüyorum
      Şirketin geneli Ar-Ge ve eğitim maliyetleri yüzünden zarar ediyor olabilir ama API kullanımı kendi başına kârlı
      DeepSeek gibi açık modeller de çok daha düşük fiyatlarla kâr edebiliyor
    • Gerçek verilere bakınca zarar ediyor olmaları pek mümkün görünmüyor
      Örneğin Claude 4 (yaklaşık 400B parametre), DeepSeek V3'ten (680B) çok daha pahalı
      Claude girdi $1/M, çıktı $5/M; DeepSeek girdi $0.4/M, çıktı $1.2/M
      Bu farkın nedeni Anthropic'in eğitim maliyetini geri kazanmak zorunda olması
      DeepSeek fiyatı, Claude fiyatı
    • Gerçek kâr-zarar hesabı zor; çünkü amortisman ve model ömrü gibi belirsizlikler büyük
      Yalnızca çıkarım gelirine bakarsanız kâr var, ama toplam maliyete bakınca durum farklı olabilir
    • AI ajanlarının gerçek kullanım düzeyi hâlâ düşük
      Kodlama yardımcısı olarak kullanıyorum ama sık sık rota düzeltmesi gerekiyor
      Yine de yetkin insanları işe almaktan çok daha ucuz
  • We build Claude with Claude” ifadesi oldukça ilginç

    • Claude Code'da 6000'den fazla açık issue var
      60 gün hareketsiz kalınca otomatik temizlenmesine rağmen sayı artmaya devam ediyor
    • Bunun çok başarılı bir ürün olduğunu düşünüyorum
      Bu ifade, önyargıyı ortaya koymasının dışında çok şey ifade etmiyor
    • Bunun dogfooding'in önemini gösteren bir örnek olduğunu düşünüyorum
      Bir ürünü bizzat kullanmak kaliteyi artırmanın en iyi yolu
    • CC'nin sandboxing'i neredeyse şaka gibi
      Şu an wrapper'ların patlama yaşamasının nedeni de bu; bir gün güvenlik olayı çıkacak gibi geliyor
    • Bu da Claude Code'un neden terminale çıktı veren bir React uygulaması gibi göründüğünü açıklıyor
  • Opus 4.6'yı denemeniz için ek $50 kredi veriliyor
    Kullanım sayfasından doğrudan alınabiliyor
    Muhtemelen token kullanımında artış bekliyorlar ya da modelin tanıtımını yapmak istiyorlar