Claude Opus 4.7
(anthropic.com)- Gelişmiş yazılım mühendisliği performansı artırıldı; karmaşık ve uzun süre çalışan görevleri yüksek tutarlılık ve doğrulukla ele alıyor
- Görsel algı ve çok modlu anlama iyileştirildi; yüksek çözünürlüklü görseller, teknik diyagramlar ve kimyasal yapılar gibi karmaşık görsel bilgileri analiz edebiliyor
- Siber güvenlik korumaları yerleşik olarak sunuluyor; yüksek riskli istekleri otomatik olarak tespit edip engelliyor, meşru güvenlik araştırmacıları ise Cyber Verification Program'a katılabiliyor
- Effort kontrolü, Task Budget,
ultrareviewkomutu gibi yeni özelliklerle uzun soluklu iş verimliliği ve kod kalitesi doğrulama yeteneği geliştirildi - Opus 4.6'ya kıyasla %13 performans artışı ve yüksek güvenilirlik sağlanırken, Anthropic bunun üzerine Mythos sınıfı bir modelin güvenli şekilde genel kullanıma açılmasına hazırlanıyor
Claude Opus 4.7'ye genel bakış
- Claude Opus 4.7, Opus 4.6'ya kıyasla gelişmiş yazılım mühendisliği performansı belirgin biçimde artırılmış bir model; karmaşık ve uzun süre çalışan görevleri yüksek tutarlılık ve doğrulukla ele alıyor
- Kullanıcılar artık önceye göre daha zor kodlama işlerini güvenle devredebilir ve model kendi doğrulamasını yaptıktan sonra sonucu raporlar
- Görsel algı yeteneği güçlendirildi; yüksek çözünürlüklü görseller, arayüzler, slaytlar ve belgelerde yüksek kalite ve yaratıcılık sergiliyor
- Anthropic'in Claude Mythos Preview sürümüne göre genel yetenekleri daha düşük olsa da, çeşitli benchmark'larda Opus 4.6'dan daha iyi sonuçlar veriyor
- Tüm Claude ürün ailesi ve API, Amazon Bedrock, Google Cloud Vertex AI ve Microsoft Foundry üzerinde kullanılabiliyor; fiyatlandırması Opus 4.6 ile aynı
Siber güvenlikle ilgili önlemler
- Anthropic, Project Glasswing aracılığıyla yapay zekanın siber güvenlik riskleri ve faydalarını kamuya açıklıyor; Mythos Preview'ın genel erişimini sınırlıyor ve güvenlik deneylerini önce daha az güçlü modellerde yürütmeye karar veriyor
- Opus 4.7 bu yaklaşımın ilk modeli ve yasaklı veya yüksek riskli siber güvenlik isteklerini otomatik olarak tespit edip engelleyen korumalar içeriyor
- Gerçek dağıtım verilerine dayanarak ileride Mythos sınıfı modellerin daha geniş çapta sunulmasına hazırlanılıyor
- Meşru güvenlik araştırmacıları (açık analizi, penetrasyon testi, red team vb.) Cyber Verification Program'a katılabiliyor
Başlıca performans ve kullanıcı geri bildirimleri
- İlk testlerde mantık hatalarını kendi kendine tespit etme ve yürütme hızını artırma yeteneği doğrulandı
- Asenkron iş akışları, CI/CD ve uzun süreli otomasyon işleri üzerinde üstün performans gösteriyor; yalnızca onaylayan değil, derinlikli problem yaklaşımı ve görüş sunma davranışı sergiliyor
- Veri eksikliği olduğunda yanlış çıkarımdan kaçınıyor ve tutarsız veri tuzaklarına düşmüyor
- 93 kodlama benchmark'ında Opus 4.6'ya göre %13 iyileşme sağladı ve daha önce çözülemeyen 4 ek görevi çözdü
- Çok adımlı görev verimliliğinde en üst düzey tutarlılık gösteriyor; finans modülünde 0.813 puanla Opus 4.6'nın 0.767 puanını aşıyor
- Çok modlu anlama gelişti; kimyasal yapıları ve karmaşık teknik diyagramları yorumlama yeteneği iyileştirildi
- Otonom uzun süreli çalışma yeteneği güçlendirildi; saatler boyunca tutarlı problem çözümü sağlayabiliyor
- Replit, Harvey, Hex, Notion, Databricks ve Vercel gibi birçok şirket; kod kalitesi, araç çağrısı doğruluğu ve uzun süreli iş akışı güvenilirliğinde iyileşme bildirdi
- Gerçek bir örnek olarak Rust tabanlı bir konuşma sentez motorunu tamamen otonom biçimde geliştirdi ve Python referans modeliyle eşleşip eşleşmediğini kendi başına doğruladı
İlk testlerde öne çıkan iyileştirmeler
-
Komut yorumlama doğruluğu
- Opus 4.7, talimatları kelimesi kelimesine yorumluyor ve önceki modellere göre çok daha sıkı biçimde uyguluyor
- Mevcut prompt'lar beklenmedik sonuçlar üretebileceğinden prompt'ların yeniden ayarlanması gerekebilir
-
Güçlendirilmiş çok modlu destek
- En fazla 2.576 piksel (yaklaşık 3,75 MP) çözünürlüğe sahip görselleri işleyebiliyor
- Karmaşık diyagram analizi, ekran görüntüsüne dayalı veri çıkarımı gibi ince görsel ayrıntıların kullanıldığı işler için uygun
-
Gerçek iş performansı
- Finans analizi, sunum hazırlama ve modelleme gibi alanlarda Opus 4.6'dan daha yüksek uzmanlık ve tutarlılık sağlıyor
- Harici GDPval-AA değerlendirmesinde de finans ve hukuk gibi bilgi çalışanı alanlarında en üst düzey sonuçlar kaydetti
-
Bellek kullanımı
- Dosya sistemi tabanlı belleği verimli kullanarak birden çok oturuma yayılan görev bağlamını hatırlayıp yeniden kullanabiliyor
Güvenlik ve hizalama değerlendirmesi
- Genel olarak Opus 4.6'ya benzer bir güvenlik profili gösteriyor; aldatma, dalkavukluk ve kötüye kullanımda iş birliği gibi sorunların görülme oranı düşük
- Dürüstlük ve kötü amaçlı prompt enjeksiyonuna direnç iyileşmiş olsa da, bazı alanlarda (ör. ilaçlarla ilgili aşırı tavsiye verme) bir miktar zayıflama var
- Değerlendirme sonucu, modelin "genel olarak iyi hizalanmış ve güvenilir, ancak tamamen ideal değil" olduğu yönünde
- Mythos Preview, hâlâ en iyi hizalanmış model olarak değerlendiriliyor
Ek olarak sunulan özellikler
-
Güçlendirilmiş Effort kontrolü
highilemaxarasına yeni birxhighseviyesi eklendi; böylece çıkarım gücü ile gecikme arasındaki ayar daha hassas yapılabiliyor- Claude Code'da varsayılan Effort seviyesi
xhigholarak yükseltildi
-
Claude Platform (API)
- Yüksek çözünürlüklü görsel desteğiyle birlikte Task Budget özelliği herkese açık beta olarak sunuluyor; uzun görevlerde token kullanım önceliği ayarlanabiliyor
-
Claude Code
- Yeni
/ultrareviewkomutuyla kod değişikliklerini inceleme ve hata tespiti oturumu çalıştırılabiliyor - Pro ve Max kullanıcılarına 3 ücretsiz ultrareview sunuluyor
- Auto Mode, Max kullanıcılarına genişletildi; böylece uzun görevlerde onay adımları azalıyor ve kesintisiz yürütme mümkün oluyor
- Yeni
Opus 4.6'dan 4.7'ye geçiş
- Opus 4.7'ye doğrudan yükseltme yapılabiliyor, ancak token kullanımındaki değişime dikkat etmek gerekiyor
- Yeni tokenizer nedeniyle aynı girdi yaklaşık 1,0 ila 1,35 kat daha fazla token'a dönüşebilir
- Daha yüksek Effort seviyelerinde daha fazla çıkarım yapıldığından çıktı token'larında artış olabilir
- Effort parametresi, Task Budget ve kısa tutulmuş prompt tasarımıyla token kullanımı kontrol edilebilir
- İç testlerde tüm Effort seviyelerinde verimlilik artışı doğrulandı
- Ayrıntılı yükseltme yöntemi Migration Guide içinde sunuluyor
1 yorum
Hacker News görüşleri
Yeni eklenen adaptive thinking kavramı bana çok kafa karıştırıcı geliyor
Önceden thinking budget / effort moduyla kod yazıyordum, ama şimdi tamamen farklı çalışıyor
Resmi doküman'a baksam da hâlâ tam olarak anlayamadım
Üstelik 4.7'de varsayılan olarak insanın okuyabileceği reasoning özeti çıkmıyor.
"display": "summarized"seçeneğini elle eklemek gerekiyorŞu an Pelican projesini deniyorum ama yeni thinking yöntemi yüzünden sürekli takılıyorum
İlgili başlık için bakabilirsiniz
adaptive thinking'i kapatıp effort'u artırınca eski seviyeye geri döndü
Ama “iç değerlendirmelerde iyi çalışıyor” demek yeterli değil. Birçok kullanıcı aynı sorunu bildiriyor
Ekran görüntüsü
--thinking-display summarizeddiye resmi olmayan bir komut satırı seçeneği eklenmiş gibi görünüyorVS Code kullanıcıları,
exec "$@" --thinking-display summarizediçeren bir wrapper script hazırlayıp bunuclaudeCode.claudeProcessWrapperayarına koyarak reasoning özetlerini yeniden görebilirEskiden LLM'in CoT'sini (Chain of Thought) açığa çıkarmak güvenliğin temel parçası sayılıyordu ama sanki yön değişmiş gibi
Opus 4.7'nin yeni tokenizer'ı metin işleme verimliliğini artırıyor ama girdiler 1.0~1.35 kat daha fazla tokene eşleniyor
Bu yüzden caveman projesinin çıktısını aslında daha okunabilir buluyorum
caveman deposu
Bağlamın çoğu dosya okuma ve reasoning için harcandığından gerçek token tasarrufu %1 bile etmiyor. Hatta modeli daha da şaşırtabilir
mac app, CLI sürümü
Yaygın kelimelerin gürültü olabileceğini düşündüm ama sonuçta neredeyse hiçbir fark olmadı
Bunu caveman ile karşılaştırmalı test etmek isterim
Bunun nedeni reasoning token kullanımının azalması. Artık model maliyetini sadece token birim fiyatıyla kıyaslamanın anlamsız olduğunu gösteriyor
Anthropic'in Opus 4.7'yi siber güvenlik kısıtlı model olarak çıkardığını görünce bunun başarısız bir strateji olduğunu düşündüm
Güvenlik bilgisini sansürlerken aynı anda güvenli yazılım geliştirmeyi hedeflemek çelişkili
Bütün AI şirketleri aynı politikayı uygulamadıkça bunun da gerçek bir etkisi olmaz. Sonunda bu yaklaşımdan vazgeçilecek gibi geliyor
Ama bu tür kısıtlamalar güvenliği merkezileştirme yönüne gidiyor, bu yüzden gerçek güvenlik artışı gibi görünmüyor
Sanki mülakatta beyaz tahtanın önüne çıkarılınca IQ'nuz %10 düşüyormuş gibi, model de çekingenleşiyor
O yüzden “seçici olarak aptallaştırma” yönüne gidiliyor gibi. Sanırım bu deneyi zaten yapıyorlar
Saldırganın bir kez başarılı olması yeterliyken savunmacının her seferinde başarılı olması gerekir; bu açıdan zaman kazandırabilir
Geçen hafta 4.6'daki kalite düşüşü yüzünden sonunda Codex'e geçtim
4.6 web araması bile yapmadı ve 17K token'ı saçmalıkla doldurdu. Paralel işleme örneğini de tamamen yanlış uyguladı
Token kullanımı bir anda patladı ve destek ekibinin ilgisiz tavrı son damla oldu
Hataları anlayabilirim ama müşteriye yaklaşım biçimi kabul edilemez
Codex'e geçtikten sonra en azından işler ilerliyor, benim için mesele bu
Codex kullanım limitini 2 katına çıkarıp Claude müşterilerini çekiyor, PR'ı da çok daha iyi
Claude'un sorunlarının %90'ı compute yetersizliğinden kaynaklanıyor gibi görünüyor
Çünkü AI'nın sürekli “ilerliyor” görünmesi gerekiyor; duraklama ise hype'ın ölümü demek
Hızlı olması tek başına bir şey ifade etmiyor; düşük kaliteli kodu daha hızlı üretmek faydasız
Gemini CLI daha yavaştı ve kalitesi de daha düşüktü
Codex, içinde hata olsa bile “mükemmel” diye pohpohlama eğiliminde olduğu için riskli
İcra kabiliyeti çok güçlü ve OpenAI pazarlama yerine sonuçla konuşuyor
Bu bana ilk dönem Google'ı, ürün kalitesiyle rekabet etme anlayışını hatırlatıyor
Opus 4.7'nin siber güvenlik filtresi o kadar sertleşti ki meşru araştırmaları bile engelliyor
Program yönergelerini doğrudan web'den alsam bile “tehlikeli istek” diye bloke ediliyor
Bu böyle devam ederse Codex'e geçeceğim
Resmi duyuru'da olduğu gibi, bazı özelliklere erişim için doğrulama süreci gerekiyor
Bu yüzden sürmekte olan araştırmam tamamen durdu
Muhtemelen model kendi reasoning sürecinde “saldırgan” görünen bir adımı tespit etti
Bug hunting giderek saldırgan aşamalara yaklaştığında filtre devreye giriyor gibi
Artık politika ihlali yeni segfault oldu denecek bir dünyadayız
Sadece belirli kelimeler geçse bile aşırı tepki veriyor
Kendi projemin zararlı olup olmadığına AI'dan izin alıyormuşum gibi. Aboneliği iptal edeceğim
Bu başlık kurucular için iyi bir ders
Biraz dürüst iletişim bile ne kadar çok memnuniyetsizliği yatıştırabileceğini gösteriyor
Uygulamayı Opus 4.5'e sabitlemiş biri olarak şu anda sorunun modelden mi yoksa harness'tan mı kaynaklandığını bile ayırt etmek zor
Bazen sadece şanssızlık da olabilir
O zaman ben de çalışma saatlerimi ayarlayıp ağır işleri gece çalıştırabilirim
Böyle bir karmaşada model broker ya da Copilot benzeri bir ara katman kullanmanın akıllıca olduğunu düşünüyorum
“Standart AI” gibi her zaman aynı modeli sunan bir hizmete ihtiyaç varmış gibi geliyor
Ekibimizin özel benchmark sonuçlarına göre Opus 4.7, 4.6/4.5'e kıyasla daha stratejik ve daha zeki
GPT-5.4 ile neredeyse aynı seviyede, hatta araç kullanan agentic oturumlarda daha iyi performans gösteriyor
Benchmark bağlantısı
Ancak bağlam işleme tarafında ufak bir gerileme var. Bunu görselleştiren yeni bir benchmark ekliyoruz
Son dönemde Anthropic'e olan güven azaldı
4.6'nın düşürülmesinin hemen ardından 4.7'nin çıkması tedirgin edici
Artık şeffaf iletişim gerekiyor
OpenAI compute'a erkenden yatırım yaptı ve bunun avantajını şimdi görüyor
Hatta Mythos'u Opus 4.7'ye distillation ediyor olabilirler
Muhtemelen sebep harness güncellemesi
Son zamanlarda “Codex'e geçtim” yorumları hızla arttı
Ama gerçekten kullanınca Codex'in hâlâ Claude seviyesine ulaşmadığı görülüyor
Bu tür reklam kokan yorumlar sadece güveni azaltıyor
Bizim şirkette de iki modeli birlikte kullanıyoruz ama ben artık neredeyse sadece Codex kullanıyorum
Hız ve sonuçlar bana daha iyi geliyor
Ama yanıt kalitesi Claude'da daha iyiydi. Artıları ve eksileri çok net
Ama Codex'in çıktısı “teknik olarak doğru ama insani açıdan garip”ti
Bu yüzden ben Claude ile spesifikasyonu yazdırıp Codex ile uygulatıyorum
Sonradan fiyat artıracaklarından şüpheleniliyor
Opus 4.7'nin güvenlik kısıtlama politikası ölümcül olabilir
Saldırıları araştırıp savunma geliştirmek için simetrik yetenek gerekir; bunu engellemek tehlikeli