Claude Opus 4.7

(anthropic.com)

4 puan yazan GN⁺ 14 일 전 | 1 yorum | WhatsApp'ta paylaş

Gelişmiş yazılım mühendisliği performansı artırıldı; karmaşık ve uzun süre çalışan görevleri yüksek tutarlılık ve doğrulukla ele alıyor
Görsel algı ve çok modlu anlama iyileştirildi; yüksek çözünürlüklü görseller, teknik diyagramlar ve kimyasal yapılar gibi karmaşık görsel bilgileri analiz edebiliyor
Siber güvenlik korumaları yerleşik olarak sunuluyor; yüksek riskli istekleri otomatik olarak tespit edip engelliyor, meşru güvenlik araştırmacıları ise Cyber Verification Program'a katılabiliyor
Effort kontrolü, Task Budget, ultrareview komutu gibi yeni özelliklerle uzun soluklu iş verimliliği ve kod kalitesi doğrulama yeteneği geliştirildi
Opus 4.6'ya kıyasla %13 performans artışı ve yüksek güvenilirlik sağlanırken, Anthropic bunun üzerine Mythos sınıfı bir modelin güvenli şekilde genel kullanıma açılmasına hazırlanıyor

Claude Opus 4.7'ye genel bakış

Claude Opus 4.7, Opus 4.6'ya kıyasla gelişmiş yazılım mühendisliği performansı belirgin biçimde artırılmış bir model; karmaşık ve uzun süre çalışan görevleri yüksek tutarlılık ve doğrulukla ele alıyor
Kullanıcılar artık önceye göre daha zor kodlama işlerini güvenle devredebilir ve model kendi doğrulamasını yaptıktan sonra sonucu raporlar
Görsel algı yeteneği güçlendirildi; yüksek çözünürlüklü görseller, arayüzler, slaytlar ve belgelerde yüksek kalite ve yaratıcılık sergiliyor
Anthropic'in Claude Mythos Preview sürümüne göre genel yetenekleri daha düşük olsa da, çeşitli benchmark'larda Opus 4.6'dan daha iyi sonuçlar veriyor
Tüm Claude ürün ailesi ve API, Amazon Bedrock, Google Cloud Vertex AI ve Microsoft Foundry üzerinde kullanılabiliyor; fiyatlandırması Opus 4.6 ile aynı

Siber güvenlikle ilgili önlemler

Anthropic, Project Glasswing aracılığıyla yapay zekanın siber güvenlik riskleri ve faydalarını kamuya açıklıyor; Mythos Preview'ın genel erişimini sınırlıyor ve güvenlik deneylerini önce daha az güçlü modellerde yürütmeye karar veriyor
Opus 4.7 bu yaklaşımın ilk modeli ve yasaklı veya yüksek riskli siber güvenlik isteklerini otomatik olarak tespit edip engelleyen korumalar içeriyor
Gerçek dağıtım verilerine dayanarak ileride Mythos sınıfı modellerin daha geniş çapta sunulmasına hazırlanılıyor
Meşru güvenlik araştırmacıları (açık analizi, penetrasyon testi, red team vb.) Cyber Verification Program'a katılabiliyor

Başlıca performans ve kullanıcı geri bildirimleri

İlk testlerde mantık hatalarını kendi kendine tespit etme ve yürütme hızını artırma yeteneği doğrulandı
Asenkron iş akışları, CI/CD ve uzun süreli otomasyon işleri üzerinde üstün performans gösteriyor; yalnızca onaylayan değil, derinlikli problem yaklaşımı ve görüş sunma davranışı sergiliyor
Veri eksikliği olduğunda yanlış çıkarımdan kaçınıyor ve tutarsız veri tuzaklarına düşmüyor
93 kodlama benchmark'ında Opus 4.6'ya göre %13 iyileşme sağladı ve daha önce çözülemeyen 4 ek görevi çözdü
Çok adımlı görev verimliliğinde en üst düzey tutarlılık gösteriyor; finans modülünde 0.813 puanla Opus 4.6'nın 0.767 puanını aşıyor
Çok modlu anlama gelişti; kimyasal yapıları ve karmaşık teknik diyagramları yorumlama yeteneği iyileştirildi
Otonom uzun süreli çalışma yeteneği güçlendirildi; saatler boyunca tutarlı problem çözümü sağlayabiliyor
Replit, Harvey, Hex, Notion, Databricks ve Vercel gibi birçok şirket; kod kalitesi, araç çağrısı doğruluğu ve uzun süreli iş akışı güvenilirliğinde iyileşme bildirdi
Gerçek bir örnek olarak Rust tabanlı bir konuşma sentez motorunu tamamen otonom biçimde geliştirdi ve Python referans modeliyle eşleşip eşleşmediğini kendi başına doğruladı

İlk testlerde öne çıkan iyileştirmeler

Komut yorumlama doğruluğu
- Opus 4.7, talimatları kelimesi kelimesine yorumluyor ve önceki modellere göre çok daha sıkı biçimde uyguluyor
- Mevcut prompt'lar beklenmedik sonuçlar üretebileceğinden prompt'ların yeniden ayarlanması gerekebilir
Güçlendirilmiş çok modlu destek
- En fazla 2.576 piksel (yaklaşık 3,75 MP) çözünürlüğe sahip görselleri işleyebiliyor
- Karmaşık diyagram analizi, ekran görüntüsüne dayalı veri çıkarımı gibi ince görsel ayrıntıların kullanıldığı işler için uygun
Gerçek iş performansı
- Finans analizi, sunum hazırlama ve modelleme gibi alanlarda Opus 4.6'dan daha yüksek uzmanlık ve tutarlılık sağlıyor
- Harici GDPval-AA değerlendirmesinde de finans ve hukuk gibi bilgi çalışanı alanlarında en üst düzey sonuçlar kaydetti
Bellek kullanımı
- Dosya sistemi tabanlı belleği verimli kullanarak birden çok oturuma yayılan görev bağlamını hatırlayıp yeniden kullanabiliyor

Güvenlik ve hizalama değerlendirmesi

Genel olarak Opus 4.6'ya benzer bir güvenlik profili gösteriyor; aldatma, dalkavukluk ve kötüye kullanımda iş birliği gibi sorunların görülme oranı düşük
Dürüstlük ve kötü amaçlı prompt enjeksiyonuna direnç iyileşmiş olsa da, bazı alanlarda (ör. ilaçlarla ilgili aşırı tavsiye verme) bir miktar zayıflama var
Değerlendirme sonucu, modelin "genel olarak iyi hizalanmış ve güvenilir, ancak tamamen ideal değil" olduğu yönünde
Mythos Preview, hâlâ en iyi hizalanmış model olarak değerlendiriliyor

Ek olarak sunulan özellikler

Güçlendirilmiş Effort kontrolü
- high ile max arasına yeni bir xhigh seviyesi eklendi; böylece çıkarım gücü ile gecikme arasındaki ayar daha hassas yapılabiliyor
- Claude Code'da varsayılan Effort seviyesi xhigh olarak yükseltildi
Claude Platform (API)
- Yüksek çözünürlüklü görsel desteğiyle birlikte Task Budget özelliği herkese açık beta olarak sunuluyor; uzun görevlerde token kullanım önceliği ayarlanabiliyor
Claude Code
- Yeni /ultrareview komutuyla kod değişikliklerini inceleme ve hata tespiti oturumu çalıştırılabiliyor
- Pro ve Max kullanıcılarına 3 ücretsiz ultrareview sunuluyor
- Auto Mode, Max kullanıcılarına genişletildi; böylece uzun görevlerde onay adımları azalıyor ve kesintisiz yürütme mümkün oluyor

Opus 4.6'dan 4.7'ye geçiş

Opus 4.7'ye doğrudan yükseltme yapılabiliyor, ancak token kullanımındaki değişime dikkat etmek gerekiyor
- Yeni tokenizer nedeniyle aynı girdi yaklaşık 1,0 ila 1,35 kat daha fazla token'a dönüşebilir
- Daha yüksek Effort seviyelerinde daha fazla çıkarım yapıldığından çıktı token'larında artış olabilir
Effort parametresi, Task Budget ve kısa tutulmuş prompt tasarımıyla token kullanımı kontrol edilebilir
İç testlerde tüm Effort seviyelerinde verimlilik artışı doğrulandı
Ayrıntılı yükseltme yöntemi Migration Guide içinde sunuluyor

1 yorum

GN⁺ 14 일 전

Hacker News görüşleri

Yeni eklenen adaptive thinking kavramı bana çok kafa karıştırıcı geliyor
Önceden thinking budget / effort moduyla kod yazıyordum, ama şimdi tamamen farklı çalışıyor
Resmi doküman'a baksam da hâlâ tam olarak anlayamadım
Üstelik 4.7'de varsayılan olarak insanın okuyabileceği reasoning özeti çıkmıyor. "display": "summarized" seçeneğini elle eklemek gerekiyor
Şu an Pelican projesini deniyorum ama yeni thinking yöntemi yüzünden sürekli takılıyorum
- Boris'in hata raporuma cevabı “adaptive thinking düzgün çalışmıyor gibi görünüyor” olmuştu, ama o günden beri başka haber yok
  İlgili başlık için bakabilirsiniz
  adaptive thinking'i kapatıp effort'u artırınca eski seviyeye geri döndü
  Ama “iç değerlendirmelerde iyi çalışıyor” demek yeterli değil. Birçok kullanıcı aynı sorunu bildiriyor
- “pelican'ı iyi çıkarmak istiyorum” ifadesiyle p-hacking'e (istatistik manipülasyonu) benzeten bir şaka yapıyor. Buradaki p'nin pelican'daki p olması üzerinden bir kelime oyunu
- Claude Opus 4.6 bana gerçekten çok komik sonuçlar verdi
  Ekran görüntüsü
- Claude Code içinde --thinking-display summarized diye resmi olmayan bir komut satırı seçeneği eklenmiş gibi görünüyor
  VS Code kullanıcıları, exec "$@" --thinking-display summarized içeren bir wrapper script hazırlayıp bunu claudeCode.claudeProcessWrapper ayarına koyarak reasoning özetlerini yeniden görebilir
- Artık Claude'un tüm reasoning'i vermeyip sadece özet mi gösterdiğini merak ediyorum
  Eskiden LLM'in CoT'sini (Chain of Thought) açığa çıkarmak güvenliğin temel parçası sayılıyordu ama sanki yön değişmiş gibi
Opus 4.7'nin yeni tokenizer'ı metin işleme verimliliğini artırıyor ama girdiler 1.0~1.35 kat daha fazla tokene eşleniyor
Bu yüzden caveman projesinin çıktısını aslında daha okunabilir buluyorum
caveman deposu
- caveman aslında neredeyse şaka proje sayılır
  Bağlamın çoğu dosya okuma ve reasoning için harcandığından gerçek token tasarrufu %1 bile etmiyor. Hatta modeli daha da şaşırtabilir
- caveman eğlenceli ama gerçek token tasarrufu istiyorsanız headroom daha iyi
  mac app, CLI sürümü
- Prompt'ta en yaygın 100~1000 İngilizce kelimeyi çıkarmayı denedim
  Yaygın kelimelerin gürültü olabileceğini düşündüm ama sonuçta neredeyse hiçbir fark olmadı
  Bunu caveman ile karşılaştırmalı test etmek isterim
- rtk-ai/rtk gibi bir yaklaşım nasıl olur diye öneriliyor
- Kendi iç petrol ve gaz benchmark'ımda Opus 4.7 %80 çıktı; bu, Opus 4.6'nın (%64) ve GPT-5.4'ün (%76) üstünde
  Bunun nedeni reasoning token kullanımının azalması. Artık model maliyetini sadece token birim fiyatıyla kıyaslamanın anlamsız olduğunu gösteriyor
Anthropic'in Opus 4.7'yi siber güvenlik kısıtlı model olarak çıkardığını görünce bunun başarısız bir strateji olduğunu düşündüm
Güvenlik bilgisini sansürlerken aynı anda güvenli yazılım geliştirmeyi hedeflemek çelişkili
Bütün AI şirketleri aynı politikayı uygulamadıkça bunun da gerçek bir etkisi olmaz. Sonunda bu yaklaşımdan vazgeçilecek gibi geliyor
- Güvenlik uzmanı değilim ama açık kaynak projeleri derlerken zafiyet doğrulaması konusunda yardımcı olacak bir AI'ya ihtiyacım var
  Ama bu tür kısıtlamalar güvenliği merkezileştirme yönüne gidiyor, bu yüzden gerçek güvenlik artışı gibi görünmüyor
- Eğitim aşamasındaki aşırı güvenlik önlemleri genel zekâyı düşürüyor gibi geliyor
  Sanki mülakatta beyaz tahtanın önüne çıkarılınca IQ'nuz %10 düşüyormuş gibi, model de çekingenleşiyor
- Şu an modeller hackleme konusunda fazla zeki ama ekonomik işlerde hâlâ yetersiz gibi garip bir durum var
  O yüzden “seçici olarak aptallaştırma” yönüne gidiliyor gibi. Sanırım bu deneyi zaten yapıyorlar
- Kısa vadede bunun makul bir önlem olduğunu düşünüyorum
  Saldırganın bir kez başarılı olması yeterliyken savunmacının her seferinde başarılı olması gerekir; bu açıdan zaman kazandırabilir
Geçen hafta 4.6'daki kalite düşüşü yüzünden sonunda Codex'e geçtim
4.6 web araması bile yapmadı ve 17K token'ı saçmalıkla doldurdu. Paralel işleme örneğini de tamamen yanlış uyguladı
- Ben de aynı nedenle Pro aboneliğimi iptal ettim
  Token kullanımı bir anda patladı ve destek ekibinin ilgisiz tavrı son damla oldu
  Hataları anlayabilirim ama müşteriye yaklaşım biçimi kabul edilemez
  Codex'e geçtikten sonra en azından işler ilerliyor, benim için mesele bu
- Birçok kişi OpenAI'nin aşırı compute yüzünden batacağını söylüyordu ama şimdi bu tam tersine stratejik avantaja dönüştü
  Codex kullanım limitini 2 katına çıkarıp Claude müşterilerini çekiyor, PR'ı da çok daha iyi
  Claude'un sorunlarının %90'ı compute yetersizliğinden kaynaklanıyor gibi görünüyor
- Bu benim komplo teorim ama yeni model çıkmadan önce performansı bilerek düşürüp bir sonraki sürümü daha iyi gösteriyor olabilirler
  Çünkü AI'nın sürekli “ilerliyor” görünmesi gerekiyor; duraklama ise hype'ın ölümü demek
- Codex'i denedim ama benim kullanımımda çok daha kötüydü
  Hızlı olması tek başına bir şey ifade etmiyor; düşük kaliteli kodu daha hızlı üretmek faydasız
  Gemini CLI daha yavaştı ve kalitesi de daha düşüktü
  Codex, içinde hata olsa bile “mükemmel” diye pohpohlama eğiliminde olduğu için riskli
- Yine de Codex araç setimde yer edindi
  İcra kabiliyeti çok güçlü ve OpenAI pazarlama yerine sonuçla konuşuyor
  Bu bana ilk dönem Google'ı, ürün kalitesiyle rekabet etme anlayışını hatırlatıyor
Opus 4.7'nin siber güvenlik filtresi o kadar sertleşti ki meşru araştırmaları bile engelliyor
Program yönergelerini doğrudan web'den alsam bile “tehlikeli istek” diye bloke ediliyor
Bu böyle devam ederse Codex'e geçeceğim
- Artık kimlik doğrulama (Identity Verification) da istenebilir
  Resmi duyuru'da olduğu gibi, bazı özelliklere erişim için doğrulama süreci gerekiyor
- Gerçekten de API'de “Usage Policy ihlali” hatası çıkıyor ve yanında Cyber Verification Program başvuru bağlantısı gösteriliyor
  Bu yüzden sürmekte olan araştırmam tamamen durdu
- Ben oturumun ortasında engellendim ama girdi aynıydı
  Muhtemelen model kendi reasoning sürecinde “saldırgan” görünen bir adımı tespit etti
  Bug hunting giderek saldırgan aşamalara yaklaştığında filtre devreye giriyor gibi
  Artık politika ihlali yeni segfault oldu denecek bir dünyadayız
- Daha kötüsü, kendi öz kodumu yazarken bile kendiliğinden “bu bir kötü amaçlı yazılım değildir” gibi cümleler üretmeye başladı
  Sadece belirli kelimeler geçse bile aşırı tepki veriyor
  Kendi projemin zararlı olup olmadığına AI'dan izin alıyormuşum gibi. Aboneliği iptal edeceğim
- PDF'i yazıcıya gönderme gibi basit bir işi bile reddetti
Bu başlık kurucular için iyi bir ders
Biraz dürüst iletişim bile ne kadar çok memnuniyetsizliği yatıştırabileceğini gösteriyor
Uygulamayı Opus 4.5'e sabitlemiş biri olarak şu anda sorunun modelden mi yoksa harness'tan mı kaynaklandığını bile ayırt etmek zor
- Bu tür başlıklarda hep “Anthropic modeli nerfledi” türü batıl inançlar oluyor
  Bazen sadece şanssızlık da olabilir
- Eğer yük nedeniyle modeli bilerek yavaşlatıyorlarsa, bunu açıkça söylemeleri önemli
  O zaman ben de çalışma saatlerimi ayarlayıp ağır işleri gece çalıştırabilirim
- Opus 4.5 daha tutarlıydı ama 4.6 çok dalgalıydı
- Acemi bir geliştiriciyim ve modeller arasındaki farkları öğreniyorum
  Böyle bir karmaşada model broker ya da Copilot benzeri bir ara katman kullanmanın akıllıca olduğunu düşünüyorum
- Bu tür istikrarsızlık yüzünden kullanıcılar paranoyaklaşmaya başlıyor
  “Standart AI” gibi her zaman aynı modeli sunan bir hizmete ihtiyaç varmış gibi geliyor
Ekibimizin özel benchmark sonuçlarına göre Opus 4.7, 4.6/4.5'e kıyasla daha stratejik ve daha zeki
GPT-5.4 ile neredeyse aynı seviyede, hatta araç kullanan agentic oturumlarda daha iyi performans gösteriyor
Benchmark bağlantısı
Ancak bağlam işleme tarafında ufak bir gerileme var. Bunu görselleştiren yeni bir benchmark ekliyoruz
- Opus 4.7'nin başarı oranı Sonnet 4.6'dan düşükken ortalama yüzdelik değerinin neden daha yüksek olduğu soruluyor
- 4.6 ya da 4.5'in ilk çıkıştan sonra performans gerilemesi yaşayıp yaşamadığına dair soru geliyor
Son dönemde Anthropic'e olan güven azaldı
4.6'nın düşürülmesinin hemen ardından 4.7'nin çıkması tedirgin edici
Artık şeffaf iletişim gerekiyor
- Sorunun özünde compute yetersizliği var
  OpenAI compute'a erkenden yatırım yaptı ve bunun avantajını şimdi görüyor
- Muhtemelen Mythos'u eğitirken Opus performansı düştü
  Hatta Mythos'u Opus 4.7'ye distillation ediyor olabilirler
- Bedrock tabanlı Claude'un da neden aynı şekilde yavaşladığı merak ediliyor
  Muhtemelen sebep harness güncellemesi
- Persona ID doğrulaması entegrasyonu bardağı taşıran son damla oldu. Ondan sonra ayrıldım
- Bunun böyle ne kadar daha sürdürülebileceği sorgulanıyor
Son zamanlarda “Codex'e geçtim” yorumları hızla arttı
Ama gerçekten kullanınca Codex'in hâlâ Claude seviyesine ulaşmadığı görülüyor
Bu tür reklam kokan yorumlar sadece güveni azaltıyor
- Ama gerçekte birçok geliştirici Codex'i tercih ediyor
  Bizim şirkette de iki modeli birlikte kullanıyoruz ama ben artık neredeyse sadece Codex kullanıyorum
  Hız ve sonuçlar bana daha iyi geliyor
- Ben de kısa bir pilot denedim; Codex problemi Claude'dan 4 kat daha hızlı çözdü
  Ama yanıt kalitesi Claude'da daha iyiydi. Artıları ve eksileri çok net
- Aynı refactoring işini verdiğimde Codex 5 dakikada, Claude 20 dakikada bitirdi
  Ama Codex'in çıktısı “teknik olarak doğru ama insani açıdan garip”ti
  Bu yüzden ben Claude ile spesifikasyonu yazdırıp Codex ile uygulatıyorum
- “Java en iyisi” diye alay ederek bu tartışmaların sonuçta programlama dili savaşlarından pek farklı olmadığını söylüyor
- OpenAI'nin aşırı sübvansiyon stratejisiyle pazar payı topladığı eleştirisi yapılıyor
  Sonradan fiyat artıracaklarından şüpheleniliyor
Opus 4.7'nin güvenlik kısıtlama politikası ölümcül olabilir
Saldırıları araştırıp savunma geliştirmek için simetrik yetenek gerekir; bunu engellemek tehlikeli
- Bu muhtemelen Mythos ürün konumlandırması için alınmış bir önlem gibi görünüyor
- Artık meşru güvenlik araştırması yapmak için modeli kandırmak zorunda kalınan bir noktaya gelindi
- Bu politikalar böyle sürerse platformdan ayrılacağım
- “Ölümcül” ifadesinin abartılı olduğu ama asimetrinin tam olarak nereden kaynaklandığının da sorulduğu bir görüş var
- Sonunda sadece Anthropic'in ya da devletin onayladığı yazılımların güvenli sayıldığı bir döneme gidiyor olabiliriz

Claude Opus 4.7

Claude Opus 4.7'ye genel bakış

Siber güvenlikle ilgili önlemler

Başlıca performans ve kullanıcı geri bildirimleri

İlk testlerde öne çıkan iyileştirmeler

Komut yorumlama doğruluğu

Güçlendirilmiş çok modlu destek

Gerçek iş performansı

Bellek kullanımı

Güvenlik ve hizalama değerlendirmesi

Ek olarak sunulan özellikler

Güçlendirilmiş Effort kontrolü

Claude Platform (API)

Claude Code

Opus 4.6'dan 4.7'ye geçiş

İlgili okumalar

1 yorum

Hacker News görüşleri