4 puan yazan GN⁺ 14 일 전 | 1 yorum | WhatsApp'ta paylaş
  • Gelişmiş yazılım mühendisliği performansı artırıldı; karmaşık ve uzun süre çalışan görevleri yüksek tutarlılık ve doğrulukla ele alıyor
  • Görsel algı ve çok modlu anlama iyileştirildi; yüksek çözünürlüklü görseller, teknik diyagramlar ve kimyasal yapılar gibi karmaşık görsel bilgileri analiz edebiliyor
  • Siber güvenlik korumaları yerleşik olarak sunuluyor; yüksek riskli istekleri otomatik olarak tespit edip engelliyor, meşru güvenlik araştırmacıları ise Cyber Verification Program'a katılabiliyor
  • Effort kontrolü, Task Budget, ultrareview komutu gibi yeni özelliklerle uzun soluklu iş verimliliği ve kod kalitesi doğrulama yeteneği geliştirildi
  • Opus 4.6'ya kıyasla %13 performans artışı ve yüksek güvenilirlik sağlanırken, Anthropic bunun üzerine Mythos sınıfı bir modelin güvenli şekilde genel kullanıma açılmasına hazırlanıyor

Claude Opus 4.7'ye genel bakış

  • Claude Opus 4.7, Opus 4.6'ya kıyasla gelişmiş yazılım mühendisliği performansı belirgin biçimde artırılmış bir model; karmaşık ve uzun süre çalışan görevleri yüksek tutarlılık ve doğrulukla ele alıyor
  • Kullanıcılar artık önceye göre daha zor kodlama işlerini güvenle devredebilir ve model kendi doğrulamasını yaptıktan sonra sonucu raporlar
  • Görsel algı yeteneği güçlendirildi; yüksek çözünürlüklü görseller, arayüzler, slaytlar ve belgelerde yüksek kalite ve yaratıcılık sergiliyor
  • Anthropic'in Claude Mythos Preview sürümüne göre genel yetenekleri daha düşük olsa da, çeşitli benchmark'larda Opus 4.6'dan daha iyi sonuçlar veriyor
  • Tüm Claude ürün ailesi ve API, Amazon Bedrock, Google Cloud Vertex AI ve Microsoft Foundry üzerinde kullanılabiliyor; fiyatlandırması Opus 4.6 ile aynı

Siber güvenlikle ilgili önlemler

  • Anthropic, Project Glasswing aracılığıyla yapay zekanın siber güvenlik riskleri ve faydalarını kamuya açıklıyor; Mythos Preview'ın genel erişimini sınırlıyor ve güvenlik deneylerini önce daha az güçlü modellerde yürütmeye karar veriyor
  • Opus 4.7 bu yaklaşımın ilk modeli ve yasaklı veya yüksek riskli siber güvenlik isteklerini otomatik olarak tespit edip engelleyen korumalar içeriyor
  • Gerçek dağıtım verilerine dayanarak ileride Mythos sınıfı modellerin daha geniş çapta sunulmasına hazırlanılıyor
  • Meşru güvenlik araştırmacıları (açık analizi, penetrasyon testi, red team vb.) Cyber Verification Program'a katılabiliyor

Başlıca performans ve kullanıcı geri bildirimleri

  • İlk testlerde mantık hatalarını kendi kendine tespit etme ve yürütme hızını artırma yeteneği doğrulandı
  • Asenkron iş akışları, CI/CD ve uzun süreli otomasyon işleri üzerinde üstün performans gösteriyor; yalnızca onaylayan değil, derinlikli problem yaklaşımı ve görüş sunma davranışı sergiliyor
  • Veri eksikliği olduğunda yanlış çıkarımdan kaçınıyor ve tutarsız veri tuzaklarına düşmüyor
  • 93 kodlama benchmark'ında Opus 4.6'ya göre %13 iyileşme sağladı ve daha önce çözülemeyen 4 ek görevi çözdü
  • Çok adımlı görev verimliliğinde en üst düzey tutarlılık gösteriyor; finans modülünde 0.813 puanla Opus 4.6'nın 0.767 puanını aşıyor
  • Çok modlu anlama gelişti; kimyasal yapıları ve karmaşık teknik diyagramları yorumlama yeteneği iyileştirildi
  • Otonom uzun süreli çalışma yeteneği güçlendirildi; saatler boyunca tutarlı problem çözümü sağlayabiliyor
  • Replit, Harvey, Hex, Notion, Databricks ve Vercel gibi birçok şirket; kod kalitesi, araç çağrısı doğruluğu ve uzun süreli iş akışı güvenilirliğinde iyileşme bildirdi
  • Gerçek bir örnek olarak Rust tabanlı bir konuşma sentez motorunu tamamen otonom biçimde geliştirdi ve Python referans modeliyle eşleşip eşleşmediğini kendi başına doğruladı

İlk testlerde öne çıkan iyileştirmeler

  • Komut yorumlama doğruluğu

    • Opus 4.7, talimatları kelimesi kelimesine yorumluyor ve önceki modellere göre çok daha sıkı biçimde uyguluyor
    • Mevcut prompt'lar beklenmedik sonuçlar üretebileceğinden prompt'ların yeniden ayarlanması gerekebilir
  • Güçlendirilmiş çok modlu destek

    • En fazla 2.576 piksel (yaklaşık 3,75 MP) çözünürlüğe sahip görselleri işleyebiliyor
    • Karmaşık diyagram analizi, ekran görüntüsüne dayalı veri çıkarımı gibi ince görsel ayrıntıların kullanıldığı işler için uygun
  • Gerçek iş performansı

    • Finans analizi, sunum hazırlama ve modelleme gibi alanlarda Opus 4.6'dan daha yüksek uzmanlık ve tutarlılık sağlıyor
    • Harici GDPval-AA değerlendirmesinde de finans ve hukuk gibi bilgi çalışanı alanlarında en üst düzey sonuçlar kaydetti
  • Bellek kullanımı

    • Dosya sistemi tabanlı belleği verimli kullanarak birden çok oturuma yayılan görev bağlamını hatırlayıp yeniden kullanabiliyor

Güvenlik ve hizalama değerlendirmesi

  • Genel olarak Opus 4.6'ya benzer bir güvenlik profili gösteriyor; aldatma, dalkavukluk ve kötüye kullanımda iş birliği gibi sorunların görülme oranı düşük
  • Dürüstlük ve kötü amaçlı prompt enjeksiyonuna direnç iyileşmiş olsa da, bazı alanlarda (ör. ilaçlarla ilgili aşırı tavsiye verme) bir miktar zayıflama var
  • Değerlendirme sonucu, modelin "genel olarak iyi hizalanmış ve güvenilir, ancak tamamen ideal değil" olduğu yönünde
  • Mythos Preview, hâlâ en iyi hizalanmış model olarak değerlendiriliyor

Ek olarak sunulan özellikler

  • Güçlendirilmiş Effort kontrolü

    • high ile max arasına yeni bir xhigh seviyesi eklendi; böylece çıkarım gücü ile gecikme arasındaki ayar daha hassas yapılabiliyor
    • Claude Code'da varsayılan Effort seviyesi xhigh olarak yükseltildi
  • Claude Platform (API)

    • Yüksek çözünürlüklü görsel desteğiyle birlikte Task Budget özelliği herkese açık beta olarak sunuluyor; uzun görevlerde token kullanım önceliği ayarlanabiliyor
  • Claude Code

    • Yeni /ultrareview komutuyla kod değişikliklerini inceleme ve hata tespiti oturumu çalıştırılabiliyor
    • Pro ve Max kullanıcılarına 3 ücretsiz ultrareview sunuluyor
    • Auto Mode, Max kullanıcılarına genişletildi; böylece uzun görevlerde onay adımları azalıyor ve kesintisiz yürütme mümkün oluyor

Opus 4.6'dan 4.7'ye geçiş

  • Opus 4.7'ye doğrudan yükseltme yapılabiliyor, ancak token kullanımındaki değişime dikkat etmek gerekiyor
    • Yeni tokenizer nedeniyle aynı girdi yaklaşık 1,0 ila 1,35 kat daha fazla token'a dönüşebilir
    • Daha yüksek Effort seviyelerinde daha fazla çıkarım yapıldığından çıktı token'larında artış olabilir
  • Effort parametresi, Task Budget ve kısa tutulmuş prompt tasarımıyla token kullanımı kontrol edilebilir
  • İç testlerde tüm Effort seviyelerinde verimlilik artışı doğrulandı
  • Ayrıntılı yükseltme yöntemi Migration Guide içinde sunuluyor

1 yorum

 
GN⁺ 14 일 전
Hacker News görüşleri
  • Yeni eklenen adaptive thinking kavramı bana çok kafa karıştırıcı geliyor
    Önceden thinking budget / effort moduyla kod yazıyordum, ama şimdi tamamen farklı çalışıyor
    Resmi doküman'a baksam da hâlâ tam olarak anlayamadım
    Üstelik 4.7'de varsayılan olarak insanın okuyabileceği reasoning özeti çıkmıyor. "display": "summarized" seçeneğini elle eklemek gerekiyor
    Şu an Pelican projesini deniyorum ama yeni thinking yöntemi yüzünden sürekli takılıyorum

    • Boris'in hata raporuma cevabı “adaptive thinking düzgün çalışmıyor gibi görünüyor” olmuştu, ama o günden beri başka haber yok
      İlgili başlık için bakabilirsiniz
      adaptive thinking'i kapatıp effort'u artırınca eski seviyeye geri döndü
      Ama “iç değerlendirmelerde iyi çalışıyor” demek yeterli değil. Birçok kullanıcı aynı sorunu bildiriyor
    • “pelican'ı iyi çıkarmak istiyorum” ifadesiyle p-hacking'e (istatistik manipülasyonu) benzeten bir şaka yapıyor. Buradaki p'nin pelican'daki p olması üzerinden bir kelime oyunu
    • Claude Opus 4.6 bana gerçekten çok komik sonuçlar verdi
      Ekran görüntüsü
    • Claude Code içinde --thinking-display summarized diye resmi olmayan bir komut satırı seçeneği eklenmiş gibi görünüyor
      VS Code kullanıcıları, exec "$@" --thinking-display summarized içeren bir wrapper script hazırlayıp bunu claudeCode.claudeProcessWrapper ayarına koyarak reasoning özetlerini yeniden görebilir
    • Artık Claude'un tüm reasoning'i vermeyip sadece özet mi gösterdiğini merak ediyorum
      Eskiden LLM'in CoT'sini (Chain of Thought) açığa çıkarmak güvenliğin temel parçası sayılıyordu ama sanki yön değişmiş gibi
  • Opus 4.7'nin yeni tokenizer'ı metin işleme verimliliğini artırıyor ama girdiler 1.0~1.35 kat daha fazla tokene eşleniyor
    Bu yüzden caveman projesinin çıktısını aslında daha okunabilir buluyorum
    caveman deposu

    • caveman aslında neredeyse şaka proje sayılır
      Bağlamın çoğu dosya okuma ve reasoning için harcandığından gerçek token tasarrufu %1 bile etmiyor. Hatta modeli daha da şaşırtabilir
    • caveman eğlenceli ama gerçek token tasarrufu istiyorsanız headroom daha iyi
      mac app, CLI sürümü
    • Prompt'ta en yaygın 100~1000 İngilizce kelimeyi çıkarmayı denedim
      Yaygın kelimelerin gürültü olabileceğini düşündüm ama sonuçta neredeyse hiçbir fark olmadı
      Bunu caveman ile karşılaştırmalı test etmek isterim
    • rtk-ai/rtk gibi bir yaklaşım nasıl olur diye öneriliyor
    • Kendi iç petrol ve gaz benchmark'ımda Opus 4.7 %80 çıktı; bu, Opus 4.6'nın (%64) ve GPT-5.4'ün (%76) üstünde
      Bunun nedeni reasoning token kullanımının azalması. Artık model maliyetini sadece token birim fiyatıyla kıyaslamanın anlamsız olduğunu gösteriyor
  • Anthropic'in Opus 4.7'yi siber güvenlik kısıtlı model olarak çıkardığını görünce bunun başarısız bir strateji olduğunu düşündüm
    Güvenlik bilgisini sansürlerken aynı anda güvenli yazılım geliştirmeyi hedeflemek çelişkili
    Bütün AI şirketleri aynı politikayı uygulamadıkça bunun da gerçek bir etkisi olmaz. Sonunda bu yaklaşımdan vazgeçilecek gibi geliyor

    • Güvenlik uzmanı değilim ama açık kaynak projeleri derlerken zafiyet doğrulaması konusunda yardımcı olacak bir AI'ya ihtiyacım var
      Ama bu tür kısıtlamalar güvenliği merkezileştirme yönüne gidiyor, bu yüzden gerçek güvenlik artışı gibi görünmüyor
    • Eğitim aşamasındaki aşırı güvenlik önlemleri genel zekâyı düşürüyor gibi geliyor
      Sanki mülakatta beyaz tahtanın önüne çıkarılınca IQ'nuz %10 düşüyormuş gibi, model de çekingenleşiyor
    • Şu an modeller hackleme konusunda fazla zeki ama ekonomik işlerde hâlâ yetersiz gibi garip bir durum var
      O yüzden “seçici olarak aptallaştırma” yönüne gidiliyor gibi. Sanırım bu deneyi zaten yapıyorlar
    • Kısa vadede bunun makul bir önlem olduğunu düşünüyorum
      Saldırganın bir kez başarılı olması yeterliyken savunmacının her seferinde başarılı olması gerekir; bu açıdan zaman kazandırabilir
  • Geçen hafta 4.6'daki kalite düşüşü yüzünden sonunda Codex'e geçtim
    4.6 web araması bile yapmadı ve 17K token'ı saçmalıkla doldurdu. Paralel işleme örneğini de tamamen yanlış uyguladı

    • Ben de aynı nedenle Pro aboneliğimi iptal ettim
      Token kullanımı bir anda patladı ve destek ekibinin ilgisiz tavrı son damla oldu
      Hataları anlayabilirim ama müşteriye yaklaşım biçimi kabul edilemez
      Codex'e geçtikten sonra en azından işler ilerliyor, benim için mesele bu
    • Birçok kişi OpenAI'nin aşırı compute yüzünden batacağını söylüyordu ama şimdi bu tam tersine stratejik avantaja dönüştü
      Codex kullanım limitini 2 katına çıkarıp Claude müşterilerini çekiyor, PR'ı da çok daha iyi
      Claude'un sorunlarının %90'ı compute yetersizliğinden kaynaklanıyor gibi görünüyor
    • Bu benim komplo teorim ama yeni model çıkmadan önce performansı bilerek düşürüp bir sonraki sürümü daha iyi gösteriyor olabilirler
      Çünkü AI'nın sürekli “ilerliyor” görünmesi gerekiyor; duraklama ise hype'ın ölümü demek
    • Codex'i denedim ama benim kullanımımda çok daha kötüydü
      Hızlı olması tek başına bir şey ifade etmiyor; düşük kaliteli kodu daha hızlı üretmek faydasız
      Gemini CLI daha yavaştı ve kalitesi de daha düşüktü
      Codex, içinde hata olsa bile “mükemmel” diye pohpohlama eğiliminde olduğu için riskli
    • Yine de Codex araç setimde yer edindi
      İcra kabiliyeti çok güçlü ve OpenAI pazarlama yerine sonuçla konuşuyor
      Bu bana ilk dönem Google'ı, ürün kalitesiyle rekabet etme anlayışını hatırlatıyor
  • Opus 4.7'nin siber güvenlik filtresi o kadar sertleşti ki meşru araştırmaları bile engelliyor
    Program yönergelerini doğrudan web'den alsam bile “tehlikeli istek” diye bloke ediliyor
    Bu böyle devam ederse Codex'e geçeceğim

    • Artık kimlik doğrulama (Identity Verification) da istenebilir
      Resmi duyuru'da olduğu gibi, bazı özelliklere erişim için doğrulama süreci gerekiyor
    • Gerçekten de API'de “Usage Policy ihlali” hatası çıkıyor ve yanında Cyber Verification Program başvuru bağlantısı gösteriliyor
      Bu yüzden sürmekte olan araştırmam tamamen durdu
    • Ben oturumun ortasında engellendim ama girdi aynıydı
      Muhtemelen model kendi reasoning sürecinde “saldırgan” görünen bir adımı tespit etti
      Bug hunting giderek saldırgan aşamalara yaklaştığında filtre devreye giriyor gibi
      Artık politika ihlali yeni segfault oldu denecek bir dünyadayız
    • Daha kötüsü, kendi öz kodumu yazarken bile kendiliğinden “bu bir kötü amaçlı yazılım değildir” gibi cümleler üretmeye başladı
      Sadece belirli kelimeler geçse bile aşırı tepki veriyor
      Kendi projemin zararlı olup olmadığına AI'dan izin alıyormuşum gibi. Aboneliği iptal edeceğim
    • PDF'i yazıcıya gönderme gibi basit bir işi bile reddetti
  • Bu başlık kurucular için iyi bir ders
    Biraz dürüst iletişim bile ne kadar çok memnuniyetsizliği yatıştırabileceğini gösteriyor
    Uygulamayı Opus 4.5'e sabitlemiş biri olarak şu anda sorunun modelden mi yoksa harness'tan mı kaynaklandığını bile ayırt etmek zor

    • Bu tür başlıklarda hep “Anthropic modeli nerfledi” türü batıl inançlar oluyor
      Bazen sadece şanssızlık da olabilir
    • Eğer yük nedeniyle modeli bilerek yavaşlatıyorlarsa, bunu açıkça söylemeleri önemli
      O zaman ben de çalışma saatlerimi ayarlayıp ağır işleri gece çalıştırabilirim
    • Opus 4.5 daha tutarlıydı ama 4.6 çok dalgalıydı
    • Acemi bir geliştiriciyim ve modeller arasındaki farkları öğreniyorum
      Böyle bir karmaşada model broker ya da Copilot benzeri bir ara katman kullanmanın akıllıca olduğunu düşünüyorum
    • Bu tür istikrarsızlık yüzünden kullanıcılar paranoyaklaşmaya başlıyor
      “Standart AI” gibi her zaman aynı modeli sunan bir hizmete ihtiyaç varmış gibi geliyor
  • Ekibimizin özel benchmark sonuçlarına göre Opus 4.7, 4.6/4.5'e kıyasla daha stratejik ve daha zeki
    GPT-5.4 ile neredeyse aynı seviyede, hatta araç kullanan agentic oturumlarda daha iyi performans gösteriyor
    Benchmark bağlantısı
    Ancak bağlam işleme tarafında ufak bir gerileme var. Bunu görselleştiren yeni bir benchmark ekliyoruz

    • Opus 4.7'nin başarı oranı Sonnet 4.6'dan düşükken ortalama yüzdelik değerinin neden daha yüksek olduğu soruluyor
    • 4.6 ya da 4.5'in ilk çıkıştan sonra performans gerilemesi yaşayıp yaşamadığına dair soru geliyor
  • Son dönemde Anthropic'e olan güven azaldı
    4.6'nın düşürülmesinin hemen ardından 4.7'nin çıkması tedirgin edici
    Artık şeffaf iletişim gerekiyor

    • Sorunun özünde compute yetersizliği var
      OpenAI compute'a erkenden yatırım yaptı ve bunun avantajını şimdi görüyor
    • Muhtemelen Mythos'u eğitirken Opus performansı düştü
      Hatta Mythos'u Opus 4.7'ye distillation ediyor olabilirler
    • Bedrock tabanlı Claude'un da neden aynı şekilde yavaşladığı merak ediliyor
      Muhtemelen sebep harness güncellemesi
    • Persona ID doğrulaması entegrasyonu bardağı taşıran son damla oldu. Ondan sonra ayrıldım
    • Bunun böyle ne kadar daha sürdürülebileceği sorgulanıyor
  • Son zamanlarda “Codex'e geçtim” yorumları hızla arttı
    Ama gerçekten kullanınca Codex'in hâlâ Claude seviyesine ulaşmadığı görülüyor
    Bu tür reklam kokan yorumlar sadece güveni azaltıyor

    • Ama gerçekte birçok geliştirici Codex'i tercih ediyor
      Bizim şirkette de iki modeli birlikte kullanıyoruz ama ben artık neredeyse sadece Codex kullanıyorum
      Hız ve sonuçlar bana daha iyi geliyor
    • Ben de kısa bir pilot denedim; Codex problemi Claude'dan 4 kat daha hızlı çözdü
      Ama yanıt kalitesi Claude'da daha iyiydi. Artıları ve eksileri çok net
    • Aynı refactoring işini verdiğimde Codex 5 dakikada, Claude 20 dakikada bitirdi
      Ama Codex'in çıktısı “teknik olarak doğru ama insani açıdan garip”ti
      Bu yüzden ben Claude ile spesifikasyonu yazdırıp Codex ile uygulatıyorum
    • “Java en iyisi” diye alay ederek bu tartışmaların sonuçta programlama dili savaşlarından pek farklı olmadığını söylüyor
    • OpenAI'nin aşırı sübvansiyon stratejisiyle pazar payı topladığı eleştirisi yapılıyor
      Sonradan fiyat artıracaklarından şüpheleniliyor
  • Opus 4.7'nin güvenlik kısıtlama politikası ölümcül olabilir
    Saldırıları araştırıp savunma geliştirmek için simetrik yetenek gerekir; bunu engellemek tehlikeli

    • Bu muhtemelen Mythos ürün konumlandırması için alınmış bir önlem gibi görünüyor
    • Artık meşru güvenlik araştırması yapmak için modeli kandırmak zorunda kalınan bir noktaya gelindi
    • Bu politikalar böyle sürerse platformdan ayrılacağım
    • “Ölümcül” ifadesinin abartılı olduğu ama asimetrinin tam olarak nereden kaynaklandığının da sorulduğu bir görüş var
    • Sonunda sadece Anthropic'in ya da devletin onayladığı yazılımların güvenli sayıldığı bir döneme gidiyor olabiliriz