Anthropic performans değerlendirme take-home görevini açık kaynak olarak yayımladı

(github.com/anthropics)

11 puan yazan GN⁺ 2026-01-22 | 1 yorum | WhatsApp'ta paylaş

Bu görevi çözüp Claude Opus 4.5'in en iyi performansını (1487 cycle) aşarsanız, kodunuzu ve özgeçmişinizi Anthropic'e gönderebilirsiniz
İlk sürümde süre sınırı 4 saatti, ancak sonrasında Opus 4 çoğu insanı geçtiği için 2 saatlik sürüme dönüştürüldü

Anthropic'in orijinal performans take-home görevi

Depo, Anthropic'in erken dönem performans değerlendirmesi için kullanılan görev sürümünü içeriyor
- Bu, Claude Opus 4.5'in 2 saat içindeki performansta insanları geçmesinden önceki sürüm
- Başlangıçta 4 saat süre sınırı olan görevdi, daha sonra 2 saatlik sürüme kısaltıldı
2 saatlik sürüm, 18532 cycle (7.97 kat daha hızlı performans) başlangıç kodunu temel alıyor
- Şu anda yayımlanan sürüm, güncel yapıyı korurken en yavaş baseline koduna geri döndürülmüş halde sunuluyor
Claude Opus 4.5 sonrasında yeni bir referans kodu kullanılmaya başlandı

Performans benchmark'ı

Tüm sayılar, simüle edilmiş makinenin clock cycle birimiyle ölçülüyor
- Sonuçlar, 2 saatlik sürüm (18532 cycle başlangıç kodu) baz alınarak ölçüldü
Başlıca sonuçlar:
- 2164 cycle: Claude Opus 4 (test harness üzerinde uzun süre çalıştırma)
- 1790 cycle: Claude Opus 4.5 (normal kod oturumu, insanlarda en iyi seviyeye yakın)
- 1579 cycle: Claude Opus 4.5 (2 saatlik test harness çalıştırması)
- 1548 cycle: Claude Sonnet 4.5 (uzun süreli test harness çalıştırması)
- 1487 cycle: Claude Opus 4.5 (11.5 saatlik harness çalıştırması)
- 1363 cycle: Claude Opus 4.5 (iyileştirilmiş harness ortamı)
- İnsanların en iyi performansı, yukarıdaki değerlerden daha iyi ancak açıklanmıyor

Katılım ve gönderim rehberi

Şu anda bu görev, süre sınırı olmadan herkesin deneyebileceği şekilde açık
Katılımcı, Claude Opus 4.5'in en iyi sonucunu geçecek şekilde 1487 cycle veya altına optimize ederse, kodunu ve özgeçmişini e-postayla Anthropic'e gönderebilir
- E-posta adresi: performance-recruiting@anthropic.com
Yeni modeller yayımlandıkça performans eşiği değişebilir
Test çalıştırması python tests/submission_tests.py komutuyla yapılabilir

1 yorum

GN⁺ 2026-01-22

Hacker News görüşleri

ALU ile VALU arasında denge kurma odaklı temel görev ilgi çekiciydi
Ancak yükleme bant genişliği sorunu bir darboğaz olabilir gibi görünüyor
Toplam yüklemeyi 2096'nın altında tutmak için başlangıç indeksinin her zaman 0 olduğunu varsaymak gerekiyor, ama bu da işi eğlencesiz kılıyor
Eğer dinamik vektör şeridi döndürme (dynamic vector lane rotate) gibi bir özellik olsaydı çok daha ilginç olabilirdi
Kendimi oldukça zeki sayıyorum ama böyle sorunları görünce ne kadar çok şey bilmediğimi fark ediyorum
Belki ortalamanın biraz üstündeyimdir ama üst düzey geliştiricilerle aradaki farkı hissettiriyor
- Bilişim o kadar geniş bir alan ki Linus ya da Carmack bile birçok şeyi bilmiyordur
  Önemli olan, bilmediğin şeyle karşılaşınca öğrenmeye devam edebilme becerisi
- Bu çok özelleşmiş bir problem, benzer bir şey yapmadıysan zaman alması normal
  Ben de üniversiteden sonra bir donanım şirketi mülakatında düşük seviye kod optimizasyonu sorusu almıştım ve ilk başta tamamen yabancı gelmişti
- 30 yıllık deneyimim var ama dürüst olmak gerekirse sorunu anlayamadım
- Zeka ile bilgi aynı şey değil
  Bu kavramları öğrenip bu tür problemler üzerinde çalışırsan herkes çözebilir
  Mesele ortalamanın altında ya da üstünde olmak değil, sadece farklı bir bilgi birikimine sahip olmak
- Bu tavır güzel, çünkü öğrenme motivasyonu yaratıyor
  Aslında bu o kadar da karmaşık değil
  Kodu yeterince okuyup yapıyı anlaman gerekiyor
  Gerçek farkı yaratan şey, programın bütün modelini zihninde kurabilmek
Anthropic bunu diğer yapay zeka şirketlerine karşı bir DDoS saldırısı olsun diye yayınlamış olabilir diye düşündüm
gemini CLI'ya “bu sorunu nasıl çözerim?” diye yazdım, 20 dakikadır hâlâ dönüyor
- Son zamanlarda Gemini CLI ya da Jules için geçen süre zorluk göstergesi değil
  Sık sık “Yanıt hazırlanıyor. Tamamlandı. Çıktı veriliyor.” gibi bir döngüye giriyorlar
  Bazen döngü tespit edilip durduruluyor ama basit işlerde bile 15 dakikadan fazla sürmesi yapısal bir sorun gibi
- Hangi Gemini modelini kullandığını merak ediyorum
  Ben G3Pro çıktıktan sonra denedim ama performansı berbattı
Birden fazla yapay zeka ajanını aynı koşullarda test ettim
Sonuçta Anthropic'in hedefini geçen bir model olmadı ama gpt-5-2 en hızlı ve verimli olandı
- codex CLI + gpt-5-2-codex-xhigh ile “beat 1487 cycles. go.” komutunu verdim, 1606'ya kadar indi; yaklaşık 53 dakika sürdü
- Gemini uzun süre döngüde bırakılırsa ne olacağını merak ediyorum
  Bu kadar hızlı olduğuna göre potansiyeli daha yüksek olabilir
- Model benchmark etmeyi öğrenmek istiyorum
  Acaba agent-comparison harness kodunu paylaşabilir misin?
- Qwen3-coder, GLM-4.7, Devstral-2 gibi açık ağırlıklı modellerle de denenebileceği önerildi
- Her modelin çözümünü klasör ya da branch bazında toplayan bir karşılaştırma deposu (repo) olsa güzel olurdu
“1487 çevrimin altına optimize edersen Anthropic'e e-posta gönder” diye bir ifade vardı,
bu tür bir işe alım yöntemi oldukça ilginç
Klasik Leetcode sorularından çok daha iyi hissettiriyor
- Ama bu sadece işe alım hattına giriş bileti
  Sonrasında diğer adaylar gibi yine Leetcode mülakatlarına giriyorsun
- Bunu çözmek için tam zamanlı bir hafta gerekir gibi duruyor
  Çalışan birinin birden fazla şirkete başvururken bunu yapması gerçekçi değil
  Leetcode tekrar kullanılabiliyor ama bu tür optimizasyon problemlerinin yeniden kullanılabilirliği düşük
Gerçekten çok eğlenceli bir problemdi
Optimizasyonla ilgilenen herkese denemesini öneririm
Ben bir hafta boyunca akşamlarımı verip 1112 çevrime kadar indirdim
Çoğunu elle yaptım ama günümüzün agentic modelleri daha iyi sonuç verebilir mi diye merak ediyorum
- “RalphWiggum gibi çözmek” ifadesini ilk kez duydum; o kadar komik ki bundan sonra ben de kullanacağım
Bu görev bana demoscene ve code golf havası verdi
Chrome tracing aracıyla profil çıkarmak da çok hoş
Sorun kodu bağlantısı
- Eskiden demoscene ile uğraşıyordum; bu tür düşük seviye optimizasyonlar o dönem yaptıklarıma benziyor
  Ama burada hangi algoritmanın uygulandığını merak ediyorum
  Kısaca bakınca random forest tahmini gibi göründü
- perfetto bu tür iz görselleştirmelerinde sık kullanılıyor
  Kendi görüntüleyicini yapma zahmetinden kurtarıyor
- Bu görevin amacı muhtemelen PTX kodunu elle yazabilen insanları ayıklamak
SIMD, PTX ve optimizasyon tekniklerini öğreniyordum; bu görev iyi bir öğrenme fırsatı oldu
Ama take-home ödevi olarak fazla uzun olurdu
Gerçekte fikirleri kabaca çıkarmak ve kodu okumak bile herhalde 2 saatimi alırdı
- 2 saat sınırı, adaylara verilen süre değil; Claude'un en iyi performansa ulaşmak için harcadığı süre gibi görünüyor
  Gerçek adaylar muhtemelen 6 saat ile 2 gün arasında zaman harcamıştır
Şu anda Opus ile 1 saat içinde 1137 çevrime kadar indim
Boru hattı vektörleştirilmiş hash, spekülatif yürütme, aşama başına statik kod ve her aşama için prolog/epilog gibi şeyler uyguladım
Artık 900'ün altı da mümkün gibi görünüyor
4. aşamada sadece 16. ve 0. bitlere bakarak 5. aşamadaki tek/çift durumunu paralel hesaplayabildiğini fark ettim
- Yükleme darboğazından nasıl kaçındığını merak ediyorum

Anthropic performans değerlendirme take-home görevini açık kaynak olarak yayımladı

Anthropic'in orijinal performans take-home görevi

Performans benchmark'ı

Katılım ve gönderim rehberi

İlgili okumalar

1 yorum

Hacker News görüşleri