- Bu görevi çözüp Claude Opus 4.5'in en iyi performansını (1487 cycle) aşarsanız, kodunuzu ve özgeçmişinizi Anthropic'e gönderebilirsiniz
- İlk sürümde süre sınırı 4 saatti, ancak sonrasında Opus 4 çoğu insanı geçtiği için 2 saatlik sürüme dönüştürüldü
Anthropic'in orijinal performans take-home görevi
- Depo, Anthropic'in erken dönem performans değerlendirmesi için kullanılan görev sürümünü içeriyor
- Bu, Claude Opus 4.5'in 2 saat içindeki performansta insanları geçmesinden önceki sürüm
- Başlangıçta 4 saat süre sınırı olan görevdi, daha sonra 2 saatlik sürüme kısaltıldı
- 2 saatlik sürüm, 18532 cycle (7.97 kat daha hızlı performans) başlangıç kodunu temel alıyor
- Şu anda yayımlanan sürüm, güncel yapıyı korurken en yavaş baseline koduna geri döndürülmüş halde sunuluyor
- Claude Opus 4.5 sonrasında yeni bir referans kodu kullanılmaya başlandı
Performans benchmark'ı
- Tüm sayılar, simüle edilmiş makinenin clock cycle birimiyle ölçülüyor
- Sonuçlar, 2 saatlik sürüm (18532 cycle başlangıç kodu) baz alınarak ölçüldü
- Başlıca sonuçlar:
- 2164 cycle: Claude Opus 4 (test harness üzerinde uzun süre çalıştırma)
- 1790 cycle: Claude Opus 4.5 (normal kod oturumu, insanlarda en iyi seviyeye yakın)
- 1579 cycle: Claude Opus 4.5 (2 saatlik test harness çalıştırması)
- 1548 cycle: Claude Sonnet 4.5 (uzun süreli test harness çalıştırması)
- 1487 cycle: Claude Opus 4.5 (11.5 saatlik harness çalıştırması)
- 1363 cycle: Claude Opus 4.5 (iyileştirilmiş harness ortamı)
- İnsanların en iyi performansı, yukarıdaki değerlerden daha iyi ancak açıklanmıyor
Katılım ve gönderim rehberi
- Şu anda bu görev, süre sınırı olmadan herkesin deneyebileceği şekilde açık
- Katılımcı, Claude Opus 4.5'in en iyi sonucunu geçecek şekilde 1487 cycle veya altına optimize ederse, kodunu ve özgeçmişini e-postayla Anthropic'e gönderebilir
- E-posta adresi: performance-recruiting@anthropic.com
- Yeni modeller yayımlandıkça performans eşiği değişebilir
- Test çalıştırması
python tests/submission_tests.py komutuyla yapılabilir
1 yorum
Hacker News görüşleri
ALU ile VALU arasında denge kurma odaklı temel görev ilgi çekiciydi
Ancak yükleme bant genişliği sorunu bir darboğaz olabilir gibi görünüyor
Toplam yüklemeyi 2096'nın altında tutmak için başlangıç indeksinin her zaman 0 olduğunu varsaymak gerekiyor, ama bu da işi eğlencesiz kılıyor
Eğer dinamik vektör şeridi döndürme (dynamic vector lane rotate) gibi bir özellik olsaydı çok daha ilginç olabilirdi
Kendimi oldukça zeki sayıyorum ama böyle sorunları görünce ne kadar çok şey bilmediğimi fark ediyorum
Belki ortalamanın biraz üstündeyimdir ama üst düzey geliştiricilerle aradaki farkı hissettiriyor
Önemli olan, bilmediğin şeyle karşılaşınca öğrenmeye devam edebilme becerisi
Ben de üniversiteden sonra bir donanım şirketi mülakatında düşük seviye kod optimizasyonu sorusu almıştım ve ilk başta tamamen yabancı gelmişti
Bu kavramları öğrenip bu tür problemler üzerinde çalışırsan herkes çözebilir
Mesele ortalamanın altında ya da üstünde olmak değil, sadece farklı bir bilgi birikimine sahip olmak
Aslında bu o kadar da karmaşık değil
Kodu yeterince okuyup yapıyı anlaman gerekiyor
Gerçek farkı yaratan şey, programın bütün modelini zihninde kurabilmek
Anthropic bunu diğer yapay zeka şirketlerine karşı bir DDoS saldırısı olsun diye yayınlamış olabilir diye düşündüm
gemini CLI'ya “bu sorunu nasıl çözerim?” diye yazdım, 20 dakikadır hâlâ dönüyor
Sık sık “Yanıt hazırlanıyor. Tamamlandı. Çıktı veriliyor.” gibi bir döngüye giriyorlar
Bazen döngü tespit edilip durduruluyor ama basit işlerde bile 15 dakikadan fazla sürmesi yapısal bir sorun gibi
Ben G3Pro çıktıktan sonra denedim ama performansı berbattı
Birden fazla yapay zeka ajanını aynı koşullarda test ettim
Sonuçta Anthropic'in hedefini geçen bir model olmadı ama gpt-5-2 en hızlı ve verimli olandı
Bu kadar hızlı olduğuna göre potansiyeli daha yüksek olabilir
Acaba agent-comparison harness kodunu paylaşabilir misin?
“1487 çevrimin altına optimize edersen Anthropic'e e-posta gönder” diye bir ifade vardı,
bu tür bir işe alım yöntemi oldukça ilginç
Klasik Leetcode sorularından çok daha iyi hissettiriyor
Sonrasında diğer adaylar gibi yine Leetcode mülakatlarına giriyorsun
Çalışan birinin birden fazla şirkete başvururken bunu yapması gerçekçi değil
Leetcode tekrar kullanılabiliyor ama bu tür optimizasyon problemlerinin yeniden kullanılabilirliği düşük
Gerçekten çok eğlenceli bir problemdi
Optimizasyonla ilgilenen herkese denemesini öneririm
Ben bir hafta boyunca akşamlarımı verip 1112 çevrime kadar indirdim
Çoğunu elle yaptım ama günümüzün agentic modelleri daha iyi sonuç verebilir mi diye merak ediyorum
Bu görev bana demoscene ve code golf havası verdi
Chrome tracing aracıyla profil çıkarmak da çok hoş
Sorun kodu bağlantısı
Ama burada hangi algoritmanın uygulandığını merak ediyorum
Kısaca bakınca random forest tahmini gibi göründü
Kendi görüntüleyicini yapma zahmetinden kurtarıyor
SIMD, PTX ve optimizasyon tekniklerini öğreniyordum; bu görev iyi bir öğrenme fırsatı oldu
Ama take-home ödevi olarak fazla uzun olurdu
Gerçekte fikirleri kabaca çıkarmak ve kodu okumak bile herhalde 2 saatimi alırdı
Gerçek adaylar muhtemelen 6 saat ile 2 gün arasında zaman harcamıştır
Şu anda Opus ile 1 saat içinde 1137 çevrime kadar indim
Boru hattı vektörleştirilmiş hash, spekülatif yürütme, aşama başına statik kod ve her aşama için prolog/epilog gibi şeyler uyguladım
Artık 900'ün altı da mümkün gibi görünüyor
4. aşamada sadece 16. ve 0. bitlere bakarak 5. aşamadaki tek/çift durumunu paralel hesaplayabildiğini fark ettim