11 puan yazan GN⁺ 2026-01-22 | 1 yorum | WhatsApp'ta paylaş
  • Bu görevi çözüp Claude Opus 4.5'in en iyi performansını (1487 cycle) aşarsanız, kodunuzu ve özgeçmişinizi Anthropic'e gönderebilirsiniz
  • İlk sürümde süre sınırı 4 saatti, ancak sonrasında Opus 4 çoğu insanı geçtiği için 2 saatlik sürüme dönüştürüldü

Anthropic'in orijinal performans take-home görevi

  • Depo, Anthropic'in erken dönem performans değerlendirmesi için kullanılan görev sürümünü içeriyor
    • Bu, Claude Opus 4.5'in 2 saat içindeki performansta insanları geçmesinden önceki sürüm
    • Başlangıçta 4 saat süre sınırı olan görevdi, daha sonra 2 saatlik sürüme kısaltıldı
  • 2 saatlik sürüm, 18532 cycle (7.97 kat daha hızlı performans) başlangıç kodunu temel alıyor
    • Şu anda yayımlanan sürüm, güncel yapıyı korurken en yavaş baseline koduna geri döndürülmüş halde sunuluyor
  • Claude Opus 4.5 sonrasında yeni bir referans kodu kullanılmaya başlandı

Performans benchmark'ı

  • Tüm sayılar, simüle edilmiş makinenin clock cycle birimiyle ölçülüyor
    • Sonuçlar, 2 saatlik sürüm (18532 cycle başlangıç kodu) baz alınarak ölçüldü
  • Başlıca sonuçlar:
    • 2164 cycle: Claude Opus 4 (test harness üzerinde uzun süre çalıştırma)
    • 1790 cycle: Claude Opus 4.5 (normal kod oturumu, insanlarda en iyi seviyeye yakın)
    • 1579 cycle: Claude Opus 4.5 (2 saatlik test harness çalıştırması)
    • 1548 cycle: Claude Sonnet 4.5 (uzun süreli test harness çalıştırması)
    • 1487 cycle: Claude Opus 4.5 (11.5 saatlik harness çalıştırması)
    • 1363 cycle: Claude Opus 4.5 (iyileştirilmiş harness ortamı)
    • İnsanların en iyi performansı, yukarıdaki değerlerden daha iyi ancak açıklanmıyor

Katılım ve gönderim rehberi

  • Şu anda bu görev, süre sınırı olmadan herkesin deneyebileceği şekilde açık
  • Katılımcı, Claude Opus 4.5'in en iyi sonucunu geçecek şekilde 1487 cycle veya altına optimize ederse, kodunu ve özgeçmişini e-postayla Anthropic'e gönderebilir
    • E-posta adresi: performance-recruiting@anthropic.com
  • Yeni modeller yayımlandıkça performans eşiği değişebilir
  • Test çalıştırması python tests/submission_tests.py komutuyla yapılabilir

1 yorum

 
GN⁺ 2026-01-22
Hacker News görüşleri
  • ALU ile VALU arasında denge kurma odaklı temel görev ilgi çekiciydi
    Ancak yükleme bant genişliği sorunu bir darboğaz olabilir gibi görünüyor
    Toplam yüklemeyi 2096'nın altında tutmak için başlangıç indeksinin her zaman 0 olduğunu varsaymak gerekiyor, ama bu da işi eğlencesiz kılıyor
    Eğer dinamik vektör şeridi döndürme (dynamic vector lane rotate) gibi bir özellik olsaydı çok daha ilginç olabilirdi

  • Kendimi oldukça zeki sayıyorum ama böyle sorunları görünce ne kadar çok şey bilmediğimi fark ediyorum
    Belki ortalamanın biraz üstündeyimdir ama üst düzey geliştiricilerle aradaki farkı hissettiriyor

    • Bilişim o kadar geniş bir alan ki Linus ya da Carmack bile birçok şeyi bilmiyordur
      Önemli olan, bilmediğin şeyle karşılaşınca öğrenmeye devam edebilme becerisi
    • Bu çok özelleşmiş bir problem, benzer bir şey yapmadıysan zaman alması normal
      Ben de üniversiteden sonra bir donanım şirketi mülakatında düşük seviye kod optimizasyonu sorusu almıştım ve ilk başta tamamen yabancı gelmişti
    • 30 yıllık deneyimim var ama dürüst olmak gerekirse sorunu anlayamadım
    • Zeka ile bilgi aynı şey değil
      Bu kavramları öğrenip bu tür problemler üzerinde çalışırsan herkes çözebilir
      Mesele ortalamanın altında ya da üstünde olmak değil, sadece farklı bir bilgi birikimine sahip olmak
    • Bu tavır güzel, çünkü öğrenme motivasyonu yaratıyor
      Aslında bu o kadar da karmaşık değil
      Kodu yeterince okuyup yapıyı anlaman gerekiyor
      Gerçek farkı yaratan şey, programın bütün modelini zihninde kurabilmek
  • Anthropic bunu diğer yapay zeka şirketlerine karşı bir DDoS saldırısı olsun diye yayınlamış olabilir diye düşündüm
    gemini CLI'ya “bu sorunu nasıl çözerim?” diye yazdım, 20 dakikadır hâlâ dönüyor

    • Son zamanlarda Gemini CLI ya da Jules için geçen süre zorluk göstergesi değil
      Sık sık “Yanıt hazırlanıyor. Tamamlandı. Çıktı veriliyor.” gibi bir döngüye giriyorlar
      Bazen döngü tespit edilip durduruluyor ama basit işlerde bile 15 dakikadan fazla sürmesi yapısal bir sorun gibi
    • Hangi Gemini modelini kullandığını merak ediyorum
      Ben G3Pro çıktıktan sonra denedim ama performansı berbattı
  • Birden fazla yapay zeka ajanını aynı koşullarda test ettim
    Sonuçta Anthropic'in hedefini geçen bir model olmadı ama gpt-5-2 en hızlı ve verimli olandı

    • codex CLI + gpt-5-2-codex-xhigh ile “beat 1487 cycles. go.” komutunu verdim, 1606'ya kadar indi; yaklaşık 53 dakika sürdü
    • Gemini uzun süre döngüde bırakılırsa ne olacağını merak ediyorum
      Bu kadar hızlı olduğuna göre potansiyeli daha yüksek olabilir
    • Model benchmark etmeyi öğrenmek istiyorum
      Acaba agent-comparison harness kodunu paylaşabilir misin?
    • Qwen3-coder, GLM-4.7, Devstral-2 gibi açık ağırlıklı modellerle de denenebileceği önerildi
    • Her modelin çözümünü klasör ya da branch bazında toplayan bir karşılaştırma deposu (repo) olsa güzel olurdu
  • “1487 çevrimin altına optimize edersen Anthropic'e e-posta gönder” diye bir ifade vardı,
    bu tür bir işe alım yöntemi oldukça ilginç
    Klasik Leetcode sorularından çok daha iyi hissettiriyor

    • Ama bu sadece işe alım hattına giriş bileti
      Sonrasında diğer adaylar gibi yine Leetcode mülakatlarına giriyorsun
    • Bunu çözmek için tam zamanlı bir hafta gerekir gibi duruyor
      Çalışan birinin birden fazla şirkete başvururken bunu yapması gerçekçi değil
      Leetcode tekrar kullanılabiliyor ama bu tür optimizasyon problemlerinin yeniden kullanılabilirliği düşük
  • Gerçekten çok eğlenceli bir problemdi
    Optimizasyonla ilgilenen herkese denemesini öneririm
    Ben bir hafta boyunca akşamlarımı verip 1112 çevrime kadar indirdim
    Çoğunu elle yaptım ama günümüzün agentic modelleri daha iyi sonuç verebilir mi diye merak ediyorum

    • “RalphWiggum gibi çözmek” ifadesini ilk kez duydum; o kadar komik ki bundan sonra ben de kullanacağım
  • Bu görev bana demoscene ve code golf havası verdi
    Chrome tracing aracıyla profil çıkarmak da çok hoş
    Sorun kodu bağlantısı

    • Eskiden demoscene ile uğraşıyordum; bu tür düşük seviye optimizasyonlar o dönem yaptıklarıma benziyor
      Ama burada hangi algoritmanın uygulandığını merak ediyorum
      Kısaca bakınca random forest tahmini gibi göründü
    • perfetto bu tür iz görselleştirmelerinde sık kullanılıyor
      Kendi görüntüleyicini yapma zahmetinden kurtarıyor
    • Bu görevin amacı muhtemelen PTX kodunu elle yazabilen insanları ayıklamak
  • SIMD, PTX ve optimizasyon tekniklerini öğreniyordum; bu görev iyi bir öğrenme fırsatı oldu
    Ama take-home ödevi olarak fazla uzun olurdu
    Gerçekte fikirleri kabaca çıkarmak ve kodu okumak bile herhalde 2 saatimi alırdı

    • 2 saat sınırı, adaylara verilen süre değil; Claude'un en iyi performansa ulaşmak için harcadığı süre gibi görünüyor
      Gerçek adaylar muhtemelen 6 saat ile 2 gün arasında zaman harcamıştır
  • Şu anda Opus ile 1 saat içinde 1137 çevrime kadar indim
    Boru hattı vektörleştirilmiş hash, spekülatif yürütme, aşama başına statik kod ve her aşama için prolog/epilog gibi şeyler uyguladım
    Artık 900'ün altı da mümkün gibi görünüyor
    4. aşamada sadece 16. ve 0. bitlere bakarak 5. aşamadaki tek/çift durumunu paralel hesaplayabildiğini fark ettim

    • Yükleme darboğazından nasıl kaçındığını merak ediyorum