4 puan yazan devworld 2026-01-07 | 3 yorum | WhatsApp'ta paylaş

Merhaba, bu lise öğrencisi olarak bağımsız araştırma kapsamında yürüttüğüm ilk arXiv makalesi.

Paper | Code

Temel fikir:
LLM'lerin kolay girdiler ve zor girdiler için aynı miktarda hesaplama kullanması verimsiz olduğu için, TTT katmanının reconstruction loss'unu sinyal olarak kullanıp UPDATE/SKIP kararını veriyoruz.
Ek bir eğitim olmadan, yalnızca threshold + EMA ile Oracle'a kıyasla %82-89 performans elde ettik.

Bunu JAX/Flax ile uyguladık ve şu anda Gemma 3 ile ölçek büyütme doğrulaması yapıyoruz.

Geri bildirimlere açığım!

3 yorum

 
jhk0530 2026-01-07

Lise öğrencisi olmanıza rağmen gerçekten etkileyicisiniz. Kefil sorununu nasıl çözdünüz?

 
devworld 2026-01-07

Önceki araştırmaları yürüten yurt dışındaki doktora sahip hocalara yoğun şekilde cold email göndererek bunu aldım!

 
jhk0530 2026-01-07

Ah, ne kadar da yerinde ve bilgece bir yanıt.