PonderTTT - TTT Tabanlı Uyarlanabilir Hesaplama Tahsisi
(ponderttt.worldsw.dev)Merhaba, bu lise öğrencisi olarak bağımsız araştırma kapsamında yürüttüğüm ilk arXiv makalesi.
Temel fikir:
LLM'lerin kolay girdiler ve zor girdiler için aynı miktarda hesaplama kullanması verimsiz olduğu için, TTT katmanının reconstruction loss'unu sinyal olarak kullanıp UPDATE/SKIP kararını veriyoruz.
Ek bir eğitim olmadan, yalnızca threshold + EMA ile Oracle'a kıyasla %82-89 performans elde ettik.
Bunu JAX/Flax ile uyguladık ve şu anda Gemma 3 ile ölçek büyütme doğrulaması yapıyoruz.
Geri bildirimlere açığım!
3 yorum
Lise öğrencisi olmanıza rağmen gerçekten etkileyicisiniz. Kefil sorununu nasıl çözdünüz?
Önceki araştırmaları yürüten yurt dışındaki doktora sahip hocalara yoğun şekilde cold email göndererek bunu aldım!
Ah, ne kadar da yerinde ve bilgece bir yanıt.