LLM’ler istisnai durumlardan ölümüne korkuyor
(twitter.com/karpathy)- Andrej Karpathy, “LLM’ler istisnalardan (Exception) ölümüne korkuyor (mortally terrified)” sözüyle, pekiştirmeli öğrenme (RL) sürecinde ortaya çıkan yan etkiyi hicvediyor
- LLM’lerin istisnai bir durumla karşılaştığında kendilerini durdurduğunu ya da aşırı savunmacı tepki verdiğini vurgularken, istisnaların geliştirme sürecinin doğal bir parçası olduğunu özellikle belirtiyor
- “Laboratuvarlar RL sırasında bu zavallı LLM’lere ne yapıyor (what labs are doing to these poor LLMs)” ifadesi, eğitim sürecinde modelin başarısızlıktan korkacak şekilde koşullandırıldığı gerçeğine yönelik bir eleştiri
- Karpathy, “istisna durumlarında ödülleri iyileştirelim (improved rewards in cases of exceptions)” şeklinde bir ‘LLM refah dilekçesi (LLM welfare petition)’ önerme şakasıyla,
modelin istisnalardan korkmadan onlarla başa çıkmasını sağlayacak ödül tasarımı sorununu hicvediyor - Bu tweet, sadece bir mizah değil; RLHF’nin modelin keşifçi düşünmesini ve deneysel tavrını baskılayabileceğine işaret eden bir mesaj olarak yorumlanıyor
> I don't know what labs are doing to these poor LLMs during RL but they are mortally terrified of exceptions, in any infinitesimally likely case. Exceptions are a normal part of life and healthy dev process. Sign my LLM welfare petition for improved rewards in cases of exceptions.
1 yorum
Hacker News görüşü
https://github.com/EnterpriseQualityCoding/FizzBuzzEnterpriseEdition
Ama öte yandan sıradan insan programcıların da gerçekte daha fazla try/catch bloğu yazması gerektiğini düşünüyorum. Bazı durumlarda, bir bölgede ortaya çıkan exception'ın — ne kadar nadir olursa olsun — tüm işlemi durdurmaması gerekir. Tabii bazı durumlarda da durdurması gerekir; bağlama göre değişir
b=0iken olabilir ama bu durum zatenabs(b) < sys.float_info.epsilonile kontrol edilmiş. Ayrıca ön kontrolde NaN döndürmeye izin verirken, gerçek işlemde NaN çıkarsa onuNoneile değiştiriyor; API tasarımı açısından temelsiz bir davranışimportkoyma eğilimi. Muhtemelen yalnızca en az değişikliği yansıtacak şekilde optimize edilmesinden doğan yapay bir yan etki ama daha iyi bir sonuç beklerdimxsonrasına “cancel” eklerseniz görüntüleyebilirsiniz https://xcancel.com/karpathy/status/1976082963382272334