GPT modelleri hakkında bir sorum var: Modelin en olası kelimeyi seçtiğini sanıyordum, ama eğer "olası" kelimelerden birini seçiyorsa, sonraki kelime tahmin listesi çok daha az olası hale gelmez mi? "İki kelime birlikte" olasılığını çalıştırmak hesaplama açısından mümkünse daha faydalı olurdu; bu 3, 4, n kelime için de geçerli olabilir. Böyle bir yaklaşımın var olup olmadığını merak ediyorum.
Videoyu izleyip yorumları okuduktan sonra düzeltme: Bu sorunu kontrol etmek için beam search ve temperature kullanılıyor.
Bir gruba attention mechanism öğretmek için daha iyi birini düşünemiyorum. Sanki bir rüya gerçek olmuş gibi.
Bu, 1 Nisan içerikleri için şaşırtıcı derecede iyi bir panzehir. Bunu doğrudan damarlarıma enjekte etmek istiyorum.
Andrej Karpathy'nin kanalında, programlama bilen insanlara yönelik olarak sinir ağlarını ve iç işleyişlerini anlatan birkaç ilgi çekici video var. Bunu beğendiyseniz tavsiye ederim.
Sonraki token, unembedding'den sonra son sütundaki logit'lerin örneklenmesiyle seçiliyor. Ama bu sadece son token'ı yeniden seçmek olmuyor mu? Yoksa bir aşamada matrisin boyutu N+1 olacak şekilde mi yeniden ölçekleniyor?
Sonraki videoyu bekleyemiyorum. Bunların nasıl çalıştığını sonunda gerçekten içselleştirip anlayabilecekmişim gibi hissediyorum.
3B1B, YouTube'daki en iyi STEM eğitmenlerinden biri.
1 yorum
Hacker News görüşleri