13 puan yazan GN⁺ 2025-02-07 | 2 yorum | WhatsApp'ta paylaş
  • Genel kullanıcıları hedefleyen, ChatGPT ve ilgili ürünleri çalıştıran büyük dil modeli (LLM) yapay zeka teknolojisini derinlemesine açıklayan bir video (3 saat 31 dakika)
  • Modelin nasıl geliştirildiğine dair tüm eğitim yığınıyla birlikte, modelin 'psikolojisi' hakkında nasıl düşünülmesi gerektiğini, ayrıca gerçek uygulamalarda modelden en yüksek verimin nasıl alınacağına dair zihinsel modelleri ele alıyor
  • 1 yıl önce yayımlanan "Intro to LLMs" videosunun daha kapsamlı bir sürümü

Bölümler

00:00:00 introduction
00:01:00 pretraining data (internet)
00:07:47 tokenization
00:14:27 neural network I/O
00:20:11 neural network internals
00:26:01 inference
00:31:09 GPT-2: training and inference
00:42:52 Llama 3.1 base model inference
00:59:23 pretraining to post-training
01:01:06 post-training data (conversations)
01:20:32 hallucinations, tool use, knowledge/working memory
01:41:46 knowledge of self
01:46:56 models need tokens to think
02:01:11 tokenization revisited: models struggle with spelling
02:04:53 jagged intelligence
02:07:28 supervised finetuning to reinforcement learning
02:14:42 reinforcement learning
02:27:47 DeepSeek-R1
02:42:07 AlphaGo
02:48:26 reinforcement learning from human feedback (RLHF)
03:09:39 preview of things to come
03:15:15 keeping track of LLMs
03:18:34 where to find LLMs
03:21:46 grand summary

2 yorum

 
nicewook 2025-02-08

Bence Andrej Karpathy’nin videosunun dezavantajı(?) 1.5x hızın kesinlikle mümkün olmaması. Gerçekten çok hızlı konuşuyor. :-)

 
GN⁺ 2025-02-07
Hacker News görüşleri
  • Bu kişiye büyük saygı duyuyorum. İnsanla makine arasındaki boşluğu kapatan bir Neo gibi. Onun deposundan ve videolarından ücretsiz öğrendiklerim:

    • minGPT, nanoGPT (transformers)
    • NLP (daha fazla seri üretmeli)
    • tokenizers (YouTube kanalında)
    • RNN (blogunda)
    • Pek çok alanda Karpathy gibi insanlar yok ve onları duymuyoruz. Bu kişinin ML konusundaki sezgiyi yaymasından memnunum
  • Arkadaşlarıma Andrej'in lisansüstünde karşılaştığım en iyi eğitmen olduğunu söylüyorum. Stanford'a gitmedim ama onun CS321n YouTube videolarını izledim. Hâlâ video üretiyor olmasına çok seviniyorum

  • Transformer mimarisi ve eğitimi hakkında temelde aynı konuyu işleyen 5'ten fazla video yaptı. Bu videoda neyin farklı olduğunu merak ediyorum

  • Onun "let's build" serisini gerçekten seviyorum. İleri seviye içeriğin yanı sıra harika Python numaraları da öğreniyorum

  • Uzun formatlı videolara odaklanamadığım için hayal kırıklığına uğruyorum. Bu videoların kısa videolardan çok daha iyi olma ihtimali yüksek

  • CS231n projesinin bir parçası olarak Python listeleri kullanarak geri yayılım yapmayı hâlâ hatırlıyorum. Şaşırtıcı olan, Stanford'a gitmemiş olmam

  • Andrej'e teşekkürler. LLM'lerin nasıl çalıştığı ve nasıl eğitildiği konusunda oldukça iyi bir anlayışım var ama birçok arkadaşımda bu yok. Bu video ve ders onlara bir tür fikir veriyor

  • Videoları dağıtmanın başka bir yolu olsaydı keşke. YouTube'da içerik eninde sonunda kayboluyor. Bunun önemli bir içerik olduğunu düşünüyorum. Ne kadar çok insan yapay zekanın nasıl çalıştığını bilirse toplum o kadar güçlü olur

  • Hepsini izledim... yanaklarım uyuyakaldı ama buna değdi. Andrej'e teşekkürler

  • Ben basit bir insanım. Karpathy videosu görünce tıklar, izler ve keyif alırım