Sinir Ağları: Sıfırdan Ustalığa

(karpathy.ai)

8 puan yazan GN⁺ 2026-01-05 | 1 yorum | WhatsApp'ta paylaş

Andrej Karpathy tarafından bizzat verilen bu kursta, sinir ağları sıfırdan kodla uygulanarak öğreniliyor
Geri yayılımın (backpropagation) temellerinden başlayıp GPT düzeyinde modern derin öğrenme modellerine kadar adım adım ilerleniyor
Öğrenim, dil modeli (language model) odağında ilerliyor; PyTorch, torch.Tensor, BatchNorm, WaveNet, GPT tokenizer gibi temel teknolojiler uygulamalı olarak ele alınıyor
Her ders, model eğitimi, kayıp hesaplama, hiperparametre ayarı, aşırı öğrenme teşhisi gibi gerçek geliştirme süreçleri etrafında kurgulanmış
Derin öğrenmenin iç çalışma mantığı ve optimizasyon sezgisi, sistematik bir uygulamalı müfredatla edinilebiliyor

Kursa Genel Bakış

Bu kurs, sinir ağlarını doğrudan kodlayarak uygulama üzerinden öğrenme süreci olarak tasarlanmış
- Temel matematik (türev, Gaussian) ve Python programlama becerisi gerekiyor
- Katılımcılar arası etkileşim için bir Discord kanalı sunuluyor
Eğitim, dil modeli odağında ilerliyor; bu yaklaşım, diğer alanlara (ör. bilgisayarlı görü) bilgi aktarımı açısından da faydalı

Ders İçeriği (Syllabus)

1. Intro to Neural Networks and Backpropagation (2h25m)

micrograd doğrudan uygulanarak geri yayılım ve sinir ağı eğitimi süreci adım adım anlatılıyor
- Yalnızca temel Python bilgisi ve lise düzeyinde kalkülüs ile anlaşılabilir

2. Intro to Language Modeling: Building makemore (1h57m)

Karakter düzeyinde bigram dil modeli uygulanıyor
- torch.Tensor kullanımına ve verimli sinir ağı hesaplama yöntemlerine değiniliyor
- Model eğitimi, örnekleme, kayıp değerlendirmesi (negatif log olasılık) süreçleri dahil

3. Building makemore Part 2: MLP (1h15m)

Çok katmanlı perceptron (MLP) tabanlı karakter düzeyi dil modeli uygulanıyor
- Öğrenme oranı ayarı, hiperparametreler, veri bölme (train/dev/test), aşırı öğrenme/yetersiz öğrenme gibi makine öğrenmesinin temel kavramları da yer alıyor

4. Building makemore Part 3: Activations & Gradients, BatchNorm (1h55m)

Çok katmanlı MLP'nin iç işleyişi analiz edilerek aktivasyonların ve gradyanların istatistiksel özellikleri inceleniyor
- Batch Normalization eklenerek eğitim kararlılığı artırılıyor
- Residual connection ve Adam optimizer daha sonraki videolarda ele alınacak

5. Building makemore Part 4: Becoming a Backprop Ninja (1h55m)

PyTorch autograd olmadan manuel geri yayılım yapılıyor
- Çapraz entropi kaybı, tanh, BatchNorm, embedding table gibi bileşenlerde geri yayılım doğrudan uygulanıyor
- Gradyan akışı ve tensör düzeyinde optimizasyon sezgisi güçlendiriliyor

6. Building makemore Part 5: Building a WaveNet (56m)

Önceki 2 katmanlı MLP genişletilerek WaveNet (2016) benzeri hiyerarşik CNN yapısı uygulanıyor
- torch.nn'in iç çalışma mantığı ve derin öğrenme geliştirme iş akışı (dokümantasyon tarama, tensör boyutlarını yönetme, kod entegrasyonu vb.) uygulamalı olarak işleniyor

7. Let's Build GPT: From Scratch, in Code (1h56m)

GPT modeli doğrudan uygulanıyor; yapı, “Attention is All You Need” makalesi ile OpenAI GPT-2/3 mimarisini takip ediyor
- ChatGPT ve GitHub Copilot ile bağlantısına da değiniliyor
- Önceki makemore derslerinde işlenen otoregresif dil modelleme ve PyTorch nn temelleri ön bilgi olarak kabul ediliyor

8. Let's Build the GPT Tokenizer (2h13m)

GPT serisinde kullanılan tokenizer sıfırdan uygulanıyor
- Byte Pair Encoding (BPE) tabanlı eğitim süreci dahil
- Dize↔token dönüşümü (encode/decode) işlevleri doğrudan uygulanıyor
- LLM'lerin anormal davranışlarının bazı nedenlerinin tokenization aşamasında bulunduğu örneklerle analiz ediliyor
- Tokenizer'ın kaldırılabilme ihtimali üzerine tartışmalar da yer alıyor

İlerleme Durumu

Kurs devam ediyor (ongoing) ve yeni videolar yüklenmeye devam edecek

1 yorum

GN⁺ 2026-01-05

Hacker News görüşleri

Bu video serisinin tamamını yılın başlarında izledim.
Daha önce derin öğrenmeyle ilgili kitaplar, Coursera dersleri, üniversite dersleri, fast.ai kursları gibi birçok kaynağa baktım ama bunları gerçek işimde neredeyse hiç kullanmıyorum.
Buna rağmen bu seri, şimdiye kadar gördüklerim arasında sezgiyi en iyi geliştiren içerikti. Neredeyse hiç gereksiz kısım yok ve sıkıcı değil.
Artık biri DNN’in düşük seviye prensiplerini öğrenmek istediğini söylerse ilk olarak bunu öneriyorum.
- Karpathy’nin anlatım tarzı çok sezgisel ama bazen fazla basitleştirilmiş oluyor.
  Yakın alanlardan gelen biri için biraz yavaş gelebilir, ama yine de her zaman ilgi çekici.
Karpathy’yi seviyorum. Benimkine benzer bir araştırma soyundan geliyor, bu yüzden başarılarıyla gurur duyuyorum.
Ben de kentsel ulaşım sistemleri için tahmin modelleri geliştirmek amacıyla uzay-zaman verisi modelleme üzerine çalışıyorum. ML altyapısını da kendim kuruyorum ve bunu gerçek trafik olay akışlarına dağıtacak bir uygulama da hazırlıyorum.
Deeplearning.ai ve skills.google üzerinden çevrimiçi eğitim aldım; ilki biraz eski kalmış gibi hissettirdi, ikincisi ise GPU·TPU optimizasyonu gibi pratik tarafları iyi ele alıyor.
Ama beni gerçekten uygulamacı yapan şey, Keras’ın yaratıcısı Francois Chollet’nin Deep Learning with Python kitabı oldu. Bu kitap, derin öğrenmenin 70 yıllık geçmişi bağlamında kavramları net biçimde açıklıyor ve hatta GPT ya da Diffusion modellerini doğrudan uygulayabilmek için tarifler de içeriyor.
Temel ders şu: “Derin öğrenme bilimden çok sanattır.” Çok fazla pratik gerekir ve sonuçları kusursuz şekilde açıklayamazsınız.
TensorFlow, PyTorch ve Jax için örnek notebook’lar da var. Bu sayede artık makale özetlerini yeniden üretip modelleri production’a dağıtabilecek kadar özgüven kazandım.
- Üzerinde çalıştığın proje ilginç görünüyor. Toplu ulaşım alanında ML/AI’ın nasıl kullanıldığını ve ajan tabanlı modellere kıyasla ne gibi avantajlar sunduğunu merak ediyorum.
Ben AI alanından gelmiyorum ve üniversitede 20 yıl önce aldığım giriş dersini de tamamen unuttum.
Bu materyalin tamamını bitirirsem yaklaşık olarak hangi seviyeye gelirim?
Bir şeyler üretebilecek ya da tartışmalara katılabilecek seviyede mi olurum, yoksa sadece kavramları anlayan biri olarak mı kalırım?
Araştırmacıların sahip olduğu sınırlar ve farkların ne olduğunu da merak ediyorum.
- Tuhaf bir soru gibi geliyor. Neden ihtiyaç duyduğunu bilmiyorsan muhtemelen ihtiyacın yoktur. 20 yıl önce aldığın giriş dersi gibi olma ihtimali yüksek.
Karşılaştırmak zor ama başka bir seçenek olarak Hugging Face öğrenme portalı da var.
Ben Deep RL Course alıyorum ve şimdiye kadar oldukça sezgisel geldi. Yalnız matematik kısmına gelince biraz zorlanacakmışım gibi duruyor.
- Karpathy videoları erişilebilirlik açısından çok iyiydi. Ben CS mezunuyum ama ML’yi derinlemesine öğrenmedim, matrislerle de yalnızca grafik geliştirmede kullanılan 4x4 düzeyinde uğraştım.
  Buna rağmen backprop ve tiny GPT uygulama sürecini anlayabildim. Karpathy’nin dersleri temel ilkeleri kavramak için mükemmel.
  Yalnız kütüphane odaklı pratik neredeyse hiç yok, bu yüzden bahsettiğin kurs gerçek iş için daha uygun olabilir.
- Birkaç Hugging Face kursu aldım ama tekrar almak istemem.
  Otomatik değerlendirme sistemi fazla biçimciydi; sadece cevabı tutturmak için cümleleri zorlayarak yazmak zorunda kaldım. Bu da öğrenme verimini düşürdü ve zaman kaybı oldu.
  Buna karşılık Karpathy videoları gerçekten mücevher gibi kaynaklardı.
İyi bir kaynak ama gerçekçi olmak gerekirse insanların %99,99’u ChatGPT, Claude, Gemini gibi foundation model’ları sadece kullanacak.
Bu yüzden bu öğrenme doğrudan pratik iş becerisine dönüşmeyebilir.
Bunun yerine Karpathy’nin şu diğer videosunu öneriyorum: Deep Dive into LLMs like ChatGPT
Birkaç yıl önce NumPy ile sinir ağını sıfırdan uygulama eğitimi yazmıştım.
Neural Network from Scratch in Python (NumPy)
Biraz tanıtım gibi olacak ama bu kursu aldıktan sonra iki yazı yazdım.
No local GPU? No problem – running Karpathy’s NanoGPT on Modal.com
Modal.com and NanoGPT continued – producing output using Tiktoken for bigger tokens
İlk videoyu bile anlamakta zorlanıyorum. Gerekli ön bilgi listesi gibi bir şey var mı?
- Matematiksel arka planı derinlemesine öğrenmek istiyorsan 3Blue1Brown videoları iyi olur.
  Sinir ağlarının temel mekanizması zor geliyorsa, önce kabaca izleyip sonra tekrar dönmeni öneririm. İkinci izleyişte çok daha iyi anlaşılıyor.
- Karpathy’nin bunu ilk video olarak seçmesi biraz garip.
  Video autograd’ın prensibini anlatıyor; yani PyTorch’un içeride türevleri otomatik hesaplama şekli.
  Eskiden TensorFlow ya da Torch’ta her katmanın türev fonksiyonunu elle tanımlamak gerekirdi, ama PyTorch çalışma sırasındaki Python kodunu kaydederek otomatik bir grafik oluşturuyor ve türevleri hesaplıyor.
  Bunu anlarsan PyTorch’un içeride nasıl çalıştığını da anlarsın.
  Ama çoğu kullanıcının iyi modeller kullanabilmek için bu iç yapıyı bilmesine gerek yok.
  Tam bir başlangıç seviyesindeysen Andrew Ng’nin Coursera üzerindeki Introduction to ML kursunu öneririm. Güncel sürümünü bilmiyorum ama kendisi harika bir eğitimci.
cs231n ile bu dersi de almış biri var mı?
cs231n en iyi derslerden biriydi ama bununla çok örtüşüyor gibi göründüğü için erteledim. Sanırım transformer kısmı eklenmiş.
Bu dersi de güçlü şekilde tavsiye ederim.
gradient descent ve normalization’ın neden işe yaradığını sezgisel olarak anlamanı sağlıyor ve eğitim dinamiklerini de derinlemesine ele alıyor.
Modelin gerçekten düzgün öğrenip öğrenmediğini değerlendirme hissini geliştiriyor.

Sinir Ağları: Sıfırdan Ustalığa

Kursa Genel Bakış

Ders İçeriği (Syllabus)

1. Intro to Neural Networks and Backpropagation (2h25m)

2. Intro to Language Modeling: Building makemore (1h57m)

3. Building makemore Part 2: MLP (1h15m)

4. Building makemore Part 3: Activations & Gradients, BatchNorm (1h55m)

5. Building makemore Part 4: Becoming a Backprop Ninja (1h55m)

6. Building makemore Part 5: Building a WaveNet (56m)

7. Let's Build GPT: From Scratch, in Code (1h56m)

8. Let's Build the GPT Tokenizer (2h13m)

İlerleme Durumu

İlgili okumalar

1 yorum

Hacker News görüşleri