Andrej Karpathy'nin "ChatGPT Benzeri LLM'lere Derinlemesine Bakış" videosunun özeti

(anfalmushtaq.com)

2 puan yazan GN⁺ 2025-02-11 | 1 yorum | WhatsApp'ta paylaş

Bu derinlemesine analiz kimler için?

LLM'lerin gerçekte nasıl çalıştığını anlamak isteyenler: Yüzeysel bir anlayışın ötesine geçip LLM'lerin çalışma prensibini öğrenmek isteyenler.
Kafa karıştırıcı ince ayar terimlerini anlamak isteyenler: chat_template ve ChatML gibi terimleri anlamak isteyenler.
Prompt engineering'i geliştirmek isteyenler: Hangi prompt'ların daha iyi çalıştığını anlamak isteyenler.
Halüsinasyonu azaltmak isteyenler: LLM'lerin yanlış bilgi üretmesini önlemek isteyenler.
DeepSeek-R1'in önemini anlamak isteyenler: Şu anda dikkat çeken DeepSeek-R1'in neden önemli olduğunu öğrenmek isteyenler.

Ön eğitim verisi

İnternet

LLM'ler, interneti crawl ederek devasa metin veri kümeleri oluşturur.
Ham veri; yinelenen içerik, düşük kaliteli metinler ve alakasız bilgilerle dolu olduğu için eğitimden önce kapsamlı filtreleme gerekir.
Örneğin FineWeb veri kümesi, 1,2 milyardan fazla web sayfası içerir.

Tokenization

Tokenization, modelin metni işlemeden önce onu küçük parçalara, yani token'lara ayırma yöntemidir.
Byte Pair Encoding (BPE) gibi teknikler kullanılır.
GPT-4, 100.277 token kullanır.

Sinir ağı girdi/çıktısı

Token'lara ayrılmış veri sinir ağına girilir.
Model, öğrendiği örüntülere dayanarak bir sonraki token'ı tahmin eder.
Hataları azaltmak için ağırlıklar ayarlanır.

Sinir ağının içi

Modelin içinde milyarlarca parametre, giriş token'larıyla etkileşime girerek bir sonraki token için olasılık dağılımı üretir.
Model mimarisi; hız, doğruluk ve paralelleştirme arasında denge kuracak şekilde tasarlanır.

Çıkarım

LLM'ler deterministik çıktı üretmez; olasılıksaldır.
Her çalıştırmada çıktı biraz farklı olabilir.
Bu rastlantısallık, LLM'leri yaratıcı kılarken bazen yanlış bilgi üretmelerine de yol açar.

GPT-2

OpenAI'nin 2019'da yayımladığı GPT-2, erken dönem transformer tabanlı LLM'lere bir örnektir.
1,6 milyar parametreye, 1024 token'lık bağlam uzunluğuna sahiptir ve yaklaşık 100 milyar token ile eğitilmiştir.
Andrej Karpathy, llm.c kullanarak GPT-2'yi 672 dolara yeniden üretmiştir.

Açık kaynak taban modeller

Bazı şirketler büyük ölçekli LLM'ler eğitir ve taban modeli ücretsiz olarak yayımlar.
Taban modeller, ham internet metniyle eğitilir; tamamlama üretebilirler ancak insan niyetini anlamazlar.
OpenAI, GPT-2'yi açık kaynak olarak yayımlamıştır.
Meta, Llama 3.1'i (405B parametre) açık kaynak olarak yayımlamıştır.

Ön eğitimden son eğitime

Taban modeller çok sayıda halüsinasyon üretir.
Son eğitim, modeli daha iyi yanıtlar verecek şekilde ince ayar yapar.
Son eğitim, ön eğitime kıyasla çok daha ucuzdur.

Gözetimli ince ayar (SFT)

Veri diyalogları

Taban model, internet verisiyle eğitildikten sonra insan/asistan diyaloglarıyla son eğitimden geçirilir.
Diyalog şablonları kullanılarak modelin konuşmanın yapısını anlaması sağlanır.

Halüsinasyon, araç kullanımı ve bellek

LLM'lerin başlıca sorunlarından biri halüsinasyondur.
Meta, Llama 3 makalesinde olgusallığı iyileştirme yöntemlerini açıklar.
Halüsinasyonu azaltmak için araç kullanma yaklaşımı da vardır.

Pekiştirmeli öğrenme

Model, internet verisiyle eğitildikten sonra bilgiyi nasıl etkili kullanacağını bilmez.
Pekiştirmeli öğrenme (RL), deneme-yanılma yoluyla modeli geliştirir.

RL nasıl çalışır?

RL, modelin farklı çözümleri denemesini ve en iyi çözümü bulmasını sağlar.
Örneğin 15 çözüm üretilir ve yalnızca 4'ü doğru cevabı bulur.

İnsan geri bildirimiyle pekiştirmeli öğrenme (RLHF)

Doğrulanması zor alanlarda sürece insanları dahil etmek gerekir.
RLHF, modeli geliştirmek için insan geri bildirimini kullanır.

Geleceğe bakış

Çok modlu yetenekler: Yalnızca metni değil; görüntü, ses ve videoyu da anlar ve üretir.
Ajan tabanlı modeller: Tek bir görevin ötesine geçerek uzun süreli bellek, akıl yürütme ve hata düzeltme yapabilir.
Evrensel ve görünmez yapay zeka: İş akışlarına doğal biçimde entegre olur.
Bilgisayar kullanan yapay zeka: Yazılımlarla etkileşime girer ve metin üretmenin ötesinde görevler yapar.

LLM'ler nasıl bulunur?

Kapalı modeller: OpenAI (GPT-4), Google (Gemini), Anthropic (Claude) vb.
Açık ağırlıklı modeller: DeepSeek, Meta (Llama) vb.
Yerelde çalıştırma: Ollama veya LM Studio kullanımı.
Taban modeller: Hyperbolic üzerinde keşif.

1 yorum

GN⁺ 2025-02-11

Hacker News görüşleri

Orijinal video Hacker News ana sayfasından düştükten sonra bile tartışmak için iyi bir yer arıyordum
Videoyu izlerken aklıma birkaç soru takıldı
- Matematik ve LLM'ler
  - Andrej'in LLM'lere verdiği örneklerin neden çoğunun hesaplama problemleri olduğunu merak ediyorum
  - LLM'lerin hesaplama yeteneği güçlü ve kullanışlı hale geliyor, ancak bunun temel bir yetenek olmadığını düşünüyorum
  - Keşke LLM'nin temel yeteneğini gösteren prompt'larla matematiksel hesaplamaları ayırsa
  - Matematik yeteneği tartışması ya da LLM'lerin matematik yapmasının hikmeti hakkında iyi referanslar olsa iyi olurdu
- Meta
  - Andrej, LLM'lerin başka LLM'leri eğitmek ve değerlendirmek için kullanıldığı duruma kısaca değindi ama bunun hakkında pek tartışma yok
  - LLM kullanarak başka LLM'leri eğitmenin/değerlendirmenin sınırları ve riskleri hakkında daha fazlasını öğrenmek istiyorum
  - İlk sonuçlar ve ilerlemelerin daha güçlü tekniklerin geliştirilmesine hemen geri beslenmesi bana Manhattan Projesi ve nükleer silahları hatırlatıyor gibi geliyor
Meta'nın halüsinasyon sorununu çözme yaklaşımı ilginç
- Eğitim verisinin bir kısmını çıkarıp Llama 3 ile olgusal sorular üretiyorlar
- Llama 3 cevaplar üretiyor ve bunları orijinal veriyle karşılaştırarak puanlıyor
- Yanlışsa, model yanlış cevabı fark edip reddedecek şekilde eğitiliyor
- Bu, ML mühendislerinin doğal eğilimine ters düşüyor; modelin bilmediğini fark etmesini öğretmek önemli
Andrej'in videosu harika ama RL bölümünün açıklaması biraz muğlak geldi
- Doğru cevaplar üzerinden nasıl eğitim yapıldığını merak ediyorum
- Akıl yürütme sürecini toplayıp gözetimli öğrenme gibi mi eğitiyorlar, yoksa bir puan hesaplayıp bunu kayıp fonksiyonu olarak mı kullanıyorlar merak ediyorum
- Ödül çok seyrek olabilir; problem o kadar zorsa ki LLM doğru cevabı üretemiyorsa ne olduğunu merak ediyorum
- Parametre güncellemeleri sıralıyken LLM eğitimini nasıl paralelleştirebildiklerini merak ediyorum
Orijinal videoda 53. dakikada, LLM'nin öğrendiği metne dayanarak alıntı yapmadaki doğruluğu gösteriliyor
- Büyük şirketlerin mahkemede bunun telif hakkı ihlali olmadığına nasıl ikna ettiğini merak ediyorum
- Eğer bir modeli Disney karakterleri çizmeye eğitseydim, hemen dava edileceğimi hayal ediyorum
Bir modelin "tamamen" açık kaynak olması için, modelin kendisi ve nasıl çalıştırılacağının yanı sıra veriyi eğitebilen bir program da gerekli
- OSI'nin açık kaynak yapay zeka tanımına bakın
LLM hakkında çok sayıda makale okudum ve genel olarak nasıl çalıştıklarını anlıyorum, ama diğer modellerin neden SOTA modeller kadar iyi çalışmadığını hep merak etmişimdir
- Mevcut model mimarisinin tarihini ve gerekçesini merak ediyorum
Bugün iyi bir başlık gördüm: [bağlantı]
Onun LLC in C'sinin dersleri için sadece bir basamak taşı olması biraz üzücü
Muhtemelen gerçekten harika bir dersin harika bir özeti
- Orijinalini takip etmeyi düşünüyorum
Videoyu izlemedim ama TL;DR'deki tokenizasyon kısmını merak ettim
- Bağlantısı verilen makaledeki tokenize edilmiş metne bakınca, bunun "I View" değil aslında boru karakteri "|" olduğu görülüyor
- @miletus'un Hacker News yorumunda paylaştığı bağlantının 3. adımındaki tokenize edilmiş metin "|Viewing Single (Post From) . . ."
- Büyük harf kullanımı (View, Single), cümlenin bu kısmına bakınca daha anlamlı geliyor

Andrej Karpathy'nin "ChatGPT Benzeri LLM'lere Derinlemesine Bakış" videosunun özeti

Bu derinlemesine analiz kimler için?

Ön eğitim verisi

İnternet

Tokenization

Sinir ağı girdi/çıktısı

Sinir ağının içi

Çıkarım

GPT-2

Açık kaynak taban modeller

Ön eğitimden son eğitime

Gözetimli ince ayar (SFT)

Veri diyalogları

Halüsinasyon, araç kullanımı ve bellek

Pekiştirmeli öğrenme

RL nasıl çalışır?

İnsan geri bildirimiyle pekiştirmeli öğrenme (RLHF)

Geleceğe bakış

LLM'ler nasıl bulunur?

İlgili okumalar

1 yorum

Hacker News görüşleri