Bu derinlemesine analiz kimler için?
- LLM'lerin gerçekte nasıl çalıştığını anlamak isteyenler: Yüzeysel bir anlayışın ötesine geçip LLM'lerin çalışma prensibini öğrenmek isteyenler.
- Kafa karıştırıcı ince ayar terimlerini anlamak isteyenler:
chat_template ve ChatML gibi terimleri anlamak isteyenler.
- Prompt engineering'i geliştirmek isteyenler: Hangi prompt'ların daha iyi çalıştığını anlamak isteyenler.
- Halüsinasyonu azaltmak isteyenler: LLM'lerin yanlış bilgi üretmesini önlemek isteyenler.
- DeepSeek-R1'in önemini anlamak isteyenler: Şu anda dikkat çeken DeepSeek-R1'in neden önemli olduğunu öğrenmek isteyenler.
Ön eğitim verisi
İnternet
- LLM'ler, interneti crawl ederek devasa metin veri kümeleri oluşturur.
- Ham veri; yinelenen içerik, düşük kaliteli metinler ve alakasız bilgilerle dolu olduğu için eğitimden önce kapsamlı filtreleme gerekir.
- Örneğin FineWeb veri kümesi, 1,2 milyardan fazla web sayfası içerir.
Tokenization
- Tokenization, modelin metni işlemeden önce onu küçük parçalara, yani token'lara ayırma yöntemidir.
- Byte Pair Encoding (BPE) gibi teknikler kullanılır.
- GPT-4, 100.277 token kullanır.
Sinir ağı girdi/çıktısı
- Token'lara ayrılmış veri sinir ağına girilir.
- Model, öğrendiği örüntülere dayanarak bir sonraki token'ı tahmin eder.
- Hataları azaltmak için ağırlıklar ayarlanır.
Sinir ağının içi
- Modelin içinde milyarlarca parametre, giriş token'larıyla etkileşime girerek bir sonraki token için olasılık dağılımı üretir.
- Model mimarisi; hız, doğruluk ve paralelleştirme arasında denge kuracak şekilde tasarlanır.
Çıkarım
- LLM'ler deterministik çıktı üretmez; olasılıksaldır.
- Her çalıştırmada çıktı biraz farklı olabilir.
- Bu rastlantısallık, LLM'leri yaratıcı kılarken bazen yanlış bilgi üretmelerine de yol açar.
GPT-2
- OpenAI'nin 2019'da yayımladığı GPT-2, erken dönem transformer tabanlı LLM'lere bir örnektir.
- 1,6 milyar parametreye, 1024 token'lık bağlam uzunluğuna sahiptir ve yaklaşık 100 milyar token ile eğitilmiştir.
- Andrej Karpathy, llm.c kullanarak GPT-2'yi 672 dolara yeniden üretmiştir.
Açık kaynak taban modeller
- Bazı şirketler büyük ölçekli LLM'ler eğitir ve taban modeli ücretsiz olarak yayımlar.
- Taban modeller, ham internet metniyle eğitilir; tamamlama üretebilirler ancak insan niyetini anlamazlar.
- OpenAI, GPT-2'yi açık kaynak olarak yayımlamıştır.
- Meta, Llama 3.1'i (405B parametre) açık kaynak olarak yayımlamıştır.
Ön eğitimden son eğitime
- Taban modeller çok sayıda halüsinasyon üretir.
- Son eğitim, modeli daha iyi yanıtlar verecek şekilde ince ayar yapar.
- Son eğitim, ön eğitime kıyasla çok daha ucuzdur.
Gözetimli ince ayar (SFT)
Veri diyalogları
- Taban model, internet verisiyle eğitildikten sonra insan/asistan diyaloglarıyla son eğitimden geçirilir.
- Diyalog şablonları kullanılarak modelin konuşmanın yapısını anlaması sağlanır.
Halüsinasyon, araç kullanımı ve bellek
- LLM'lerin başlıca sorunlarından biri halüsinasyondur.
- Meta, Llama 3 makalesinde olgusallığı iyileştirme yöntemlerini açıklar.
- Halüsinasyonu azaltmak için araç kullanma yaklaşımı da vardır.
Pekiştirmeli öğrenme
- Model, internet verisiyle eğitildikten sonra bilgiyi nasıl etkili kullanacağını bilmez.
- Pekiştirmeli öğrenme (RL), deneme-yanılma yoluyla modeli geliştirir.
RL nasıl çalışır?
- RL, modelin farklı çözümleri denemesini ve en iyi çözümü bulmasını sağlar.
- Örneğin 15 çözüm üretilir ve yalnızca 4'ü doğru cevabı bulur.
İnsan geri bildirimiyle pekiştirmeli öğrenme (RLHF)
- Doğrulanması zor alanlarda sürece insanları dahil etmek gerekir.
- RLHF, modeli geliştirmek için insan geri bildirimini kullanır.
Geleceğe bakış
- Çok modlu yetenekler: Yalnızca metni değil; görüntü, ses ve videoyu da anlar ve üretir.
- Ajan tabanlı modeller: Tek bir görevin ötesine geçerek uzun süreli bellek, akıl yürütme ve hata düzeltme yapabilir.
- Evrensel ve görünmez yapay zeka: İş akışlarına doğal biçimde entegre olur.
- Bilgisayar kullanan yapay zeka: Yazılımlarla etkileşime girer ve metin üretmenin ötesinde görevler yapar.
LLM'ler nasıl bulunur?
- Kapalı modeller: OpenAI (GPT-4), Google (Gemini), Anthropic (Claude) vb.
- Açık ağırlıklı modeller: DeepSeek, Meta (Llama) vb.
- Yerelde çalıştırma: Ollama veya LM Studio kullanımı.
- Taban modeller: Hyperbolic üzerinde keşif.
1 yorum
Hacker News görüşleri
Orijinal video Hacker News ana sayfasından düştükten sonra bile tartışmak için iyi bir yer arıyordum
Videoyu izlerken aklıma birkaç soru takıldı
Meta'nın halüsinasyon sorununu çözme yaklaşımı ilginç
Andrej'in videosu harika ama RL bölümünün açıklaması biraz muğlak geldi
Orijinal videoda 53. dakikada, LLM'nin öğrendiği metne dayanarak alıntı yapmadaki doğruluğu gösteriliyor
Bir modelin "tamamen" açık kaynak olması için, modelin kendisi ve nasıl çalıştırılacağının yanı sıra veriyi eğitebilen bir program da gerekli
LLM hakkında çok sayıda makale okudum ve genel olarak nasıl çalıştıklarını anlıyorum, ama diğer modellerin neden SOTA modeller kadar iyi çalışmadığını hep merak etmişimdir
Bugün iyi bir başlık gördüm: [bağlantı]
Onun LLC in C'sinin dersleri için sadece bir basamak taşı olması biraz üzücü
Muhtemelen gerçekten harika bir dersin harika bir özeti
Videoyu izlemedim ama TL;DR'deki tokenizasyon kısmını merak ettim