- Andrej Karpathy’nin 3 saat 31 dakikalık LLM derinlemesine inceleme videosunu kısa yoldan takip ederek çalışma prensiplerini, fine-tuning terimlerini, prompt’ları, halüsinasyonu ve DeepSeek-R1’i tek seferde kavramak isteyen okurlar için bir özet
- LLM’ler, büyük ölçekli web metinlerini temizleyip tokenize ettikten sonra, context window içinde bir sonraki token’ı tahmin edecek şekilde eğitilir; uzun context daha fazla bilgiyi hesaba katarken hesaplama maliyetini artırır
- Önceden eğitilmiş base model, internet tarzı metinleri devam ettiren olasılıksal bir otomatik tamamlama aracına yakındır; sohbet tipi bir asistana dönüşmesi için SFT ve alignment gibi post-training gerekir
- Halüsinasyonu azaltmak için modelin bilmediği soruları reddetmesi veya araç kullanımı ve RAG ile güncel bilgilere başvurması sağlanmalıdır; matematik ve mantık problemlerinde adım adım üretim ve harici araçlar daha uygundur
- Reinforcement learning, birden fazla yanıt deneyip başarılı çözümleri öğrenmeyi sağlar; ancak RLHF’de reward model insan tercihlerinin yaklaşık bir temsili olduğundan aşırı optimizasyon ve reward model’in kötüye kullanılması riskleri devam eder
Bu özetin hedeflediği okurlar
- Andrej Karpathy’nin "Deep dive into LLMs like ChatGPT" videosu 3 saat 31 dakika uzunluğundadır; bu da uzun izleme süresi harcamadan özü almak isteyen okurlar için bir TL;DR’dir
- Özellikle şu okurlara uygundur
- LLM’lerin yüzeysel olarak değil, gerçekte nasıl çalıştığını bilmek isteyenler
chat_template, ChatML gibi fine-tuning terimlerini anlamak isteyenler
- Prompt’ların neden iyi çalıştığını veya başarısız olduğunu anlayıp prompt engineering becerisini geliştirmek isteyenler
- LLM’lerin halüsinasyonunu azaltmak isteyenler
- DeepSeek-R1’in neden dikkat çektiğini anlamak isteyenler
- Videoda kullanılan Excalidraw diyagramları, CDN’de ayrı olarak barındırılan indirme bağlantısından alınabilir
Pre-training verisi ve tokenization
- LLM’ler interneti crawl ederek büyük ölçekli metin veri kümeleri oluşturur; ancak ham veride yinelenen içerik, düşük kaliteli metin ve ilgisiz bilgi çok olduğundan eğitim öncesinde güçlü filtreleme gerekir
- Yalnızca İngilizce bir model oluşturulacaksa İngilizce olma olasılığı yüksek metinleri bırakacak heuristic’ler gerekir
- Örnek veri kümesi FineWeb, 1,2 milyardan fazla web sayfası içerir
- Temizlenmiş metin modele ham haliyle girmez; yinelenen örüntüleri temsil eden ID’ler olan token’lara dönüştürülür
- Temsilî yöntem Byte Pair Encoding (BPE)’dir
- GPT-4 100.277 token kullanır; token sayısı model geliştiricisinin kararına bağlıdır
- Tokenization süreci Tiktokenizer ile görselleştirilebilir
Sinir ağının girdileri, çıktıları ve iç işleyişi
- Tokenize edilmiş veri sinir ağına girilir ve model belirli bir context window içinde bir sonraki token’ı tahmin eder
- Bazı modeller 8.000 token, GPT-4 ise en fazla 128k context kullanır
- Model, öğrenilmiş örüntülere dayanarak bir sonraki token’ı tahmin eder ve backpropagation ile hatayı azaltmak için ağırlıklarını ayarlar
- Uzun context window, girdideki daha fazla içeriğin hesaba katılmasını sağlar ama hesaplama maliyetini artırır
- Modelin içinde milyarlarca parametre, giriş token’larıyla etkileşime girerek bir sonraki token’ın olasılık dağılımını üretir
- Bu süreç, verimlilik için optimize edilmiş karmaşık matematik denklemleriyle tanımlanır
- Mimari; hız, doğruluk ve paralelleştirme arasında denge kuracak şekilde tasarlanır
- Production seviyesinde LLM mimarisi örnekleri bbycroft.net/llm üzerinde görülebilir
- LLM’in inference sonucu deterministik değil, olasılıksaldır
- Aynı model çalıştırılsa bile çıktı biraz değişir
- Çoğu zaman eğitim verisine benzer örüntüler izleyen yeni metinler üretir; ancak bazı durumlarda eğitim verisinin bir bölümüyle birebir eşleşebilir
- Bu rastlantısallık yaratıcı çıktının kaynağıdır, ama yanlış bilgi üreten halüsinasyonlara da yol açabilir
GPT-2 ve eğitim maliyetindeki değişim
- OpenAI’ın 2019’da yayımladığı GPT-2, erken dönem Transformer tabanlı LLM’lere bir örnektir
-
1,6 milyar parametre
-
1024 token context uzunluğu
- Yaklaşık 100 milyar token ile eğitildi
- Başlangıçtaki eğitim maliyeti 40 bin dolardı
- Sonrasında verimlilik büyük ölçüde iyileşti
- Andrej Karpathy, llm.c kullanarak GPT-2’yi 672 dolara yeniden üretti
- Optimize edilmiş bir pipeline kullanılırsa eğitim maliyeti yaklaşık 100 dolara kadar daha da düşebilir
- Maliyet düşüşü daha temiz veriden ve daha iyi execution ortamlarından kaynaklanır
- Daha iyi pre-training veri çıkarım teknikleri sayesinde veri kümeleri temizlenir ve model daha hızlı öğrenir
- Daha güçlü donanım ve optimize edilmiş yazılım sayesinde aynı sonuç için gereken hesaplama miktarı azalır
Open base model ve base model’in sınırları
- Burada sözü edilen open base model, OSI’nin açık kaynak yapay zeka tanımını sıkı biçimde izleyen bir model değil; ağırlıkları açık olan, ancak eğitim verisi ve tam yeniden üretilebilirliği sağlanmayabilen bir model anlamına gelir
- OpenAI’ın GPT-2’si open-weight ve source-available bir modeldir; ancak eğitim verisi yayımlanmadığı için OSI tanımına göre tam açık kaynak değildir
- Meta’nın Llama 3.1 405B’si open-weight bir modeldir, ancak açık kaynak model değildir
- Base model, önceden eğitilmiş ham bir dil modelidir; pratikte kullanılabilmesi için fine-tuning veya alignment gerekir
- İnternet ölçeğinde filtrelenmemiş veriyle eğitildiği için ham tamamlama metinleri üretir
- İnsan niyetine göre alignment’ı yetersizdir
- Bir base model’i yayımlamak için genellikle iki şey gerekir
- Base model’in davranış özellikleri şunlardır
- Token bazında internet tarzı metin üretir
- Her çalıştırıldığında çıktı biraz değişir
- Eğitim verisinin bir bölümünü aynen yeniden üretebilir
- Parametreler, internet bilgisinin kayıplı sıkıştırılmış zip dosyası gibi düşünülebilir
- In-context örneklerle çeviri veya yapılandırılmış prompt tabanlı temel asistan olarak kullanılabilir
- Llama 3 405B base model ile doğrudan deneme yapılabilir; özünde base model pahalı bir otomatik tamamlama aracına yakındır
Pre-training’den post-training’e
- Base model yalnızca önceden eğitilmiş bir metin üreticisidir; gerçek bir asistan oluşturmak için post-training gerekir
- Metin üretebilir, ancak her zaman faydalı yanıtlar vermez ve halüsinasyonu da fazladır
- Post-training, modelin daha iyi yanıtlar vermesi için yapılan fine-tuning sürecidir
- Pre-training aylar sürebilirken, post-training birkaç saat içinde tamamlanabilecek kadar çok daha ucuzdur
Supervised fine-tuning ve sohbet verisi
- Pre-training sonrasında model, internet veri kümeleri yerine insan/asistan sohbetleri verisiyle post-training’e alınarak daha konuşkan ve kullanışlı hale getirilir
- Model algoritması aynı kalır, mevcut parametreler fine-tune edilir
- İlk post-training veri kümeleri insanlar tarafından elle seçiliyordu; ancak UltraChat gibi modeller sentetik sohbetler üretebilir
- Sohbet yapısını öğretmek için chat template kullanılır
- Örnek template şöyledir
<|im_start|>system<|im_sep|>You are a helpful assistant<|im_end|>
<|im_start|>user<|im_sep|>What is 4 + 4?<|im_end|>
<|im_start|>assistant<|im_sep|>4 + 4 = 8<|im_end|>
<|im_start|>, <|im_end|> sohbet yapısına yardımcı olan özel token’lardır
- Model bu yeni token’ları pre-training sırasında görmemiştir; post-training’de tanıtılır
- OpenAI’ın InstructGPT makalesi, sohbet amaçlı LLM fine-tuning’ini ele alır
- Post-training veri kümesi örneği olarak OASST1 vardır; sentetik veri kümeleri Nomic Atlas üzerinde görselleştirilebilir
Halüsinasyon, araç kullanımı ve bellek
- LLM’lerin başlıca sorunlarından biri, kendinden emin şekilde yanlış veya uydurma bilgi üretmeleri olan halüsinasyondur
- Post-training sürecinde model her zaman yanıt vermesi gerektiğini öğrenebilir
- Soru anlamsız olsa bile “bilmiyorum” demek yerine yanıt üretmeye çalışır
- Meta’nın Llama 3 makalesi, doğruluğu iyileştirmek için şu prosedürü kullanır
- Eğitim verisinin bir bölümü çıkarılır
- Llama 3 ile bu veriye dair olgusal sorular üretilir
- Llama 3 yanıt üretir
- Orijinal veriyle karşılaştırılarak yanıt puanlanır
- Yanlışsa model, hatalı yanıtı tanıyıp reddedecek şekilde eğitilir
- Halüsinasyonu azaltmanın bir yolu, modelin yanıtı bilmediğinde araç kullanmasını öğrenmesini sağlamaktır
<|im_start|>user<|im_sep|>Who is Orson Kovacs?<|im_end|>
<|im_start|>assistant<|im_sep|><SEARCH_START>Who is Orson Kovacs?<SEARCH_END><|im_end|>
[...search results...]
<|im_start|>assistant<|im_sep|>Orson Kovacs is ....<|im_end|>
- Tekrarlı eğitimle model, bilmediği şeyi uydurmak yerine arama yapmayı öğrenir
- Model parametreleri, bir ay önceki olayları belli belirsiz hatırlamaya benzeyen soluk bir bellek depolar; context token’ları ise güncel bilgileri taşıyan çalışma belleği gibi çalışır
- RAG’nin iyi çalışmasının nedeni, modelin ilgili belgelere doğrudan eriştiğinde tahmin yürütme ihtiyacının azalmasıdır
Modelin öz farkındalığı ve reasoning token’ları
- Tune edilmemiş bir base model’e “sen kimsin?” diye sorulursa halüsinasyon üretme olasılığı vardır
- OpenAI tarafından yapılmamış olsa bile, internet verisinde yapay zeka modelleri ile OpenAI çok bağlantılı olduğu için OpenAI tarafından yapıldığını söyleyebilir
- Bunu düzeltmenin iki yolu vardır
- Ayrı bir eğitim yoksa LLM, kendisi hakkında gerçek bilgiye sahip olmadan genel yapay zeka yanıtlarına geri döner
- LLM insan gibi akıl yürütmez; token’ları sırayla ürettiği için doğru düşünmesi adına yapılandırılmış üretim gerekir
- Doğrudan yanıta atlarsa bu daha çok tahmine yakın olabilir
- Çözümü adım adım geliştirirse daha güvenilir olabilir
- Modelin layer sayısı sonlu olduğundan tek bir token çıktısı sonsuzca işlenemez; problemi küçük adımlara bölmek doğru yanıt olasılığını artırır
- Matematik ve mantık görevlerinde yalnızca modelin kendi akıl yürütmesine güvenmek yerine harici araçlar kullandırmak daha iyidir
Reinforcement learning ve DeepSeek
- Önceden eğitilmiş model bilgiye sahip olsa da bu bilgiyi etkili kullanmayı henüz bilmez
- Supervised fine-tuning, insan yanıtlarını taklit etmeyi öğretir
- Reinforcement learning, deneme yanılma yoluyla daha iyi çözümler bulmasını sağlar
- Reinforcement learning prosedürüne bir örnek şöyledir
- Aynı problem için 15 çözüm üretilir
- Bunlardan yalnızca 4’ü doğruysa, doğru ve kısa olan üst düzey çözümler seçilir
- Seçilen çözümlerle eğitim yapılır ve bu süreç birçok kez tekrarlanır
- Bu sürece insan doğrudan dahil olmaz; model aynı problem için çok sayıda çözüm üretir ve doğru sonuca ulaşan çözümleri seçip öğrenir
- Pre-training ve post-training iyi tanımlanmış olsa da reinforcement learning süreci hâlâ aktif araştırma konusudur
- OpenAI gibi şirketler de çok sayıda araştırma yapar, ancak kamuya açık olmayan kısımlar vardır
- DeepSeek’in makalesi, LLM’ler için RL ve FT’yi açık biçimde ele alır ve reasoning yeteneğinin nasıl ortaya çıkarıldığını açıklar
- DeepSeek makalesindeki örnekte model zamanla daha fazla token kullanarak reasoning’i iyileştirir
- Sözde “aha” anı, yalnızca veri kümesi eğitimiyle açıkça öğretilmesi zor olan ve modelin reinforcement learning yoluyla kendi başına keşfetmesi gereken türden bir şeydir
- Avantajı reasoning’in iyileşmesidir; dezavantajı ise daha fazla token tüketmesidir
AlphaGo ve reinforcement learning’in potansiyeli
- Go’da ustalaşma araştırmasında reinforcement learning, modelin insanları taklit etmekle kalmayıp deneme yanılmayla kendi stratejilerini bulmasını sağladı
- AlphaGo maçındaki Move 37, eğitim verisinde bulunan bir hamle değil; modelin kazanmak için ortaya çıkardığı bir strateji olarak tanıtılır
- Araştırmacılar bu hamlenin insandan gelme olasılığını 10 binde 1 olarak tahmin etti
- Reinforcement learning’in hâlâ keşfedilmemiş çok alanı vardır ve araştırmalar sürmektedir
- LLM, düşünce ve fikirleri ifade etmenin en iyi yolunun bu olduğuna karar verirse kendi dilini bile ortaya çıkarabilir
Doğrulanamayan alanlar ve RLHF
- Doğrulanabilir alanlarda insanı reinforcement learning sürecinden çıkarmak kolaydır; LLM kendi performansının hakemi gibi çalışabilir
- Şaka yazma veya özetleme gibi doğrulanamayan alanlarda insanı döngüye dahil etmek gerekir
Write a joke about pelicans gibi bir prompt’ta şakanın kalitesini otomatik olarak değerlendirmek zordur
- LLM şaka üretebilir, ancak kalitesini büyük ölçekte değerlendirmek zordur
- İnsanları büyük ölçekte dahil etmek de zor olduğundan RLHF makalesinde ele alınan yöntem gerekir
- RLHF, büyük ölçekte yanıt kalitesi değerlendirmesinde kullanılmak üzere ayrı bir reward model eğitir
- İnsanlar yanıt sıralamalarını değerlendirir
- Bu değerlendirmelerle reward model istenen seviyeye kadar eğitilir
- Ardından reward model, LLM yanıt kalitesini büyük ölçekte değerlendirir
RLHF’nin avantajları ve sınırları
- RLHF’nin avantajları şunlardır
- Şaka yazma veya özetleme gibi doğrulanamayan alanlarda da reinforcement learning’i mümkün kılar
- Halüsinasyonu azaltıp yanıtları daha insana benzer hale getirerek çoğu zaman modeli iyileştirir
- İnsanların yanıt üretmektense değerlendirmeyi daha kolay yapabildiği discriminator-generator gap’ten yararlanır
- Örn: “şiir yaz” demektense “bu 5 şiirden hangisi en iyi” seçmek daha kolaydır
- RLHF’nin sınırları da nettir
- Reward model gerçek insan değil, insan tercihlerinin simülasyonudur
- Reinforcement learning, reward model’in zayıflıklarını kötüye kullanan adversarial örnekler oluşturabilir
- Örneğin 1.000 güncellemeden sonra “pelikanlar hakkında en iyi şaka”
the the the the the the the the gibi anlamsız bir sonuç olabilir
- Bu sorun Adversarial Machine Learning olarak bilinir
- Sistemi kötüye kullanmanın sonsuz yolu olduğundan kötü yanıtları filtrelemek basit değildir
- Aşırı optimizasyonu ve performans düşüşünü önlemek için reward model eğitimi birkaç yüz tekrar düzeyinde sınırlanır
LLM’lerin gelecekteki yönü
- Gelecekte LLM’ler çeşitli yönlerde genişleyebilir
- Multimodal yetenekler: Yalnızca metni değil, görüntü, ses ve videoyu da anlar ve üretir
- Agent tabanlı modeller: Tekil görevlerin ötesine geçerek uzun süreli bellek, reasoning ve hata düzeltmeye yönelir
- Günlük ve görünmez yapay zeka: Workflow’lara doğal biçimde entegre olur
- Bilgisayar kullanan yapay zeka: Yalnızca metin üretmekle kalmaz, yazılımlarla etkileşime girer ve eylemler gerçekleştirir
- Test zamanı öğrenme: Doğruluğu anında artırmak için gerçek zamanlı uyum sağlar
LLM’leri takip edip deneyebileceğiniz yerler
- LLM gelişmelerini izlemek için kaynaklar
- LM Arena: yeni dil modellerini benchmark eder
- AI News: yapay zeka araştırmalarını ele alan newsletter
- X (Twitter): birçok araştırmacı güncellemelerini paylaşır
- Farklı LLM’leri deneyebileceğiniz yerler
- Proprietary Models: OpenAI GPT-4, Google Gemini, Anthropic Claude vb.
- Open-Weight Models: DeepSeek, Meta Llama vb.; Together.ai üzerinden kullanılabilir
- Yerel çalıştırma: Ollama veya LM Studio kullanın
- Base Models: Hyperbolic üzerinde keşfedilebilir
Henüz yorum yok.