2 puan yazan GN⁺ 2025-02-11 | Henüz yorum yok. | WhatsApp'ta paylaş
  • Andrej Karpathy’nin 3 saat 31 dakikalık LLM derinlemesine inceleme videosunu kısa yoldan takip ederek çalışma prensiplerini, fine-tuning terimlerini, prompt’ları, halüsinasyonu ve DeepSeek-R1’i tek seferde kavramak isteyen okurlar için bir özet
  • LLM’ler, büyük ölçekli web metinlerini temizleyip tokenize ettikten sonra, context window içinde bir sonraki token’ı tahmin edecek şekilde eğitilir; uzun context daha fazla bilgiyi hesaba katarken hesaplama maliyetini artırır
  • Önceden eğitilmiş base model, internet tarzı metinleri devam ettiren olasılıksal bir otomatik tamamlama aracına yakındır; sohbet tipi bir asistana dönüşmesi için SFT ve alignment gibi post-training gerekir
  • Halüsinasyonu azaltmak için modelin bilmediği soruları reddetmesi veya araç kullanımı ve RAG ile güncel bilgilere başvurması sağlanmalıdır; matematik ve mantık problemlerinde adım adım üretim ve harici araçlar daha uygundur
  • Reinforcement learning, birden fazla yanıt deneyip başarılı çözümleri öğrenmeyi sağlar; ancak RLHF’de reward model insan tercihlerinin yaklaşık bir temsili olduğundan aşırı optimizasyon ve reward model’in kötüye kullanılması riskleri devam eder

Bu özetin hedeflediği okurlar

  • Andrej Karpathy’nin "Deep dive into LLMs like ChatGPT" videosu 3 saat 31 dakika uzunluğundadır; bu da uzun izleme süresi harcamadan özü almak isteyen okurlar için bir TL;DR’dir
  • Özellikle şu okurlara uygundur
    • LLM’lerin yüzeysel olarak değil, gerçekte nasıl çalıştığını bilmek isteyenler
    • chat_template, ChatML gibi fine-tuning terimlerini anlamak isteyenler
    • Prompt’ların neden iyi çalıştığını veya başarısız olduğunu anlayıp prompt engineering becerisini geliştirmek isteyenler
    • LLM’lerin halüsinasyonunu azaltmak isteyenler
    • DeepSeek-R1’in neden dikkat çektiğini anlamak isteyenler
  • Videoda kullanılan Excalidraw diyagramları, CDN’de ayrı olarak barındırılan indirme bağlantısından alınabilir

Pre-training verisi ve tokenization

  • LLM’ler interneti crawl ederek büyük ölçekli metin veri kümeleri oluşturur; ancak ham veride yinelenen içerik, düşük kaliteli metin ve ilgisiz bilgi çok olduğundan eğitim öncesinde güçlü filtreleme gerekir
    • Yalnızca İngilizce bir model oluşturulacaksa İngilizce olma olasılığı yüksek metinleri bırakacak heuristic’ler gerekir
    • Örnek veri kümesi FineWeb, 1,2 milyardan fazla web sayfası içerir
  • Temizlenmiş metin modele ham haliyle girmez; yinelenen örüntüleri temsil eden ID’ler olan token’lara dönüştürülür
    • Temsilî yöntem Byte Pair Encoding (BPE)’dir
    • GPT-4 100.277 token kullanır; token sayısı model geliştiricisinin kararına bağlıdır
    • Tokenization süreci Tiktokenizer ile görselleştirilebilir

Sinir ağının girdileri, çıktıları ve iç işleyişi

  • Tokenize edilmiş veri sinir ağına girilir ve model belirli bir context window içinde bir sonraki token’ı tahmin eder
    • Bazı modeller 8.000 token, GPT-4 ise en fazla 128k context kullanır
    • Model, öğrenilmiş örüntülere dayanarak bir sonraki token’ı tahmin eder ve backpropagation ile hatayı azaltmak için ağırlıklarını ayarlar
    • Uzun context window, girdideki daha fazla içeriğin hesaba katılmasını sağlar ama hesaplama maliyetini artırır
  • Modelin içinde milyarlarca parametre, giriş token’larıyla etkileşime girerek bir sonraki token’ın olasılık dağılımını üretir
    • Bu süreç, verimlilik için optimize edilmiş karmaşık matematik denklemleriyle tanımlanır
    • Mimari; hız, doğruluk ve paralelleştirme arasında denge kuracak şekilde tasarlanır
    • Production seviyesinde LLM mimarisi örnekleri bbycroft.net/llm üzerinde görülebilir
  • LLM’in inference sonucu deterministik değil, olasılıksaldır
    • Aynı model çalıştırılsa bile çıktı biraz değişir
    • Çoğu zaman eğitim verisine benzer örüntüler izleyen yeni metinler üretir; ancak bazı durumlarda eğitim verisinin bir bölümüyle birebir eşleşebilir
    • Bu rastlantısallık yaratıcı çıktının kaynağıdır, ama yanlış bilgi üreten halüsinasyonlara da yol açabilir

GPT-2 ve eğitim maliyetindeki değişim

  • OpenAI’ın 2019’da yayımladığı GPT-2, erken dönem Transformer tabanlı LLM’lere bir örnektir
    • 1,6 milyar parametre

    • 1024 token context uzunluğu

      • Yaklaşık 100 milyar token ile eğitildi
      • Başlangıçtaki eğitim maliyeti 40 bin dolar
      • Sonrasında verimlilik büyük ölçüde iyileşti
      • Andrej Karpathy, llm.c kullanarak GPT-2’yi 672 dolara yeniden üretti
      • Optimize edilmiş bir pipeline kullanılırsa eğitim maliyeti yaklaşık 100 dolara kadar daha da düşebilir
      • Maliyet düşüşü daha temiz veriden ve daha iyi execution ortamlarından kaynaklanır
      • Daha iyi pre-training veri çıkarım teknikleri sayesinde veri kümeleri temizlenir ve model daha hızlı öğrenir
      • Daha güçlü donanım ve optimize edilmiş yazılım sayesinde aynı sonuç için gereken hesaplama miktarı azalır

Open base model ve base model’in sınırları

  • Burada sözü edilen open base model, OSI’nin açık kaynak yapay zeka tanımını sıkı biçimde izleyen bir model değil; ağırlıkları açık olan, ancak eğitim verisi ve tam yeniden üretilebilirliği sağlanmayabilen bir model anlamına gelir
    • OpenAI’ın GPT-2’si open-weight ve source-available bir modeldir; ancak eğitim verisi yayımlanmadığı için OSI tanımına göre tam açık kaynak değildir
    • Meta’nın Llama 3.1 405B’si open-weight bir modeldir, ancak açık kaynak model değildir
  • Base model, önceden eğitilmiş ham bir dil modelidir; pratikte kullanılabilmesi için fine-tuning veya alignment gerekir
    • İnternet ölçeğinde filtrelenmemiş veriyle eğitildiği için ham tamamlama metinleri üretir
    • İnsan niyetine göre alignment’ı yetersizdir
  • Bir base model’i yayımlamak için genellikle iki şey gerekir
  • Base model’in davranış özellikleri şunlardır
    • Token bazında internet tarzı metin üretir
    • Her çalıştırıldığında çıktı biraz değişir
    • Eğitim verisinin bir bölümünü aynen yeniden üretebilir
    • Parametreler, internet bilgisinin kayıplı sıkıştırılmış zip dosyası gibi düşünülebilir
    • In-context örneklerle çeviri veya yapılandırılmış prompt tabanlı temel asistan olarak kullanılabilir
  • Llama 3 405B base model ile doğrudan deneme yapılabilir; özünde base model pahalı bir otomatik tamamlama aracına yakındır

Pre-training’den post-training’e

  • Base model yalnızca önceden eğitilmiş bir metin üreticisidir; gerçek bir asistan oluşturmak için post-training gerekir
  • Metin üretebilir, ancak her zaman faydalı yanıtlar vermez ve halüsinasyonu da fazladır
  • Post-training, modelin daha iyi yanıtlar vermesi için yapılan fine-tuning sürecidir
  • Pre-training aylar sürebilirken, post-training birkaç saat içinde tamamlanabilecek kadar çok daha ucuzdur

Supervised fine-tuning ve sohbet verisi

  • Pre-training sonrasında model, internet veri kümeleri yerine insan/asistan sohbetleri verisiyle post-training’e alınarak daha konuşkan ve kullanışlı hale getirilir
    • Model algoritması aynı kalır, mevcut parametreler fine-tune edilir
    • İlk post-training veri kümeleri insanlar tarafından elle seçiliyordu; ancak UltraChat gibi modeller sentetik sohbetler üretebilir
  • Sohbet yapısını öğretmek için chat template kullanılır
  • Örnek template şöyledir
<|im_start|>system<|im_sep|>You are a helpful assistant<|im_end|>
<|im_start|>user<|im_sep|>What is 4 + 4?<|im_end|>
<|im_start|>assistant<|im_sep|>4 + 4 = 8<|im_end|>
  • <|im_start|>, <|im_end|> sohbet yapısına yardımcı olan özel token’lardır
    • Model bu yeni token’ları pre-training sırasında görmemiştir; post-training’de tanıtılır
    • OpenAI’ın InstructGPT makalesi, sohbet amaçlı LLM fine-tuning’ini ele alır
  • Post-training veri kümesi örneği olarak OASST1 vardır; sentetik veri kümeleri Nomic Atlas üzerinde görselleştirilebilir

Halüsinasyon, araç kullanımı ve bellek

  • LLM’lerin başlıca sorunlarından biri, kendinden emin şekilde yanlış veya uydurma bilgi üretmeleri olan halüsinasyondur
    • Post-training sürecinde model her zaman yanıt vermesi gerektiğini öğrenebilir
    • Soru anlamsız olsa bile “bilmiyorum” demek yerine yanıt üretmeye çalışır
  • Meta’nın Llama 3 makalesi, doğruluğu iyileştirmek için şu prosedürü kullanır
    • Eğitim verisinin bir bölümü çıkarılır
    • Llama 3 ile bu veriye dair olgusal sorular üretilir
    • Llama 3 yanıt üretir
    • Orijinal veriyle karşılaştırılarak yanıt puanlanır
    • Yanlışsa model, hatalı yanıtı tanıyıp reddedecek şekilde eğitilir
  • Halüsinasyonu azaltmanın bir yolu, modelin yanıtı bilmediğinde araç kullanmasını öğrenmesini sağlamaktır
<|im_start|>user<|im_sep|>Who is Orson Kovacs?<|im_end|>
<|im_start|>assistant<|im_sep|><SEARCH_START>Who is Orson Kovacs?<SEARCH_END><|im_end|>

[...search results...]

<|im_start|>assistant<|im_sep|>Orson Kovacs is ....<|im_end|>
  • Tekrarlı eğitimle model, bilmediği şeyi uydurmak yerine arama yapmayı öğrenir
  • Model parametreleri, bir ay önceki olayları belli belirsiz hatırlamaya benzeyen soluk bir bellek depolar; context token’ları ise güncel bilgileri taşıyan çalışma belleği gibi çalışır
  • RAG’nin iyi çalışmasının nedeni, modelin ilgili belgelere doğrudan eriştiğinde tahmin yürütme ihtiyacının azalmasıdır

Modelin öz farkındalığı ve reasoning token’ları

  • Tune edilmemiş bir base model’e “sen kimsin?” diye sorulursa halüsinasyon üretme olasılığı vardır
    • OpenAI tarafından yapılmamış olsa bile, internet verisinde yapay zeka modelleri ile OpenAI çok bağlantılı olduğu için OpenAI tarafından yapıldığını söyleyebilir
  • Bunu düzeltmenin iki yolu vardır
  • Ayrı bir eğitim yoksa LLM, kendisi hakkında gerçek bilgiye sahip olmadan genel yapay zeka yanıtlarına geri döner
  • LLM insan gibi akıl yürütmez; token’ları sırayla ürettiği için doğru düşünmesi adına yapılandırılmış üretim gerekir
    • Doğrudan yanıta atlarsa bu daha çok tahmine yakın olabilir
    • Çözümü adım adım geliştirirse daha güvenilir olabilir
    • Modelin layer sayısı sonlu olduğundan tek bir token çıktısı sonsuzca işlenemez; problemi küçük adımlara bölmek doğru yanıt olasılığını artırır
  • Matematik ve mantık görevlerinde yalnızca modelin kendi akıl yürütmesine güvenmek yerine harici araçlar kullandırmak daha iyidir

Reinforcement learning ve DeepSeek

  • Önceden eğitilmiş model bilgiye sahip olsa da bu bilgiyi etkili kullanmayı henüz bilmez
    • Supervised fine-tuning, insan yanıtlarını taklit etmeyi öğretir
    • Reinforcement learning, deneme yanılma yoluyla daha iyi çözümler bulmasını sağlar
  • Reinforcement learning prosedürüne bir örnek şöyledir
    • Aynı problem için 15 çözüm üretilir
    • Bunlardan yalnızca 4’ü doğruysa, doğru ve kısa olan üst düzey çözümler seçilir
    • Seçilen çözümlerle eğitim yapılır ve bu süreç birçok kez tekrarlanır
  • Bu sürece insan doğrudan dahil olmaz; model aynı problem için çok sayıda çözüm üretir ve doğru sonuca ulaşan çözümleri seçip öğrenir
  • Pre-training ve post-training iyi tanımlanmış olsa da reinforcement learning süreci hâlâ aktif araştırma konusudur
    • OpenAI gibi şirketler de çok sayıda araştırma yapar, ancak kamuya açık olmayan kısımlar vardır
    • DeepSeek’in makalesi, LLM’ler için RL ve FT’yi açık biçimde ele alır ve reasoning yeteneğinin nasıl ortaya çıkarıldığını açıklar
  • DeepSeek makalesindeki örnekte model zamanla daha fazla token kullanarak reasoning’i iyileştirir
    • Sözde “aha” anı, yalnızca veri kümesi eğitimiyle açıkça öğretilmesi zor olan ve modelin reinforcement learning yoluyla kendi başına keşfetmesi gereken türden bir şeydir
    • Avantajı reasoning’in iyileşmesidir; dezavantajı ise daha fazla token tüketmesidir

AlphaGo ve reinforcement learning’in potansiyeli

  • Go’da ustalaşma araştırmasında reinforcement learning, modelin insanları taklit etmekle kalmayıp deneme yanılmayla kendi stratejilerini bulmasını sağladı
  • AlphaGo maçındaki Move 37, eğitim verisinde bulunan bir hamle değil; modelin kazanmak için ortaya çıkardığı bir strateji olarak tanıtılır
    • Araştırmacılar bu hamlenin insandan gelme olasılığını 10 binde 1 olarak tahmin etti
  • Reinforcement learning’in hâlâ keşfedilmemiş çok alanı vardır ve araştırmalar sürmektedir
  • LLM, düşünce ve fikirleri ifade etmenin en iyi yolunun bu olduğuna karar verirse kendi dilini bile ortaya çıkarabilir

Doğrulanamayan alanlar ve RLHF

  • Doğrulanabilir alanlarda insanı reinforcement learning sürecinden çıkarmak kolaydır; LLM kendi performansının hakemi gibi çalışabilir
  • Şaka yazma veya özetleme gibi doğrulanamayan alanlarda insanı döngüye dahil etmek gerekir
    • Write a joke about pelicans gibi bir prompt’ta şakanın kalitesini otomatik olarak değerlendirmek zordur
    • LLM şaka üretebilir, ancak kalitesini büyük ölçekte değerlendirmek zordur
  • İnsanları büyük ölçekte dahil etmek de zor olduğundan RLHF makalesinde ele alınan yöntem gerekir
  • RLHF, büyük ölçekte yanıt kalitesi değerlendirmesinde kullanılmak üzere ayrı bir reward model eğitir
    • İnsanlar yanıt sıralamalarını değerlendirir
    • Bu değerlendirmelerle reward model istenen seviyeye kadar eğitilir
    • Ardından reward model, LLM yanıt kalitesini büyük ölçekte değerlendirir

RLHF’nin avantajları ve sınırları

  • RLHF’nin avantajları şunlardır
    • Şaka yazma veya özetleme gibi doğrulanamayan alanlarda da reinforcement learning’i mümkün kılar
    • Halüsinasyonu azaltıp yanıtları daha insana benzer hale getirerek çoğu zaman modeli iyileştirir
    • İnsanların yanıt üretmektense değerlendirmeyi daha kolay yapabildiği discriminator-generator gap’ten yararlanır
      • Örn: “şiir yaz” demektense “bu 5 şiirden hangisi en iyi” seçmek daha kolaydır
  • RLHF’nin sınırları da nettir
    • Reward model gerçek insan değil, insan tercihlerinin simülasyonudur
    • Reinforcement learning, reward model’in zayıflıklarını kötüye kullanan adversarial örnekler oluşturabilir
    • Örneğin 1.000 güncellemeden sonra “pelikanlar hakkında en iyi şaka” the the the the the the the the gibi anlamsız bir sonuç olabilir
  • Bu sorun Adversarial Machine Learning olarak bilinir
  • Sistemi kötüye kullanmanın sonsuz yolu olduğundan kötü yanıtları filtrelemek basit değildir
  • Aşırı optimizasyonu ve performans düşüşünü önlemek için reward model eğitimi birkaç yüz tekrar düzeyinde sınırlanır

LLM’lerin gelecekteki yönü

  • Gelecekte LLM’ler çeşitli yönlerde genişleyebilir
    • Multimodal yetenekler: Yalnızca metni değil, görüntü, ses ve videoyu da anlar ve üretir
    • Agent tabanlı modeller: Tekil görevlerin ötesine geçerek uzun süreli bellek, reasoning ve hata düzeltmeye yönelir
    • Günlük ve görünmez yapay zeka: Workflow’lara doğal biçimde entegre olur
    • Bilgisayar kullanan yapay zeka: Yalnızca metin üretmekle kalmaz, yazılımlarla etkileşime girer ve eylemler gerçekleştirir
    • Test zamanı öğrenme: Doğruluğu anında artırmak için gerçek zamanlı uyum sağlar

LLM’leri takip edip deneyebileceğiniz yerler

  • LLM gelişmelerini izlemek için kaynaklar
    • LM Arena: yeni dil modellerini benchmark eder
    • AI News: yapay zeka araştırmalarını ele alan newsletter
    • X (Twitter): birçok araştırmacı güncellemelerini paylaşır
  • Farklı LLM’leri deneyebileceğiniz yerler
    • Proprietary Models: OpenAI GPT-4, Google Gemini, Anthropic Claude vb.
    • Open-Weight Models: DeepSeek, Meta Llama vb.; Together.ai üzerinden kullanılabilir
    • Yerel çalıştırma: Ollama veya LM Studio kullanın
    • Base Models: Hyperbolic üzerinde keşfedilebilir

Henüz yorum yok.

Henüz yorum yok.