2 puan yazan GN⁺ 2025-02-11 | 1 yorum | WhatsApp'ta paylaş

Bu derinlemesine analiz kimler için?

  • LLM'lerin gerçekte nasıl çalıştığını anlamak isteyenler: Yüzeysel bir anlayışın ötesine geçip LLM'lerin çalışma prensibini öğrenmek isteyenler.
  • Kafa karıştırıcı ince ayar terimlerini anlamak isteyenler: chat_template ve ChatML gibi terimleri anlamak isteyenler.
  • Prompt engineering'i geliştirmek isteyenler: Hangi prompt'ların daha iyi çalıştığını anlamak isteyenler.
  • Halüsinasyonu azaltmak isteyenler: LLM'lerin yanlış bilgi üretmesini önlemek isteyenler.
  • DeepSeek-R1'in önemini anlamak isteyenler: Şu anda dikkat çeken DeepSeek-R1'in neden önemli olduğunu öğrenmek isteyenler.

Ön eğitim verisi

İnternet

  • LLM'ler, interneti crawl ederek devasa metin veri kümeleri oluşturur.
  • Ham veri; yinelenen içerik, düşük kaliteli metinler ve alakasız bilgilerle dolu olduğu için eğitimden önce kapsamlı filtreleme gerekir.
  • Örneğin FineWeb veri kümesi, 1,2 milyardan fazla web sayfası içerir.

Tokenization

  • Tokenization, modelin metni işlemeden önce onu küçük parçalara, yani token'lara ayırma yöntemidir.
  • Byte Pair Encoding (BPE) gibi teknikler kullanılır.
  • GPT-4, 100.277 token kullanır.

Sinir ağı girdi/çıktısı

  • Token'lara ayrılmış veri sinir ağına girilir.
  • Model, öğrendiği örüntülere dayanarak bir sonraki token'ı tahmin eder.
  • Hataları azaltmak için ağırlıklar ayarlanır.

Sinir ağının içi

  • Modelin içinde milyarlarca parametre, giriş token'larıyla etkileşime girerek bir sonraki token için olasılık dağılımı üretir.
  • Model mimarisi; hız, doğruluk ve paralelleştirme arasında denge kuracak şekilde tasarlanır.

Çıkarım

  • LLM'ler deterministik çıktı üretmez; olasılıksaldır.
  • Her çalıştırmada çıktı biraz farklı olabilir.
  • Bu rastlantısallık, LLM'leri yaratıcı kılarken bazen yanlış bilgi üretmelerine de yol açar.

GPT-2

  • OpenAI'nin 2019'da yayımladığı GPT-2, erken dönem transformer tabanlı LLM'lere bir örnektir.
  • 1,6 milyar parametreye, 1024 token'lık bağlam uzunluğuna sahiptir ve yaklaşık 100 milyar token ile eğitilmiştir.
  • Andrej Karpathy, llm.c kullanarak GPT-2'yi 672 dolara yeniden üretmiştir.

Açık kaynak taban modeller

  • Bazı şirketler büyük ölçekli LLM'ler eğitir ve taban modeli ücretsiz olarak yayımlar.
  • Taban modeller, ham internet metniyle eğitilir; tamamlama üretebilirler ancak insan niyetini anlamazlar.
  • OpenAI, GPT-2'yi açık kaynak olarak yayımlamıştır.
  • Meta, Llama 3.1'i (405B parametre) açık kaynak olarak yayımlamıştır.

Ön eğitimden son eğitime

  • Taban modeller çok sayıda halüsinasyon üretir.
  • Son eğitim, modeli daha iyi yanıtlar verecek şekilde ince ayar yapar.
  • Son eğitim, ön eğitime kıyasla çok daha ucuzdur.

Gözetimli ince ayar (SFT)

Veri diyalogları

  • Taban model, internet verisiyle eğitildikten sonra insan/asistan diyaloglarıyla son eğitimden geçirilir.
  • Diyalog şablonları kullanılarak modelin konuşmanın yapısını anlaması sağlanır.

Halüsinasyon, araç kullanımı ve bellek

  • LLM'lerin başlıca sorunlarından biri halüsinasyondur.
  • Meta, Llama 3 makalesinde olgusallığı iyileştirme yöntemlerini açıklar.
  • Halüsinasyonu azaltmak için araç kullanma yaklaşımı da vardır.

Pekiştirmeli öğrenme

  • Model, internet verisiyle eğitildikten sonra bilgiyi nasıl etkili kullanacağını bilmez.
  • Pekiştirmeli öğrenme (RL), deneme-yanılma yoluyla modeli geliştirir.

RL nasıl çalışır?

  • RL, modelin farklı çözümleri denemesini ve en iyi çözümü bulmasını sağlar.
  • Örneğin 15 çözüm üretilir ve yalnızca 4'ü doğru cevabı bulur.

İnsan geri bildirimiyle pekiştirmeli öğrenme (RLHF)

  • Doğrulanması zor alanlarda sürece insanları dahil etmek gerekir.
  • RLHF, modeli geliştirmek için insan geri bildirimini kullanır.

Geleceğe bakış

  • Çok modlu yetenekler: Yalnızca metni değil; görüntü, ses ve videoyu da anlar ve üretir.
  • Ajan tabanlı modeller: Tek bir görevin ötesine geçerek uzun süreli bellek, akıl yürütme ve hata düzeltme yapabilir.
  • Evrensel ve görünmez yapay zeka: İş akışlarına doğal biçimde entegre olur.
  • Bilgisayar kullanan yapay zeka: Yazılımlarla etkileşime girer ve metin üretmenin ötesinde görevler yapar.

LLM'ler nasıl bulunur?

  • Kapalı modeller: OpenAI (GPT-4), Google (Gemini), Anthropic (Claude) vb.
  • Açık ağırlıklı modeller: DeepSeek, Meta (Llama) vb.
  • Yerelde çalıştırma: Ollama veya LM Studio kullanımı.
  • Taban modeller: Hyperbolic üzerinde keşif.

1 yorum

 
GN⁺ 2025-02-11
Hacker News görüşleri
  • Orijinal video Hacker News ana sayfasından düştükten sonra bile tartışmak için iyi bir yer arıyordum

  • Videoyu izlerken aklıma birkaç soru takıldı

    • Matematik ve LLM'ler
      • Andrej'in LLM'lere verdiği örneklerin neden çoğunun hesaplama problemleri olduğunu merak ediyorum
      • LLM'lerin hesaplama yeteneği güçlü ve kullanışlı hale geliyor, ancak bunun temel bir yetenek olmadığını düşünüyorum
      • Keşke LLM'nin temel yeteneğini gösteren prompt'larla matematiksel hesaplamaları ayırsa
      • Matematik yeteneği tartışması ya da LLM'lerin matematik yapmasının hikmeti hakkında iyi referanslar olsa iyi olurdu
    • Meta
      • Andrej, LLM'lerin başka LLM'leri eğitmek ve değerlendirmek için kullanıldığı duruma kısaca değindi ama bunun hakkında pek tartışma yok
      • LLM kullanarak başka LLM'leri eğitmenin/değerlendirmenin sınırları ve riskleri hakkında daha fazlasını öğrenmek istiyorum
      • İlk sonuçlar ve ilerlemelerin daha güçlü tekniklerin geliştirilmesine hemen geri beslenmesi bana Manhattan Projesi ve nükleer silahları hatırlatıyor gibi geliyor
  • Meta'nın halüsinasyon sorununu çözme yaklaşımı ilginç

    • Eğitim verisinin bir kısmını çıkarıp Llama 3 ile olgusal sorular üretiyorlar
    • Llama 3 cevaplar üretiyor ve bunları orijinal veriyle karşılaştırarak puanlıyor
    • Yanlışsa, model yanlış cevabı fark edip reddedecek şekilde eğitiliyor
    • Bu, ML mühendislerinin doğal eğilimine ters düşüyor; modelin bilmediğini fark etmesini öğretmek önemli
  • Andrej'in videosu harika ama RL bölümünün açıklaması biraz muğlak geldi

    • Doğru cevaplar üzerinden nasıl eğitim yapıldığını merak ediyorum
    • Akıl yürütme sürecini toplayıp gözetimli öğrenme gibi mi eğitiyorlar, yoksa bir puan hesaplayıp bunu kayıp fonksiyonu olarak mı kullanıyorlar merak ediyorum
    • Ödül çok seyrek olabilir; problem o kadar zorsa ki LLM doğru cevabı üretemiyorsa ne olduğunu merak ediyorum
    • Parametre güncellemeleri sıralıyken LLM eğitimini nasıl paralelleştirebildiklerini merak ediyorum
  • Orijinal videoda 53. dakikada, LLM'nin öğrendiği metne dayanarak alıntı yapmadaki doğruluğu gösteriliyor

    • Büyük şirketlerin mahkemede bunun telif hakkı ihlali olmadığına nasıl ikna ettiğini merak ediyorum
    • Eğer bir modeli Disney karakterleri çizmeye eğitseydim, hemen dava edileceğimi hayal ediyorum
  • Bir modelin "tamamen" açık kaynak olması için, modelin kendisi ve nasıl çalıştırılacağının yanı sıra veriyi eğitebilen bir program da gerekli

    • OSI'nin açık kaynak yapay zeka tanımına bakın
  • LLM hakkında çok sayıda makale okudum ve genel olarak nasıl çalıştıklarını anlıyorum, ama diğer modellerin neden SOTA modeller kadar iyi çalışmadığını hep merak etmişimdir

    • Mevcut model mimarisinin tarihini ve gerekçesini merak ediyorum
  • Bugün iyi bir başlık gördüm: [bağlantı]

  • Onun LLC in C'sinin dersleri için sadece bir basamak taşı olması biraz üzücü

  • Muhtemelen gerçekten harika bir dersin harika bir özeti

    • Orijinalini takip etmeyi düşünüyorum
  • Videoyu izlemedim ama TL;DR'deki tokenizasyon kısmını merak ettim

    • Bağlantısı verilen makaledeki tokenize edilmiş metne bakınca, bunun "I View" değil aslında boru karakteri "|" olduğu görülüyor
    • @miletus'un Hacker News yorumunda paylaştığı bağlantının 3. adımındaki tokenize edilmiş metin "|Viewing Single (Post From) . . ."
    • Büyük harf kullanımı (View, Single), cümlenin bu kısmına bakınca daha anlamlı geliyor