Andrej Karpathy ile GPT Tokenizer Oluşturma [Video]

(youtube.com)

23 puan yazan GN⁺ 2024-02-21 | 2 yorum | WhatsApp'ta paylaş

Tokenizer, büyük dil modellerinin (LLM) vazgeçilmez ve yaygın kullanılan bir bileşenidir; dizgeler ile token’lar (metin parçaları) arasında dönüşüm yapar
Tokenizer, LLM hattının tamamen ayrı bir aşamasıdır:
- kendine ait bir eğitim veri kümesi ve eğitim algoritmasına (Byte Pair Encoding) sahiptir
- eğitimden sonra iki temel işlevi yerine getirir:
  - encode() ile dizgeyi token’lara dönüştürme,
  - ve decode() ile token’ları yeniden dizgeye dönüştürme
Bu derste, OpenAI’nin GPT serisinde kullanılan tokenizer’ı sıfırdan inşa ediyor
Bu süreçte, LLM’lerin birçok garip davranışının ve sorununun aslında tokenizasyondan kaynaklandığını göreceksiniz
Bu sorunları inceleyip, tokenizasyonun neden sorunun kaynağı olduğunu ve neden birilerinin bu adımı tamamen ortadan kaldırmanın yolunu bulması gerektiğini tartışıyor

2 yorum

GN⁺ 2024-02-21

Hacker News görüşleri

Andrej Karpathy’nin GPT nano oluşturma üzerine videosu, modern büyük dil modellerini (Large Language Models, LLM) geliştirmek için gereken tüm adımları mükemmel şekilde açıklayan bir eğitim niteliğinde.
- Bu 'zero to hero' serisi, karmaşık kavramları korkutucu gösteren veya gereğinden fazla karmaşıklaştıran benzetmeler kullanmadan, gerçek uygulama ve benzetmeli anlatımlar üzerinden fikirlerin anlaşılmasını ve sadeliğinin görülmesini sağlıyor.
- Başta öğrenme eğrisi dik olsa da, sonunda gerçekten anlayıp nedenlerini tartışabilme becerisi kazanıldığı için tatmin edici.
Andrej Karpathy çok hızlı konuşuyor; oynatma hızını kontrol etme ihtiyacı doğuyor. Sanki 1.25x hızında konuşuyormuş gibi geliyor.
Ücretli olsa bile, bunun gibi yüksek kaliteli içerik bulmak zor.
“Evrenin yumurtası olduğunda, bu tek bir token’dır” ifadesi hakkında, Nostromo gemisinin mürettebatının buna katılıp katılmayacağı belirsiz. (Bu bölüm, 'Alien' filmindeki uzay gemisi Nostromo’ya yapılan bir şaka göndermesi olup, yorumun bağlamını tam anlamak için filme dair arka plan bilgisi gerekiyor.)

Yukarıdaki özet, her yorumu tarafsız biçimde ve isim cümlesi yapısıyla özetleyerek, başlangıç seviyesindeki yazılım mühendislerinin de anlayabilmesi için kısa arka plan bilgileri eklenmiş şekilde hazırlanmıştır.

wooseop 2024-02-21

Prompt muhtemelen "her yorumu tarafsız ve isim cümlesiyle biten bir cümle olarak özetle, arka plan bilgisini kısa ekle ve başlangıç seviyesindeki bir yazılım mühendisin de anlayabileceği şekilde yaz" idi.

Andrej Karpathy ile GPT Tokenizer Oluşturma [Video]

İlgili okumalar

2 yorum

Hacker News görüşleri