- Byte Latent Transformer (BLT), bayt seviyesinde büyük dil modelleri (LLM) için yeni bir mimari olup, tokenizasyon tabanlı modellerle aynı performansa ulaşırken çıkarım verimliliği ve dayanıklılığı önemli ölçüde iyileştiriyor
- Baytları dinamik boyutlu patch’ler olarak kodlayarak patch’lerin temel işlem birimi olarak çalışmasını sağlıyor
- Dinamik patch bölme: Bir sonraki baytın entropisine göre karmaşıklığı yüksek verilere daha fazla hesaplama kaynağı ayırıyor
- Bayt tabanlı modeller için ilk FLOP kontrollü ölçeklendirme çalışması:
- 8B (8 milyar) parametre, 4 trilyon (4T) eğitim baytı seviyesine kadar ölçeklendi
- Sabit bir sözlüğe (vocabulary) ihtiyaç duymadan ham baytlarla model eğitmenin mümkün olduğunu gösterdi
Temel sonuçlar
- Verimli eğitim ve çıkarım:
- Veri tahmin edilebilir olduğunda uzun patch’ler seçerek hesaplama miktarını azaltıyor
- Model, karmaşıklığa göre patch’leri dinamik olarak ayarlayarak kaynakları optimize ediyor
- Ölçeklendirme iyileşmesi:
- Sabit çıkarım maliyetinde, tokenizasyon tabanlı modellere kıyasla daha iyi performans
- Patch boyutu ile model boyutunu aynı anda artırarak ölçeklendirme verimliliği sağlıyor
- Niteliksel performans artışı:
- Akıl yürütme ve genelleme yeteneğinde iyileşme: muhakeme ve seyrek veri (long-tail) işleme alanlarında niteliksel gelişme
- Sabit sözlük tabanlı yaklaşımların sınırlarını aşıyor
Önemi
- BLT, tokenizasyon olmadan ham baytları işlerken bile büyük ölçekli veri ve model eğitiminin verimliliğini kanıtlıyor
- Çıkarım maliyeti karşılığında daha üstün performans sunuyor ve yeni nesil bayt seviyeli LLM’lerin potansiyeline işaret ediyor
- Özellikle karmaşık verilerle çalışırken dinamik patch yaklaşımının uyarlamalı modelleme için yeni bir standart haline gelebileceğini gösteriyor
1 yorum
Hacker News görüşleri
BERT'in çıktığı yaz, karakter tabanlı CNN modelleriyle sınıflandırma yapan bir startup'ta çalışıyordum. Ekip arkadaşlarım word vector'larla ilgileniyordu ama sözlük dışı kelimeler çok olduğu için bunun başarısızlığa yol açabileceğini düşünüyorlardı
Hiyerarşik yapı ilginç ama yalnızca iki katman olması biraz hayal kırıklığı yaratıyor. Daha fazla katman eklemek araştırmanın yönü olabilir
Patch oluşturmak için küçük bir model kullanılarak giriş dizgesindeki bir sonraki karakterin olasılığı tahmin ediliyor
Sampling, LLM'lerin zor taraflarından biri ama her zaman geçerli JSON üretmeye zorlamak ya da temperature'ı ayarlayarak farklı dağılımlar elde etmek gibi ilginç kullanımlara imkan veriyor
Yapay zekanın ikili dosyalar üzerinde pre-training yapıp yapamayacağına dair bir soru var
Tokenization'ı örtük hale getirip modele yalnızca byte'ları (veya karakterleri) veremeyip veremeyeceğimize dair bir soru var
Karpathy'den ilgili bir alıntı: tokenization, LLM'lerdeki birçok tuhaflığın merkezinde yer alıyor
Model 3 bileşenden oluşuyor
Byte'ları gruplandırma yöntemi
Mevcut LLM'lerin byte pair tokenization'ına göre avantajları var
Bir durgunluk dönemine girmemiz gerektiğini düşünüyorduk