Dil modelleri 12.000 boyutta milyarlarca kavramı nasıl barındırıyor?

(nickyoder.com)

1 puan yazan GN⁺ 2025-09-16 | Henüz yorum yok. | WhatsApp'ta paylaş

Yüksek boyutlu gömme uzaylarında, tam ortogonallik yerine yarı ortogonallik (quasi-orthogonality) kullanılarak çok sayıda kavram temsili mümkün hale gelir
Johnson-Lindenstrauss (JL) lemması, rastgele yüksek boyutlu verilerin neredeyse hiç bilgi kaybı olmadan daha düşük boyutlara projekte edilebileceğini garanti eder
Optimizasyon sürecinde kayıp fonksiyonunun tasarımı kritiktir; temel kayıp fonksiyonu verimsiz veya önyargılı vektör yerleşimlerine yol açabilir
Deney sonuçları, gömme uzayının gerçek kapasitesinin teorik olarak tahmin edilenden çok daha büyük olduğunu ve milyonlarca ile milyarlarca kavramın doğal biçimde bir arada bulunabileceğini gösteriyor
Bu bulgular, doğal dil işleme, gömme tasarımı gibi makine öğrenimi pratiğinde veri temsili ve boyut indirgeme açısından büyük pratik önem taşıyor

Giriş: Dil modeli gömme uzayının kapasitesi sorusu

3Blue1Brown’un yakın tarihli transformer modeli video serisinde, Grant Sanderson şu ilginç soruyu gündeme getiriyor: GPT-3’ün 12.288 boyutlu gömme uzayına yüz binlerce değil, milyonlarca gerçek dünya kavramı nasıl sığabiliyor?
Bu soru, yüksek boyutlu geometri ve Johnson-Lindenstrauss (JL) lemması adlı matematiksel sonuçla bağlantılı
Bu konuyu araştırma süreci, vektör uzaylarının temel özellikleri ve optimizasyon hakkında yeni içgörüler sağladı; hatta Grant ile bir iş birliğine kadar uzandı

Vektörlerin yarı ortogonalliği ve gömme uzayının kapasitesi

N boyutlu bir uzayda yalnızca N tane tamamen ortogonal vektör bulunabilir
Ancak pratikte 90 dereceden biraz sapmaya izin veren yarı ortogonal (quasi-orthogonal) ilişkiler kabul edilirse (ör. 85~95 derece arası açılar), aynı uzayda temsil edilebilecek vektör sayısı geometrik olarak artar
Grant’in videosunda, 100 boyutlu bir uzaya 10 bin birim vektörün neredeyse ortogonal olacak şekilde yerleştirildiği bir görselleştirme sunuluyor
Fakat aynı deneyi yeniden üretme sürecinde, optimizasyon kayıp fonksiyonu tasarımında ince ama önemli bir tuzak keşfediliyor

Kayıp fonksiyonunun sorunları ve ortaya çıkan desenler

Temel kayıp fonksiyonu:
loss = (dot_products.abs()).relu().sum()
Gerçek birim küre üzerinde bu kayıp fonksiyonu iki sorun yaratıyor
1. Gradient Trap: Vektör açısı 90 dereceye yaklaşınca gradyan güçlü biçimde çalışıyor, ancak 0 veya 180 derece civarında gradyan neredeyse sıfıra indiği için iyileştirme tıkanıyor
2. %99 çözüm: Optimizasyon, 10 bin vektörün her birinin 9.900 tanesiyle düzgün biçimde ortogonal, ama 99 tanesiyle neredeyse paralel olduğu bir yerleşim bularak toplam kaybı düşürüyor; yani fiilen referans vektörlerin kopyaları oluşuyor
Bu çözüm, genel görünüm açısından beklentiden temelden farklı olduğundan daha incelikli bir kayıp fonksiyonu gerekiyor
Bu nedenle üstel ceza kullanan bir kayıp fonksiyonuna geçiliyor: loss = exp(20*dot_products.abs()**2).sum()
Bu yaklaşım, istenen dağılıma daha yakın sonuç veriyor (maksimum ikili açı yaklaşık 76,5 derece)

Johnson-Lindenstrauss (JL) lemması: Geometrik güvence

JL lemması, rastgele yüksek boyutlu veri noktaları kümesi daha düşük boyuta projekte edilse bile, Öklidyen uzaklıkların büyük ölçüde korunduğunu garanti eder
1~N adet nokta, hata çarpanı ε ve projeksiyon boyutu k için
(1-ε)||u-v||² ≤ ||f(u)-f(v)||² ≤ (1+ε)||u-v||²
Gerekli en küçük boyut k şu şekildedir: k ≥ (C/ε²) * log(N)
Burada C, başarı olasılığını ayarlayan sabittir
Genel kullanımda C değeri muhafazakâr biçimde 4~8 alınır; ancak özel projeksiyon yöntemlerinde (ör. Hadamard matrix, optimizasyon yöntemleri) daha küçük C değerlerine ulaşmak mümkündür

Pratik uygulama alanları

Boyut indirgeme:
- Örnek: e-ticaret müşterilerinin tercihlerini on binlerce ürün boyutundan birkaç bin boyuta verimli biçimde dönüştürmek
- Yüksek boyutlu verilerin gerçek zamanlı analizi ve öneri sistemlerinde kullanılabilir
Gömme uzayının kapasite sınırlarını analiz etme:
- Tam ortogonallik yerine, kavramlar arası benzerlik/farklılık spektrumunu uzay içinde doğal biçimde temsil etmek mümkündür
- Gerçek kelime örnekleri olarak "archery", "fire", "gelatinous", "green" gibi kavramların fiziksel ve soyut anlamları yüksek boyutlu uzayda üst üste ifade edilebilir

Gömme kapasitesinin deneysel analizi

Hadamard matrix dönüşümü gibi yöntemlerle yapılan optimizasyonlarda C değeri 2,5~4 aralığında bulunuyor; GPU tabanlı optimizasyonda ise çok daha aşağı inebiliyor
Deney yöntemi: N adet standart basis vector’ü sırayla k boyutlu uzaya projekte etmek ve optimizasyonu 50 bin kez yinelemek
Gözlemler:
1. C değeri, N arttıkça önce tepe değerine (~0,9) ulaşıp sonra kademeli olarak düşüyor
2. N/k oranı yükseldikçe C değeri 0,2’nin altına iniyor
Bu durum, yüksek boyutlu uzayda sphere packing verimliliğinden kaynaklanıyor
Pratikte bunun anlamı, teorik üst sınırın işaret ettiğinden daha fazla kavramın temsil edilebilmesidir

Dil modeli gömmelerinin gerçek anlamı

Gömme boyutu k, yaklaşık ortogonal açı F (90°-gerçek açı) ve C değerine bağlı olarak saklanabilecek kavram sayısı şöyle ifade edilebilir: Vectors ≈ 10^(k * F² / 1500)
- k=12,288, F=1(89°) → 10^8
- F=2(88°) → 10^32
- F=3(87°) → 10^73
- F=5(85°) → 10^200’den fazla vektör saklanabilir
Yalnızca 86° bile gözlemlenebilir evrendeki atom sayısından (10^80) daha fazla kapasite anlamına geliyor
Başka bir deyişle, gerçek dil modelleri nispeten az boyutta bile milyonlarca anlamı zengin biçimde koruyabiliyor

Pratik uygulamalar ve gelecek yönelimler

Verimli boyut indirgeme:
- Hadamard dönüşümü, BCH coding gibi yöntemlerle birleştirilen rastgele projeksiyon tabanlı yaklaşımlar sayesinde, karmaşık optimizasyona gerek kalmadan büyük ölçekli veri boyut indirgeme ve hızlı hesaplama mümkün olabilir
Gömme uzayı tasarımı:
- Uzay kapasitesine dair bu içgörü, transformer gibi büyük dil modellerinin "Canadian", "Muppet-like" gibi ince kavramların bile anlamsal ilişkilerini aynı anda koruyabilmesini açıklıyor

Sonuç olarak, mevcut gömme standartları (1.000~20.000 boyut) insan bilgisini temsil etmek için yeterli görünüyor; asıl mesele bu uzay içinde ideal yerleşimi öğrenmek

Sonuç

Kayıp fonksiyonundaki ince optimizasyon sorunlarını incelemekle başlayan süreç, yüksek boyutlu geometri ve makine öğreniminin temel yapıları hakkında derin içgörülere ulaşıyor
1984’te yayımlanan JL lemması, bugün makine öğrenimi gömmeleri, bilgi temsili ve boyut indirgeme ilkeleri için temel bir yapı taşı olmaya devam ediyor
Yazı, Grant Sanderson’a, 3Blue1Brown kanalına ve Suman Dev’e iş birliği için teşekkür ederek bu araştırma ve yazım sürecinin keyfini paylaşıyor

Ek okumalar

Sphere Packings, Lattices and Groups – Conway & Sloane
Database-friendly random projections: Johnson-Lindenstrauss with binary coins – Achlioptas
Hadamard Matrices, Sequences, and Block Designs – Seberry & Yamada