- Yüksek boyutlu gömme uzaylarında, tam ortogonallik yerine yarı ortogonallik (quasi-orthogonality) kullanılarak çok sayıda kavram temsili mümkün hale gelir
- Johnson-Lindenstrauss (JL) lemması, rastgele yüksek boyutlu verilerin neredeyse hiç bilgi kaybı olmadan daha düşük boyutlara projekte edilebileceğini garanti eder
- Optimizasyon sürecinde kayıp fonksiyonunun tasarımı kritiktir; temel kayıp fonksiyonu verimsiz veya önyargılı vektör yerleşimlerine yol açabilir
- Deney sonuçları, gömme uzayının gerçek kapasitesinin teorik olarak tahmin edilenden çok daha büyük olduğunu ve milyonlarca ile milyarlarca kavramın doğal biçimde bir arada bulunabileceğini gösteriyor
- Bu bulgular, doğal dil işleme, gömme tasarımı gibi makine öğrenimi pratiğinde veri temsili ve boyut indirgeme açısından büyük pratik önem taşıyor
Giriş: Dil modeli gömme uzayının kapasitesi sorusu
3Blue1Brown’un yakın tarihli transformer modeli video serisinde, Grant Sanderson şu ilginç soruyu gündeme getiriyor: GPT-3’ün 12.288 boyutlu gömme uzayına yüz binlerce değil, milyonlarca gerçek dünya kavramı nasıl sığabiliyor?
Bu soru, yüksek boyutlu geometri ve Johnson-Lindenstrauss (JL) lemması adlı matematiksel sonuçla bağlantılı
Bu konuyu araştırma süreci, vektör uzaylarının temel özellikleri ve optimizasyon hakkında yeni içgörüler sağladı; hatta Grant ile bir iş birliğine kadar uzandı
Vektörlerin yarı ortogonalliği ve gömme uzayının kapasitesi
- N boyutlu bir uzayda yalnızca N tane tamamen ortogonal vektör bulunabilir
- Ancak pratikte 90 dereceden biraz sapmaya izin veren yarı ortogonal (quasi-orthogonal) ilişkiler kabul edilirse (ör. 85~95 derece arası açılar), aynı uzayda temsil edilebilecek vektör sayısı geometrik olarak artar
- Grant’in videosunda, 100 boyutlu bir uzaya 10 bin birim vektörün neredeyse ortogonal olacak şekilde yerleştirildiği bir görselleştirme sunuluyor
- Fakat aynı deneyi yeniden üretme sürecinde, optimizasyon kayıp fonksiyonu tasarımında ince ama önemli bir tuzak keşfediliyor
Kayıp fonksiyonunun sorunları ve ortaya çıkan desenler
- Temel kayıp fonksiyonu:
loss = (dot_products.abs()).relu().sum() - Gerçek birim küre üzerinde bu kayıp fonksiyonu iki sorun yaratıyor
- Gradient Trap: Vektör açısı 90 dereceye yaklaşınca gradyan güçlü biçimde çalışıyor, ancak 0 veya 180 derece civarında gradyan neredeyse sıfıra indiği için iyileştirme tıkanıyor
- %99 çözüm: Optimizasyon, 10 bin vektörün her birinin 9.900 tanesiyle düzgün biçimde ortogonal, ama 99 tanesiyle neredeyse paralel olduğu bir yerleşim bularak toplam kaybı düşürüyor; yani fiilen referans vektörlerin kopyaları oluşuyor
- Bu çözüm, genel görünüm açısından beklentiden temelden farklı olduğundan daha incelikli bir kayıp fonksiyonu gerekiyor
- Bu nedenle üstel ceza kullanan bir kayıp fonksiyonuna geçiliyor: loss = exp(20*dot_products.abs()**2).sum()
- Bu yaklaşım, istenen dağılıma daha yakın sonuç veriyor (maksimum ikili açı yaklaşık 76,5 derece)
Johnson-Lindenstrauss (JL) lemması: Geometrik güvence
- JL lemması, rastgele yüksek boyutlu veri noktaları kümesi daha düşük boyuta projekte edilse bile, Öklidyen uzaklıkların büyük ölçüde korunduğunu garanti eder
- 1~N adet nokta, hata çarpanı ε ve projeksiyon boyutu k için
(1-ε)||u-v||² ≤ ||f(u)-f(v)||² ≤ (1+ε)||u-v||² - Gerekli en küçük boyut k şu şekildedir:
k ≥ (C/ε²) * log(N)
Burada C, başarı olasılığını ayarlayan sabittir - Genel kullanımda C değeri muhafazakâr biçimde 4~8 alınır; ancak özel projeksiyon yöntemlerinde (ör. Hadamard matrix, optimizasyon yöntemleri) daha küçük C değerlerine ulaşmak mümkündür
Pratik uygulama alanları
- Boyut indirgeme:
- Örnek: e-ticaret müşterilerinin tercihlerini on binlerce ürün boyutundan birkaç bin boyuta verimli biçimde dönüştürmek
- Yüksek boyutlu verilerin gerçek zamanlı analizi ve öneri sistemlerinde kullanılabilir
- Gömme uzayının kapasite sınırlarını analiz etme:
- Tam ortogonallik yerine, kavramlar arası benzerlik/farklılık spektrumunu uzay içinde doğal biçimde temsil etmek mümkündür
- Gerçek kelime örnekleri olarak "archery", "fire", "gelatinous", "green" gibi kavramların fiziksel ve soyut anlamları yüksek boyutlu uzayda üst üste ifade edilebilir
Gömme kapasitesinin deneysel analizi
- Hadamard matrix dönüşümü gibi yöntemlerle yapılan optimizasyonlarda C değeri 2,5~4 aralığında bulunuyor; GPU tabanlı optimizasyonda ise çok daha aşağı inebiliyor
- Deney yöntemi: N adet standart basis vector’ü sırayla k boyutlu uzaya projekte etmek ve optimizasyonu 50 bin kez yinelemek
- Gözlemler:
- C değeri, N arttıkça önce tepe değerine (~0,9) ulaşıp sonra kademeli olarak düşüyor
- N/k oranı yükseldikçe C değeri 0,2’nin altına iniyor
- Bu durum, yüksek boyutlu uzayda sphere packing verimliliğinden kaynaklanıyor
- Pratikte bunun anlamı, teorik üst sınırın işaret ettiğinden daha fazla kavramın temsil edilebilmesidir
Dil modeli gömmelerinin gerçek anlamı
- Gömme boyutu k, yaklaşık ortogonal açı F (90°-gerçek açı) ve C değerine bağlı olarak saklanabilecek kavram sayısı şöyle ifade edilebilir:
Vectors ≈ 10^(k * F² / 1500)
- k=12,288, F=1(89°) → 10^8
- F=2(88°) → 10^32
- F=3(87°) → 10^73
- F=5(85°) → 10^200’den fazla vektör saklanabilir
- Yalnızca 86° bile gözlemlenebilir evrendeki atom sayısından (10^80) daha fazla kapasite anlamına geliyor
- Başka bir deyişle, gerçek dil modelleri nispeten az boyutta bile milyonlarca anlamı zengin biçimde koruyabiliyor
Pratik uygulamalar ve gelecek yönelimler
- Verimli boyut indirgeme:
- Hadamard dönüşümü, BCH coding gibi yöntemlerle birleştirilen rastgele projeksiyon tabanlı yaklaşımlar sayesinde, karmaşık optimizasyona gerek kalmadan büyük ölçekli veri boyut indirgeme ve hızlı hesaplama mümkün olabilir
- Gömme uzayı tasarımı:
- Uzay kapasitesine dair bu içgörü, transformer gibi büyük dil modellerinin "Canadian", "Muppet-like" gibi ince kavramların bile anlamsal ilişkilerini aynı anda koruyabilmesini açıklıyor
- Sonuç olarak, mevcut gömme standartları (1.000~20.000 boyut) insan bilgisini temsil etmek için yeterli görünüyor; asıl mesele bu uzay içinde ideal yerleşimi öğrenmek
Sonuç
- Kayıp fonksiyonundaki ince optimizasyon sorunlarını incelemekle başlayan süreç, yüksek boyutlu geometri ve makine öğreniminin temel yapıları hakkında derin içgörülere ulaşıyor
- 1984’te yayımlanan JL lemması, bugün makine öğrenimi gömmeleri, bilgi temsili ve boyut indirgeme ilkeleri için temel bir yapı taşı olmaya devam ediyor
- Yazı, Grant Sanderson’a, 3Blue1Brown kanalına ve Suman Dev’e iş birliği için teşekkür ederek bu araştırma ve yazım sürecinin keyfini paylaşıyor
Ek okumalar
- Sphere Packings, Lattices and Groups – Conway & Sloane
- Database-friendly random projections: Johnson-Lindenstrauss with binary coins – Achlioptas
- Hadamard Matrices, Sequences, and Block Designs – Seberry & Yamada
Henüz yorum yok.