1 puan yazan GN⁺ 2025-09-16 | Henüz yorum yok. | WhatsApp'ta paylaş
  • Yüksek boyutlu gömme uzaylarında, tam ortogonallik yerine yarı ortogonallik (quasi-orthogonality) kullanılarak çok sayıda kavram temsili mümkün hale gelir
  • Johnson-Lindenstrauss (JL) lemması, rastgele yüksek boyutlu verilerin neredeyse hiç bilgi kaybı olmadan daha düşük boyutlara projekte edilebileceğini garanti eder
  • Optimizasyon sürecinde kayıp fonksiyonunun tasarımı kritiktir; temel kayıp fonksiyonu verimsiz veya önyargılı vektör yerleşimlerine yol açabilir
  • Deney sonuçları, gömme uzayının gerçek kapasitesinin teorik olarak tahmin edilenden çok daha büyük olduğunu ve milyonlarca ile milyarlarca kavramın doğal biçimde bir arada bulunabileceğini gösteriyor
  • Bu bulgular, doğal dil işleme, gömme tasarımı gibi makine öğrenimi pratiğinde veri temsili ve boyut indirgeme açısından büyük pratik önem taşıyor

Giriş: Dil modeli gömme uzayının kapasitesi sorusu

3Blue1Brown’un yakın tarihli transformer modeli video serisinde, Grant Sanderson şu ilginç soruyu gündeme getiriyor: GPT-3’ün 12.288 boyutlu gömme uzayına yüz binlerce değil, milyonlarca gerçek dünya kavramı nasıl sığabiliyor?
Bu soru, yüksek boyutlu geometri ve Johnson-Lindenstrauss (JL) lemması adlı matematiksel sonuçla bağlantılı
Bu konuyu araştırma süreci, vektör uzaylarının temel özellikleri ve optimizasyon hakkında yeni içgörüler sağladı; hatta Grant ile bir iş birliğine kadar uzandı

Vektörlerin yarı ortogonalliği ve gömme uzayının kapasitesi

  • N boyutlu bir uzayda yalnızca N tane tamamen ortogonal vektör bulunabilir
  • Ancak pratikte 90 dereceden biraz sapmaya izin veren yarı ortogonal (quasi-orthogonal) ilişkiler kabul edilirse (ör. 85~95 derece arası açılar), aynı uzayda temsil edilebilecek vektör sayısı geometrik olarak artar
  • Grant’in videosunda, 100 boyutlu bir uzaya 10 bin birim vektörün neredeyse ortogonal olacak şekilde yerleştirildiği bir görselleştirme sunuluyor
  • Fakat aynı deneyi yeniden üretme sürecinde, optimizasyon kayıp fonksiyonu tasarımında ince ama önemli bir tuzak keşfediliyor

Kayıp fonksiyonunun sorunları ve ortaya çıkan desenler

  • Temel kayıp fonksiyonu:
    loss = (dot_products.abs()).relu().sum()
  • Gerçek birim küre üzerinde bu kayıp fonksiyonu iki sorun yaratıyor
    1. Gradient Trap: Vektör açısı 90 dereceye yaklaşınca gradyan güçlü biçimde çalışıyor, ancak 0 veya 180 derece civarında gradyan neredeyse sıfıra indiği için iyileştirme tıkanıyor
    2. %99 çözüm: Optimizasyon, 10 bin vektörün her birinin 9.900 tanesiyle düzgün biçimde ortogonal, ama 99 tanesiyle neredeyse paralel olduğu bir yerleşim bularak toplam kaybı düşürüyor; yani fiilen referans vektörlerin kopyaları oluşuyor
  • Bu çözüm, genel görünüm açısından beklentiden temelden farklı olduğundan daha incelikli bir kayıp fonksiyonu gerekiyor
  • Bu nedenle üstel ceza kullanan bir kayıp fonksiyonuna geçiliyor: loss = exp(20*dot_products.abs()**2).sum()
  • Bu yaklaşım, istenen dağılıma daha yakın sonuç veriyor (maksimum ikili açı yaklaşık 76,5 derece)

Johnson-Lindenstrauss (JL) lemması: Geometrik güvence

  • JL lemması, rastgele yüksek boyutlu veri noktaları kümesi daha düşük boyuta projekte edilse bile, Öklidyen uzaklıkların büyük ölçüde korunduğunu garanti eder
  • 1~N adet nokta, hata çarpanı ε ve projeksiyon boyutu k için
    (1-ε)||u-v||² ≤ ||f(u)-f(v)||² ≤ (1+ε)||u-v||²
  • Gerekli en küçük boyut k şu şekildedir: k ≥ (C/ε²) * log(N)
    Burada C, başarı olasılığını ayarlayan sabittir
  • Genel kullanımda C değeri muhafazakâr biçimde 4~8 alınır; ancak özel projeksiyon yöntemlerinde (ör. Hadamard matrix, optimizasyon yöntemleri) daha küçük C değerlerine ulaşmak mümkündür

Pratik uygulama alanları

  1. Boyut indirgeme:
    • Örnek: e-ticaret müşterilerinin tercihlerini on binlerce ürün boyutundan birkaç bin boyuta verimli biçimde dönüştürmek
    • Yüksek boyutlu verilerin gerçek zamanlı analizi ve öneri sistemlerinde kullanılabilir
  2. Gömme uzayının kapasite sınırlarını analiz etme:
    • Tam ortogonallik yerine, kavramlar arası benzerlik/farklılık spektrumunu uzay içinde doğal biçimde temsil etmek mümkündür
    • Gerçek kelime örnekleri olarak "archery", "fire", "gelatinous", "green" gibi kavramların fiziksel ve soyut anlamları yüksek boyutlu uzayda üst üste ifade edilebilir

Gömme kapasitesinin deneysel analizi

  • Hadamard matrix dönüşümü gibi yöntemlerle yapılan optimizasyonlarda C değeri 2,5~4 aralığında bulunuyor; GPU tabanlı optimizasyonda ise çok daha aşağı inebiliyor
  • Deney yöntemi: N adet standart basis vector’ü sırayla k boyutlu uzaya projekte etmek ve optimizasyonu 50 bin kez yinelemek
  • Gözlemler:
    1. C değeri, N arttıkça önce tepe değerine (~0,9) ulaşıp sonra kademeli olarak düşüyor
    2. N/k oranı yükseldikçe C değeri 0,2’nin altına iniyor
  • Bu durum, yüksek boyutlu uzayda sphere packing verimliliğinden kaynaklanıyor
  • Pratikte bunun anlamı, teorik üst sınırın işaret ettiğinden daha fazla kavramın temsil edilebilmesidir

Dil modeli gömmelerinin gerçek anlamı

  • Gömme boyutu k, yaklaşık ortogonal açı F (90°-gerçek açı) ve C değerine bağlı olarak saklanabilecek kavram sayısı şöyle ifade edilebilir: Vectors ≈ 10^(k * F² / 1500)
    • k=12,288, F=1(89°) → 10^8
    • F=2(88°) → 10^32
    • F=3(87°) → 10^73
    • F=5(85°) → 10^200’den fazla vektör saklanabilir
  • Yalnızca 86° bile gözlemlenebilir evrendeki atom sayısından (10^80) daha fazla kapasite anlamına geliyor
  • Başka bir deyişle, gerçek dil modelleri nispeten az boyutta bile milyonlarca anlamı zengin biçimde koruyabiliyor

Pratik uygulamalar ve gelecek yönelimler

  1. Verimli boyut indirgeme:
    • Hadamard dönüşümü, BCH coding gibi yöntemlerle birleştirilen rastgele projeksiyon tabanlı yaklaşımlar sayesinde, karmaşık optimizasyona gerek kalmadan büyük ölçekli veri boyut indirgeme ve hızlı hesaplama mümkün olabilir
  2. Gömme uzayı tasarımı:
    • Uzay kapasitesine dair bu içgörü, transformer gibi büyük dil modellerinin "Canadian", "Muppet-like" gibi ince kavramların bile anlamsal ilişkilerini aynı anda koruyabilmesini açıklıyor
  • Sonuç olarak, mevcut gömme standartları (1.000~20.000 boyut) insan bilgisini temsil etmek için yeterli görünüyor; asıl mesele bu uzay içinde ideal yerleşimi öğrenmek

Sonuç

  • Kayıp fonksiyonundaki ince optimizasyon sorunlarını incelemekle başlayan süreç, yüksek boyutlu geometri ve makine öğreniminin temel yapıları hakkında derin içgörülere ulaşıyor
  • 1984’te yayımlanan JL lemması, bugün makine öğrenimi gömmeleri, bilgi temsili ve boyut indirgeme ilkeleri için temel bir yapı taşı olmaya devam ediyor
  • Yazı, Grant Sanderson’a, 3Blue1Brown kanalına ve Suman Dev’e iş birliği için teşekkür ederek bu araştırma ve yazım sürecinin keyfini paylaşıyor

Ek okumalar

  1. Sphere Packings, Lattices and Groups – Conway & Sloane
  2. Database-friendly random projections: Johnson-Lindenstrauss with binary coins – Achlioptas
  3. Hadamard Matrices, Sequences, and Block Designs – Seberry & Yamada

Henüz yorum yok.

Henüz yorum yok.