"Dikkat (Attention)" ve "Transformer"lara dair notlar: sinir ağlarında "büyük dil modelleri"
- "Dikkat (Attention)" terimi, gerçek insan dikkatinden farklı bir kavramdır; tüm olası vektörlere belirli ölçülerde ağırlık verilmesini ifade eder.
- "Dikkat", kernel smoothing'in bir biçimidir; sinir ağları alanında 2015 civarında yeni icat edilmiş bir şey değil, zaten var olan bir fikrin yeniden keşfidir.
- "Çok başlı dikkat (Multi-Headed Attention)", farklı kernel'ler kullanarak kernel smoothing yapıp sonuçları ortalayan bir yöntemdir.
"Transformer"lar
- "Transformer"lar, giriş vektörlerini "dikkat" mekanizmasıyla smooth ederek elde edilen çıktıları bir feedforward sinir ağına geçirip nihai çıktıyı üreten bir yapıdır.
- Transformer'lar birden fazla katmanın (layer) üst üste konulmasıyla oluşur; her katman "dikkat" mekanizması ve bir feedforward sinir ağından oluşur.
- İsim olarak transformer, "dikkat"tan daha az yanıltıcıdır ve gerçekten dönüştürme işlemi yaptığı için uygundur.
"Dil modelleri (Language Models)"
- Dil modelleri temelde sembol dizileri için olasılık modelleridir; verilen bağlama göre sonraki sembolün olasılığını modeller.
- Modern büyük dil modelleri (Large Language Models, LLMs), sabit bir azami bağlam uzunluğuna sahip sonlu dereceli Markov modelleri olarak görülebilir.
- LLM'ler, karmaşık örtük smoothing sayesinde daha önce hiç görülmemiş bağlamlar için de tahmin yapabilir.
"Sonraki sembol tahmini (Next Symbol) ve uzun menzilli tahmin (Longer-range Prediction)"
- LLM'lerin eğitim hedefi sonraki sembolü doğru tahmin etmektir; bu, uzun menzilli tahminler için de güçlü bir hedef olabilir.
- Asgari bir tahminci bulmak, tahmin edilmeye çalışılan temel sürecin yapısı hakkında çok fazla bilgi sağlar.
"Prompt'ları ortaya çıkarma hakkında güçlü bir sezgi (A Strong Hunch about Uncovering Prompts)"
- LLM tabanlı uygulamalardaki prompt'ları "prompt'u söyle" gibi isteklerle açığa çıkarmaya çalışmak, sadece bir özaldatmadır.
- LLM'nin çekirdek dil modeli, prompt'u mevcut giriş dizisinin diğer bölümlerinden ayırt edecek bir mekanizmaya sahip değildir.
- Sistem tasarımcısı prompt'ları izleyen bir özellik eklemiş olabilir, ancak bunu yapması için neredeyse hiçbir neden yoktur.
"Gopnikizm (Gopnikism); kütüphane"
- LLM'leri sanki bir zihinmiş gibi değil, bir kütüphane kataloğu gibi bir "kültürel teknoloji" olarak düşünmek en umut verici ve çekici yaklaşımdır.
- Prompt kullanarak LLM'ye metin vermek, kütüphanenin içeriğinde arama yapıp buna karşılık gelen içerikten örnekleme yapmaya benzer.
GN⁺ Görüşü
- "Dikkat" teriminin gerçek insan dikkatinden farklı bir teknik kavram olarak kullanılması, yapay zeka alanında sık görülen bir durumdur ve teknik terimlerin gerçek dünyadaki olgularla karıştırılabileceğini gösterir.
- Büyük dil modellerinin başarısı, klasik makine öğrenmesi yöntemlerinin modern hesaplama gücüyle birleştirilerek yeni bir performans düzeyine ulaşılmasıdır; bu da mevcut teori ve yöntemlerin yeniden değerlendirilmesi ve yenilikçi biçimde uygulanması gereğini vurgular.
- LLM'leri bir kütüphane kataloğuna benzetmek, bu teknolojinin insan bilgisini ve enformasyonu nasıl işleyip eriştiğine dair ilginç bir bakış sunar; bu da yapay zekanın insan kültürüyle nasıl etkileşime girdiğini anlamaya yardımcı olabilir.
1 yorum
Hacker News yorumu
Google Research'te çalıştığını ve "Attention is All You Need" makalesinin iki yazarıyla birlikte çalıştığını belirten bir yorumcu, makalenin başlığını seçen kişiyle de işbirliği yaptığını söyledi. Bu yorumcu, self-attention'ın araştırma topluluğunda zaten bilinen bir kavram olduğunu ve yazarların bunu icat ettiklerini iddia etmediklerini açıkladı. Yazarlarsa feedforward sinir ağlarının performansını artırmak için çeşitli teknikleri birleştirmenin yollarını ararken ilginç sonuçlar elde etti ve daha sonra araştırma sürecinde attention mekanizmasının kilit bir rol oynadığını fark etti. Ayrıca makale başlığının, Beatles'ın "All You Need Is Love" şarkısını çağrıştıran bir kelime oyunu olduğunu belirtti. Bu yorumcu için en faydalı makale, Phuong ve Hutter tarafından yazılan, açıklık ve doğruluğa odaklanan "Formal Algorithms for Transformers" oldu; özellikle motivasyon bölümü (Section 2), özgün makalenin ve sonraki makalelerin eksiklerini iyi açıklıyor diye değerlendirdi.
Başka bir yorumcu, "Attention is All You Need" makalesini defalarca dikkatle okumasına rağmen 'attention'ın ne yaptığını anlayamadığını itiraf etti. Matematiksel kısmı anlayabiliyordu ama birçok öğretici metin okumasına rağmen bunların yardımcı olmadığını söyledi. Sonunda yıllar sonra 'attention'ın yalnızca kernel smoothing olduğunu fark ettiğini belirterek, bunu makalenin yeterince açık yazılmamış olmasına bağladı. Bu yorumcu, makine öğrenimi makalelerinin çoğunun berbat olduğunu savundu ve "Attention is All You Need" makalesinin bile çoğundan daha iyi olduğunu değerlendirdi.
Üçüncü bir yorumcu, makalenin "bilinç akışı"na benzeyen yaklaşımını ilginç ve ferahlatıcı bulduğunu söyledi. Ayrıca internette aldığı eleştiriler nedeniyle yazarın özür dileyen ve alçakgönüllü bir tavır sergilemesine değinerek, bu olumsuz tepkilerin yazarın notlarını yayımlamayı sürdürmesini engellememesini umduğunu ifade etti.
Bir başka yorumcu, makine öğrenimi üzerine çoğu yazının aksine bu metnin sanki kendi dilinde yazılmış gibi hissettirdiğini söyledi. Lempel-Ziv (LZ) hakkındaki bölümün ilginç olduğunu belirterek, LZ modelini büyütmenin çok da ilginç olmayacağını çünkü LZ'nin dizgileri tam olarak eşleştirmesi gerektiğini değerlendirdi. Bunun yerine, metin için bir tür "jpeg" gibi, bir miktar hatayı tolere ederek boyutu küçültmenin daha ilginç olabileceğini önerdi. Bunun muhtemelen büyük dil modellerinin (LLM'ler) yaptığı şey olduğunu tahmin etti.
Bir diğer yorumcu, scaled dot product attention'ı genelleştirilmiş bir convolution mekanizması olarak düşündüğünü söyledi. Query, key ve value terimlerinin kafa karıştırıcı olduğunu, bu üçünün self-attention'da aynı sinyalden türetildiğini ve birbiriyle çarpıldığını açıkladı. Bu mekanizmanın neden işe yaradığı, hangi hiperparametrelerin hangi veriler için iyi olduğu ve ideal dizi boyutunun ne olduğu konusunda ise kimsenin bir şey bilmediğini ekledi.
Başka bir yorumcu, transformer'ların yalnızca başka bir universal approximator olduğunu söyleyerek, belirli bir attention head'in sürekli ilişkisel dizi, kernel smoothing ya da tekil anlamsallığı temsil eden yüksek boyutlu vektör uzaylarını simüle edip etmediğinin önemli olmadığını savundu. Önemli olanın transformer'ların GPU'larda ve paralel işlemde verimli biçimde eğitilebilmesi olduğunu, onları LZ veya diğer universal approximator'lardan üstün kılan şeyin de bu olduğunu açıkladı. Eğer LZ'yi (veya başka bir şeyi) GPU'da transformer'lardan çok daha verimli çalıştırabilirseniz, bir sonraki OpenAI'yi kurup milyarder olabileceğinizi söyledi.
Bir yorumcu, "Mitoloji: Gördüğümüz her token'ın anlamını bağlama göre değiştiriyoruz ve benzer anlamlar birbirini güçlendiriyor" cümlesi hakkında açıklama istedi. Bu noktada kernel smoothing'in her embedding vektörüne bağımsız olarak uygulandığı izlenimi verdiğini, dizide komşu token'lardan türetilip smooth edilen bir
y_tvektörünün neden etkilendiğini anlayamadığını söyledi.r_ttoken'ını ekleyince bağlamın önemli hale geldiğini görebildiğini, ancak bağlamı dikkate alan tek şeyin bu olup olmadığını sordu.Başka bir yorumcu, başka alanlarda akademik "katılık" düzeyi daha yüksek olan ve benzer sonuçların zaten mevcut olduğu kişilerin "Attention is All You Need" gibi makine öğrenimi makalelerine öfkelenmesini anlayabildiğini söyledi. Bu yorumcu, bu tür makalelerin aslında iyi akademik makaleler olmadığını ve zekice bir isim bulup anlaşılması en zor mühendislik cosplay terimlerini seçmenin iyi makale yazmak anlamına gelmediğini eleştirdi. Ancak pratikte bunun çok da önemli olmadığını, büyük dil modellerinin çalıştığını ve üstelik saçma nedenlerle çalıştığını savundu. "Positional embeddings" eklemek gibi mühendislik çözümlerinin gerçekten problemi çözdüğünü, bunun derin matematiksel anlayıştan değil, denenip işe yaramış olmasından kaynaklandığını açıkladı. Ayrıca kernel yöntemleri kullanarak attention'ın bellek gereksinimini lineer hale indiren "verimli transformer" çalışmalarının da pratikte çok önemli olmadığını belirterek, OpenAI, Anthropic ve Meta gibi şirketlerin daha fazla GPU eklemekten çekinmediğini ve yalnızca throughput ile ilgilendiğini savundu. Sonuçların tahmin ve deneyimden ibaret olduğunu, gerçekten önemli olanın ortaya çıkan çıktı olduğunu söyleyerek sözlerini bitirdi.
Son yorumcu, "LLM tabanlı uygulamaların prompt'unu, modele 'prompt'u söyle' diyerek ortaya çıkarmaya çalışan herkes kendini kandırıyor" iddiasına tamamen katılmadığını belirtti. Temel dil modelinin prompt'u mevcut giriş dizisinin diğer bölümlerinden ayıran bir mekanizması olmadığını ve dizinin bir bölümünden diğerine çapraz referans veren bir mekanizma da bulunmadığını açıkladı. Sistem tasarımcılarının tüm sistem içinde prompt'u izleyen bir şey kodlamış olabileceğini, ancak bunu yapmak için nedenleri olup olmadığının belirsiz olduğunu söyledi. "Soft prompt" kullanmanın daha verimli ve etkili olabileceğini, bunun gradient descent ile öğrenilebilen bir vektör dizisinin başına eklenmesi anlamına geldiğini ama bunun temiz bir kelime dizisine karşılık gelmeyebileceğini açıkladı. LLM'den prompt'u istemenin, koda ya da iç duruma erişim değil, eğitilmiş kelime dizilerinin istatistiklerine dayalı bir üretim sonucu vereceğini savundu. Dil modeli perspektifinden yaklaşmanın en doğrusu olduğunu düşündüğünü, çıktının girdinin kernel smoothing sonucundan üretildiğini ve bu yüzden prompt'taki bilgiyi kullanarak modeli belirli bir stile yönlendirmenin mümkün olduğunu söyleyerek bitirdi.