Derin öğrenme için bilimsel bir teori ortaya çıkacak.

(arxiv.org)

24 puan yazan GN⁺ 4 일 전 | 1 yorum | WhatsApp'ta paylaş

Derin öğrenmenin öğrenme süreci, gizli temsilleri, nihai ağırlıkları ve performansı gibi temel özelliklerini karakterize eden bir bilimsel teorinin oluşmakta olduğunu savunan bir makale
Beş araştırma akışını (yorumlanabilir idealize ayarlar, ele alınabilir limitler, basit matematiksel yasalar, hiperparametre teorileri, evrensel davranışlar) temel dayanak olarak sunuyor
Bu teori, öğrenme sürecinin dinamiklerine odaklanıyor; kaba toplulaştırılmış istatistikleri tanımlıyor ve çürütülebilir nicel tahminleri vurguluyor
Bu yeni teorik çerçeve, öğrenme sürecinin dinamikleri için "learning mechanics" adıyla öneriliyor
deep linear network, NTK, mean-field ve lazy-rich ayrımı gibi sonuçlar; öğrenme dinamikleri, genelleme, feature learning ve scaling law'ları nicel olarak ele almayı mümkün kılıyor
İstatistiksel ve bilgi-kuramsal bakış açıları ile mechanistic interpretability ile simbiyotik bir ilişki öngörüyor ve derin öğrenme teorisinin gelecekteki yönünü değerlendiriyor

Makalenin temel iddiası

Derin öğrenmenin öğrenme süreci, gizli temsilleri, nihai ağırlıkları ve performansı gibi önemli özellik ve istatistiklerini karakterize eden bir bilimsel teori (scientific theory) ortaya çıkıyor
Hâlihazırda süren derin öğrenme teorisi araştırmalarının ana akımlarını bir araya getirerek, bu teorinin varlığını destekleyen beş araştırma yönünü belirliyor
- (a) Yorumlanabilir idealize ayarlar (solvable idealized settings): Gerçekçi sistemlerin öğrenme dinamikleri hakkında sezgi sağlar
- (b) Ele alınabilir limitler (tractable limits): Temel öğrenme olgularına dair içgörüleri ortaya çıkarır
- (c) Basit matematiksel yasalar (simple mathematical laws): Önemli makroskobik gözlemlenebilirleri (macroscopic observables) yakalar
- (d) Hiperparametre teorileri (theories of hyperparameters): Hiperparametreleri öğrenme sürecinin geri kalanından ayırarak daha basit bir sistem bırakır
- (e) Evrensel davranışlar (universal behaviors): Sistemler ve ayarlar arasında paylaşılan olgular üzerinden hangi olguların açıklama gerektirdiğini netleştirir
Ortaya çıkmakta olan teoriyi, öğrenme sürecinin dinamikleri olarak görmek en uygun yaklaşım; bunun için "learning mechanics" adını öneriyor
İstatistiksel (statistical) bakış açısı ve bilgi-kuramsal (information-theoretic) bakış açısı gibi, derin öğrenme teorisi inşasına yönelik diğer yaklaşımlarla ilişkisini tartışıyor
Özellikle learning mechanics ile mechanistic interpretability arasında simbiyotik bir ilişki öngörüyor

Giriş

Derin öğrenme son derece güçlü olsa da, iç işleyişini bütünlüklü biçimde açıklayan bilimsel bir çerçeve hâlâ eksik
- Sinir ağları çeşitli görevlerde insanüstü performans gösteriyor, ancak neden böyle çalıştıkları ve bu performansın nasıl ortaya çıktığına dair birleşik bir teori yok
- Gerçek eğitim süreçleri de hâlâ first principles yerine büyük ölçüde deneme-yanılmaya dayanıyor; teori ise gündelik derin öğrenme pratiğinde sınırlı rol oynuyor
Büyük dil modelleri ve diffusion model çağında bu gizem daha da derinleşti, ancak bilimsel bir derin öğrenme teorisi gerçekten şekillenmeye başladı ve biçimi de öğrenme sürecinin mechanics'ine daha yakın
Derin öğrenme teorisinin odağı zaman içinde değişti
- İlk dönemde odak, modelin hangi fonksiyonları temsil edebildiği ve bunları veriden nasıl öğrendiği üzerindeydi
- Sonrasında odak, sonlu örneklem altında ne zaman genelleme yapabildiğine kaydı; bu süreçte classical learning theory, hesaplamalı öğrenme teorisi, PAC teorisi ve klasik optimizasyon teorisi gelişti
- Aynı zamanda basit modellerin ortalama davranışını ele alan statistical physics of machine learning geleneği de oluştu
Çok katmanlı ağlar, backpropagation, veri ve hesaplama kaynaklarının büyük ölçekte artması, mevcut teorilerin sınırlarını görünür kıldı
- Sinir ağları konveks olmayan ve aşırı parametreli yapılara sahiptir; bu da klasik teorinin iyi ele aldığı basit ve konveks modellerden farklıdır
- Düşük eğitim hatasının ötesinde yapılandırılmış iç temsiller öğrenirler ve görevler ile ölçekler genelinde düzenlilikler sergilerler
Bu değişimle birlikte derin öğrenme teorisi, neyin mümkün olduğunu matematiksel olarak sorma aşamasından; karmaşık ampirik sistemlerin davranışını betimleyen ve öngören bilimsel bir aşamaya geçti
- Bu nedenle ampirik gözlemleri kapsayan, birleştirici ilkeleri arayan ve tekrar eden örüntüleri tanımlayan bilimsel bir yaklaşım gereklidir
- Bundan sonraki yolun da saf matematiksel bir alanın gelişiminden çok, olgunlaşan bir bilim dalının sürecine benzeyeceği öne sürülüyor

learning mechanics nedir

Sinir ağı öğrenimi, cisimlerin uzay ve zaman içinde hareketini inceleyen mechanics ile benzer şekilde görülebilir
- Cisimler kuvvet etkisiyle fiziksel uzayda sürekli hareket ettiği gibi, model de ayrık güncellemeler yoluyla parameter space içinde hareket eder
- Fizikte kuvvetler sistem bileşenleri arasındaki etkileşimlerden doğduğu gibi, derin öğrenmede de parametreler, veri kümesi, görev ve öğrenme kuralı arasındaki etkileşimler öğrenmeyi şekillendirir
Fizikteki alanlar ile derin öğrenmedeki gradient arasında da bir karşılık vardır
- Fiziksel bir sistem, iç etkileşimler ve dış kısıtlar tarafından belirlenen bir potansiyelin yerel minimumuna yerleştiği gibi, sinir ağı da mimari ile eğitim verisinin oluşturduğu loss landscape'in yerel minimumuna yakınsar
Bu benzetme yalnızca retorik değildir; bugün süren araştırma akımlarıyla da örtüşür
- Mechanics'in farklı alanları yorumlanabilir ayarlar, basitleştirilmiş limitler, özet istatistikler, sistem parametre analizi ve evrensel olgular kullanır; öğrenme mechanics'i de aynı araçları kullanır
- Özellikle çok sayıda etkileşimli bileşeni ele alan continuum mechanics ve statistical mechanics gibi, derin öğrenmede de tek tek bileşenlerden çok daha büyük ölçekteki istatistikleri açıklamak faydalıdır
Bu araştırma programı learning mechanics adı altında toplanabilir

learning mechanics için gerekli 7 koşul

Temellilik
- Sinir ağı eğitimi, first principles'dan başlayarak mantıksal biçimde geliştirilmelidir
- Ara adımlarda ağırlıklar, dinamikler ve performansla ilgili varsayımlar araç olarak kullanılabilir; ancak nihayetinde bunlar da first principles ile açıklanmalıdır
Matematiksel olma
- Önemli sinir ağı özellikleri hakkında belirsiz olmayan nicel ifadeler üretilmelidir
- Yalnızca nitel anlatım ile mechanics kurulamaz
Öngörülebilirlik
- Basit ve tekrar edilebilir ampirik ölçümlerle doğrulanabilecek iddialar ortaya konmalıdır
- Sistem üzerinde deneysel kontrol son derece yüksek olduğundan, temel ilerlemeler deneylerle açık biçimde doğrulanabilmelidir
Kapsayıcılık
- Eğitim süreci, iç temsiller ve nihai ağırlıklar tek bir tablo içinde birbirine bağlanmalıdır
- Tüm ayrıntıları kapsamak yerine, bir miktar ayrıntıdan feragat etse bile içgörü sağlayan uygun çözünürlük seçilmelidir
Sezgisellik
- Teknik karmaşıklıktan çok, basit ve aydınlatıcı içgörüler öncelenmelidir
- Derin öğrenmenin gizemini azaltan bir teori olmalıdır
Faydalılık
- Fizik diğer mühendislik alanlarının temeli olduğu gibi, uygulamalı derin öğrenmenin bilimsel zemini olmalıdır
- Buna hiperparametre ayarını azaltma, dataset design için tahmin araçları, AI safety için sağlam bir temel gibi somut hedefler dahildir
Alçakgönüllülük
- Neyi iyi açıkladığı ve neyi açıklayamadığı açıkça belirtilmelidir
- Gerçek dünyadaki derin öğrenmeye uygulanabilir bir mechanics, küçük ve elle tasarlanmış özel durumlarda bozulabilir; bu, ilgi duyulan bölgede daha sade bir tablo elde etmenin bedeli olarak görülür

learning mechanics neden önemlidir

Bilimsel nedenler
- Büyük sinir ağlarının mühendislik başarısı, henüz tam anlaşılmamış öğrenme ve temsilin derin ilkelerinden yararlandığını düşündürür
- Teoriden önce gelen teknoloji örnekleri olarak steam engine ile thermodynamics ve uçak ile aerodynamic theory verilir
- Yapay sinir ağlarının öğrenme ilkeleri, biological intelligence'ı anlamaya da ışık tutabilir; bu da neuroscience ve cognitive science için çıkarımlar doğurabilir
Pratik nedenler
- Olgun bir derin öğrenme teorisi; model tasarımı, optimizasyon, ölçekleme ve dağıtımı daha güvenilir ilkelere dayandırabilir
- Teori bazı alanlarda şimdiden rol oynamaya başladı
  - empirical scaling laws
  - Hiperparametre ölçeklemesine yönelik matematiksel reçeteler
  - Teorik motivasyonla tasarlanmış optimizer ve data attribution yöntemleri
- Daha derin ve daha eksiksiz bir teori, bu tür kılavuzları çoğaltabilir ve onları daha keskin, daha öngörücü hâle getirebilir
Güvenlikle ilgili nedenler
- Gittikçe daha güçlü hâle gelen AI sistemlerini betimlemek, karakterize etmek ve kontrol etmek için ilgili değişkenlerin, mekanizmaların ve örgütleyici ilkelerin netleştirilebilmesi gerekir
- Açık biçimde betimlenemeyen bir teknolojiyi düzenlemek zordur; fundamental theory, reliability, oversight ve control için gerekli açıklığı sağlayabilir
- Özellikle mechanistic interpretability'yi destekleyen bir yolla AI safety'ye katkı sunma potansiyeli vurgulanır

Öğrenme mechanics'inin ortaya çıkmakta olduğuna dair kanıtlar

Derin öğrenmenin temel bileşenleri açık ve ölçülebilirdir
- Mimari, basit doğrusal ve doğrusal olmayan dönüşümlerin bileşiminden tanımlanan sinir ağı f(x; θ) ile verilir
- Veri, bilinmeyen bir veri üretim dağılımından gelen örnekler kümesi D = {(xi, yi)} olarak verilir
- Görev, veri kümesi üzerindeki performansı ölçen amaç fonksiyonu L(θ) ile tanımlanır
- Öğrenme kuralı, örneğin θ(t+1) = θ(t) −η∇L(θ(t)) gibi gradient tabanlı güncellemeler ile başlatma ve optimizasyon hiperparametreleriyle tanımlanır
Öğrenme sürecinde gizli kalan neredeyse hiçbir şey yoktur
- Pek çok karmaşık sistemin aksine, derin öğrenme dinamikleri yöneten equations of motion'u doğrudan ortaya koyar
- Tüm weight, activation, gradient ve loss değerleri kaydedilebilir; bunlardan istenen her türlü istatistik de üretilebilir
- Deney tasarımı, yeniden üretim ve doğrulama kolay olduğundan, ampirik düzenlilikleri keşfetmek ve teorik tahminleri sıkı biçimde sınamak için elverişlidir
Merkezi zorluk opaklık değil, karmaşıklıktır
- Architecture, data, task ve learning rule etkileşimi; doğrusal olmayan, birbirine bağlı ve yüksek boyutlu öğrenme dinamikleri üretir
- Hiperparametre seçimine duyarlıdır ve veri dağılımının kendisini de basit biçimde karakterize etmek zordur
Buna rağmen bu karmaşıklığın altında düzenlilikler gizlidir ve bunu destekleyen beş gözlem sunulur
- (a) Yorumlanabilir idealize ayarlar (solvable idealized settings)
- (b) Ele alınabilir limitler (tractable limits)
- (c) Basit matematiksel yasalar (simple mathematical laws)
- (d) Hiperparametre teorileri (theories of hyperparameters)
- (e) Evrensel davranışlar (universal behaviors)

=== Makale içeriğinin devamı atlandı ===

Ek giriş materyalleri, bakış açıları ve açık sorular learningmechanics.pub adresinde sunuluyor
Makale 41 sayfadan oluşuyor

1 yorum

GN⁺ 4 일 전

Hacker News görüşleri

Bu alanda çalışan biri olarak bakınca, bu yazı şu anda en çok ele alınan araştırma konularını oldukça iyi özetliyor.
Özellikle sondaki open problems bölümü, fiilen temel araştırma yönlerinin neredeyse hepsine değindiği için en faydalı kısımdı.
Yorumlarda bu kadar çok şüphecilik görülmesi, bu tür araştırmaların kamuya neredeyse hiç aktarılmadığını gösterdiği için üzücü.
Hâlâ en iyi ağ tasarımını matematiksel olarak doğrudan türeten fazla mekanizma yok, ama bunun nedeni çoğu zaman deneylerin teoriden daha hızlı ilerlemesi ve açıklamaların sonradan gelmesi.
Yine de sinir ağlarının neden diğer modellerden daha iyi çalıştığı sorusuna artık oldukça sağlam bir cevabın yaklaştığını düşünüyorum.
Sorun şu ki insanların gerçekten merak ettiği soru aslında bu değildi; bu yüzden artık bir sonraki adımda ne sormamız gerektiğine karar verme aşamasındayız gibi görünüyor.
- Şu an derin öğrenmenin bilgi kuramı temellerinin hızla oturduğu tuhaf bir dönemde olduğumuzu düşünüyorum.
  Neden çalıştığı sorusu büyük ölçüde çözülmüş durumda; asıl mesele, noise floor'a kıyasla geri döndürülemez bilgi kaybını verimli biçimde en aza indirmek.
  Matematik daha verimli yollar gösterse de sektör yıllardır sadece daha büyük modellere yüklenerek büyük israf yapıyor.
  İyi yapılmış bir 70B modeli bile yetenek kaybı olmadan yaklaşık 16GB düzeyinde çalıştırmak ve hatta eğitmeye devam etmek mümkün olabilirken, finansman sürekli yalnızca daha büyük olana aktı.
  Sektör artık hedefini Agency ve Long-horizon Persistence yönüne kaydırdı; tahmin yapan hesap makinesinden uzun ömürlü sistemlere geçiş, denge-dışı termodinamik problemine daha yakın.
  Bunun için AI'ya da doğrudan uygulanan matematik ve yasalar var; model içinde sinyalin sürmesini sağlayan ilke ile bir ajanın kalıcılığını sağlayan ilke aslında neredeyse aynı matematiğe bağlanıyor.
  Benim uzmanlık alanım da tam olarak bu kalıcılık ve AI tarafının başka alanlarda zaten öğrenilmiş birinci ilkeleri yeniden zahmetle keşfetmeye çalışmasını görmek açıkçası zaman zaman sinir bozucu oluyor.
  Bu yüzden matematiğin nasıl işlediğini ve insanların bunu kendi alanlarına nasıl uygulayabileceğini anlatan belgeler yazıp paylaşıyorum; bunları gördükten sonra sezgiyle deneme yapmak yerine kalıcılığı artırmak için tam olarak neyi iyileştirmek gerektiği anlaşılabiliyor.
  Bir modeli birkaç saat çalıştırabilir miyiz gibi sorular, asıl daha temel soruların yanında neredeyse sevimli kalıyor.
- Eğer bu doğruysa gerçekten çok sevindirici.
  Klasik bakış açısından bakınca, aşırı parametreleştirme ya da başka sinir ağı yapılarının etkisi dürüst olmak gerekirse pek ikna edici gelmiyor.
  double descent'in ampirik olarak işe yaradığını kabul ediyorum ama normalde öyle olmaması gerektiğini hissettiriyor.
  Hastie ve diğerlerinin Elements kitabını seven biri olarak, sadece bias-variance tradeoff açısından bakınca bile böyle sonuçların çıkması zor görünüyor.
  Bu konu yıllardır aklıma takılıyordu; burada bir ilerleme varsa en azından felsefi düzeyde bile son derece faydalı olur.
  Henüz sadece giriş bölümünü okudum ama yazı da iyi yazılmış; böyle bir araştırma programını fazlasıyla desteklemek isterim.
  Bir bakıma bagging ve boosting'in de başta teori olmadan, önce ampirik olarak başarı göstermesine benziyor.
- Sinir ağlarını anlama araştırmaları konusunda, en baştan bunların bir black box olduğunu ve dolayısıyla anlaşılmalarının imkânsız olduğunu söyleyen bu kadar çok insan olmasına hep şaşırıyorum.
  Muhtemelen bunda sinir ağlarının, klasik olarak yorumlanabilir linear regression'ın tam karşısında konumlandırılmasının etkisi büyük.
  Mühendislik çok hızlı ilerlediği için, araştırma anında sonuç üretmiyorsa beklemeye pek tahammül edilmeyen bir hava da var.
  Hatta yorumlanabilirlik araştırmacıları arasında bile görünür sonuçlar hemen gelmeyince çok çabuk vazgeçenler var gibi görünüyor.
- Sinir ağları neden diğer modellerden daha iyi çalışıyor sorusu ilginç geliyor.
  Bu alandan olmayanların da okuyabileceği kaynaklar varsa bilmek isterim.
- Sinir ağlarının gerçekten diğer modellerden daha iyi olduğunu kesin biçimde söyleyebileceğimizden emin değilim.
  Görüntü gibi geleneksel ML'nin zorlandığı problem kümelerini çok daha geniş biçimde ele alabildikleri doğru, ama adil karşılaştırmanın yapılabildiği yerlerde gradient boosting'in daha iyi sonuç verdiğini de sık sık görüyorum.
Benim anlamadığım nokta şu:
Sinir ağı fikri onlarca yıldır vardı ama fazla ilgi görmedi; sonra 2017'deki Attention Is All You Need sonrasında derin öğrenme patlayıcı biçimde büyüdü.
GPU'ların derin öğrenmeyi hızlandırdığını biliyorum ama transformer fikrinin kendisi, çok daha yavaş donanımla da daha erken denenebilirdi gibi geliyor.
- Gerçek dönüm noktası 2012'deki AlexNet idi.
  AlexNet, https://en.wikipedia.org/wiki/AlexNet bağlantısında görülebileceği gibi ImageNet sınıflandırma yarışmasında önceki yöntemlere kıyasla bambaşka bir düzeyde performans artışı gösterdi ve bunun ardından büyük ML görüntü laboratuvarlarının tamamı deep CNN'e geçti.
  Birkaç yıl içinde diğer yaklaşımlar SOTA görüntü yarışmalarında neredeyse tamamen ortadan kalktı ve sonrasında derin sinir ağları diğer ML alanlarına da hâkim oldu.
  Genel kabul gören açıklama aslında iki şeyin birleşimi.
  İlki geçmişe göre ezici ölçüde artmış hesaplama gücü, ikincisi ise elle temizlenmiş ve etiketlenmiş ImageNet gibi çok daha büyük ve yüksek kaliteli veri kümeleri.
  attention, metin gibi sıralama yapısı görece serbest olan dizilerde karmaşık ilişkileri öğrenmede özellikle faydalıydı; ancak bugün birçok kişi mimariyi, öğrenmenin özünden ziyade veri ve hesaplama gücünün yetersiz olduğu koşullarda bir tradeoff seçeneği olarak görüyor.
  Sonuçta https://en.wikipedia.org/wiki/Bitter_lesson örneğinde olduğu gibi, daha fazla hesaplama ve daha fazla veri çoğu zaman iyi ölçeklenmeyen daha akıllı modelleri geride bırakıyor.
  İnsanlarda yaklaşık 10^11 nöron, köpeklerde 10^9, farelerde 10^7 civarında nöron var; burada göze çarpan şey bunların hepsinin çok büyük sayılar olması.
  Fare gibi sınırlı zekâya sahip bir canlı bile yüz milyonlarca nöron gerektiriyor ve zekâ sanki ancak belli bir hesaplama kapasitesi eşiği aşıldığında ortaya çıkıyor gibi görünüyor.
  Muhtemelen karmaşık öğrenme ortamlarının içsel karmaşıklığını ele almak için çok sayıda parametre gerekiyor.
  Buna karşılık basit ya da iyi yapılandırılmış problemler için, daha az parametreyle çok iyi çalışan hatta optimal olduğu kanıtlanmış pek çok yöntem var.
  Bizim öğrenme ve zekâ diye söz ettiğimiz şeyler genelde karmaşık ortamları varsayar ve bu karmaşıklık doğası gereği çok sayıda parametre gerektirir.
- Derin öğrenmenin daha erken büyük zaferi aslında 2012 AlexNet ile görüntü tanımada gelmişti.
  O model yarışmayı ezip geçti ve birkaç yıl içinde görüntü işleri için fiilen standart hâline geldi.
  Sanırım Jeremy Howard'dı; 2017 civarında, görüntüde convnet'in başardığı kadar NLP'de de etkili olacak transfer learning'in ne zaman geleceğini soran bir yazı yazmıştı.
  O yıl attention makalesi hemen dünyayı ele geçirmedi; o dönemde donanım da yetersizdi ve ölçeğin her şeyi çözdüğüne dair bir uzlaşı da yoktu.
  GPT-3'ün öne çıkmasına kadar neredeyse 5 yıl daha geçti ve ancak o zaman bugünkü dalga başladı.
  Ayrıca bu canavarları eğitmek için gereken compute ölçeği çoğu zaman olduğundan küçük görülüyor; 1GHz tek bir işlemciyle bu seviyede bir modeli eğitmek kabaca 100 milyon yıl sürerdi.
  GPT-3 sınıfı bir model bile yaklaşık 25 bin GPU kullanılarak aylar içinde eğitiliyor ve 10 yıl önceki GPU'ların yetersiz belleğiyle büyük transformer'ları eğitmek pratikte imkânsızdı.
  Eski k80'lerde yaklaşık 12GB bellek vardı ama bugünkü H100/H200'ler yüzlerce GB düzeyinde; dolayısıyla büyük transformer'ların 2020'lerin başından önce fiilen yapılamadığını söylemek gerekir.
  2010'ların sonlarında oyuncuların, ML yüzünden GPU fiyatlarının uçtuğundan şikâyet ettiğini de hatırlıyorum.
- Başkalarının da dediği gibi, ilgi patlaması deep convolutional networks'ün görüntü problemlerinde işe yaramasıyla başladı.
  İlginç olan şu ki ondan önce sinir ağları pek önemli olmayan bir şey gibi görülüyordu.
  Ben 2000 civarında bu konuyla ilgili ders aldığımda da genel hava buydu.
  Yeniden ilgi görmesi için sonunda ImageNet gibi devasa eğitim verileri ve hızlı işlemcilerin bir araya gelmesi gerekmiş gibi görünüyor.
  Sonrasında belirli mimariler üzerindeki ardışık gelişmeler kar topu etkisi yarattı.
  Geniş topluluk AlexNet'i büyük kırılma noktası olarak görse de akademi içinde hava ondan 2-3 yıl önce değişmeye başlamıştı.
  2008-09 civarından itibaren atölyelerde sinir ağlarıyla ilgili sunumların artık görmezden gelinmediğini fark etmeye başlamıştım.
- Benzer bir durum matrisler için de yaşandı.
  Matrisler 400 yıldır vardı ama lineer cebirin, özellikle de sayısal lineer cebirin patlama yaşaması bilgisayarların ortaya çıkmasından sonraydı.
  Eskiden lineer denklem sistemlerini minors kuramıyla çözmek standarttı; fakat bilgisayarlar gelince Gaussian elimination ve Krylov uzayları gibi teoriler büyük gelişme gösterdi.
- Daha yavaş donanımla transformer fikrinin kendisi belki daha erken denenebilirdi, ama küçük ölçekte aynı sonuçlar elde edilmiyor.
  İnsanlar bunu hayal etmiş olsa bile, donanım olmadığı için gerçekte uygulayamıyorlardı.
  Basitleştirirsek LLM dediğimiz şey, temelde transformer mimarisine muazzam miktarda veri eklenmiş hâli; bu ölçekteki veriyi gerçekten eğitilebilir kılmak için de yeterince güçlü donanım şarttı.
Bir öğrenme aracı olan beyin ile başka bir öğrenme aracını anlamaya çalışmamız ilginç.
SGD zaten yeterince iyi çalışıyor ve onu birkaç kat daha iyi yapmak, black box'ın gerçekte ne yaptığına dair temel soruyu çözmeyebilir.
Öğrenmenin nasıl gerçekleştiği ile modelin gerçekte ne yaptığı farklı meseleler; çünkü bizim beynimiz de pek çok açıdan bir black box.
Bu yüzden öğrenme mekanizmaları araştırması ile psikolojiyi ve düşünce ile dilin doğasına dair felsefi fikirleri bağlayan daha güçlü köprülere ihtiyaç var gibi görünüyor.
Bu cesaret verici, ama başlık bence biraz abartılı.
Derin öğrenmenin gerçekte ne yaptığını anlamak için saldırı yüzeyleri gibi bir başlık daha doğru olurdu ama muhtemelen daha az dikkat çekerdi.
Eğer bu çalışmalar, derin öğrenme sistemlerinin ne zaman halüsinasyon ürettiğini ölçmenin bir yoluna çıkarsa çok büyük değer taşır.
Bu gerçekleşene kadar, derin öğrenme sistemleri ancak saçma çıktı üretmesinin zararının düşük olduğu işlerde sınırlı biçimde kullanılabilir.
- Bence bu alanın önündeki en büyük engellerden biri, LLM'lere yüklenen umut dolu çağrışımlar ve insanlaştırma eğilimi.
  Örneğin hallucination teriminin kendisi bile LLM çıktısına zorla insani bir anlam yüklüyor.
  Oysa gerçek matematiksel işleyiş açısından bakıldığında halüsinasyon da sadece başka bir çıktı türü ve onunla diğer çıktılar arasında tanımlı, net bir sınır yok.
- Derin öğrenme sistemlerinin halüsinasyon üretmeye ne zaman başladığını ölçmek gerçekten çözmeye değer büyük bir problem.
  Bu aynı zamanda benim ana araştırma yönüm olduğu için biraz önyargılı olabilirim.
  Yaygın yaklaşım OOD detection, ama ben bunun baştan itibaren problem tanımının pek sağlam olmadığını düşünüyorum.
  Bu yüzden meslektaşlarımla birlikte model misspecification ölçümü üzerinden daha temel bir yaklaşım deniyoruz; fakat hesaplama maliyeti o kadar yüksek ki şimdilik hâlâ niş bir konu.
  Hangi yönden gelirse gelsin bir atılım için biraz daha zaman gerekecek gibi duruyor.
Bunu görünce aklıma kavramsal olarak vibecoding geldi.
Önce bir şeyin çalışmasını sağlıyorsun, sonra bunun neden ve nasıl çalıştığını anlamak ise bambaşka bir iş oluyor.
Bir dakika, henüz anlamadığımız ve doğru düzgün açıklayamadığımız bir şeyi inşa edip şimdi de buna science mı diyoruz?
On yıllardır biyoloji, özellikle de nörobiyoloji terimlerini ödünç alıyoruz; sonunda da biraz maymun taklit eder gibi copy paste yapmışız hissi veriyor.
Dürüst olmak gerekirse, bu tür genel teori girişimlerinden iki tanesi bana daha ilginç geldi:
https://arxiv.org/abs/2510.12269
https://www.mdpi.com/1099-4300/28/3/332
fuzzy logic ile bağlantıyı da merak ediyorum.
Sinir ağları sanki belirsiz bir biçimde akıl yürütüyormuş gibi görünüyor ama bunun biçimsel olarak ne diye adlandırılması gerektiğinden emin değilim.
Yıllar boyunca fuzzy reasoning'i biçimselleştirmeye çalışan girişimler vardı ama artık kimse ilgilenmiyor gibi.
Bana göre sinir ağları ve transformer'lar, ML'nin OOP'si gibi.
Aşırı popülerler, pratikte de epey işe yarıyorlar; ama temel yapı hâlâ opak ve sanki önceden de ifade edilebilen şeyler yeni bir dille yeniden ifade ediliyormuş gibi, tam olarak kazancın nereden geldiğini saptamak zor.
Makalenin tamamını henüz okumadım ama gerçekten çok sürükleyici yazılmış ve oldukça düşünceli buldum.
Sindirilecek çok şey var, ama bunların tek bir yerde toplanmış olması son derece ilginç.
Derin öğrenmenin yüksek düzeyde iyi çalışmasının nedeni sonuçta daha fazla veriden öğrenmeye devam etme kabiliyetinin diğer yaklaşımlardan daha güçlü olması diye düşünüyorum.
Ama bugün mümkün olan muazzam miktarda veri olmasaydı, mimari o kadar da önemli olmayacaktı.
Model-veri denkleminde iki tarafı birlikte açıklamadan, örneğin reasoning modelleri neden muhakeme ediyor gibi sorular üzerine sağlam bir bilimsel teori kurmak zor görünüyor.
Model, mimari ile eğitim verisinin birlikte ürettiği bir sonuç.
Şu an bu mesele, insan ya da hayvanların devasa girdi verisi içinde belirli şeyleri nasıl öğrendiğini açıklamak kadar hâlâ belirsiz görünüyor.
Ampirik anlayışımız gelişecektir ama temel açıklama yeniden bilgisayar bilimine indirgenmeyebilir.
Gerçek karmaşıklığın merkezi bence mimariden çok giga-dataset tarafında.
Teori, başarısızlık kiplerini öngörmek gerektiği anda belirleyici hâle gelir.
Çoğu zaman idare eden ama edge case'lerde sessizce çöken karar destek sistemleri, sınırları açıkça bilinen daha basit sistemlerden daha tehlikeli olabilir.
Önyargı mekanizmalarını anlamak, modelin ne zaman gerçekten emin olduğunu ve ne zaman sadece pattern matching yaptığını ayırt etmeye yardımcı olur.
Bu fark özellikle riskin yüksek olduğu ortamlarda kritik önem taşır.

Derin öğrenme için bilimsel bir teori ortaya çıkacak.

Makalenin temel iddiası

Giriş

learning mechanics nedir

learning mechanics için gerekli 7 koşul

Temellilik

Matematiksel olma

Öngörülebilirlik

Kapsayıcılık

Sezgisellik

Faydalılık

Alçakgönüllülük

learning mechanics neden önemlidir

Bilimsel nedenler

Pratik nedenler

Güvenlikle ilgili nedenler

Öğrenme mechanics'inin ortaya çıkmakta olduğuna dair kanıtlar

İlgili okumalar

1 yorum

Hacker News görüşleri