LLM’lerin ‘ani sıçrama’ yeteneği kademeli ve öngörülebilir olabilir

(quantamagazine.org)

1 puan yazan GN⁺ 2024-03-26 | 1 yorum | WhatsApp'ta paylaş

Stanford araştırmacılarına göre LLM’lerdeki bazı ortaya çıkan yetenekler, gerçekten bir anda ortaya çıkmış olmayabilir; performansı ölçme biçimi yüzünden keskin bir sıçrama gibi görünmüş olabilir
BIG-bench, LLM’leri 204 görevle değerlendiriyor ve bazı görevlerde performansın uzun süre 0’a yakın kaldıktan sonra belirli bir ölçeğin ardından hızla yükseldiği süreksiz iyileşmeler gözlemliyor
Üç basamaklı toplama gibi yalnızca doğru/yanlış bakan doğruluk metriği, kısmen doğru cevapları da başarısız sayarak gerçek iyileşme sürecini gizleyebilir
Basamak bazında kısmi puan kullanıldığında, parametre artışıyla birlikte daha fazla rakamın doğru tahmin edildiği kademeli iyileşme ortaya çıkıyor ve toplamadaki ortaya çıkış yorumu zayıflıyor
Hangi metriklerin keskin iyileşmeler göstereceğini öngörme sorunu ve gerçek doğru cevabın kritik olduğu görevlerin değerlendirme sorunu devam ettiği için, yeni nesil modeller için bir öngörü bilimi gerektiği vurgulanıyor

BIG-bench’in gördüğü ani performans sıçraması

Beyond the Imitation Game benchmark, yani BIG-bench, 450 araştırmacının hazırladığı 204 görevle büyük dil modellerinin yeteneklerini değerlendiriyor
Birçok görevde model büyüdükçe performans öngörülebilir ve pürüzsüz biçimde artarken, bazı görevlerde performans uzun süre neredeyse 0’da kalıp sonra aniden yükseliyor
Ağustos 2022 tarihli makale, bu davranışın şaşırtıcı ve öngörülmesi zor olduğunu, ayrıca yapay zeka güvenliği, potansiyeli ve riskleri tartışmalarına yansıtılması gerektiğini savunuyor
Bu yetenek, sistem yalnızca yüksek bir karmaşıklık düzeyine ulaştığında ortaya çıkan kolektif davranışı ifade eden emergence kavramıyla adlandırılıyor

Stanford’un itirazı: yanılsamayı model değil metrik yaratıyor olabilir

Stanford University’den Sanmi Koyejo, Rylan Schaeffer ve Brando Miranda, yeni makalelerinde yeteneklerin aniden ortaya çıkmasının LLM performansını ölçme biçiminden kaynaklanabileceğini savunuyor
Temel argüman şu: yetenekler öngörülemez biçimde doğmuyor olabilir; bunun yerine ölçüm metriklerine bağlı olarak pürüzsüz ve öngörülebilir iyileşmeler keskin sıçramalar gibi görünebilir
Araştırmacılar, LLM’lerin ölçek büyüdükçe daha etkili hale geldiği gerçeğini kabul ediyor
Ancak iyileşme eğrisinin pürüzsüz mü yoksa dalgalı ve keskin mi görüneceği, yalnızca modelin iç işleyişine değil, metrik seçimine veya test örneklerinin yetersizliğine de bağlı olabilir

Model ölçeği ve değerlendirilen şey

LLM’ler, kitaplar, web aramaları, Wikipedia ve diğer çevrimiçi kaynaklardan oluşan devasa metin veri kümelerini analiz ederek, birlikte sık görülen kelimeler arasındaki bağlantıları bulacak şekilde eğitiliyor
Model büyüklüğü parametre sayısıyla ölçülüyor; parametreler kabaca kelimelerin bağlanabileceği biçimlere karşılık geliyor
Başlıca model ölçekleri şöyle
- GPT-2: 1,5 milyar parametre
- GPT-3.5: 350 milyar parametre
- GPT-4: Mart 2023’te duyuruldu, Microsoft Copilot’un temelini oluşturuyor ve 1,75 trilyon parametre kullandığı bildiriliyor
Büyük LLM’lerin, küçük modellerin yapamadığı görevleri yerine getirebilmesi tartışmanın ana noktası değil
Stanford ekibi de daha büyük modellerin ek karmaşıklığının daha zor ve daha çeşitli problemlerde performansı artırabileceğini kabul ediyor

Üç basamaklı toplamada doğruluk metriğinin sınırı

2022 tarihli BIG-bench çalışmasında GPT-3 ve LAMDA’nın, parametre sayısı düşükken toplama problemlerini doğru çözemediği değerlendirilmişti
GPT-3, 13 milyar parametreyle eğitildiğinde bir anda toplama yapabiliyormuş gibi görünmüş, LAMDA da 68 milyar parametrede benzer bir değişim göstermişti
Bu sonuç, toplama yeteneğinin belirli bir eşikte ortaya çıktığı şeklinde yorumlandı
Stanford araştırmacıları, bu değerlendirmenin yalnızca doğruluğa baktığı için tamamen doğru olmayan her cevabı başarısız saydığını belirtiyor
- Örneğin 100+278 sorusuna 376 cevabını vermek, −9.34’e göre gerçek sonuca çok daha yakındır; ancak doğru/yanlış metriğinde ikisi de başarısız kabul edilir
Araştırmacılar, birinci rakamın, ikinci rakamın ve üçüncü rakamın ne kadar doğru tahmin edildiğini ayrı ayrı ölçen kısmi puan metriğini kullandı
Bu metrikte, parametreler arttıkça LLM’lerin toplama sonucundaki rakam dizisini giderek daha doğru tahmin ettiği görülüyor
Dolayısıyla toplama yeteneği, ani ve öngörülemez bir sıçrama değil, kademeli ve öngörülebilir bir iyileşme olarak yorumlanabilir

Süren tartışma

Northeastern University’den Tianshi Li’ye göre Stanford makalesi, hangi metriklerin ne zaman LLM’lerde keskin iyileşme göstereceğini nasıl tahmin edeceğimizi henüz açıklamıyor
Bu açıdan bakıldığında bazı yeteneklerin hâlâ öngörülemez olduğu söylenebilir
OpenAI’den Jason Wei, aritmetik gibi doğru cevabın önemli olduğu yeteneklerde tam doğru sonucun kendisinin kritik olduğunu, bu yüzden önceki emergence raporlarının da geçerli olduğunu savunuyor
Anthropic’ten Alex Tamkin ise yeni makalenin çok adımlı görevleri daha küçük parçalara ayırıp her bileşenin katkısını fark etmeyi sağladığını söylüyor
Aynı zamanda Tamkin, tüm sıçramaların bir yanılsama olduğunu söyleyemeyeceğimizi; tek adımlı tahmin veya sürekli metrikler kullanıldığında bile süreksizlik görülen çalışmalar bulunduğunu belirtiyor

Daha büyük modelleri öngörmenin zorluğu

Rice University’den Xia “Ben” Hu, mevcut LLM’lerde emergence olgusunu farklı ölçüm araçlarıyla açıklayabilsek bile, gelecekteki daha büyük ve daha karmaşık LLM’ler için aynı açıklamanın geçerli olmayabileceğini düşünüyor
Hu, LLM’ler bir sonraki ölçek düzeyine ulaştığında farklı görevlerden ve farklı modellerden bilgi devşireceğini söylüyor
Tamkin’e göre emergence tartışması, LLM’lerin nasıl davranacağını öngörme çabasıyla doğrudan bağlantılı
LLM teknolojisinin uygulama alanı çok geniş olduğu için, gelecek nesil modeller karşısında şaşırmamak adına bir öngörü bilimi geliştirmek önem kazanıyor

1 yorum

GN⁺ 2024-03-26

Hacker News görüşleri

Bu çalışmada birkaç sorun var: 1) Geçti/kaldı türü doğruluğu token düzenleme mesafesi gibi daha yumuşak bir ölçütle değiştirmek, göreve bağlı olarak beceri için çok kötü bir vekil gösterge olabilir
2) Yazarların ölçütlerine göre bile hâlâ bazı potansiyel ortaya çıkan yetenekler bulunuyor
3) Sonradan bakınca her şey kolay görünür. Veriye yeniden bakıp ortaya çıkışın kaybolduğu bir dönüşüm bulana kadar kurcalayabilirsiniz; ama o sırada yaygın test doğruluğu ölçütleri kullanılmıştı ve sonuçların öngörülemez ve şaşırtıcı olması gerçekten dikkat çekilmesi gereken olguydu
Makalenin değeri var, ama sonuçları fazla ileri götürmemek gerek
- Yazının ilerleyen kısmında da belirtildiği gibi, toplamada neredeyse doğru olmanın pek anlamı yok. Ya doğrudur ya yanlıştır
  Yine de puanlama yöntemi değiştirildikten sonra bile bazı ortaya çıkan yetenekler kaldığı için bu çabayı olumlu görüyorum
“Başka bir ölçüt kullanınca ortaya çıkış kayboluyor” sözü çoğu ortaya çıkan davranış için de geçerli değil mi diye düşünüyorum
Ölçeği değiştirip su moleküllerine tek tek bakarsanız, birdenbire bir buz kütlesi oluştuğunu değil, moleküllerin kristal yapıya teker teker eklendiğini görürsünüz
- Tam olarak öyle değil. Sorun, makine öğrenmesindeki tanımın özellikle gevşek olmasında
  Burada daha ayrıntılı yazdım[0]. Az önce söylediğiniz şey ortaya çıkışı açıklıyor, ama LLM’lerde ortaya çıkan yetenekler olduğu söylendiğinde iddia edilen şeyle aynı değil. Bu ayrım yazıda da açıklanıyor
  [0] https://news.ycombinator.com/item?id=39812315
- Ama 50°C ve 75°C’deki moleküler yapıyı bilseniz bile donma noktası hakkında neredeyse hiçbir şey öğrenemezsiniz
  Başka bir örnek olarak, bir virüsün enfeksiyon vaka sayısını ölçerseniz ya dünyaya yayılır (R0 > 1, ör. COVID-19) ya da yaygınlaşamaz (R0 < 1, ör. Ebola). Tamamen ikili olmasa da dışarıdan ikili gibi göründüğü için ortaya çıkan bir davranıştır
  Buna karşılık R0’ı doğrudan ölçerseniz kademeli bir artış görürsünüz ve gelecekteki varyantları, aşı etkinliğini vb. çok daha kolay öngörebilirsiniz
  “Ortaya çıkış”ın örneğin sigmoidi, “kademeli”nin ise doğrusal ya da logaritmik bir fonksiyonu ifade ettiğini düşünüyorum
- Buzu ani bir ortaya çıkış sanan kimse yok. Çıplak gözle bile kademeli olarak oluştuğu açık
Makale: Are Emergent Abilities of Large Language Models a Mirage? https://arxiv.org/abs/2304.15004
Gelecek geldikten sonra onu tahmin etmek her zaman daha kolaydır
Gerçekte, geriye dönüp bakınca bile öngörmesi zor olan faz geçişi gibi ortaya çıkan özellikler olabilir; ama bunların yaygın olacağını sanmıyorum. İkna edici tek bir LLM örneği olup olmadığından da emin değilim
Daha genel durumun, üst düzey bir yeteneğin birçok alt yeteneğe bağlı olması ve bu ilişkinin öngörülmesinin zor olması olduğunu düşünüyorum. Bileşenlerde pürüzsüz iyileşmeler olmuş olabilir, ama neye bakmanız gerektiğini, yani kritik bileşenlerin ne olduğunu bilmeniz gerekir
Ortaya çıkan bir yeteneği öngörmek için gerekli bileşenleri önceden belirlemek ve beklenen davranışı desteklemek için her bir öğenin hangi düzeyde olması gerektiğini de bir ölçüde simüle etmek gerekir
Elbette mesele yalnızca model boyutu ya da veri ölçeği değil; verinin türü ve kalitesi de önemlidir ve model sürümleri arasında keskin değişimler olabilir. Güncellenmiş eğitim kümesinden modelin hangi yeni örüntüleri ya da işlemleri, yani bileşen yetenekleri öğreneceğini önceden analiz etmek çok zordur
Ters yönde bunun ne kadar sık gerçekleştiğini merak ediyorum. Yani model tasarımcısının “X’i yapmak için A, B, C yetenekleri gerekir; A, B, C’yi elde etmek için de yeni P ve Q veri kümeleri gerekir” diye başarıyla belirlediği durumlar. Böyle varsayımsal bir durumda X yeteneğine giden ilerleme ölçülebilirdi
- Bildiğim kadarıyla Transformer öncesinde böyle bir şey hiç olmadı. Çünkü modeller bu kadar çok ayrı beceriyi birbirine müdahale etmeden içinde barındıramıyordu
  Birden fazla yüksek kaliteli yeteneğe sahip model olgusu bile hâlâ oldukça yeni
  Yine de böyle bir yaklaşımın gerekli olduğunu düşünüyorum ve günümüzün en iyi LLM’lerinin benzer bir şeyi zaten yapıyor olması çok olası. Ne var ki ne yaptığını açıklayan kimse yok, bu yüzden bu yalnızca tahmin
“Ama diğer görevlerde yetenek gelişimi pürüzsüz değildi. Performans bir süre neredeyse 0’da kaldı, sonra aniden sıçradı. Başka çalışmalar da benzer yetenek sıçramaları buldu.”
Vay, gönderi başlığı epey hatalı değil mi?
- O paragraf önceki araştırma sonuçlarını özetliyor; bu makale de tam olarak o sonuçlara meydan okuyor
- Bu bağlamda, bu tür yeteneklerin kasıtlı olarak araştırılıp geliştirildiği; yoktan, herhangi bir yerden birdenbire çıkmadığı anlamına geliyor gibi
  Dünyanın önemli bir kısmı “AI”ın ani ortaya çıkışı karşısında hazırlıksız yakalandı, ama bunların geleceğini bilen insanlar da vardı
Kısmi puan veren yaklaşım iyi, ancak modeli doğru yanıtı üretmeye eğitmeye çalışıyorsanız yanıtın doğru olup olmadığı önemlidir.
Küçük bir modele aritmetik öğretirken, kayıp eğrisi kararlı bir duruma ulaşsa bile bazı rakamların doğru, ama cevabın hâlâ yanlış olduğunu gördüm. Daha fazla eğitmek mümkün, ancak gereken eğitim epoch sayısı model boyutuyla üstel olarak ters orantılı gibi görünüyor.
Yani x parametreli bir model, 2x parametreli bir modele göre n² kat daha uzun sürüyor gibi oluyor.
Belirli bir parametre sayısında, gradyan inişiyle eğitim yoluyla doğru cevabı elde etmek pratikte neredeyse imkânsız hale geliyor.
Parametre sayısı arttıkça yakınsamaya zorlamak daha kolaylaşıyor; bu da gerçekte önemli bir ölçüt.
Bir noktadan sonra o yeteneğin kendiliğinden ortaya çıkmasına ilişkin beklenen süre, insan ömründen, hatta tüm insanlığın ömründen bile uzun hale geliyor. Model boyutundaki artışın bunu uygulanabilir kılması anlamında, o yeteneğin yeterince ani biçimde belirdiğini söylemenin doğru olduğunu düşünüyorum.
- Esas nokta şu: doğru cevap veren bir model isteseniz bile, hedeften ne kadar uzakta olduğunuzu görmek için ikili doğruluk yerine kısmi puan kullanmalısınız.
  İyileşmenin aniden ve öngörülemez biçimde ortaya çıktığı bir ölçüt kullanırsanız, yetenek kendiliğinden ortaya çıkabileceği için ne kadar daha eğitim gerektiğini bile tahmin edemezsiniz.
  Buna karşılık kısmi puan ölçütü pürüzsüz ve öngörülebilir biçimde iyileşiyorsa, doğruluğun kendisini doğrudan dışa vurmak yerine eğitim ilerlemesini dışa vurarak hedef doğruluğa ne zaman ulaşılacağını kestirme olasılığı doğar.
  Beklenen süre çok uzunsa ve daha büyük bir modeli eğitmeye karar verirseniz, model boyutları arasında dışa vurum yaparak ne kadar büyük bir modele ihtiyaç olduğunu da yaklaşık olarak tahmin edebilirsiniz.
- Model eğitimi sürekliliğe fazla optimize edilmiş gibi görünüyor. Örneğin sürekli değişkenler sonsuza kadar bölünebilir, ancak mantık ve algoritmalar bu tür bulanık şeyler değil, sağlam yapılardır.
  Bir öğrenen ajanın mantığı ve algoritmaları düzgün öğrenmesi için bulanık kavramlardan sağlam kavramlara genelleme yapabilmesi gerekecek gibi görünüyor. Bunun salt ölçeklemeyle otomatik olarak gerçekleşip gerçekleşmeyeceği, yoksa köklü bir dönüşüm gerektirip gerektirmeyeceği belirsiz.
- Bu gönderiyi gördünüz mü? https://news.ycombinator.com/item?id=39575264
  Birbirine bağlı konular gibi geliyor.
İyi bir makale. Ancak ortaya çıkış mutlaka ölçütte ani bir sıçrama ya da öngörülemezlik gerektirmez. Yeni bir yetenek kademeli olarak da oluşabilir.
- Makine öğrenmesinde “ortaya çıkış” denildiğinde, terimi tanıtan makalede açıklandığı gibi ani sıçrama gösteren ölçütler kastedilir: https://arxiv.org/abs/2206.07682
Model, kesikli sıçramalar olmadan da daha akıllı hale geliyor olabilir. Kısmi cevaplara puan vermeyen bir yöntemle ölçtüğümüz için, sürekli keskinleştiğine dair sinyali kaçırmış olabiliriz.
Bu, Sam Altman’ın düşüncesi gibi görünen şeyle de bir ölçüde uyumlu görünüyor. OpenAI, yalnızca eğitim hesaplama miktarı ve veri boyutuyla bile modelin çıkarım yeteneğini epey iyi tahmin edebildiğini düşünüyor gibi.
- Sam Altman daha çok bir satış temsilcisine yakın; bu da onun kendi düşüncesinden ziyade OpenAI’da çalışan çok sayıdaki uzmanın düşüncelerini tekrarlaması.
Durmuş saat bile günde iki kez doğruyu gösterir.
LLM bir inandırıcılık motorudur. Burada test edilen temel hipotez, inandırıcılık arttıkça doğruluğun da artacağıdır.
Bu hipotez, LLM eğitiminde kullanılan insan yazımı içeriklere bakıldığında bile kolayca reddedilir; dolayısıyla buna dayanan tüm olguların bir üst sınırı vardır. Bu yüzden LLM’leri sadece büyütmek AGI üretmez.
- “LLM bir inandırıcılık motorudur” demek, LLM’lere bakmanın bir yoludur; ancak bu tek başına yeteneklere otomatik olarak bir üst sınır getirmez.
  İnsanların üreyen canlılar olduğu da doğrudur. İlk bakışta insanlar yalnızca üreme yeteneği için seçildiğinden zekâya sahip olacak şekilde evrimleşemeyecekmiş gibi görünür, ama gerçekte öyle değildir. Doğru bir sınıflandırma olsa bile insan yeteneklerinin üst sınırını belirlemez.
  LLM’ler bilgiyi olabildiğince verimli koruyacak şekilde evrimleşir.
  Bilgiyi korumanın basit bir stratejisi ezberdir ve sinir ağları kesinlikle ezber yapabilir.
  Başka bir strateji algoritmalar kullanmaktır. Sinir ağları da bilgiyi algoritmalarla koruyacak şekilde evrimleşebilir. Örneğin küçük bir sinir ağının toplama yapmak için FFT’ye benzer bir yapı evrimleştirdiği görüldü. Başta ezberle başladı ve kusursuz değildi, ancak eğitimin sonlarında FFT kullanan bir toplama algoritmasına geçerek kusursuz sonuçlar verdi.
  Daha iyi LLM’lerin bilgiyi sofistike sıkıştırmayla koruduğunu düşünüyorum. Buna bir dünya modeli oluşturmak ve girdi metnini bu modele bağlama yöntemleri de dahil.
  Bunu bir akıl yürütme makinesinin bileşenleri olarak görüyorum. Kusurlu, hataları var ve mevcut yapı yakında sınırına dayanabilir; ancak saf ezberden tamamen farklı bir şey.
- İnsanların inandırıcılığı değil doğruluğu istikrarlı biçimde takip ettiğini varsayıyorsunuz.
  Bilim sisteminin tamamının inandırıcı görünen ama yanlış iddiaları bastırmak üzere tasarlanmış olması, aslında tersini gösterir.
- Felsefi anlamda doğru, ancak pratikte yapay zeka, daha önce zekâ gerektirdiği düşünülen pek çok görev ve işte insanları geride bırakma yolunda.
- “Buna dayanan tüm olguların bir üst sınırı vardır” sonucu kulağa makul geliyor, ancak karşı örneklerle kolayca çürütülür. İyi bir öğrenci öğretmenini aşabilir; sıradan bir öğrenci de birden çok öğretmenden öğrenirse hepsini geçebilir.
  Yan bir not olarak, bu yüzden Orta Çağ’daki master-journeyman sisteminin çok verimli olduğunu düşünüyorum.
  Daha soyut söylersek, bu sonuç transfer öğrenmenin var olmadığını varsayıyor gibi görünüyor.
Yazarların kullandığı ölçüt kafamı karıştırıyor.
Düzenleme mesafesi, modelin aritmetiği anlayıp anlamadığını test etmek için tuhaf bir yöntem gibi görünüyor ([1], Figure 3). 1+3=3, 1+1=9 kadar doğru kabul edilecek gibi.
Model çıktısının gerçek değerden ne kadar saptığını neden abs(actual-expected) ile ölçmediklerini merak ediyorum. O ölçütte de büküm noktası olup olmadığını merak ediyorum.
https://arxiv.org/abs/2206.07682
- Aritmetiği nasıl yaptığınıza bağlı. Bir insan alt alta toplama yapıyorsa 12345+35791=58136, 48146 kadar büyük bir hatadır. Gerçek sonuç 48136 ve ikisinde de yalnızca bir basamak sütunu yanlıştır. İkili yarım toplayıcı da aynı şekilde çalışır.
  LLM’nin aritmetiği nasıl yaptığı bilinmiyor. Token düzenleme mesafesi ilginç olabilir, ama her iki durumda da makalenin iddiası pek değişmez.
  Ayrı olarak, bağlantı yanlış. Bahsettiğiniz makale burada: https://arxiv.org/pdf/2304.15004.pdf

LLM’lerin ‘ani sıçrama’ yeteneği kademeli ve öngörülebilir olabilir

BIG-bench’in gördüğü ani performans sıçraması

Stanford’un itirazı: yanılsamayı model değil metrik yaratıyor olabilir

Model ölçeği ve değerlendirilen şey

Üç basamaklı toplamada doğruluk metriğinin sınırı

Süren tartışma

Daha büyük modelleri öngörmenin zorluğu

İlgili okumalar

1 yorum

Hacker News görüşleri