2 puan yazan GN⁺ 2023-09-07 | 1 yorum | WhatsApp'ta paylaş
  • Bu yazı, büyük dil modellerinin (Large Language Models, LLMs) ince ayar sürecinde gözlemlenen sıra dışı bir öğrenme örüntüsünü ele alıyor; bu modeller tek bir örnekten etkili biçimde öğrenebiliyor gibi görünüyor.
  • Bu gözlem, etkili öğrenme için genellikle birden fazla örneğin gerektiğini söyleyen sinir ağlarının örnek verimliliğine dair genel anlayışla çelişiyor.
  • Yazarlar bu olguyu doğrulamak için bir dizi deney yürüttü ve sonuçlar, LLM'lerin girdileri hızla ezberleyebildiği hipotezini destekliyor.
  • Sinir ağlarının öğrenme süreci, girdi ve çıktı örnekleri gösterilmesini ve modelin girdiye dayanarak çıktıyı tahmin etmeyi öğrenmesini içerir. Bu süreç, modelin etkili biçimde öğrenebilmesi için birçok kez (epoch) tekrarlanır.
  • Yazarlar, bir Kaggle yarışması için modeli eğitirken her epoch sonunda kaybın keskin biçimde düştüğünü gözlemledi; bu alışılmadık bir durumdu ve ilk başta bir hata olduğu düşünüldü.
  • Yazarlar ve topluluktaki diğer geliştiriciler, farklı eğitim döngüleri ve yöntemler kullanmalarına rağmen benzer örüntüler buldu; bu da bunun bir bug değil, LLM ince ayarının bir özelliği olduğunu düşündürüyor.
  • Hipoteze göre bu eğitim eğrileri aşırı öğrenmeyi gösteriyor; yani model yalnızca bir ya da iki örnekteki girdileri tanımayı öğreniyor.
  • Yazarlar farklı öğrenme oranı zamanlamalarıyla deneyler yaptı ve modelin örnekleri yalnızca bir kez gördükten sonra bile onları hızla tanımayı öğrendiğini gözlemledi.
  • Yazarlar, önceden eğitilmiş büyük dil modellerinin minimum kayba yakın bölgelerde çok pürüzsüz bir kayıp yüzeyine sahip olabileceğini ve bunun onların tek bir örnekten hızla öğrenmesini mümkün kıldığını öne sürüyor.
  • Bu hızlı öğrenme, geleneksel eğitim yöntemlerine meydan okuyabilir ve modele yeni bilgi verildiğinde daha önce öğrendiği bilgileri unutmasına yol açan felaket düzeyinde unutma sorununu ağırlaştırabilir.
  • Yazarlar, dropout veya stochastic depth gibi tekniklerin kullanımını artırmak ya da eğitim sürecinde farklı veri kümelerinin karışımını kullanmak gibi olası hafifletme stratejileri öneriyor.
  • Yazarlar, bu olguyu ve bunun LLM'lerin eğitimi ile kullanımı üzerindeki etkilerini daha iyi anlamak için ek araştırmalar ve alternatif hipotezler öneriyor.

1 yorum

 
GN⁺ 2023-09-07
Hacker News görüşleri
  • Büyük dil modellerinin (Large Language Models, LLMs) tek bir örnekten hızla ezberleyebilme konusundaki şaşırtıcı yeteneğine dair makale tartışması
  • Gönderinin yazarlarından biri, 30 yıldır sinir ağlarıyla çalıştığını ve bu davranışı şimdiye kadar gördüğü en şaşırtıcı şey olarak değerlendirdiğini söylüyor
  • Bazı okurlar, makalede kullanılan "aşırı özgüven" teriminin yanıltıcı olduğunu ve "overfitting" ya da "belirlenmemiş" ifadelerinin daha doğru olacağını savunuyor
  • Üretici modellerde milyarlarca parametre olduğu düşünüldüğünde, genel makine öğrenimi (Machine Learning, ML) bakış açısından LLM'lerin tek bir örnekten hızla öğrenmesi şaşırtıcı değil
  • Çoğu LLM'nin yalnızca tek bir epoch ile eğitilmesinin sonuçlarına dair tartışma; bu da overfitting sorununu gündeme getiriyor
  • Bir kullanıcı, ChatGPT ile kişisel deneyimini paylaşıyor ve LLM'nin eğitim almadığı bir soruya ilişkin materyal sunmasının problemi çözmesine yardımcı olduğunu vurguluyor
  • Bazı okurlar, LLM'lerin kendi eğitim verilerini güçlendirmek için kullanılıp kullanılmadığını sorguluyor; eğitim verisine "rüya görülen" ya da sentetik girdiler ekleme fikrini öne sürüyor
  • Makale başlığı üzerine tartışma var; bazı okurlar tek bir örnekten öğrenmenin arzu edilir olduğunu, ancak ezberlemenin öyle olmadığını düşündüğü için başlığı yanıltıcı buluyor
  • Bazı kullanıcılar Vision Transformers (ViTs) eğitirken benzer kayıp eğrileri yaşadıklarını paylaşıyor ve bu garip kayıp eğrilerinin Transformer tabanlı modellerin bir özelliği olabileceğini öne sürüyor
  • Konuyla ilgilenenler için, "Mass-Editing Memory in a Transformer" ve "Locating and Editing Factual Associations in GPT" gibi başka ilgili çalışmalar öneriliyor
  • Makaledeki bulgular doğruysa, küçük ve insanlar tarafından yönetilen veri kümelerinin, LLM'ler tarafından üretilen sentetik veri kümelerinden daha değerli olabileceği fikrini destekleyebilir