Kendine Uyarlanan (Self-Adapting) Büyük Dil Modelleri

(arxiv.org)

3 puan yazan GN⁺ 2025-06-15 | 1 yorum | WhatsApp'ta paylaş

Mevcut LLM’ler yeni bilgi veya görevler alsa bile ağırlıkları çoğu zaman değişmeden kalır; SEAL ise modelin kendi eğitim verilerini ve prosedürlerini oluşturup güncellediği bir kendine uyarlanma çerçevesi öneriyor
Temel birim olan self-edit, bilgiyi yeniden yapılandırır, optimizasyon hiperparametrelerini belirler; veri artırma ve gradyan tabanlı güncelleme araç çağrılarını da içerir
SEAL, güncellenmiş modelin downstream performansını ödül olarak kullanan bir pekiştirmeli öğrenme döngüsü aracılığıyla daha etkili self-edit üretme politikasını öğrenir
Bilgi entegrasyonu deneyinde, modelin kendi ürettiği sentetik verilerle ince ayar yapıldıktan sonra no-passage-in-context SQuAD performansı %33,5’ten %47,0’ye yükseldi ve GPT-4.1’in ürettiği sentetik veriden daha yüksek çıktı
Basitleştirilmiş ARC-AGI alt kümesinde few-shot öğrenmede de veri artırmayı, öğrenme oranını, epoch sayısını ve token type’a göre loss hesaplamasını otomatik seçerek standart ICL’den ve RL’siz self-editing’den daha iyi sonuç verdi

Statik LLM’leri kendi kendini güncelleyecek hale getirme

Mevcut LLM’ler güçlü olsa da statiktir (static) ve yeni görevlere, bilgilere ya da örneklere uyum sağlamak için ağırlıklarını uyarlayacak bir mekanizmaya sahip değildir
SEAL (Self-Adapting LLMs), yeni girdi aldığında modelin doğrudan eğitim verilerini ve eğitim prosedürlerini değiştirerek kendine uyarlanması için tasarlandı
Temel çıktı self-edittir
- Bilgiyi farklı bir biçimde yeniden yapılandırabilir
- Optimizasyon hiperparametrelerini belirleyebilir
- Veri artırma ve gradyan tabanlı güncellemeler için araçlar çağırabilir
self-edit, gözetimli ince ayar (SFT) üzerinden model ağırlıklarında sürekli güncellemelere dönüşür
Web sitesi ve kod https://jyopari.github.io/posts/seal adresinde yer alıyor

Mevcut uyarlama yöntemlerinden farkı

Günümüzde LLM’ler yeni bir görev aldığında genellikle ince ayar veya bağlam içi öğrenme (in-context learning) ile görev verisini olduğu gibi (as-is) tüketir
Girdi verisi eğitim için en uygun biçimde veya miktarda olmayabilir; ancak mevcut yaklaşımlar, modelin veriyi nasıl dönüştürüp öğreneceğine dair stratejiyi kendi kendine geliştirmesini sağlamaz
SEAL, ayrı bir uyarlama modülüne veya yardımcı ağa dayanmak yerine, uyarlama sürecini modelin kendi ürettiği çıktılarla parametrize eder ve kontrol eder
Bu, insan bir öğrencinin ham materyali aynen ezberlemek yerine notlar halinde yeniden yorumlayıp yapılandırarak öğrenmesine benzer
- İnsanlar bilgiyi görsel diyagramlar, metin, matematiksel açıklamalar gibi farklı yollarla özümser
- SEAL, bu yeniden yapılandırma ve yeniden yazma sürecini LLM eğitim prosedürüne dahil etmeye yönelik bir girişimdir

Pekiştirmeli öğrenmeyle self-edit politikası öğrenme

SEAL, LLM’nin etkili self-edit’ler üretmesini sağlamak için bir pekiştirmeli öğrenme algoritmasıyla eğitilir
Her pekiştirmeli öğrenme outer loop iteration’ı şu akışla ilerler
- Model aday self-edit üretir
- self-edit’e göre ağırlık güncellemesi uygulanır
- Güncellenmiş model downstream görevde değerlendirilir
- Değerlendirme sonucundan elde edilen ödülle self-edit üretme politikası iyileştirilir
Ödül sinyali, güncellenmiş modelin downstream performansıdır

Deney sonuçları: bilgi entegrasyonu

Bilgi entegrasyonu deneyi, LLM’ye yeni olgusal bilgi ekleme görevini ele alır
passage text doğrudan ince ayardan geçirilmez; bunun yerine SEAL modelinin ürettiği sentetik verilerle ince ayar yapılır
Pekiştirmeli öğrenme eğitiminden sonra SEAL’in kendi ürettiği sentetik veri, no-passage-in-context SQuAD soru-cevap performansını %33,5’ten %47,0’ye çıkardı
SEAL’in kendi ürettiği veri, GPT-4.1’in oluşturduğu sentetik veriden daha yüksek performans kaydetti

Deney sonuçları: ARC-AGI few-shot genelleme

İkinci değerlendirme, basitleştirilmiş ARC-AGI benchmark alt kümesinde few-shot learning gerçekleştirir
Model, araç setini kullanarak sentetik veri artırmayı ve optimizasyon hiperparametrelerini otonom biçimde seçer
Otomatik seçim kapsamına şu öğeler girer
- Öğrenme oranı
- training epochs
- token type’a göre seçici loss hesaplaması
SEAL aracılığıyla araçların otomatik seçimi ve yapılandırılması, standart bağlam içi öğrenmeye (ICL) ve araç kullanımını etkili biçimde öğrenmemiş RL’siz self-editing’e kıyasla performansı artırdı
İki deney, SEAL’in yeni verilere yanıt olarak dil modellerini kendi kendine yönlendirilen biçimde uyarlayan bir çerçeve olabileceğini gösteriyor

1 yorum

GN⁺ 2025-06-15

Hacker News yorumları

self-edit yaklaşımı, modelin kendi öğrenmesine uygun şekilde bilgiyi yeniden yapılandırma biçimini pekiştirmeli öğrenmeyle optimize etmesi bakımından akıllıca
İşin özü, her bilgi türü için daha iyi uyan ifade biçimlerinin farklı olması; bu da insanların matematik ve tarih çalışırken farklı not tutma yöntemleri kullanmasına benziyor
GPT-4.1 verilerinde bilgi entegrasyonu sonucu %47’ye karşı %46,3 ile küçük model taban çizgisinden çok daha yüksek; bu da yalnızca daha fazla veri değil, daha iyi bir öğrenme formatı bulunduğunu düşündürüyor
Ancak felaket düzeyinde unutma hâlâ çözülmüş değil ve veri çeşitliliğinin gerçekten iyileşip iyileşmediği de tam olarak net değil
Her ödül değerlendirmesinin 30~45 saniye sürmesi, hesaplama maliyetini çoğu kullanım için fazla ağır kılıyor; ama en iyi korumanın gerçekten kritik olduğu yüksek değerli belge işleme için kullanılabilir olabilir
Açık değerlendirme metrikleri olan görevlerle sınırlı kalması en büyük kısıt; ödülü hesaplamak için doğru cevaplı soru-cevap çiftleri veya test vakaları gerekiyor
Yine de teknik dokümanlar ya da eğitim içerikleri gibi değerlendirmenin üretilebildiği alanlarda yeni bilgiyi işleme biçimini ciddi ölçüde iyileştirebilir; henüz “sürekli kendini geliştiren ajan” aşaması olmasa da modelin kendi öğrenme stratejisini ayarlaması yönünde önemli bir adım gibi hissettiriyor
2010’ların ortalarından beri çok erken dönemde makine öğrenmesiyle uğraşan matematik dehası iki arkadaşım, buna benzer gelen NEAT/HyperNEAT algoritmalarından sık sık söz ederdi
“NEAT/HyperNEAT” (Neuroevolution of Augmented Topologies) [0]
Makine öğrenmesi uzmanı değilim ama anladığım kadarıyla NEAT ağın topolojik yapısını evrimleştiriyor, bu makale ise ağırlıkları evrimleştiriyor gibi
Sonuçta biri ağ yapısını, diğeri ağırlıkları evrimleştirerek aynı problemi çözmeye çalışan iki yaklaşım gibi görünüyor
O iki arkadaş tanıdığım en zeki insanlardan sayılırdı ve pekiştirmeli öğrenme ile evrimsel algoritmaların makine öğrenmesinin ilerleyeceği yol olduğundan epey emindi
[0] https://en.wikipedia.org/wiki/Neuroevolution_of_augmenting_t...
- İnsanlar harika. Nöronları anlamaya çalışırken hayalî bir hesaplama sistemi yarattılar, gerçek nöronların böyle çalışmadığını öğrendiler ama yine de onun üzerine paradigma değiştiren bir teknoloji inşa ettiler
  Ve hâlâ o hayalî sistemden çıkan fikirlerle teknolojiyi güçlendiriyorlar
- En sevdiğim NEAT giriş kaynağı, SethBling’in MarI/O - Machine Learning for Video Games videosu
  https://www.youtube.com/watch?v=qv6UVOQ0F44
- Son zamanlarda bu fikre tamamen kapıldım. Kokoro için ses klonlamayı genetik algoritmalarla bir ölçüde başardıktan sonra, mimarinin kendisini evrimleştirmenin mümkün olup olmadığını merak ettim
  Kendi kendine birleşen zekâ fikri çok ilginç, ama bunu nasıl uygulanabilir kılacağım soru işareti
  LLM’lerin bugünkü gelişimine bakınca böyle hibrit bir yaklaşım en iyisi olabilir
Anthropic’ten de birkaç gün önce self finetuning ile ilgili bir makale çıktı
https://arxiv.org/html/2506.10139v1
- Bu inanılmaz
  “Claude 3.5 Sonnet’in üretim düzeyi ödül modeliyle değerlendirildiğinde, gözetimsiz yardımcı politika, insan gözetimli ödül modeliyle eğitilmiş politikaya karşı doğrudan karşılaştırmada %60 kazandı”
  Artık modelin yeni bir modelin sonradan eğitimini bile insanlardan daha iyi yapabildiği anlamına geliyor
- İlgili devam eden bir başlık var
  Unsupervised Elicitation of Language Models - https://news.ycombinator.com/item?id=44276041
LLM’lerin “iş başında” öğrenmesini sağlayan araştırmaların nereye kadar geldiğini ve gerçekten dağıtılabilir bir şeye dönüşmesini engelleyen tıkanma noktalarının ne olduğunu iyi bilen birinin özetlemesini isterdim
Örneğin zamanla bir kod tabanını gerçekten öğrenen bir model+kodlama ajanı oluştururken, sürekli ince ayar gibi yöntemlerde sorunun maliyet mi, model çöküşü mü, başka etkenler mi olduğunu merak ediyorum
Büyük laboratuvarlar kesinlikle bunu deniyordur, ama LLM kullanıcısı açısından bu konu pek gündeme gelmiyor; şu anda odak daha iyi eğitimde, örneğin pekiştirmeli öğrenmede gibi
Eğitim sırasında öğrenilmeyen şeylerin gerektiğinde bağlama konulabileceği varsayımı da var gibi görünüyor
Saf bir bakış açısından, eğitimden sonra deneyimden öğrenememek AGI’ye giden yoldaki en büyük engel gibi görünüyor
- Sürekli öğrenmeyi nasıl yapacağımızı hiç bilmiyoruz
  Hesaplama maliyeti, çöküş, unutma gibi konular doğru; ama “gerçekten” mümkün olan tek yöntem modeli eğitmek, yeni veriyi almak, eski tüm veriyle yeni veriyi kullanarak modeli tamamen yeniden eğitmek ve bunu tekrarlamak
  Buna rağmen “zaman” boyutu için bir garanti yok
  Sürekli öğrenme alanında bunu gerçek anlamda çözen neredeyse hiç yanıt yok ve çözümler birçok açıdan kendi içinde çelişkili olduğu için çıldırtıcı derecede zor
  Modelin temsil uzayını genişletirken önceki temsil uzayını neredeyse aynı tutmak gerekiyor; yani sonunda değiştirmeden değiştirmek gerekiyor
  En sinir bozucu tarafı, çok küçük doğal beyinlerin bile bunu kolayca yapması
  Uzun uzun anlatılacak bir teorim var, ama özetle yapay zekanın da bir şekilde uyuması ya da dinlenmesi gerekmesi çok olası
- Uzman değilim ama gizliliğin büyük bir rol oynadığını ya da oynaması gerektiğini düşünüyorum
  Hesaplama maliyeti nedeniyle herhangi bir öğrenmenin kullanıcı bazında değil, toplulaştırılmış biçimde yapılması gerekecek; bu da oturumlar arasında bilgi sızıntısı riskini çok büyütür
  AGI’nin en büyük engelinin güvenli bir sürekli öğrenme yöntemi bulmak olduğuna tamamen katılıyorum
- Asıl cevap, otomatik değerlendirmelere yeterince güvenmememiz
  Değerlendirme puanları artsa bile otomatik olarak eğitilmiş belirli bir sürümün gerçek performansı iyileştirdiğinden emin olmak zor olduğu için, şu anda herkes güncellemeleri paketleyip yayımlıyor ve dağıtımdan önce sağduyu kontrolü yapıyor
- En bariz sorun hizalama
  LLM ince ayarının tek başına bile hizalamayı ortadan kaldırabileceği zaten biliniyor; dolayısıyla herhangi bir sürekli ince ayar biçimi de teoride aynı şekilde hizalamayı yok edebilir
- En belirgin engel felaket düzeyinde unutma
Görünüşe göre LoRA adaptörünü ince ayarlayıp ardından özgün modele birleştiren bir framework’ten ibaret gibi
Adaptörü temel modele birleştirmek için HuggingFace kütüphanesindeki PeftModel ve merge_and_unload kullanılıyor; tam olarak neyin yeni olduğunu anlamıyorum
- Yeni görünen kısım, yaklaşımın kararlılığında, hizalama maliyetinden ve model çöküşünden kaçınmasında olabilir
  Üretilen LoRA ile iki modelin sürekli güncellendiği ve hiper ağın da yeni model durumuna göre güncellendiği hiper ağın tam döngüsünü görmek isterdim
  Hiper ağa LoRA uygulamak için bir meta-hiper ağ gerekir; bu da pratikte sürekli öğrenmeyi mümkün kılabilir
“Büyük dil modelleri güçlüdür ama statiktir; yeni görevlere yanıt olarak ağırlıklarını ayarlayan bir mekanizmaları yoktur” kısmı işin özü
Eğitim ve çıkarım süreçleri tamamen ayrılmış olduğundan, insan zekâsına dair geleneksel kavramlara alışık kişiler için bu çok kafa karıştırıcı
İnsanlarda bir şeyi öğrenmek ve o bilgiyi gerçekte uygulamak tek bir bütünleşik geri bildirim sürecidir; LLM’lerde ise böyle değil
Biz eğitiyoruz, dağıtıma alıyoruz ve biraz daha “öğrenmiş” yeni bir modelle değiştiriyoruz
LLM için çıkarım, öğrenmenin sonudur
Yapay zekâ hakkındaki en büyük yanlış anlamalardan biri muhtemelen burada
LLM’in öğrendiğini düşünürseniz AGI’nin kapıda olduğunu hayal etmek kolaylaşıyor
- DeepSeek’in gösterdiği gibi LLM’ler pekiştirmeli öğrenme ile rafine edilebilir
- Kullanıcının çıktıya olumlu ya da olumsuz tepki verip vermediğini kontrol ettikten sonra, modelin aldığı girdi ve ürettiği çıktı ile LLM’i eğitsek nasıl olur?
Kod ve örnekler içeren web sitesi: https://jyopari.github.io/posts/seal
Bu alanda doğru şekilde unutmak, “doğru şekilde öğrenmek”ten hızla daha önemli bir mesele hâline geliyor gibi
Modele yeni olguları kendi kendine öğretme konusunda büyük ilerleme var; ancak yeni bilgi ve sınırlı kapasite verildiğinde en az ilgili bilgiyi atmaya yönelik en ileri teknikler çok daha geride
İnsan beyninin büyük bölümü “doğru şekilde unutma” konusunda çok iyi; bunun nasıl çalıştığını merak ediyorum
- İnsanların doğru şekilde unutmakta gerçekten iyi olduğunu sanmıyorum
  Açıkçası insan beyninin yaptığımız pek çok işte “olağanüstü iyi” olduğundan da emin değilim
  İnsan beyninin bellek kapasitesi o kadar büyük ki, unutmanın çoğunun yeni bilgiye yer açmaktan ziyade, geçmişteki kötü bilginin yeni öğrenmeyi engellediğini beynin doğru biçimde bilmesine daha yakın olduğunu düşünüyorum
- Bildiğim kadarıyla yapay sinir ağlarında hangi ağırlığın hangi çıktıdan ne ölçüde sorumlu olduğunu belirleme konusunda neredeyse hiç ilerleme kaydedilmedi
  Bu yüzden kullanıcının yanlış, hatalı ya da istenmeyen olarak işaretlediği bilgiyi atamıyoruz
  Buna karşılık insan zihni bunu kolayca yapıyor
  Bir şeyin yanlış, işe yaramaz ve alakasız olarak sınıflandırıldığını hatırlıyor, artık onu yapmıyor ve zamanla o daha az kullanılan yolun kendisini de unutabiliyor
  En azından yapay sinir ağlarında böyle açık bir mekanizma yok
- Öğrenme, aralıklı tekrar ile güçlü biçimde ilişkili
  Genellikle Anki gibi öğrenme araçlarıyla ilişkilendirilir, ama gerçek dünya belirli sıklıklarda şeylerle karşılaşmakla dolu
  Gündüz-gece döngüsü, mevsimler, gidilen yerler, tanışılan insanlar vb.; aslında neredeyse her şey böyle
  Belki de aralıklı tekrarın tersi gibi bir şey vardır, merak ediyorum
- İlginç bir araştırma gördüm: LLM’ler iç verileri “saklayabiliyor” da
  Sadece unutmak değil; eğitmeye devam ederseniz o bilgi daha sonra yeniden ortaya çıkabiliyor
  Bu yüzden bir modeli eğitirken yalnızca küçük bir kısmına bakmak yerine tüm belleği kontrol etmek gerekiyor
- Son kullanılan en az öğe yaklaşımı gibi bir şey mi?
  Şu an kafamda test ederek anlamaya çalışıyorum :D
  Bilgisayar biliminin bu alanını bu yüzden seviyorum
“Villalobos et al. [75], en ileri LLM’lerin 2028’e kadar kamuya açık tüm insan üretimi metinler üzerinde eğitilmiş olacağını öngörüyor” kısmı etkileyici
Makale, yaklaşan veri duvarı nedeniyle sentetik veri artırmanın benimsenmesi gerektiğini; web ölçeğindeki derlemler tükendiğinde ilerlemenin, modellerin kendi kendilerine yararlı eğitim sinyalleri üretebilme becerisine bağlı olacağını düşünüyor
Doğal sonraki adım, yeni ön eğitim derlemleri oluşturmak için özel bir SEAL sentetik veri üretim modelini meta-öğrenmeyle eğitmek ve ek insan metnine bağımlı olmadan gelecekteki modellerin ölçeklenebilirliğini ve veri verimliliğini artırmasını sağlamak
2028 neredeyse yarın sayılır; ilginç bir içgörü
- Bu sadece bir teori
  Tek bir insan beyni, düğüm ve bağlantı sayısı açısından tüm web’den çok daha karmaşık
  Düşünmenin nasıl gerçekleştiğini açıklayacak kadar beyni bile anlamıyoruz
  Beynin çıktıyı üretip web’e göndermesinden önceki süreci de tam olarak anlamıyoruz
  Web ölçeği bittikten sonra modelin kendi kendine yararlı eğitim verisi üretebileceği öngörüsü sadece bir tahmin
  Böyle eğitim verileri insan düşüncesiyle aynı kaliteye ulaşmayabilir; yalnızca geviş getirip öğrenmeyi ya da model kalitesini hiç ileri taşımayabilir
  Buna “içgörü” demek biraz iyimserce
- Bu zaten neredeyse mevcut durum
  En ileri LLM’ler kamuya açık insan üretimi metinlerin tamamı üzerinde zaten eğitildi ve kodlama gibi doğrulanabilir görevleri iyileştirmek için sentetik veri üzerinde de hâlihazırda yoğun biçimde eğitiliyor

Kendine Uyarlanan (Self-Adapting) Büyük Dil Modelleri

Statik LLM’leri kendi kendini güncelleyecek hale getirme

Mevcut uyarlama yöntemlerinden farkı

Pekiştirmeli öğrenmeyle self-edit politikası öğrenme

Deney sonuçları: bilgi entegrasyonu

Deney sonuçları: ARC-AGI few-shot genelleme

İlgili okumalar

1 yorum

Hacker News yorumları