- Mevcut büyük dil modelleri (LLM), yeni görevlere veya bilgilere anında uyum sağlama konusunda yetersiz kalıyor
- Yeni SEAL çerçevesi, LLM'nin kendi ince ayar verisini ve güncelleme talimatlarını bizzat üreterek kendini uyarlama yeteneği kazanmasını sağlıyor
- Bu süreç; self-edit üretimi, talimatların yürütülmesi ve pekiştirmeli öğrenme (RL tabanlı) döngüsü üzerinden sürekli performans iyileştirmeyi içeriyor
- SEAL, yeni bilgi entegrasyonu ve few-shot genelleme deneylerinde mevcut yöntemlere göre daha iyi performans gösterdiğini kanıtlıyor
- Bu çalışma, kendinden yönlendirmeli uyum yeteneğine sahip LLM'lerin hayata geçirilmesi için umut verici bir adım sunuyor
Genel Bakış
- Büyük dil modelleri (LLM) güçlü performans gösterse de, kendi ağırlıklarını yeni görevler, bilgiler ve örneklere göre dinamik biçimde ayarlayacak bir mekanizmadan yoksun
- Bu makale, Self-Adapting LLM (SEAL) çerçevesini sunuyor; böylece LLM'nin kendi ince ayar verisini üretmesi ve güncelleme talimatları oluşturması mümkün hale geliyor
- SEAL, yeni bir girdi aldığında modelin bilgiyi farklı şekillerde yeniden yapılandırdığı veya optimizasyon hiperparametrelerini belirlediği, ya da veri artırma ve gradyan tabanlı güncellemeler için araç çağrıları gibi self-edit'ler üretiyor
- Bu self-edit'ler, denetimli ince ayar (SFT) sürecinden geçerek model ağırlıklarında kalıcı güncellemelere yol açıyor ve sürekli uyum yeteneğini güvence altına alıyor
- Etkili self-edit üretimi için pekiştirmeli öğrenme döngüsü kullanılıyor ve model güncellemesinden sonraki aşağı akış performansı ödül sinyali olarak kullanılıyor
İnsan Öğrenmesine Benzetme
- Bir öğrencinin sınava hazırlanırken dersler, ders kitapları, internet gibi kaynaklardan aldığı bilgileri kendi tarzında notlara dönüştürerek çalışması yaklaşımından ilham alıyor
- İnsanların bilgiyi yeniden yapılandırma biçimi farklıdır; kimi bunu şema, kimi metin, kimi de formüllerle özetler
- Bu, dış bilgiyi kişinin kendisinin daha kolay anlayacağı şekilde yeniden düzenlemesi veya güçlendirmesinin insan öğrenmesinin yaygın bir özelliği olduğunu gösteriyor
- Mevcut LLM'ler yeni bir görev verildiğinde, verilen veri kümesini olduğu gibi ince ayar yapmakla ya da yalnızca in-context learning uygulamakla yetiniyor
- Ancak bu yaklaşım, veri biçimi veya miktarı öğrenme için optimize edilmemişse sınırlı kalıyor
SEAL: Kendini Uyarlayan Çerçeve Önerisi
- SEAL, LLM'nin kendi eğitim verisini ve ince ayar talimatlarını doğal dilde üretmesini sağlayacak şekilde pekiştirmeli öğrenme algoritmasıyla eğitiliyor
- Burada self-edit, veri ve (isteğe bağlı olarak) optimizasyon hiperparametrelerini belirleyen komut biçiminde oluyor
- SEAL'in ayırt edici yanı, ek modüller veya yardımcı ağlar olmadan, yalnızca modelin doğal dil üretim yeteneğiyle kendi uyum sürecini doğrudan kontrol etmesi
SEAL Nasıl Çalışıyor
- Her pekiştirmeli öğrenme (RL) dış döngü yinelemesinde, model aday self-edit'ler üretiyor
- Üretilen self-edit uygulanarak ağırlıklar güncelleniyor
- Ardından aşağı akış görevlerinde model performansı değerlendiriliyor ve bu sonuçtan ödül sinyali elde ediliyor
- Ödül sinyali kullanılarak self-edit üretim politikası tekrar tekrar iyileştiriliyor
Deneyler ve Sonuçlar
- Bilgi entegrasyonu görevinde, SEAL modelin bizzat ürettiği sentetik verilerle ince ayar yapıyor
- SQuAD'ın no-passage-in-context sürümünde, RL eğitimi öncesinde %33.5 olan soru-cevap performansı, RL eğitimi sonrasında %47.0'a belirgin biçimde yükseldi
- SEAL'in ürettiği veri, GPT-4.1'in oluşturduğu sentetik veriden bile daha iyi performans gösterdi
- Few-shot öğrenme deneylerinde, ARC-AGI benchmark'ının basitleştirilmiş bir sürümü kullanıldı ve SEAL'in artırılmış veriyi ve optimizasyon hiperparametrelerini doğrudan seçtiği görüldü
- Öğrenme oranı, epoch ve token türüne göre seçmeli kayıp hesaplama gibi çeşitli araç kombinasyonlarını otomatik olarak seçti
- Pekiştirmeli öğrenme uygulanmış SEAL kullanımıyla performans artışı sağlandı; bu yaklaşım, yalnızca in-context learning yapan ya da RL olmadan sadece araç kullanan yöntemlerden daha etkiliydi
Sonuç
- SEAL çerçevesi, kendisi tarafından üretilen veri ve talimatlar yoluyla LLM'nin kendini uyarlayabildiğini deneysel olarak ortaya koyuyor
- Bu yaklaşım, gelecekte veri verimliliği, uyarlanabilirlik ve genellik sunan yeni nesil dil modellerinin geliştirilmesi için önemli bir ilerlemeye işaret ediyor
1 yorum
Hacker News görüşleri
2010'ların ortasında iki matematik dehası arkadaşım ML'e çok erken girdiğinde bana sık sık NEAT/HyperNEAT(Neuroevolution of Augmented Topologies) algoritmasından bahsederdi [NEAT Wikipedia bağlantısı] ML uzmanı olmadığım için tam olarak bilmiyorum ama, NEAT'in ağın topolojisini evrimleştirdiğini, bu makalenin ise ağırlıkları evrimleştirdiğini anlıyorum Temelde ağ yapısını değiştirmek ile ağırlıkları değiştirmek, aynı problemi çözmeye çalışan iki farklı yaklaşım gibi geliyor O iki arkadaş, yapay zekanın geleceğinin RL'de (pekiştirmeli öğrenme) ve evrimsel algoritmalarda olduğuna güçlü biçimde inanıyordu
En sevdiğim NEAT giriş videosu var SethBling'in MarI/O - Machine Learning for Video Games [YouTube bağlantısı]
İnsanların muazzam olduğunu düşünüyorum Nöronları anlamaya çalışmak için sanal hesaplama sistemleri kuruyoruz, sonra bunların gerçekte böyle çalışmadığını fark ediyoruz ama yine de o hayali sistemlerden fikir alıp devrim niteliğinde teknolojiler üretiyoruz Ve bugün bile o hayali sistemlerden ilham alarak ilerlemeyi sürdürüyoruz
Son zamanlarda bu NEAT/evrim temelli fikirlere tamamen sardım Kokoro ses klonlama projesinde genetik algoritmalar kullanıp bir miktar başarı elde ettikten sonra, ağ yapısının kendisini evrimleştirerek “kendi kendini monte eden zeka”nın mümkün olup olmayacağını merak etmeye başladım Bunun pratikte mümkün olması için ne gerektiğini merak ediyorum ama LLM'lerin bu şekilde ortaya çıkışını görünce hibrit bir yaklaşım daha gerçekçi bir alternatif olabilir gibi geliyor
RL kullanarak modelin bilgiyi yeniden yapılandırıp öğrenme verimliliğini artırdığı bu “self-edit” yaklaşımının çok zekice olduğunu düşünüyorum Temel fikir, farklı bilgi türleri için farklı temsillerin daha etkili olması (matematik ve tarih için not alma biçimlerinin farklı olması gibi) İki önemli gözlem var Birincisi, bilgi entegrasyonu sonucu (47% vs 46.3%, GPT-4.1 verisi bazında) sadece daha fazla veri yüklemekten değil, modelin gerçekten daha iyi bir öğrenme formatı bulmasından geliyor Yıkıcı unutma sorunu (catastrophic forgetting) hâlâ çözülmüş değil ve veri çeşitliliğinin gerçekte ne kadar iyileştiği de net değil İkincisi, tek bir ödül değerlendirmesi 30-45 saniye sürüyor, bu yüzden çoğu gerçek kullanım için ağır kalıyor Ama gerçekten önemli belge işlemede olduğu gibi en iyi bilgi korunumu gerekiyorsa buna yatırım yapmaya değer Büyük sınırlama, bunun açık değerlendirme metrikleri olan işlerle sınırlı olması (ödülü hesaplamak için referans Soru-Cevap ya da test case'ler gerekiyor) Yine de teknik dokümantasyon ya da eğitim materyalleri gibi değerlendirmenin otomatikleştirilebildiği alanlarda, tamamen yeni bir bilgi işleme paradigması getirme potansiyeli kesinlikle var Henüz tamamen kendi kendini geliştiren ajanlara ulaşmış değiliz ama modelin kendi öğrenme yöntemini iyileştirmesi açısından önemli bir ilerleme gibi geliyor
Birkaç gün önce Anthropic de benzer şekilde self finetuning üzerine araştırma yayımladı [arxiv makale bağlantısı]
Bununla ilgili tartışma hâlâ sürüyor [bağlantılı HN başlığı]
Bence bu gerçekten şaşırtıcı Claude 3.5 Sonnet'in prodüksiyon seviyesindeki RM'ine göre, unsupervised assistant policy, insan gözetimli RM ile eğitilmiş policy'yi karşılaştırmalı değerlendirmede %60 oranında yeniyor Artık insan yönlendirmesi olmadan da modellerin kendi aralarında daha üstün performans üretebildiği bir aşamaya girdiğimizi düşünüyorum
Büyük dil modelleri (LLM'ler) güçlü ama yeni bir görev verildiğinde ağırlıklarını uyarlayacak bir mekanizmaya sahip olmamaları sorun İnsan zekasında öğrenme süreci ile uygulama süreci tek bir geri bildirim döngüsünde birleşiyor, ama LLM'lerde eğitim ve çıkarım tamamen ayrılmış durumda Yeni model biraz daha fazlasını “öğrenmiş” halde dağıtıma çıktığında önceki modeli çöpe atıyoruz LLM'lerde çıkarım, öğrenmenin sonu demek Bu, yapay zeka hakkında en yaygın yanlış anlamalardan biri gibi geliyor İnsanlar LLM'lerin öğrendiğini sanınca AGI'nin çok yakında geleceği gibi bir yanılsamaya kapılmak kolay oluyor
Deepseek örneğinde olduğu gibi, pekiştirmeli öğrenme kullanılarak LLM performansı refine edilebilir
Peki kullanıcı tepkilerine (olumlu/olumsuz) göre LLM'i yeniden eğitebilseydik? Girdi ve çıktı verilerini kullanıp bunu bir geri bildirim döngüsüne sokamaz mıyız diye düşünüyorum
LLM'leri gerçekten “sahada” sürekli eğitme yönündeki çalışmaların, yani kod ajanlarının zaman içinde codebase'i öğrenmesini sağlamaya dönük araştırmaların durumu ve sınırları (maliyet? model çöküşü? başka şeyler?) hakkında gerçekten bilgili bir uzmanın derli toplu bir özetini görmeyi çok isterdim Büyük laboratuvarların bunu denediğine eminim ama sıradan kullanıcı bakış açısından bu konuyu pek duymuyoruz Şu anda odak daha çok RL tabanlı daha iyi eğitim yöntemlerinde gibi görünüyor ve eğitim sırasında öğrenilemeyen şeyleri sonradan context'e zorla sığdırmak ana akım yaklaşım olmuş durumda Ama deneyime dayalı gerçek zamanlı öz-öğrenmenin yokluğunun AGI ile aramızdaki asıl ayrım noktası olabileceğini düşünüyorum
Sürekli öğrenme (continual learning) için şu anda gerçekten keskin bir çözüm yok Bilgi işlem kaynakları, model çöküşü, unutma gibi nedenlerin anılması doğru Tek yöntem şu gibi görünüyor 1) modeli eğit 2) yeni veri ekle 3) baştan tamamen yeniden eğit 4) tekrarla Zaman açısından hiçbir yaklaşım tam garanti sunmuyor CL alanında gerçekten “gerçek” bir cevap yok Modelin temsil uzayını genişletirken aynı anda önceki temsil uzayını olabildiğince korumanız gerekiyor ve ikisini birden yapmak neredeyse imkansız Sinir sistemine sahip canlılar bunu çok kolay yapıyormuş gibi görünüyor ama yapay zekada bu iş aşırı zor Bence yapay zekanın da “uyku” ya da “dinlenme” gibi kavramlara ihtiyacı olabilir
Uzman değilim ama gizlilik sorunlarının da önemli rol oynadığını düşünüyorum Sürekli öğrenme yapılacaksa trafik ya da maliyet yüzünden bunun kullanıcı bazında değil, zorunlu olarak toplulaştırılmış (aggregate) biçimde yapılması gerekecek ve bu da oturumlar arası bilgi sızıntısı riski doğuracak AGI'nin önündeki en büyük engellerden birinin güvenli sürekli öğrenme yöntemi bulmak olduğu fikrine kesinlikle katılıyorum
Güvenilirlik sorunu da büyük Otomatik değerlendirmelere yeterince güven olmadığından, performansın gerçekten arttığını doğrulamadan otomatik continuous training sürümünü doğrudan prod'a vermiyorlar Sonuçta birden fazla güncellemeyi birlikte toplayıp son bir kontrolden (“vibe check”) geçirdikten sonra gerçek kullanıma alıyorlar
LLM'lerde sürekli fine-tuning'in “alignment”ı kolayca bozabilmesi en net sorun gibi görünüyor Sonuç olarak kararlılık ve güvenlik garanti edilemiyor
En bariz engelin yıkıcı unutma (catastrophic forgetting) sorunu olduğunu düşünüyorum
CPU'm bir neural-net processor, learning computer Ama Skynet beni tek başıma gönderdiğinde switch'i read-only yapıyor (Terminator alıntısı) aklıma geldi
Kod ve örnekler içeren resmi web sitesi açıklaması [SEAL proje sayfası]
Villalobos et al. [75] tahminine göre, 2028'de frontier LLM'ler kamuya açık tüm insan yazımı metinleri tüketmiş olacak Bu “veri duvarı”, synthetic data augmentation ihtiyacını tetikleyecek deniyor Web ölçeğindeki corpus tükendiğinde, modellerin ilerleyebilmesi için kendi başlarına yeni ve yüksek verimli eğitim sinyalleri üretmeleri gerekecek Sonuç olarak fikir şu: SEAL synthetic-data generator modelini meta-training ile eğitmek, sonra bunu taze veriyle pretraining yapmak ve gelecekteki modellerin verimliliğini artırmak için kullanmak 2028'in çok da uzak olmaması nedeniyle bunu oldukça ufuk açıcı buluyorum
“Doğru şekilde unutmak (forgetting correctly)” artık “doğru şekilde öğrenmekten (learning correctly)” daha önemli bir sorun haline geliyor gibi görünüyor Yeni gerçekleri hızla edinme konusunda büyük ilerleme kaydedildi ama sınırlı kapasite içinde daha az önemli bilgileri verimli biçimde atma konusunda hâlâ çok gerideyiz “Doğru unutma”, insan beyninin çok iyi yaptığı bir şey gibi görünüyor ama bunun gerçekte nasıl çalıştığını merak ediyorum
İnsanların “doğru unutma”yı iyi yaptığına katılmıyorum Aslında insanların olağanüstü bir sisteme sahip olduğunu düşünmüyorum Beynin kapasitesi o kadar büyük ki yeni bilgi için kasten yer açmaktan çok, ancak mevcut kötü bilgi yeni öğrenmeyi engellediğinde unutma gerçekleşiyor gibi geliyor
Öğrenmenin ve spaced-repetition'ın (aralıklı tekrar) çok yakından bağlantılı olduğunu düşünüyorum Bu, Anki gibi öğrenme araçlarıyla çok ilişkili ama gerçek dünyada zaten belirli aralıklarla karşılaştığımız doğal olgular (gece-gündüz, mevsimler, sık gidilen yerler, sık görülen insanlar vb.) spaced-repetition'ın kendisi Belki bunun bir de “tersi (reverse)” vardır diye düşünüyorum
Yaptığım araştırmalarda LLM'lerin iç verileri “sakladığı” ortaya çıkmıştı Yani sadece “unutmuyorlar”; sonradan ek eğitim yapıldığında bu bilgi yeniden yüzeye çıkabiliyor Bu yüzden model eğitimi sırasında gerçek tüm bellek durumunu sürekli kontrol etmezseniz, kısmi denetimle bir yere kadar gidebiliyorsunuz
Acaba least-recently-used gibi mi çalışıyor diye kendi kafamın içinde test amaçlı deney yapıyorum Bu yüzden bu alan eğlenceli
Dışarıdan bakınca bu, LoRA adapter'larını fine-tune edip base model ile birleştiren bir framework gibi görünüyor HuggingFace'in PeftModel'inde adapter'ları base model ile birleştiren “merge_and_unload” özelliğini kullanıyorlar… bunun yeni tarafı tam olarak ne, emin değilim