- LLM'lerin, mevcut pretraining ve fine-tuning'in ötesine geçen üçüncü bir öğrenme paradigmasına, yani "System Prompt Learning" yaklaşımına ihtiyacı olduğu savunuluyor
- Pretraining bilginin öğrenilmesi, fine-tuning ise alışkanlık haline gelmiş davranışların öğrenilmesi biçiminde işliyor; her ikisi de model parametrelerinde değişiklik gerektiriyor
- Buna karşılık insan öğrenmesi, sistem promptunun değişimine daha çok benziyor ve "bir problem durumuyla karşılaşma → durumu kavrayıp strateji çıkarma → bir sonrakine açıkça hatırlamak üzere kaydetme" şeklinde ilerliyor
- Örnek: "Bu tür bir problemle karşılaşırsam şu yaklaşımı/çözümü denemeliyim" diye kendine not düşmeye benziyor
- Bu, genel amaçlı kullanıcı bağlamı belleğinden (memory) farklı olarak, genel problem çözme stratejilerini ve akıl yürütme prosedürlerini açıkça depolamaya daha yakın
- İnsanlar bu tür stratejileri bilinçli olarak hatırlar veya kaydeder; ancak LLM'ler henüz böyle bir scratchpad'e sahip olmayan Memento'nun başkarakteri gibi
- Bu tür strateji temelli öğrenme, ödül sinyali tabanlı reinforcement learning (RL)'e kıyasla çok daha üst düzey ve veri açısından verimli bir geri bildirim yolu olabilir
- Yakın zamanda sızdırılan Claude sistem promptu yaklaşık 17.000 kelime uzunluğunda ve yalnızca basit davranış tercihlerini değil, genel problem çözme stratejilerini de ayrıntılı biçimde tanımlıyor
Örnek: Kelime sayması istendiğinde Claude hemen yanıt vermek yerine adım adım düşünüyor,
her kelimeye/harfe/karaktere numara veriyor ve açık bir sayma prosedüründen geçtikten sonra yanıt üretiyor - Bu tür bilgi, hemen ya da yalnızca ağırlıklara gömülmesi gereken bir şey değil; ayrıca insanların sistem promptunu elle tek tek yazıp vermesiyle de yönetilmemeli
- Bunun yerine bu yaklaşım, yeni bir öğrenme biçimi olan sistem promptu öğrenmesi ile mümkün olabilir; kurulum açısından RL'ye benzese de,
öğrenme yöntemi gradyan inişinden çok metin tabanlı düzenlemeye (edit) benziyor - LLM sistem promptlarının önemli bir kısmı sistem promptu öğrenmesiyle yazılabilir; bu da LLM'nin problem çözme yöntemleri üzerine bir kitabı bizzat yazmasına benzer
- Promptu LLM'nin kendisinin düzenleyip güncellemesi güçlü bir yeni öğrenme paradigması olma potansiyeli taşıyor
- Ancak çözülmesi gereken konular da var:
- Metin düzenleme nasıl çalışacak?
- Model bu düzenleme sistemini kendisi öğrenebilir mi ya da öğrenmeli mi?
- İnsanlardaki gibi açık strateji bilgisini zamanla içselleştirilmiş alışkanlıklara/ağırlıklara aktarmak için nasıl bir mekanizma gerekir?
- Ancak çözülmesi gereken konular da var:
1 yorum
LLM sistem promptunu kendisi değiştirebilirse, o politikaya dair kuralları da yine insanların belirlemesi gerekecek; sonuçta geriye yalnızca robotların üç yasası gibi şeyler kalabilir sanırım.