Andrej Karpathy, LLM'lerin "sistem promptu öğrenmesine" ihtiyacı olduğunu söylüyor

xguru · 2025-05-13T09:03:46+09:00

LLM'lerin, mevcut pretraining ve fine-tuning'in ötesine geçen üçüncü bir öğrenme paradigmasına, yani "System Prompt Learning" yaklaşımına ihtiyacı olduğu savunuluyor Pretraining bilginin öğrenilmesi, fine-tuning ise alışkanlık haline gelmiş davranışların öğrenilmesi biçiminde işliyor; her ikisi de model parametrelerinde değişiklik gerektiriyor Buna karşılık insan öğrenmesi, sistem promptunun değişimine daha çok benziyor ve "bir problem durumuyla karşılaşma → durumu kavrayıp strateji çıkarma → bir sonrakine açıkça hatırlamak üzere kaydetme" şeklinde ilerliyor Örnek: "Bu tür bir problemle karşılaşırsam şu yaklaşımı/çözümü denemeliyim" diye kendine not düşmeye benziyor Bu, genel amaçlı kullanıcı bağlamı belleğinden (memory) farklı olarak, genel problem çözme stratejilerini ve akıl yürütme prosedürlerini açıkça depolamaya daha yakın İnsanlar bu tür stratejileri bilinçli olarak hatırlar veya kaydeder; ancak LLM'ler henüz böyle bir scratchpad'e sahip olmayan Memento'nun başkarakteri gibi Bu tür strateji temelli öğrenme, ödül sinyali tabanlı reinforcement learning (RL)'e kıyasla çok daha üst düzey ve veri açısından verimli bir geri bildirim yolu olabilir Yakın zamanda sızdırılan Claude sistem promptu yaklaşık 17.000 kelime uzunluğunda ve yalnızca basit davranış tercihlerini değil, genel problem çözme stratejilerini de ayrıntılı biçimde tanımlıyor Örnek: Kelime sayması istendiğinde Claude hemen yanıt vermek yerine adım adım düşünüyor, her kelimeye/harfe/karaktere numara veriyor ve açık bir sayma prosedüründen geçtikten sonra yanıt üretiyor Bu tür bilgi, hemen ya da yalnızca ağırlıklara gömülmesi gereken bir şey değil; ayrıca insanların sistem promptunu elle tek tek yazıp vermesiyle de yönetilmemeli Bunun yerine bu yaklaşım, yeni bir öğrenme biçimi olan sistem promptu öğrenmesi ile mümkün olabilir; kurulum açısından RL'ye benzese de, öğrenme yöntemi gradyan inişinden çok metin tabanlı düzenlemeye (edit) benziyor LLM sistem promptlarının önemli bir kısmı sistem promptu öğrenmesiyle yazılabilir; bu da LLM'nin problem çözme yöntemleri üzerine bir kitabı bizzat yazmasına benzer Promptu LLM'nin kendisinin düzenleyip güncellemesi güçlü bir yeni öğrenme paradigması olma potansiyeli taşıyor Ancak çözülmesi gereken konular da var: Metin düzenleme nasıl çalışacak? Model bu düzenleme sistemini kendisi öğrenebilir mi ya da öğrenmeli mi? İnsanlardaki gibi açık strateji bilgisini zamanla içselleştirilmiş alışkanlıklara/ağırlıklara aktarmak için nasıl bir mekanizma gerekir?

(x.com/karpathy)

22 puan yazan xguru 2025-05-13 | 1 yorum | WhatsApp'ta paylaş

LLM'lerin, mevcut pretraining ve fine-tuning'in ötesine geçen üçüncü bir öğrenme paradigmasına, yani "System Prompt Learning" yaklaşımına ihtiyacı olduğu savunuluyor
Pretraining bilginin öğrenilmesi, fine-tuning ise alışkanlık haline gelmiş davranışların öğrenilmesi biçiminde işliyor; her ikisi de model parametrelerinde değişiklik gerektiriyor
Buna karşılık insan öğrenmesi, sistem promptunun değişimine daha çok benziyor ve "bir problem durumuyla karşılaşma → durumu kavrayıp strateji çıkarma → bir sonrakine açıkça hatırlamak üzere kaydetme" şeklinde ilerliyor
- Örnek: "Bu tür bir problemle karşılaşırsam şu yaklaşımı/çözümü denemeliyim" diye kendine not düşmeye benziyor
Bu, genel amaçlı kullanıcı bağlamı belleğinden (memory) farklı olarak, genel problem çözme stratejilerini ve akıl yürütme prosedürlerini açıkça depolamaya daha yakın
İnsanlar bu tür stratejileri bilinçli olarak hatırlar veya kaydeder; ancak LLM'ler henüz böyle bir scratchpad'e sahip olmayan Memento'nun başkarakteri gibi
Bu tür strateji temelli öğrenme, ödül sinyali tabanlı reinforcement learning (RL)'e kıyasla çok daha üst düzey ve veri açısından verimli bir geri bildirim yolu olabilir
Yakın zamanda sızdırılan Claude sistem promptu yaklaşık 17.000 kelime uzunluğunda ve yalnızca basit davranış tercihlerini değil, genel problem çözme stratejilerini de ayrıntılı biçimde tanımlıyor

Örnek: Kelime sayması istendiğinde Claude hemen yanıt vermek yerine adım adım düşünüyor,
her kelimeye/harfe/karaktere numara veriyor ve açık bir sayma prosedüründen geçtikten sonra yanıt üretiyor
Bu tür bilgi, hemen ya da yalnızca ağırlıklara gömülmesi gereken bir şey değil; ayrıca insanların sistem promptunu elle tek tek yazıp vermesiyle de yönetilmemeli
Bunun yerine bu yaklaşım, yeni bir öğrenme biçimi olan sistem promptu öğrenmesi ile mümkün olabilir; kurulum açısından RL'ye benzese de,
öğrenme yöntemi gradyan inişinden çok metin tabanlı düzenlemeye (edit) benziyor
LLM sistem promptlarının önemli bir kısmı sistem promptu öğrenmesiyle yazılabilir; bu da LLM'nin problem çözme yöntemleri üzerine bir kitabı bizzat yazmasına benzer
Promptu LLM'nin kendisinin düzenleyip güncellemesi güçlü bir yeni öğrenme paradigması olma potansiyeli taşıyor
- Ancak çözülmesi gereken konular da var:
  - Metin düzenleme nasıl çalışacak?
  - Model bu düzenleme sistemini kendisi öğrenebilir mi ya da öğrenmeli mi?
  - İnsanlardaki gibi açık strateji bilgisini zamanla içselleştirilmiş alışkanlıklara/ağırlıklara aktarmak için nasıl bir mekanizma gerekir?

1 yorum

parkindani 2025-05-13

LLM sistem promptunu kendisi değiştirebilirse, o politikaya dair kuralları da yine insanların belirlemesi gerekecek; sonuçta geriye yalnızca robotların üç yasası gibi şeyler kalabilir sanırım.

Andrej Karpathy, LLM'lerin "sistem promptu öğrenmesine" ihtiyacı olduğunu söylüyor

İlgili okumalar

1 yorum