22 puan yazan xguru 2025-05-13 | 1 yorum | WhatsApp'ta paylaş
  • LLM'lerin, mevcut pretraining ve fine-tuning'in ötesine geçen üçüncü bir öğrenme paradigmasına, yani "System Prompt Learning" yaklaşımına ihtiyacı olduğu savunuluyor
  • Pretraining bilginin öğrenilmesi, fine-tuning ise alışkanlık haline gelmiş davranışların öğrenilmesi biçiminde işliyor; her ikisi de model parametrelerinde değişiklik gerektiriyor
  • Buna karşılık insan öğrenmesi, sistem promptunun değişimine daha çok benziyor ve "bir problem durumuyla karşılaşma → durumu kavrayıp strateji çıkarma → bir sonrakine açıkça hatırlamak üzere kaydetme" şeklinde ilerliyor
    • Örnek: "Bu tür bir problemle karşılaşırsam şu yaklaşımı/çözümü denemeliyim" diye kendine not düşmeye benziyor
  • Bu, genel amaçlı kullanıcı bağlamı belleğinden (memory) farklı olarak, genel problem çözme stratejilerini ve akıl yürütme prosedürlerini açıkça depolamaya daha yakın
  • İnsanlar bu tür stratejileri bilinçli olarak hatırlar veya kaydeder; ancak LLM'ler henüz böyle bir scratchpad'e sahip olmayan Memento'nun başkarakteri gibi
  • Bu tür strateji temelli öğrenme, ödül sinyali tabanlı reinforcement learning (RL)'e kıyasla çok daha üst düzey ve veri açısından verimli bir geri bildirim yolu olabilir
  • Yakın zamanda sızdırılan Claude sistem promptu yaklaşık 17.000 kelime uzunluğunda ve yalnızca basit davranış tercihlerini değil, genel problem çözme stratejilerini de ayrıntılı biçimde tanımlıyor

    Örnek: Kelime sayması istendiğinde Claude hemen yanıt vermek yerine adım adım düşünüyor,
    her kelimeye/harfe/karaktere numara veriyor ve açık bir sayma prosedüründen geçtikten sonra yanıt üretiyor

  • Bu tür bilgi, hemen ya da yalnızca ağırlıklara gömülmesi gereken bir şey değil; ayrıca insanların sistem promptunu elle tek tek yazıp vermesiyle de yönetilmemeli
  • Bunun yerine bu yaklaşım, yeni bir öğrenme biçimi olan sistem promptu öğrenmesi ile mümkün olabilir; kurulum açısından RL'ye benzese de,
    öğrenme yöntemi gradyan inişinden çok metin tabanlı düzenlemeye (edit) benziyor
  • LLM sistem promptlarının önemli bir kısmı sistem promptu öğrenmesiyle yazılabilir; bu da LLM'nin problem çözme yöntemleri üzerine bir kitabı bizzat yazmasına benzer
  • Promptu LLM'nin kendisinin düzenleyip güncellemesi güçlü bir yeni öğrenme paradigması olma potansiyeli taşıyor
    • Ancak çözülmesi gereken konular da var:
      • Metin düzenleme nasıl çalışacak?
      • Model bu düzenleme sistemini kendisi öğrenebilir mi ya da öğrenmeli mi?
      • İnsanlardaki gibi açık strateji bilgisini zamanla içselleştirilmiş alışkanlıklara/ağırlıklara aktarmak için nasıl bir mekanizma gerekir?

1 yorum

 
parkindani 2025-05-13

LLM sistem promptunu kendisi değiştirebilirse, o politikaya dair kuralları da yine insanların belirlemesi gerekecek; sonuçta geriye yalnızca robotların üç yasası gibi şeyler kalabilir sanırım.