2 puan yazan GN⁺ 2025-03-08 | Henüz yorum yok. | WhatsApp'ta paylaş
  • Bilişsel davranışlar kendini geliştiren muhakeme yürütücülerini nasıl mümkün kılar, ya da son derece etkili STaRs'ın dört alışkanlığı

  • Test zamanında muhakeme: Dil modellerinin karmaşık problemler üzerinde daha uzun ve daha dikkatli düşünebilmesini sağlayan güçlü bir paradigma. Pekiştirmeli öğrenme (RL), doğrulanabilir görevlerde dil modellerinin kendini geliştirmesini teşvik edebilir; ancak bazı modeller kayda değer performans gösterirken diğerleri hızla durağanlaşıyor. Örneğin Qwen-2.5-3B, aynı RL eğitimi altında Llama-3.2-3B'yi açık ara geride bırakıyor.

  • İçsel özellikler: Etkili kendini geliştirmeyi mümkün kılan içsel özellikler hakkında bir soru ortaya çıkıyor. Bunu incelemek için doğrulama, geri izleme, alt hedef belirleme ve geriye doğru zincirleme olmak üzere dört temel bilişsel davranışı analiz eden bir çerçeve sunuluyor. Bu davranışlar, uzman insan problem çözücüler ile başarılı dil modelleri tarafından kullanılıyor.

  • Deney sonuçları: Qwen bu muhakeme davranışlarını doğal olarak sergilerken, Llama başlangıçta bunlardan yoksun. Kontrollü davranış veri kümeleri kullanılarak yapılan sistematik deneylerde, bu muhakeme davranışlarını içeren örneklerle Llama hazırlandığında RL sırasında önemli gelişme sağladığı ve Qwen'in performansına ulaştığı ya da onu aştığı görülüyor.

  • Muhakeme davranışlarının önemi: Kritik unsur, doğru cevabın isabetinden çok muhakeme davranışlarının varlığı. Doğru muhakeme kalıplarını içeren yanlış çözümlerle hazırlanan model, doğru çözümlerle eğitilen modelle benzer performansa ulaşıyor.

  • Devam eden ön eğitim: OpenWebMath verisi kullanılarak muhakeme davranışlarını güçlendiren filtreleme sayesinde Llama modelinin Qwen'in kendini geliştirme eğrisini takip etmesi sağlanıyor. Bu, başlangıçtaki muhakeme davranışları ile gelişim kapasitesi arasındaki temel ilişkiyi ortaya koyarak bazı dil modellerinin ek hesaplamayı neden etkili biçimde kullanabildiğini açıklıyor.

Henüz yorum yok.

Henüz yorum yok.