1 puan yazan GN⁺ 2024-11-01 | Henüz yorum yok. | WhatsApp'ta paylaş

Chain-of-Thought ve performans düşüşü

  • Chain-of-Thought (CoT) genel bakış

    • CoT, büyük dil ve multimodal modellerde yaygın olarak kullanılan bir stratejidir.
    • Birçok görevde performansı artırdığı bilinse de, hangi koşullarda etkili olduğunu netleştirmek hâlâ süren bir çalışmadır.
  • Araştırmanın amacı

    • CoT'un model performansını düşürebileceği görevlerin özelliklerini belirlemek amaçlanmaktadır.
    • Bilişsel psikolojiden ilhamla, (i) sözel düşünme ya da derinlemesine düşünmenin insan performansını bozduğu durumlar ile, (ii) insan performansını belirleyen kısıtların dil modellerine genellenebildiği durumlar incelenmektedir.
  • Başlıca araştırma örnekleri

    • Örtük istatistiksel öğrenme, görsel algı ve istisna içeren örüntü sınıflandırması gibi üç vaka deneysel olarak ele alınmıştır.
    • Çeşitli güncel modellerde, çıkarım sırasında düşünme kullanıldığında performansın belirgin biçimde düştüğü bulunmuştur (ör. OpenAI o1-preview, GPT-4o'ya kıyasla mutlak doğrulukta en fazla %36,3 düşüş göstermiştir).
  • Ek bulgular

    • Koşul (i)'yi sağlayıp (ii)'yi sağlamayan üç görev belirlenmiştir.
    • Bu görevlerde sözel düşünme insan performansını düşürse de, CoT model performansını korumuş ya da artırmıştır.
  • Sonuç

    • Modelin bilişsel süreçleri ile insanın bilişsel süreçleri arasında birebir bir paralellik olmasa da, insan performansını olumsuz etkileyen düşünme örneklerini dikkate almak, model üzerinde de olumsuz etki yaratabilecek koşulları saptamaya yardımcı olmaktadır.
    • İnsan düşünme literatürü ile CoT değerlendirmesini ilişkilendirerek, istem seçimini ve çıkarım sırasındaki düşünmenin etkisini anlamak için yeni bir araç sunmaktadır.

GN⁺ özeti

  • Bu çalışma, CoT'un her durumda model performansını artırmadığını göstermektedir.
  • İnsan düşünmesinin performansı olumsuz etkilediği durumlar üzerinden, model performansındaki düşüşü öngörme olasılığını ortaya koymaktadır.
  • CoT'un etkisini anlamada bilişsel psikolojinin içgörülerinden yararlanılması dikkat çekicidir.
  • Benzer işlevlere sahip projeler arasında OpenAI'nin çeşitli dil modelleri önerilmektedir.

Henüz yorum yok.

Henüz yorum yok.