4 puan yazan darjeeling 25 일 전 | 1 yorum | WhatsApp'ta paylaş

> "Öfkeli sorarsam yapay zeka daha mı iyi yanıt verir?" Harvard araştırmacılarının 6 benchmark üzerinde yaptığı deneylerin sonucuna göre, duygusal ifadeler LLM performansını neredeyse hiç etkilemedi. Ancak temel bulgu şu: duyguyu soru bazında uyarlamalı olarak seçmek, tutarlı performans artışı sağlayabiliyor.


Araştırmaya genel bakış

  • Kaynak: arXiv:2604.02236v1 (2 Nisan 2026)
  • Yazarlar: Minda Zhao, Yutong Yang ve diğerleri (Harvard Üniversitesi ile Bryn Mawr College ortak çalışması)
  • Temel soru: Prompt içine duygusal ifade eklemek, LLM performansını değiştiriyor mu?

Başlıca bulguların özeti

Duygusal ton insan iletişiminin geneline yayılmış olsa da, LLM davranışı üzerindeki etkisi hâlâ belirsiz. Bu çalışma şu üç noktayı ortaya koyuyor.

① Sabit duygusal öneklerin etkisi sınırlı
Çoğu görev-model kombinasyonunda duygusal çerçeveleme, nötr başlangıç düzeyine kıyasla performansı belirgin biçimde ne artırdı ne de düşürdü. Statik duygusal prompting, genel amaçlı bir performans artırma yöntemi olarak çalışmıyor.

② Duygu yoğunluğunu artırmak da durumu değiştirmiyor
"Çok öfkeliyim", "aşırı korkuyorum" gibi yoğunluğu artıran ifadelerde de doğruluk, yoğunluk seviyeleri boyunca yalnızca küçük değişimler gösterdi; daha güçlü ifadeler de tutarlı bir performans düşüşüne yol açmadı.

③ Uyarlamalı duygu seçimi (EmotionRL) etkili
Tek bir sabit duygu çok kaba kaldığı için güvenilir değil; ancak girdiye göre koşullanan bir politika, daha tutarlı performans artışları sağlayabiliyor.


Deney tasarımı

Denenen 6 duygu

Plutchik'in temel duygu kuramına dayanarak mutluluk, üzüntü, korku, öfke, iğrenme ve şaşkınlık olmak üzere 6 duygu kullanıldı.

Değerlendirme için 6 benchmark

Benchmark Ölçülen yetenek
GSM8K Matematiksel akıl yürütme
BIG-Bench Hard Genel akıl yürütme
MedQA Tıbbi uzmanlık bilgisi
BoolQ Okuduğunu anlama
OpenBookQA Sağduyu temelli akıl yürütme
SocialIQA Sosyal akıl yürütme

Kullanılan modeller

Qwen3-14B, Llama 3.3-70B ve DeepSeek-V3.2 olmak üzere üç açık kaynak model, fine-tuning yapılmadan zero-shot akıl yürütme ortamında değerlendirildi.


Ayrıntılı sonuçlar

Göreve göre duygu hassasiyeti farkı

GSM8K ve MedQA-US, duyguların genelinde başlangıç düzeyine çok yakın kaldı; bu da kısa duygusal öneklerin, sıkı biçimde kısıtlanmış akıl yürütme ve alan odaklı çoktan seçmeli tahminler üzerinde sınırlı etki yarattığını gösteriyor.

Genel kararlılık açısından en belirgin sapma SocialIQA'da görüldü. Burada model ve duygular genelindeki varyans dikkat çekici biçimde daha yüksekti ve etkinin yönü de tutarlı değildi. Bu, duygusal bağlamın kişiler arası ilişki akıl yürütmesi gerektiren görevlerle en güçlü şekilde etkileşime girdiği anlamına geliyor.

İnsan yazımı duygular vs. LLM tarafından üretilen duygular

İnsanların yazdığı öneklerle LLM'nin ürettiği önekler karşılaştırıldığında, her iki kaynak da koşullar genelinde neredeyse aynı doğruluk oranlarını gösterdi; taraflardan hiçbiri tutarlı biçimde üstünlük sağlamadı.


EmotionRL: uyarlamalı duygu seçimi çerçevesi

Her bir giriş sorusu için ajan, {öfke, iğrenme, korku, mutluluk, üzüntü, şaşkınlık} duygu kümesinden birini seçiyor ve ilgili duygusal ifadeyi özgün promptun başına ekleyerek dondurulmuş LLM'ye gönderiyor.

Temel yapı iki aşamadan oluşuyor.

  • Offline eğitim: Her soru için 6 duygunun tamamı denenerek bir ödül vektörü oluşturuluyor ve hafif bir MLP politika ağı eğitiliyor.
  • Online çıkarım: Yeni bir girdi geldiğinde eğitilmiş politika duyguyu seçiyor ve LLM yalnızca bir kez çağrılıyor.

Sabit duygusal promptların zayıf ortalama etkisi, duygusal çerçevelemede işe yarar sinyal olmadığı anlamına gelmiyor. EmotionRL, beş görev genelinde ortalama statik duygu başlangıç düzeyini sürekli olarak yakaladı ya da aştı.


Sonuç ve çıkarımlar

Deneylerimiz, duygusal prompting konusunda bazı parçalı olumlu örneklerin ima ettiğinden daha temkinli bir görüşü destekliyor. Doğruluk temelli standart benchmarklarda, sabit duygusal önekler genellikle güvenilir bir performans müdahale aracı olamayacak kadar zayıf ve heterojen kalıyor.

Araştırmacılar, duygusal prompting'i bir "genel amaçlı şablon" yerine bir "uyarlamalı yönlendirme problemi" olarak yeniden tanımlamayı öneriyor.

Sınırlamalar

Bu çalışma kısa öneklere, tek turlu prompting'e ve doğruluk odaklı benchmarklara yoğunlaştı. Çok turlu etkileşimler, açık uçlu üretim veya güvenlik açısından hassas diyaloglar gibi doğruluk kadar kalibrasyon, stil ve empatinin de önemli olduğu değerlendirmelerde daha büyük ya da niteliksel olarak farklı etkiler ortaya çıkabilir.


Orijinal metin: "Do Emotions in Prompts Matter? Effects of Emotional Framing on Large Language Models" — arXiv:2604.02236v1

1 yorum

 
huiya 24 일 전

Vay, demek şimdiye kadar sinirlenmemin hiçbir faydası yokmuş...?? Oysa küfredince efsane iyi şeyler yapıyordu