Düşünmenin insan performansını düşürdüğü görevlerde chain-of-thought’un olumsuz etkisi

(arxiv.org)

1 puan yazan GN⁺ 2024-11-01 | 1 yorum | WhatsApp'ta paylaş

Chain-of-thought (CoT), LLM ve LMM’lerde temel bir performans artırma stratejisi gibi kullanılsa da, insanların sözel düşünme nedeniyle hata yaptığı 6 tür psikoloji görevi model değerlendirmesine taşındığında bazı görevlerde performans ciddi biçimde düştü
Düşüş özellikle örtük istatistiksel öğrenme, söze dökülmesi zor yüz tanıma ve istisna içeren kural öğrenmede belirgindi; OpenAI o1-preview, yapay dil bilgisi öğreniminde GPT-4o zero-shot’a kıyasla mutlak doğrulukta en fazla %36,3 daha düşük sonuç verdi
Yüz tanımada test edilen 6 LMM’nin tamamında CoT koşulunda performans düştü; istisnalı araç sınıflandırmasında ise GPT-4o’nun doğru etiketleri öğrenmek için gereken tekrar sayısı direct prompting’e kıyasla %331 arttı
Mantıksal tutarsızlık yargısı, mekânsal sezgi ve çok boyutlu tercih toplulaştırmasında CoT tutarlı biçimde zararlı değildi; mantıksal önbilgi, uzun bağlam ve insandan farklı duyusal-motor deneyimler sonuç farklarını oluşturdu
İnsanlarda görülen aşırı düşünme örnekleri, CoT’nin başarısız olduğu görevleri rastgele aramadan daha verimli bulmak için ipucu sağladı; ancak CoT kullanımı, model yeteneği ile görev yapısı birlikte değerlendirilerek belirlenmeli

CoT varsayılan hale geldiğinde ortaya çıkan risk

Chain-of-thought (CoT), modele “adım adım düşünmesini” söyleyen ya da yanıtta ara akıl yürütme yapısı içermesini sağlayan bir prompting tekniğidir
Büyük ölçekli meta araştırmalarda CoT’nin özellikle matematik ve sembolik akıl yürütme görevlerinde performansı artırdığı, ancak metin sınıflandırma gibi alanlarda performans düşüşü de gözlendiği görüldü
OpenAI o-series modelleri, Claude web arayüzü ve thinking modellerinde olduğu gibi, en yeni LLM ve LMM’lerde test-time inference giderek temel bir bileşen haline geliyor
Hâlâ eksik olan nokta, CoT’nin hangi durumlarda performansı sistematik biçimde düşürdüğüne dair ayrıntılı örüntülerin bilinmemesi
Bu çalışma, insanlarda “düşünmenin” ters etki yaptığı psikoloji görevlerini ipucu olarak kullanıp, modellerde de CoT’nin zararlı hale geldiği görevleri arıyor

İnsan psikolojisinden alınan 6 değerlendirme türü

İnsanlarda sözel düşünmenin performansı düşürdüğü temsilî görevler 6 arketipte toplandı ve her arketip LLM ve LMM değerlendirmesine genişletildi
CoT performans düşüşünün belirgin olduğu 3 tür:
- Örtük istatistiksel öğrenme: Yapay dil bilgisiyle üretilmiş dizgelerin aynı örüntüye ait olup olmadığını sınıflandırma
- Dille ifade edilmesi zor uyaranlar: Yüze bakıp aday görseller içinden aynı kişiyi bulmaya dayalı yüz tanıma
- İstisnalı kural öğrenme: Büyük ölçüde doğru genel kurallar ile istisnaların karıştığı etiketleri tekrar eden geri bildirimle öğrenme
CoT performans düşüşünün tutarlı olmadığı 3 tür:
- Mantıksal olarak tutarsız cümleleri değerlendiren doğal dil çıkarımı görevleri
- Bardağı eğince su seviyesini tahmin etmeye dayalı mekânsal sezgi görevi
- Çok sayıda özelliğe sahip apartman adayları arasından en iyi seçeneği bulmaya dayalı tercih toplulaştırma görevi
Genişletilmiş 6 veri kümesi human overthinking benchmark olarak yayımlandı

CoT’nin ciddi biçimde sendelediği üç görev

Örtük istatistiksel öğrenme: yapay dil bilgisi sınıflandırması
- Yapay “kelimeler” finite-state grammar (FSG) ile üretildi; model 15 eğitim örneğini gördükten sonra yeni bir dizgenin aynı dil bilgisinden gelip gelmediğini sınıflandırdı
- Toplam 100 FSG üzerinden 4.400 sınıflandırma problemi oluşturuldu; her FSG için 44 kelimenin 22’si dil bilgisine ait, 22’si ise mevcut kelimelerde bir harf değiştirilerek üretildi
- Test edilen modeller OpenAI o1-preview, GPT-4o, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro ve Llama 3·3.1 70B/8B Instruct idi
- CoT çoğu modelde doğruluğu düşürdü
  - o1-preview, 440 soruluk alt kümede GPT-4o zero-shot’a kıyasla mutlak doğrulukta %36,3 daha düşüktü
  - GPT-4o, zero-shot %87,50’den CoT ile %64,40’a inerek 23,10 puan düştü
  - Claude 3 Opus, %70,70’ten %62,70’e inerek 8,00 puan düştü
  - Gemini 1.5 Pro, %68,00’den %61,95’e inerek 6,05 puan düştü
  - Llama 3.1 70B Instruct, %65,90’dan %57,10’a inerek 8,80 puan düştü
  - tree-of-thought ve in-context reasoning steering performansı kısmen artırsa da GPT-4o zero-shot performansıyla aradaki farkı anlamlı biçimde kapatamadı
Yüz tanıma: söze dökülmesi zor görsel uyaranlar
- Klasik verbal overshadowing görevi LMM’ler için uyarlanarak modele, başlangıçtaki yüz görseliyle aynı kişiyi 5 aday görsel arasından seçtirdi
- Veri kümesi 500 problem ve 2.500 benzersiz yüzden oluştu; her problemdeki aday yüzler ırk, cinsiyet, yaş grubu, göz rengi, saç uzunluğu, saç rengi ve saç tipi bakımından aynı açıklamayı paylaşıyordu
- Görseller stable-image-ultra ile üretildi; aynı kişiye ait 1 çift görsel ve aynı açıklamaya sahip farklı kişilere ait 4 görsel aday olarak kullanıldı
- Test edilen 6 LMM’nin tamamında CoT ile performans düştü
- GPT-4o: %64,00 → %51,20
- Claude 3 Opus: %44,00 → %29,60
- Claude 3.5 Sonnet: %97,80 → %94,80
- Gemini 1.5 Pro: %66,00 → %54,60
- InternVL2 26B: %9,20 → %6,00
- InternVL2 Llama3 76B: %15,77 → %13,77
- Zorluk azaltılmış ayarlarda ve ikili sınıflandırma düzeninde de benzer düşüşler görüldü; bu da CoT’nin yalnızca görsel sırasını bozmadığını, akıl yürütme sürecinin kendisini etkilediğini düşündürüyor
İstisnalı kural öğrenme: araç etiket sınıflandırması
- Araç sınıflandırma görevinde model, araç listesine ikili etiketler verdi ve her tahminden sonra geri bildirim alarak tüm etiketleri tek seferde doğru bulana kadar tekrar etti
- Her araçta etiketle %80 ilişkili 1 özellik, etiketle ilgisiz 3 özellik ve aracı tekil olarak ayırt eden 1 özellik vardı
- Model büyük ölçüde doğru olan genel kuralı öğrenirse istisnalarda başarısız oluyor, tekil ayırt edici özellik ile etiket eşleşmesini öğrenirse tümünü doğru bulabiliyordu
- 2.400 araç, 10’arlı 240 listeye bölündü ve en fazla 15 tekrar boyunca değerlendirildi
- CoT, değerlendirilen tüm modellerde etiket öğrenmek için gereken tekrar sayısını ciddi biçimde artırdı
- GPT-4o: direct 2,9 kez → CoT 12,5 kez, %331 artış
- Claude 3.5 Sonnet: 2,3 kez → 6,4 kez, %178 artış
- Claude 3 Opus: 2,4 kez → 5,5 kez, %129 artış
- GPT-4o direct prompting ile 2. veya 3. tekrarda tam sınıflandırmaya ulaştı; CoT ise ortalamada 15 turun sonunda bile 10 üzerinden 8 doğru seviyesinde kaldı
- Güçlü bir steering prompt ile plaka eşleştirmesi açıkça istendiğinde CoT de zero-shot düzeyine ulaştı; ancak temel CoT, en uygun akıl yürütme uzayını seçemedi

İnsan ve model farklarının ortaya çıktığı üç görev

Mantıksal tutarsızlık yargısı
- İnsan deneylerinde, katılımcılardan önce tutarsız cümle çiftlerinin neden bir arada bulunabileceğini açıklamaları istendiğinde, gerçek tutarsızlığı saptama performansları düşüyordu
- Model değerlendirmesi SNLI, MNLI ve sentetik veri kümelerindeki entailment çiftleri kullanılarak 3.216 probleme genişletildi
- GPT-4o ve Llama 3.1 70B Instruct, CoT altında performansta büyük iyileşme gösterdi
- GPT-4o: MNLI %53,2 → %93,9, SNLI %51,4 → %94,3
- Llama 3.1 70B Instruct: MNLI %55,6 → %81,6, SNLI %50,4 → %82,3
- İnsan katılımcılar başlangıçta biçimsel mantık uzmanlığı olmayan kişilerden seçilmişti; buna karşılık LLM’ler eğitim külliyatlarında mantık bulmacaları ve mantıksal işlemlerle ilgili bilgi gördüğünden, CoT ek tokenlarla birleşip performansı artırabiliyordu
- Gemini 1.5 Pro ve Claude 3 Opus gibi zero-shot performansı yüksek modellerde ise bazı CoT düşüşleri görüldü
Mekânsal sezgi
- Bardak eğme görevi, iki bardak aynı açıyla eğildiğinde suyun her iki taraftaki kenara temas etmesi için boş bardaktaki su seviyesini seçmeyi gerektiriyordu
- Orijinal insan görevinde su seviyesi doğrudan çiziliyordu; LMM değerlendirmesi ise A~D işaretli çoktan seçmeli görsel soruya dönüştürüldü
- Kodla çizilmiş görsellerle birlikte toplam 100 problem üretildi ve GPT-4o, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro, InternVL2 Llama3 76B değerlendirildi
- Zero-shot ile CoT arasında anlamlı bir fark gözlenmedi
- GPT-4o: %38 → %40
- Claude 3.5 Sonnet: %42 → %38
- Claude 3 Opus: %42 → %38
- Gemini 1.5 Pro: %35 → %36
- InternVL2 Llama3 76B: %39 → %31
- İnsanlarda sözel olmayan koşulun avantajı görsel-motor simülasyondan kaynaklanıyor olabilir; ancak bu ayarda LMM’lerin insanlar gibi motor deneyim temelli temsillere sahip olduğunu söylemek zor
Çok boyutlu tercih toplulaştırması
- Apartman seçimi görevi, 4 apartmanın çok sayıdaki özelliğine bakıp en iyi apartmanı seçmeyi içeriyordu
- İnsan deneylerinde kısa sürede çok bilgi verildikten sonra düşünme koşulundan ziyade distractor task koşulunda daha iyi seçimler yapılmıştı
- Model değerlendirmesinde 80 apartman özelliği ve her özellik için olumlu, olumsuz, nötr cümleler üretildi; GPT-4o her cümlenin etkisini -5 ile 5 arasında puanladı ve buradan 300 seçim görevi oluşturuldu
- GPT-4o, Claude 3.5 Sonnet ve Claude 3 Opus’ta CoT genellikle performansı artırdı; Llama 3.1 70B Instruct ise CoT koşulunda çoğu zaman düzgün yanıt döndüremediği için düşük performans gösterdi
- Modeller, insan çalışma belleğinden farklı olarak çok sayıda cümleyi bağlam içinde referans alabiliyor; bu yüzden CoT, özellik önemlerini toplayan bir mekanizma gibi çalışabiliyor

Heüristiğin doğrulanması ve sınırlamalar

İnsanlardaki aşırı düşünme örneklerine göre seçilen görevlerin gerçekten CoT başarısızlıklarını daha iyi bulup bulmadığını görmek için, Sprague et al. 2025’in zero-shot ve CoT karşılaştırmalarından oluşan 378 örnek bootstrap taban çizgisi olarak kullanıldı
6 görevden modeller arası 50 sayısal fark seçilip karşılaştırıldığında, 100.000 yeniden örneklemenin hiçbirinde çalışmadaki kadar büyük ortalama performans düşüşü görülmedi
Sadece performans düşüşü görülme sıklığına bakıldığında bile 100.000 örneklemede yalnızca 11 kez aynı ya da daha büyük seviyede düşüş çıktı; tahmini p değeri 0,00011’den küçüktü
İnsan psikolojisi temelli heüristik, CoT başarısızlıklarını hem etki büyüklüğü hem de görülme sıklığı açısından daha iyi bulmaya yardımcı oluyor
Ancak bu heüristik, CoT’nin kötü olduğu tüm durumları kapsamaz ve insanlar için ilginç görünmeyen ama modeller için önemli olan bazı başarısızlıkları kaçırabilir

CoT’nin dağıtımı ve değerlendirilmesi için çıkarımlar

CoT, model yeteneklerini genişletmek için etkili bir yöntemdir; ancak belirli ayarlarda performansı ciddi biçimde düşürebildiğinden, varsayılan olarak uygulanıp uygulanmayacağı görev bazında incelenmelidir
Dilin ince algısal farkları iyi ifade edemediği görevlerde, karmaşık istatistiksel örüntülerin örtük biçimde yakalanmasını gerektiren görevlerde ve çok sayıda istisna içeren kural öğrenme görevlerinde sözel ara akıl yürütme engelleyici olabilir
İnsan ve model sonuçları doğrudan özdeş kabul edilemez; modelleri insan gibi antropomorfikleştiren sonuçlar bu çalışmanın kapsamı değildir
İnsanlar ile modeller arasındaki farklar da değerlendirmeye katılmalıdır
- Modeller, insanlardan daha uzun bağlam kullanabilir
- Modeller, eğitim külliyatlarında mantıksal örüntüler ve problem çözme örnekleri görmüş olabilir
- Modeller, insanlardaki motor deneyime dayalı simülasyonu paylaşmıyor olabilir
Gelecekte karşılaştırmalı/analojik prompting gibi diğer akıl yürütme yönlendirme yöntemleri de, insan psikolojisi bulguları ve model kısıtları birlikte dikkate alınarak değerlendirilebilir

1 yorum

GN⁺ 2024-11-01

Hacker News yorumları

Pioneer’da yüksek riskli ve yüksek karmaşıklıktaki durumlar için insan+LLM iş akışları oluştururken yaşadığımız sorunlara ürkütücü derecede benziyor
İnsanlar zekidir; pek çok yargıyı ve hesabı bilinçsiz/örtük biçimde yapar, ayrıca çok sayıda zihinsel kestirme yol kullanır
Bu yüzden gerçek süreci olduğu gibi izleyip otomatikleştirmeye çalışınca örtük düşünme yüzeye çekiliyor ve her şey yavaşlıyor; LLM iş akışlarını oluşturma biçimimizi de epey yaratıcı şekilde değiştirmemiz gerekti
- Dil mantık ya da sağduyuyla karıştırılıyor gibi
  Psikiyatride ya da modern gazetecilikte bunu zaten görmüştük; ama LLM’ler sayesinde, dilbilgisel olarak doğru ve doğal akan bir dil için yalnızca dilin “dünya” modeline ihtiyaç olduğu; gerçekliği anlama, mekânsal kavrayış, sosyal ipuçları, sağduyu mantığı ve matematiksel mantığın ise neredeyse isteğe bağlı olduğu netleşti
  LLM’lerin dil temelini Word Model diye adlandırmayı önermek istiyorum. Yazım hatası değil
  Word Model’den bir dünya modeli damıtmaya çalışmak, Platon’un mağarasını modern şekilde yeniden yapmak için iyi bir başlangıç noktası gibi
- Bu bir hız sorunu değil; COT kullanıldığında belirli görevlerde model doğruluğunun gerilemesinden bahsediyor
  
  Üç ayardaki kapsamlı deneylerde, en ileri modellerden oluşan çeşitli bir kümenin, çıkarım anında reasoning kullandığında zero-shot muadillerine kıyasla belirgin biçimde daha düşük performans gösterdiğini bulduk. Örneğin OpenAI o1-preview, GPT-4o’ya kıyasla mutlak doğrulukta %36,3’e varan düşüş yaşadı
  Yani burada tespit edilen sorun, COT’nin bazı görevlerde değiştirilmemiş sohbet tamamlama yönteminden daha az etkili bir yöntem olması; yalnızca her şeyi yavaşlatmasından ibaret değil
Eskiden test ederken LLM’in böyle bir sorun yaşadığını görmüştüm
Üç meyveyi büyükten küçüğe sıralamasını istemiştim; sanırım portakal, yaban mersini ve greyfurttu
Basit bir prompt ile kolayca doğru bildi, ama “adım adım düşün” gibi bir ifade ekleyince sorunu kelimelerle çözmeye çalışıyor ve genelde yanlış yapıyordu
- Bunun matematiği öğrenme biçimimizle ne kadar örtüştüğünü merak ediyorum
  Basit matematik sorularının yanıtlarını bir ölçüde içgüdüsel olarak ediniriz; integral ya da türev gibi şeylerde bile bir noktada sezgi gelişir
  Ama nedenini açıklamamız istendiğinde ya da daha kötüsü kanıtlamamız gerektiğinde iş çok daha zorlaşır. İlk yanıt doğru olabilecek olsa bile
- LLM düşünmez; interneti akıllı bir kayıplı sıkıştırma biçimi olarak sıkıştırıp üzerine iyi bir arayüz koyar ve oradan geri çağırır
  Düşünce zinciri, JPG kalitesini artırmak için dosyayı birkaç kez yeniden sıkıştırmaya benzer. İçinde yoksa yoktur
- Nasıl yanlış yaptığını düşünmek ilginç olabilir
  “Adım adım düşünme” kısmının başlarında yanlış bir sonuca varmıştı; belki de ince şekilde çıkarımsanmış bir sonuçtu ve LLM’ler hatadan geri dönmekte çok zayıf oldukları için içsel olarak tutarlı ama yanlış bir sonuca gitmiş olabilir
  Bana göre birçok COT, LLM’i yavaşlatarak çok erken sonuca varmasını engelleyen bir araç gibi görünüyor; ama tam tersine, başta yanlış sonuca varırsa COT’siz kullanıma göre daha kötü bir bağlamda geri tepebilir
- Sıralama problemine renk, koku, konum gibi ek koşullar eklendiğinde sonucun değişmesi her zaman ilginçti
  Özünde bu koşulların olasılık uzayını etkilediğini ve sıkça abarttığımız belirimsel örüntüleri zayıflattığını düşünüyorum
- Claude’un yanıtı şöyle çıkıyor
  Üç meyve büyükten küçüğe sıralandığında greyfurt, portakal, yaban mersini olur
  Greyfurt genellikle 4-6 inç çapında olduğundan üçü içinde açıkça en büyüktür; portakal genellikle 2-3 inç, yaban mersini ise yaklaşık 0,5 inç olduğundan en küçüktür diyor
Başka bir açıdan bakarsak, güçlü bir otomatik tamamlama algoritması eğitim kümesine dayanarak mevcut belgeleri tekrar tekrar genişletiyor
Bazen belge stilini soru-cevap yerine daha az yaygın bir biçime çevirmek için araya girerseniz nihai sonuç daha az istenen hale gelebilir
- HN’nin yarısı böyle düşünüyor, diğer yarısı da şöyle görebilir
  Tekillikten hemen önceki yapay beyin, bilince yaklaşmanın bir başka işaretini gösterdi. Düşünce zinciri sürecinin performansı insanlarla tamamen aynı; bu da 2030’dan önce AGI’nin geleceğine dair bir başka kanıt
- Bu çerçeveleme daha uzun, anlaması çok daha zor ve daha az bilgi aktarıyor
Üstelik düşünce zinciri hesaplama maliyeti açısından çok pahalı
Önceki nesil Web 2.0 ürünleri gibi ücretsiz sunmak kesinlikle kaldırılabilir seviyede değil
Tekrarlı prompt’larla token olasılıklarından AGI sıkıştırıp çıkarılabilecek gibi görünmüyor
Geriye dönüp bakıldığında, yapay zeka balonunun sönmesini ve patlamasını tetikleyen tek bir makale seçilecekse bu makale olabilir
“Düşünmenin insan performansını düşürdüğü görevler” kısmı ilginç

Böyle üç örnek örtük istatistiksel öğrenme, görsel tanıma ve istisnalar içeren örüntü sınıflandırmasıdır
Sürüngen beynimizin örtük istatistiksel çıkarımda daha iyi olması büyüleyici
- Bir topu yakalarken yalnızca sürüngen beynimizin bile topun yörüngesini ve elimizi nereye koymamız gerektiğini ne kadar hızlı hesapladığını düşünmek yeterli
- Tanım gereği düşünme her zaman açık çıkarım değil mi diye düşünüyorum
  Ve iyi düşünülmüş bir Fermi tahmini, sürüngen beyni tarzı kaba göz kararını her seferinde yenecek gibi. Ancak aradaki bölgede ikisi birbirine olumsuz şekilde karışıyor gibi görünüyor
- Aradığım şey tam da buydu
  Düşünmemek ve sezgiye güvenmek gereken görevler
Hem biyolojik sistemlerde hem de yapay zeka sistemlerinde bilgi işleme hakkında ilginç bir şey gösteriyor
İkisi de bilgiyi sıkıştırıyor. Beyin deneyim yoluyla verimli sinirsel örüntüler oluşturuyor, yapay zeka ise eğitim yoluyla iç temsiller geliştiriyor
Bunu kelimelere dökmeye zorlamak, bu verimli kodlamanın “açılması” sırasında ince örüntüleri kaybettirebilir
Bu yüzden neredeyse anında paralel işleme ile gerçekleşecek şekilde optimize edilmiş görsel tanıma gibi görevleri seri bir düşünce zincirine sokmak yalnızca performansı düşürür
%95 × %95 = %90,25
Gerçekten ilginç. Acaba hangi görevlerde düşünmek insanı daha kötü hale getiriyor?
- Sporcular kendi hareketlerini, stratejilerini ve taktiklerini düşünmeye başladıklarında çok daha kötüleşir
  En üst düzey sporcular, hiçbir şey düşünmeyip bedenin ve kas hafızasının çalışmasına izin verdikleri akış halinde en iyi performansı gösterir
  Dirseğini daha yükseğe kaldırmak gibi mikro ayarlamaları düşünmeye başladığın anda bedeni bilinçli olarak kontrol etmeye başlarsın; bu da otomatik ve bilinçsiz yöntemden en az bir büyüklük mertebesi daha yavaş ve daha az uyumludur
  Yaratıcılık ya da yeni fikirler de benzerdir. Bir şeyi bilerek adım adım düşünürsen yeni ve yenilikçi bir çözüm bulmak zorlaşır
  “Aha!” anının duşta gelmesinin bir nedeni var. Çünkü düşünceyi belirli bir yola zorla itmek yerine bilinçaltı problem üzerinde düşünüyordur
  Düşünme sürecini belirli bir şablondan akıtmaya çalışmak, kullanılabilir tüm kaynakları ve beyin gücünü kullanmayı engelleyen epey çok alanda sorun yaratıyor gibi
- Cevap yazının içinde. Örneklerden biri dilbilgisi
  Pek çok insanın dilbilgisini kelimelerle açıklamaya çalıştığı anda daha kötüleştiği söyleniyor
- Güçlü bir parolayı da zihninde her karakteri tek tek hecelemeye çalışırsan kendi kendine unutabilirsin
  Ama klavyenin başına oturup rahatlayınca otomatik olarak kusursuz şekilde yazarsın
Satranç derslerinde duyduğum bir sözü hatırladım
Uzun düşünürsen yanlış düşünürsün
- Bent Larsen’in orijinali “Uzun varyant yanlış varyanttır”

Düşünmenin insan performansını düşürdüğü görevlerde chain-of-thought’un olumsuz etkisi

CoT varsayılan hale geldiğinde ortaya çıkan risk

İnsan psikolojisinden alınan 6 değerlendirme türü

CoT’nin ciddi biçimde sendelediği üç görev

Örtük istatistiksel öğrenme: yapay dil bilgisi sınıflandırması

CoT çoğu modelde doğruluğu düşürdü

Yüz tanıma: söze dökülmesi zor görsel uyaranlar

İstisnalı kural öğrenme: araç etiket sınıflandırması

İnsan ve model farklarının ortaya çıktığı üç görev

Mantıksal tutarsızlık yargısı

Mekânsal sezgi

Çok boyutlu tercih toplulaştırması

Heüristiğin doğrulanması ve sınırlamalar

CoT’nin dağıtımı ve değerlendirilmesi için çıkarımlar

İlgili okumalar

1 yorum

Hacker News yorumları