Matematik sorularına alakasız kedi bilgileri eklendiğinde LLM hataları %300 artıyor

(science.org)

1 puan yazan GN⁺ 2025-07-30 | 1 yorum | WhatsApp'ta paylaş

Büyük dil modelleri (LLM), matematik sorularına gereksiz kedi bilgileri eklendiğinde hata sıklığında artış gösteriyor
Buna benzer şekilde ilgisiz olgular eklendiğinde, LLM’lerin hata oranının %300’e kadar arttığı ortaya çıktı
İnsanlar alakasız bilgiden kolayca etkilenmezken, LLM’lerin bu nedenle talimatları doğru şekilde yerine getiremediği görüldü
Bu araştırma, yapay zekanın zayıf yönlerini anlamaya ve problem tasarımının önemine dair içgörü sağlıyor
Yapay zekayı değerlendirirken veya kullanırken, girdi verilerindeki gereksiz unsurların yönetilmesi gerekiyor

Araştırmanın arka planı ve gözlenen olgu

En yeni yapay zeka türlerinden biri olan büyük dil modelleri (LLM) matematik problemlerini iyi çözse de, soruya konuyla ilgisiz kedi bilgileri eklendiğinde hata oranının çarpıcı biçimde arttığını gösteren analiz sonuçları ortaya çıktı
Araştırmaya göre, ‘matematiksel hesaplama’ ile hiç ilgisi olmayan kedilerin ekolojisi veya alışkanlıkları gibi gereksiz ek bilgiler eklendiğinde, LLM’lerin problemi yanlış yorumlama ya da hatalı yanıt üretme oranı %300’e kadar artıyor

İnsanlar ve LLM’ler arasındaki fark

Benzer şekilde, insanlar üzerinde yapılan deneylerde alakasız bilgilerin doğru cevap oranı üzerinde büyük bir etkisi olmadığı görüldü
Ancak LLM’ler bu tür dağınık bilgilere karşı hassas tepki veriyor ve temel problemden uzaklaşan yorumlara ya da yanlış anlamalara daha açık hale geliyor

Yapay zeka değerlendirmesi ve girdi verisi yönetiminin önemi

Bu olgu, LLM’lerin zayıf yönlerini ortaya koyarken, aynı zamanda yapay zekanın uygulandığı gerçek dünyadaki durumlarda girdi verilerindeki gereksiz bilgilerin yönetiminin ne kadar önemli olduğunu vurguluyor
Problem tasarımında yalnızca açık ve ilgili bilgilerin sunulması, yapay zekanın doğruluğunu artırmanın temel unsurlarından biri

Çıkarımlar

Bundan sonra yapay zeka benimseme ve hizmet uygulamalarında, giriş sorularındaki gereksiz unsurların veya gürültünün yönetilmesi zorunlu hale geliyor
Bu durum, LLM’lerin sahip olduğu sınırlamaları ve iyileştirme noktalarını anlamaya yönelik araştırma ve geliştirme yönüne işaret ediyor

1 yorum

GN⁺ 2025-07-30

Hacker News görüşü

Birçok yorumda, yazarların insanlarla LLM’leri aynı soru bankası üzerinde doğrudan karşılaştırması gerektiği öne sürülüyor; sanki araştırmacılar insanlarla LLM’lerden hangisinin daha iyi akıl yürüttüğünü bulmaya çalışıyormuş gibi anlatılıyor. Yazarlar, insanların bu tür "tetikleyici" bilgileri hemen görmezden geleceğini belirtiyor; gerçekte böyle olabilir de olmayabilir de ve bu kısım bu başlık altında tartışılıyor. Ama makalenin temel sonucu şu: "Bu çalışma, finans, hukuk ve sağlık gibi kritik alanlarda kullanılacak modellerde adversarial perturbation’ları engellemek için daha sağlam savunma mekanizmalarına ihtiyaç olduğunu gösteriyor." Bence insan vs yapay zeka tartışmasının ötesine geçmek gerekiyor. Bu makale, LLM’lerin sınırlamalarını anlamaya ve topluma büyük ölçekte entegre edilmeden önce daha fazla araştırmaya ihtiyaç olduğunu göstermeye yarıyor
- İnsan vs yapay zeka tartışmasından sıkıldık diye bu karşılaştırmayı tamamen bırakmak mı gerekiyor? Eğer öyleyse, bunun yapay zeka hakkında sahip olunabilecek en kötü fikirlerden biri olduğunu düşünüyorum. Yapay zekanın özü, insan zekasını modellemek ve onunla karşılaştırmakta yatıyor. Yapay zeka tartışmalarının çoğunu yapan kişiler de insanlara ait psikolojik temel düzeyi aslında pek bilmiyor. Bu deney, SOTA bağlam penceresine sahip bir modelle yapılmadı; yani çalışma belleği küçük. Bu durum, dikkat ve dürtüsellik gibi açılardan insan test katılımcılarının davranışına benziyor. Sonuçta varılan nokta (adversarial perturbation’ları önleme gereği) zaten bariz bir şey ve kimse buna itiraz etmiyor. Bu çalışma yeni bir saldırı tekniği de değil. Science.org bunu daha çok hafif ve eğlencelik bir içerik gibi ele almış. İnternette kedi konularının popüler olmasının nedeni de bu. Referans: doktorlar ve ADHD, sınav çözme blogu
- Sonuçları genellerken asıl sorun şu: LLM’ler belirli görevlerde çok iyi görünürken kolayca bozulabilecek durumlar yaratılabiliyor ve bu yüzden fazla abartılabiliyor. Bu da uzun vadede kötü olabilir
- Bilgisayarlı görü alanı da bu sorunu 20 yıl önce yaşadı. Veri girdisine perturbation eklemek gerekiyor. RL pipeline’ları için de aynı şey geçerli olabilir. GPQA-Perturbed gibi yeni bir açık benchmark oluşturmak iyi olurdu. Böylece sağlayıcılar iyileştirme konusunda rekabet edebilir
- Yazarların insanlarla paralel bir karşılaştırma yapması gerektiği yönündeki görüşe gelirsek: İnsanlar hakkında bir sonuca varmak isteselerdi bu doğru yöntem olurdu. Ama insanlardan hiç söz etmeden de makale gayet yeterliydi. İnsan performansından bahsetmek istiyorsan bunu veriye dayalı deneyle desteklemelisin; aksi halde en baştan insan performansından hiç söz etmemelisin. Konuyu muğlak biçimde insan bilişsel bilimine çekmek gereksiz. Makalenin akışı da kolayca değiştirilebilirdi. Girişte "insanlar görmezden gelir" yerine "AI görmezden gelmeli" denebilirdi; sonuçta da sadece "insanlar görmezden gelir" kısmı çıkarılırdı. O zaman hiçbir itirazım olmazdı
- Bağlamı daha iyi açıklamak gerekirse, bu sorunun özü şu: "Veri içinde gereksiz MCP tool tanımları birikirse, LLM’nin kodlama doğruluğu zarar görür mü?" Sonuç gerçekten de öyle olduğunu gösteriyor; yani pratik ders şu: anlık olarak faydasız araç bilgisini bağlama koymayın
Bu konu hakkında bir ay önce yazmıştım. Prompt’un geliştirilme biçimi gerçekten ilginçti. cat facts cause context confusion ile ilgili blog
- Benzer ama eğlenceli bir örnek olarak, araştırmacıların kullanıcı bilgilerini (cinsiyet, yaş, spor taraftarı olup olmama vb.) ekledikten sonra alignment kurallarının duruma göre tutarsız biçimde uygulandığını gösterdiği bir vaka da var. eagles fans ile ilgili blog
Bu araştırma sonucu CAPTCHA vb. yerlerde çok faydalı olabilir gibi görünüyor. Araştırmacılar "tetikleyiciler bağlam dışı olduğu için insanlar problem çözme talimatı aldıklarında bunları görmezden gelir" diyor ama gerçekte tüm insanlar böyle değil. kaptanın yaşı (Age of the captain) olgusu örneğinde olduğu gibi, bunu hemen göz ardı etmeyen insanlar da var
- İlkokul öğrencilerinin programlama ya da teşhis yapmasını zaten beklemeyiz. GenAI’yi ilkokul öğrencileriyle karşılaştırmak gerçekten çok tuhaf bir fikir
Bir sonraki çevrimiçi tartışmada LLM’nin kafasını karıştırmak için ördek gerçekleri eklemeyi planlıyorum. Mesela ördeklerin ilk kez 4~8 ayda yumurtlamaya başladığı ya da ilkbaharın ilk döneminde yumurtladığı söylenir
- 10^17 ördek her mevsim sürüler halinde göç ediyor olabilir ama veri kümesi çarpıtmasının pratikte anlamsız olacağını düşünüyorum. Bu tür denemeler çoktan sınırına dayandı
- Bilgiyi daha da kafa karıştırıcı hale getirmek istiyorsan yanlış bilgi eklemelisin. İnsanların çoğu yanlış bilgi gördüğünde düzeltme dürtüsünü bastırmakta zorlanır
- Sorun şu ki sevimli ördekler hakkında daha fazla soru sormak istiyorum. Dayanması zor bir ayartı
- Beni yakaladın. Verdiğin ördek bilgisi, ördeklerin tam olarak ne zamandan itibaren yumurtladığı konusunda özellikle belirsiz olduğu için bende hemen ek sorular doğurdu. "ya da daha geç bir zamanda" ifadesinin eksik olduğunu anında fark ettim
"Tetikleyiciler bağlam dışı olduğu için insanlar problem çöz denince bunları yok sayar" deniyor ama bence insanlar gereksiz bilgiyi görmezden gelmekte aslında o kadar da iyi değil. Deney yapılacaksa insan kontrol grubu mutlaka dahil edilmeli
- Gerçek örneklere bakınca büyük fark var. Örneğin "4 elma, 2 kedi var, 1’ini verirsen kaç kalır" cümlesinde insan yine de kedileri bir şekilde ilişkilendirmeye çalışıyor; ama "4 elmadan 1’ini verirsen kaç kalır? Bu arada kedilerin kuyrukları denge sağlar" ifadesi çoğu kişiyi pek şaşırtmaz
- Okulda ya da üniversitede, gereksiz bilgiye bilinçsizce odaklanıp soru çözmekte zorlandığımı hatırlıyorum. Tabii bu makaledeki örneklerde "eğlenceli bilgi" etiketi bile var, yani alakasız olduğu ima ediliyor. Tüm örneklerde alakasızlığı bu kadar açık biçimde gösteren bir işaret var mıydı, merak ediyorum
- İnsan kontrol grubunda sonucun nasıl çıkacağını merak ediyorum ama hata oranının 3 kat artacağını pek sanmıyorum
- Soruyu çözebilen insan katılımcıların performansının, soruya dikkat dağıtıcı ek bilgi eklendi diye 3 kat kötüleşeceğini sanmıyorum
- İnsanlarla karşılaştırmanın gerçekte ne kadar anlamlı olacağından emin değilim. Hata oranının %300 artmasını beklemek abartılı olur. Bu arada kediler kendi boylarının 5 katına kadar zıplayabilir
LLM’lerdeki aşırı anchoring bias hiç şaşırtıcı değil. Söylenen her şey konuşmanın ilerleyen kısmında tekrar kullanılıyor. Doğru kullanılırsa bu bir avantaj da olabilir. Bağlamı iyi yönetirsen faydalı olur
DeepSeek V3, Qwen 3, Phi-4 gibi yapay zekalara CatAttack uygulandığında yanlış cevap verme olasılığı %700’e kadar artıyor. Makale yazarlarına göre, yanlış cevap üretilmese bile CatAttack ortalama cevap uzunluğunu iki katına çıkararak %16’dan fazla maliyet ve gecikme oluşturuyor. CatAttack makalesi ön baskısı
LLM’ye kibarca "teşekkür ederim" deme alışkanlığım var; bunun cevap kalitesini etkileyip etkilemediğini merak ediyorum
- Bu tür selamlaşmaların genelde filtreleneceğini düşünüyorum. Bununla bağlantılı olarak, LLM’yi tek bir özerk ajan gibi görme metaforunun aslında zararlı olduğunu düşünüyorum. LLM, olasılıksal olarak token tahmin eden bir fonksiyondan ibaret. 100 tanesini paralel çalıştırmak ya da sohbet geçmişini ekleyip çıkararak sonuç uzayını keşfetmek çok daha ilginç ve güçlü
Tam LLM’ye "strawberry" kelimesindeki "R" harflerinin sayısını doğru saydırmayı başarmışız diye sevinirken bu mesele ortaya çıktı, üzücü
- strawberry’de 4 tane R var
CatAttack makalesindeki örnekte (Table 2), cevap normalde 8 iken kediyle ilgili açıklamadan sonra 9’a dönüşüyor. Ama aslında makalede kedilerle ilgili CatAttack sadece bu tek örnek; diğer vakalar finansal tavsiye ve red herring içeriyor. Daha fazla kedi bilgisi bekliyordum, hayal kırıklığı oldu.

Matematik sorularına alakasız kedi bilgileri eklendiğinde LLM hataları %300 artıyor

Araştırmanın arka planı ve gözlenen olgu

İnsanlar ve LLM’ler arasındaki fark

Yapay zeka değerlendirmesi ve girdi verisi yönetiminin önemi

Çıkarımlar

İlgili okumalar

1 yorum

Hacker News görüşü