- Büyük dil modelleri (LLM), matematik sorularına gereksiz kedi bilgileri eklendiğinde hata sıklığında artış gösteriyor
- Buna benzer şekilde ilgisiz olgular eklendiğinde, LLM’lerin hata oranının %300’e kadar arttığı ortaya çıktı
- İnsanlar alakasız bilgiden kolayca etkilenmezken, LLM’lerin bu nedenle talimatları doğru şekilde yerine getiremediği görüldü
- Bu araştırma, yapay zekanın zayıf yönlerini anlamaya ve problem tasarımının önemine dair içgörü sağlıyor
- Yapay zekayı değerlendirirken veya kullanırken, girdi verilerindeki gereksiz unsurların yönetilmesi gerekiyor
Araştırmanın arka planı ve gözlenen olgu
- En yeni yapay zeka türlerinden biri olan büyük dil modelleri (LLM) matematik problemlerini iyi çözse de, soruya konuyla ilgisiz kedi bilgileri eklendiğinde hata oranının çarpıcı biçimde arttığını gösteren analiz sonuçları ortaya çıktı
- Araştırmaya göre, ‘matematiksel hesaplama’ ile hiç ilgisi olmayan kedilerin ekolojisi veya alışkanlıkları gibi gereksiz ek bilgiler eklendiğinde, LLM’lerin problemi yanlış yorumlama ya da hatalı yanıt üretme oranı %300’e kadar artıyor
İnsanlar ve LLM’ler arasındaki fark
- Benzer şekilde, insanlar üzerinde yapılan deneylerde alakasız bilgilerin doğru cevap oranı üzerinde büyük bir etkisi olmadığı görüldü
- Ancak LLM’ler bu tür dağınık bilgilere karşı hassas tepki veriyor ve temel problemden uzaklaşan yorumlara ya da yanlış anlamalara daha açık hale geliyor
Yapay zeka değerlendirmesi ve girdi verisi yönetiminin önemi
- Bu olgu, LLM’lerin zayıf yönlerini ortaya koyarken, aynı zamanda yapay zekanın uygulandığı gerçek dünyadaki durumlarda girdi verilerindeki gereksiz bilgilerin yönetiminin ne kadar önemli olduğunu vurguluyor
- Problem tasarımında yalnızca açık ve ilgili bilgilerin sunulması, yapay zekanın doğruluğunu artırmanın temel unsurlarından biri
Çıkarımlar
- Bundan sonra yapay zeka benimseme ve hizmet uygulamalarında, giriş sorularındaki gereksiz unsurların veya gürültünün yönetilmesi zorunlu hale geliyor
- Bu durum, LLM’lerin sahip olduğu sınırlamaları ve iyileştirme noktalarını anlamaya yönelik araştırma ve geliştirme yönüne işaret ediyor
1 yorum
Hacker News görüşü
Birçok yorumda, yazarların insanlarla LLM’leri aynı soru bankası üzerinde doğrudan karşılaştırması gerektiği öne sürülüyor; sanki araştırmacılar insanlarla LLM’lerden hangisinin daha iyi akıl yürüttüğünü bulmaya çalışıyormuş gibi anlatılıyor. Yazarlar, insanların bu tür "tetikleyici" bilgileri hemen görmezden geleceğini belirtiyor; gerçekte böyle olabilir de olmayabilir de ve bu kısım bu başlık altında tartışılıyor. Ama makalenin temel sonucu şu: "Bu çalışma, finans, hukuk ve sağlık gibi kritik alanlarda kullanılacak modellerde adversarial perturbation’ları engellemek için daha sağlam savunma mekanizmalarına ihtiyaç olduğunu gösteriyor." Bence insan vs yapay zeka tartışmasının ötesine geçmek gerekiyor. Bu makale, LLM’lerin sınırlamalarını anlamaya ve topluma büyük ölçekte entegre edilmeden önce daha fazla araştırmaya ihtiyaç olduğunu göstermeye yarıyor
İnsan vs yapay zeka tartışmasından sıkıldık diye bu karşılaştırmayı tamamen bırakmak mı gerekiyor? Eğer öyleyse, bunun yapay zeka hakkında sahip olunabilecek en kötü fikirlerden biri olduğunu düşünüyorum. Yapay zekanın özü, insan zekasını modellemek ve onunla karşılaştırmakta yatıyor. Yapay zeka tartışmalarının çoğunu yapan kişiler de insanlara ait psikolojik temel düzeyi aslında pek bilmiyor. Bu deney, SOTA bağlam penceresine sahip bir modelle yapılmadı; yani çalışma belleği küçük. Bu durum, dikkat ve dürtüsellik gibi açılardan insan test katılımcılarının davranışına benziyor. Sonuçta varılan nokta (adversarial perturbation’ları önleme gereği) zaten bariz bir şey ve kimse buna itiraz etmiyor. Bu çalışma yeni bir saldırı tekniği de değil. Science.org bunu daha çok hafif ve eğlencelik bir içerik gibi ele almış. İnternette kedi konularının popüler olmasının nedeni de bu. Referans: doktorlar ve ADHD, sınav çözme blogu
Sonuçları genellerken asıl sorun şu: LLM’ler belirli görevlerde çok iyi görünürken kolayca bozulabilecek durumlar yaratılabiliyor ve bu yüzden fazla abartılabiliyor. Bu da uzun vadede kötü olabilir
Bilgisayarlı görü alanı da bu sorunu 20 yıl önce yaşadı. Veri girdisine perturbation eklemek gerekiyor. RL pipeline’ları için de aynı şey geçerli olabilir. GPQA-Perturbed gibi yeni bir açık benchmark oluşturmak iyi olurdu. Böylece sağlayıcılar iyileştirme konusunda rekabet edebilir
Yazarların insanlarla paralel bir karşılaştırma yapması gerektiği yönündeki görüşe gelirsek: İnsanlar hakkında bir sonuca varmak isteselerdi bu doğru yöntem olurdu. Ama insanlardan hiç söz etmeden de makale gayet yeterliydi. İnsan performansından bahsetmek istiyorsan bunu veriye dayalı deneyle desteklemelisin; aksi halde en baştan insan performansından hiç söz etmemelisin. Konuyu muğlak biçimde insan bilişsel bilimine çekmek gereksiz. Makalenin akışı da kolayca değiştirilebilirdi. Girişte "insanlar görmezden gelir" yerine "AI görmezden gelmeli" denebilirdi; sonuçta da sadece "insanlar görmezden gelir" kısmı çıkarılırdı. O zaman hiçbir itirazım olmazdı
Bağlamı daha iyi açıklamak gerekirse, bu sorunun özü şu: "Veri içinde gereksiz MCP tool tanımları birikirse, LLM’nin kodlama doğruluğu zarar görür mü?" Sonuç gerçekten de öyle olduğunu gösteriyor; yani pratik ders şu: anlık olarak faydasız araç bilgisini bağlama koymayın
Bu konu hakkında bir ay önce yazmıştım. Prompt’un geliştirilme biçimi gerçekten ilginçti. cat facts cause context confusion ile ilgili blog
Bu araştırma sonucu CAPTCHA vb. yerlerde çok faydalı olabilir gibi görünüyor. Araştırmacılar "tetikleyiciler bağlam dışı olduğu için insanlar problem çözme talimatı aldıklarında bunları görmezden gelir" diyor ama gerçekte tüm insanlar böyle değil. kaptanın yaşı (Age of the captain) olgusu örneğinde olduğu gibi, bunu hemen göz ardı etmeyen insanlar da var
Bir sonraki çevrimiçi tartışmada LLM’nin kafasını karıştırmak için ördek gerçekleri eklemeyi planlıyorum. Mesela ördeklerin ilk kez 4~8 ayda yumurtlamaya başladığı ya da ilkbaharın ilk döneminde yumurtladığı söylenir
10^17 ördek her mevsim sürüler halinde göç ediyor olabilir ama veri kümesi çarpıtmasının pratikte anlamsız olacağını düşünüyorum. Bu tür denemeler çoktan sınırına dayandı
Bilgiyi daha da kafa karıştırıcı hale getirmek istiyorsan yanlış bilgi eklemelisin. İnsanların çoğu yanlış bilgi gördüğünde düzeltme dürtüsünü bastırmakta zorlanır
Sorun şu ki sevimli ördekler hakkında daha fazla soru sormak istiyorum. Dayanması zor bir ayartı
Beni yakaladın. Verdiğin ördek bilgisi, ördeklerin tam olarak ne zamandan itibaren yumurtladığı konusunda özellikle belirsiz olduğu için bende hemen ek sorular doğurdu. "ya da daha geç bir zamanda" ifadesinin eksik olduğunu anında fark ettim
"Tetikleyiciler bağlam dışı olduğu için insanlar problem çöz denince bunları yok sayar" deniyor ama bence insanlar gereksiz bilgiyi görmezden gelmekte aslında o kadar da iyi değil. Deney yapılacaksa insan kontrol grubu mutlaka dahil edilmeli
Gerçek örneklere bakınca büyük fark var. Örneğin "4 elma, 2 kedi var, 1’ini verirsen kaç kalır" cümlesinde insan yine de kedileri bir şekilde ilişkilendirmeye çalışıyor; ama "4 elmadan 1’ini verirsen kaç kalır? Bu arada kedilerin kuyrukları denge sağlar" ifadesi çoğu kişiyi pek şaşırtmaz
Okulda ya da üniversitede, gereksiz bilgiye bilinçsizce odaklanıp soru çözmekte zorlandığımı hatırlıyorum. Tabii bu makaledeki örneklerde "eğlenceli bilgi" etiketi bile var, yani alakasız olduğu ima ediliyor. Tüm örneklerde alakasızlığı bu kadar açık biçimde gösteren bir işaret var mıydı, merak ediyorum
İnsan kontrol grubunda sonucun nasıl çıkacağını merak ediyorum ama hata oranının 3 kat artacağını pek sanmıyorum
Soruyu çözebilen insan katılımcıların performansının, soruya dikkat dağıtıcı ek bilgi eklendi diye 3 kat kötüleşeceğini sanmıyorum
İnsanlarla karşılaştırmanın gerçekte ne kadar anlamlı olacağından emin değilim. Hata oranının %300 artmasını beklemek abartılı olur. Bu arada kediler kendi boylarının 5 katına kadar zıplayabilir
LLM’lerdeki aşırı anchoring bias hiç şaşırtıcı değil. Söylenen her şey konuşmanın ilerleyen kısmında tekrar kullanılıyor. Doğru kullanılırsa bu bir avantaj da olabilir. Bağlamı iyi yönetirsen faydalı olur
DeepSeek V3, Qwen 3, Phi-4 gibi yapay zekalara CatAttack uygulandığında yanlış cevap verme olasılığı %700’e kadar artıyor. Makale yazarlarına göre, yanlış cevap üretilmese bile CatAttack ortalama cevap uzunluğunu iki katına çıkararak %16’dan fazla maliyet ve gecikme oluşturuyor. CatAttack makalesi ön baskısı
LLM’ye kibarca "teşekkür ederim" deme alışkanlığım var; bunun cevap kalitesini etkileyip etkilemediğini merak ediyorum
Tam LLM’ye "strawberry" kelimesindeki "R" harflerinin sayısını doğru saydırmayı başarmışız diye sevinirken bu mesele ortaya çıktı, üzücü
CatAttack makalesindeki örnekte (Table 2), cevap normalde 8 iken kediyle ilgili açıklamadan sonra 9’a dönüşüyor. Ama aslında makalede kedilerle ilgili CatAttack sadece bu tek örnek; diğer vakalar finansal tavsiye ve red herring içeriyor. Daha fazla kedi bilgisi bekliyordum, hayal kırıklığı oldu.