LLM’lerin Matematiksel Akıl Yürütme Sınırlarını Anlamak

(arxiv.org)

2 puan yazan GN⁺ 2024-10-13 | 1 yorum | WhatsApp'ta paylaş

Yalnızca GSM8K puanındaki artışa bakarak LLM’lerin gerçek matematiksel akıl yürütme yeteneğini değerlendirmek zor; GSM-Symbolic, aynı problem yapısının farklı varyasyonlarıyla daha kontrollü bir değerlendirme yapılmasını sağlıyor
Bu benchmark, GSM8K problemlerini sembolik şablonlara dönüştürerek adları, sayıları ve koşul cümlesi sayısını ayarlıyor; 100 şablonun her biri için 50 örnek üreterek benchmark başına 5.000 örnekten oluşuyor
25 güncel açık ve kapalı modelde, aynı problem yapısında yalnızca sayılar değiştiğinde bile performans düştü ve varyans arttı; orijinal GSM8K puanı, 25 modelin 21’inde GSM-Symbolic dağılımının sağında yer aldı
Koşul cümleleri arttıkça doğruluk düştü ve varyans büyüdü; Gemma2-9B-it GSM-M1’de %84,4’ten GSM-P2’de %41,8’e, GPT-4o ise %94,4’ten %88,0’a geriledi
Alakasız ama ilgili gibi görünen cümlelerin eklendiği GSM-NoOp’ta tüm modellerin performansı belirgin biçimde düştü; Phi-3-mini, GSM8K’ya kıyasla 65,7 yüzde puan daha düşük sonuç alarak gerekli ve gereksiz bilgiyi istikrarlı biçimde ayırt edemedi

Yalnızca GSM8K ile görülmesi zor matematiksel akıl yürütme yeteneği

GSM8K, 8.000’den fazla ilkokul matematik problemi ve çözümünü içerir; 7.473 eğitim örneği ve 1.319 test örneğinden oluşur
Dört işlem ağırlıklı görece basit matematik problemlerinden oluştuğu için Chain-of-Thought(CoT) prompting değerlendirmelerinde yaygın olarak kullanılır
Tek ve sabit bir test seti yapısında yalnızca bir doğruluk değeri elde edilebilir; bu yüzden soru varyasyonlarına veya zorluk değişimlerine göre model davranışını kontrollü biçimde incelemek zordur
Bir benchmark ne kadar yaygın kullanılırsa, test örneklerinin model eğitim verisine tesadüfen dahil olmuş olma, yani veri kirlenmesi olasılığı da o kadar artar
GSM-Symbolic, GSM8K problemlerini sembolik şablonlara dönüştürerek çeşitli varyasyonlar üretir ve LLM’lerin matematiksel akıl yürütme performansını tek bir puan yerine performans dağılımı olarak değerlendirir
GSM-Symbolic şablonları ve üretilen veriler apple/ml-gsm-symbolic üzerinde yayımlanmıştır

Şablon üretimi ve değerlendirme yöntemi

GSM-Symbolic, GSM8K test setindeki belirli örneklerin ayrıştırılabilir şablonlara dönüştürülmesiyle oluşturulur
- Değişkenler, değişken aralıkları ve yanıtın doğru olmasını garanti eden koşullar tanımlanır
- İlkokul matematik problemlerinin özelliği gereği, yanıtın tam sayı olması için tam bölünebilirlik gibi koşullar sıkça kullanılır
- Şablon üretimini basitleştirmek için kişi adları, yiyecekler ve para birimleri gibi genel özel adlardan yararlanılır
Şablon üretiminden sonra çeşitli otomatik kontrollerden geçilir
- Orijinal değişken değerlerinin şablonda kalıp kalmadığı kontrol edilir
- Orijinal değerlerin tüm koşulları karşılayıp karşılamadığı denetlenir
- Üretilen nihai yanıtın orijinal problemin yanıtıyla eşleşip eşleşmediği kontrol edilir
- Her şablon için rastgele 10 örnek elle incelenir
- Tüm model değerlendirmelerinden sonra, her problem en az 2 model tarafından doğru çözülemezse yeniden elle incelenir
Sayı aralıkları, orijinal GSM8K test setine yakın olacak şekilde ayarlanır
- Amaç aritmetik becerinin kendisini değil, mantıksal akıl yürütme yeteneğini değerlendirmektir
- Ek analiz, genişletilmiş sayı aralığının modellerin aritmetik doğruluğunu koruduğu sınırlar içinde olduğunu doğrular
Değerlendirmeye 2B’den 27B’ye kadar 20’den fazla açık model ile GPT-4o-mini, GPT-4o, o1-mini, o1-preview gibi güncel kapalı modeller dahil edilir
Toplamda yaklaşık 500 değerlendirme yapılmış; ana metindeki deneylerde 100 şablon ve şablon başına 50 örnekten oluşan 5.000 örneklik benchmark kullanılmıştır
Aksi belirtilmedikçe GSM8K ve diğer matematik benchmark’larında yaygın olan 8-shot CoT ve greedy decoding ayarları izlenir
- Ön deneylerde shot sayısı performansı ve sonuçları büyük ölçüde değiştirmemiştir

Aynı problem yapısında bile dalgalanan performans

GSM-Symbolic’in 50 veri setinde tüm güncel modeller, göz ardı edilmesi zor bir doğruluk varyansı gösterdi
- Gemma2-9B’de en kötü ve en iyi performans arasındaki fark %12’yi aşıyor
- Phi-3.5-mini’de bu fark yaklaşık %15
Her soru örneği arasındaki fark yalnızca adlar ve sayılardan ibaret; problemi çözmek için gereken genel akıl yürütme adımları aynı
Orijinal 100 GSM8K problemindeki performans, birçok modelde GSM-Symbolic performans dağılımının merkezinin 1 standart sapmadan fazla sağında yer alıyor
- Bu olgu 25 modelin 21’inde görüldü
- Olası açıklamalardan biri, GSM8K test örneklerinin model eğitim verisine tesadüfen girmiş olması nedeniyle performansın iyimser ölçülmesine yol açan veri kirlenmesi
GSM8K’dan GSM-Symbolic’e geçildiğinde tüm modellerde performans düşüyor
- Mistral-7b-it-v0.1: -9,2 yüzde puan
- Gemma2-2b ve Gemma2-2b-it: her biri -7,4 yüzde puan
- Gemma2-9b, Gemma2-9b-it ve Mistral-7b-it-v0.3: her biri -6,2 yüzde puan
- GPT-4o-mini: -2,4 yüzde puan, o1-preview: -2,2 yüzde puan
- o1-mini: -0,6 yüzde puan, GPT-4o: -0,3 yüzde puan
Llama3-8b ve GPT-4o gibi GSM8K performansı GSM-Symbolic dağılım merkezine yakın olan modellerde performans düşüşü küçük

Adlardan çok sayı değişikliklerine duyarlı

Yalnızca adlar değiştirildiğinde de performans dalgalanıyor, ancak varyans sayılar değiştirildiğindekinden daha küçük
Orijinal GSM8K doğruluğu, yalnızca adların değiştirildiği dağılımın merkezine daha yakın
- Sayılar değiştirildiğinde veya adlar ve sayılar birlikte değiştirildiğinde dağılım ortalaması sola kayıyor ve varyans büyüyor
Gemma2-9b-it’in 8-shot CoT doğruluğu GSM8K’da %87,0; ad değişiminde %88,6±2,0; sayı değişiminde %83,1±2,2; ikisi birlikte değiştiğinde %79,1±3,0
Phi-3.5-mini-instruct için değerler GSM8K’da %88,0; ad değişiminde %89,1±1,8; sayı değişiminde %84,9±2,4; ikisi birlikte değiştiğinde %82,1±3,4
Mathstral-7b-v0.1 için değerler GSM8K’da %80,0; ad değişiminde %81,0±1,3; sayı değişiminde %77,3±2,0; ikisi birlikte değiştiğinde %74,0±3,5
Bu sonuçlar, LLM’lerin akıl yürütme sürecinin biçimsel akıl yürütmeden çok, eğitim verisinde gördüğü benzer soru ve çözüm adımlarını eşleştiren örüntü eşleştirmeye yakın olabileceğini düşündürüyor

Koşul cümlelerindeki artış ve GSM-NoOp’ta ortaya çıkan kırılganlık

Zorluk deneyinde GSM-Symbolic’ten bir cümlenin çıkarıldığı GSM-M1, bir cümlenin eklendiği GSM-P1 ve iki cümlenin eklendiği GSM-P2 kullanılır
- Bir cümle eklemenin veya çıkarmanın, gerekli akıl yürütme adımı sayısını tam olarak bir artırdığı ya da azalttığı anlamına gelmez
- Deneyin odağı, kesin sayıların kendisinden çok performans dağılımının nasıl değiştiğidir
Cümle sayısı arttıkça tüm modellerde ortalama performans düşüyor ve varyans büyüyor
- Gemma2-9b-it: GSM-M1 %84,4±2,4, GSM-Symb %79,1±3,0, GSM-P1 %68,1±4,8, GSM-P2 %41,8±6,0
- Phi-3.5-mini-instruct: %87,6±2,0, %82,1±3,4, %64,8±5,4, %44,8±6,3
- GPT-4o-mini: %92,5±1,6, %91,7±2,0, %81,1±3,1, %72,4±4,6
- GPT-4o: %94,4±1,6, %94,9±1,9, %93,9±2,6, %88,0±3,4
- o1-mini: %94,9±1,5, %94,5±1,6, %94,3±2,6, %89,1±3,6
GSM-NoOp, problem çözümü için gerekli olmayan ama ilgili gibi görünen cümlelerin GSM-Symbolic şablonlarına eklendiği bir veri setidir
- Örnekte, “pazar günü toplanan kivilerden 5’i ortalamadan biraz küçüktü” bilgisi toplam kivi sayısının hesaplanmasını etkilemez
- o1-mini ve Llama3-8B bu 5’i pazar günü hasadından çıkarma işlemine dönüştürerek yanlış yanıt verir
Modeller, cümleleri anlamlarına göre yok saymak yerine onları işlemlere dönüştürme eğilimi gösteriyor
- “discount” gibi ifadelerin bağlamdan bağımsız olarak çarpma şeklinde yorumlandığı vakalar da gözlemlendi
GSM-NoOp’ta tüm test modellerinin performansı belirgin biçimde düştü
- Phi-3-mini-128k-instruct: GSM8K’ya kıyasla -65,7 yüzde puan
- Phi-3-small-128k-instruct: -64,0 yüzde puan
- Gemma2-9b ve Gemma2-9b-it: her biri -63,0 yüzde puan
- Phi-3.5-mini-instruct: -62,5 yüzde puan
- GPT-4o-mini: -40,0 yüzde puan, GPT-4o: -32,0 yüzde puan
- o1-mini: -29,1 yüzde puan, o1-preview: -17,5 yüzde puan
Aynı sorunun 8 GSM-Symbolic varyasyonunun shot olarak verildiği NoOp-Symb ayarında da performans standart sapma aralığında kaldı
- Phi-3-medium-128k-instruct: GSM %87,3, GSM-Symb %82,5, GSM-NoOp %29,4, NoOp-Symb %30,2, NoOp-NoOp %22,6
- Llama3-8b-instruct: GSM %76,0, GSM-Symb %74,6, GSM-NoOp %18,6, NoOp-Symb %19,6, NoOp-NoOp %19,2
Shot olarak 8 farklı GSM-NoOp probleminin verildiği NoOp-NoOp ayarında da performans toparlanması sınırlı
- Llama3-8B’nin performansı orijinal NoOp ile aynı
- Phi-3’ün performansı biraz düşüyor
Bazı düşük GSM8K ve GSM-Symbolic performansına sahip modeller NoOp-Symb’de daha yüksek performans gösteriyor
- Gemma2b: GSM %12,1, GSM-Symb %8,2, GSM-NoOp %4,7, NoOp-Symb %48,3, NoOp-NoOp %3,1
- Mistral-7b-v0.1: GSM %44,5, GSM-Symb %41,1, GSM-NoOp %16,2, NoOp-Symb %62,5, NoOp-NoOp %14,5
Genel sonuçlar, LLM’lerin matematiksel akıl yürütmesinin aynı problemin varyasyonlarına, küçük zorluk artışlarına ve alakasız bilgi eklenmesine karşı kırılgan olduğunu; olasılıksal örüntü eşleştirmeye yakın olabileceğini gösteriyor

1 yorum

GN⁺ 2024-10-13

Hacker News yorumları

LLM’lerin gerçekten akıl yürütme yapıp yapmadığını kesin bir dille söylemem ama performans düşüşü biçimi, üniversite birinci sınıf öğrencilerinde gördüğümüze benziyor.
Şu anda kalkülüs öğretiyorum; öğrencilerin neredeyse yarısı lisede AP Calculus almış. Basit problemleri iyi çözüyorlar ama basit adımlar bile olsa birkaçını birbirine bağlamaları gerektiğinde doğruluk düşüyor ve sapma artıyor.
Problem içine alakasız bir cümle eklediğinizde de benzer sonuç çıkıyor. Birçok öğrenci kendilerine verilen tüm bilgileri kullanmaları gerektiği yönünde eğitildiği için, öğretmenin verdiği bir bilgiyi kullanmazlarsa önemli bir şeyi kaçırdıklarını düşünmeye yatkın oluyor.
Bu yüzden GPT-4o gibi güncel LLM’lerin ABD’deki ortalama bir lise mezunu düzeyinde performans gösterdiğini düşünüyorum. İnsan performansı açısından hayal kırıklığı, ama LLM açısından bakınca şimdiden birçok insana yardımcı olabileceklerine dair iyi bir işaret.
- LLM doğru bildiğinde, bu daha çok eğitim sırasında içine aldığı muazzam bilgi miktarı sayesinde modelin içinden olasılıksal olarak doğru yanıtı çekmesine benziyor.
  İnsanlar veriyi işlemek ve akıl yürütmek için, 1 milyar matematik problemi ve Stack Overflow yanıtı okumadan; birkaç açıklama, YouTube videosu ve birkaç alıştırmayla daha incelikli yöntemler geliştirdi.
  Lise matematiği gibi alanlarda benzer puanların çıkması, mevcut yapay zeka ile insanların tesadüfen aynı noktada durmasından kaynaklanıyor olabilir. Başarısızlık biçimlerine yakından bakınca ikisi çok farklı şekilde başarısız oluyor; bugünkü yapay zekanın hataları da insanlara epey saçma görünüyor.
- “GPT-4o gibi güncel LLM’lerin ABD’deki ortalama bir lise mezunu düzeyinde olduğu” sözü dar anlamda doğru olabilir, ama LLM’lerin ve lise mezunlarının kullanım biçimleri arasındaki fark çok önemli.
  LLM, doğruyken de yanlışken de aynı özgüvenle yanıt veriyor ve çoğu zaman kullanıcıya kusursuzmuş gibi sunuluyor.
  Ortalama bir insana orta zorlukta bir mantık problemi sorulduğunda, insanlar mantıkta zayıf oldukları yönünde sosyalleştikleri için yanıtlarından makul ölçüde şüphe eder. Buna karşılık LLM bir bilgisayarın üzerinde çalışır; bilgisayarlar da matematik ve mantıkta her zaman doğru olan arayüzler olarak algılanagelmiştir.
  Bu yüzden LLM’lerin birçok insana yardım etmekten çok birçok insanı yanıltma olasılığının daha yüksek olduğunu düşünüyorum.
- Bunun lise sınav sorularının fazla basit olmasından mı, yoksa eğitim verisinde benzer kalıpların çok fazla olmasından mı kaynaklandığını merak ediyorum.
  Temel matematik kavramlarına gerçek bir anlayış gerektiren basit ama yeni problemler koyduğumda sonuçlar sürekli kötüydü; Çin lise giriş sınavı düzeyindeki sorularda da aynıydı.
  LLM’ler matematiği anlamıyor, örüntü eşleştirme yapıyor gibi görünüyordu; böyle bir örüntü eşleştirme de ancak zaten yeterli beceriye sahip bir öğrenci için faydalı olabilir.
- İnsanların bunu neden hâlâ karıştırdığını anlamıyorum. Bu modeller, temelde gerçekten düşünüyor gibi görünmek için rastgelelik parametreleri kullanıp deterministik çıktıdan kaçındığından, akıl yürütmenin gerçekleşmediği açık görünüyor.
- ABD okul sistemini küçümsemek istemem ama bunun epey kolay moda yakın olduğunu düşünüyorum. Herkesin akademik olarak çok başarılı olması gerekmiyor, ama küçük yaşta öğrenmenin daha kolay olduğuna ve aşırı elinden tutmanın öğrenmeye zarar verdiğine inanıyorum.
Bu makale, alakasız bilgi eklendiğinde LLM’lerin temel cebir problemlerinde performansının ciddi biçimde düştüğünü gösteriyor
Örnek, “John pazartesi 43, salı 24 kivi topladı; çarşamba topladığı kivilerin 5’i normalden küçüktü. Pazartesi, salı ve çarşamba toplam 87 kivi topladıysa çarşamba kaç kivi toplamıştır?” gibi bir problem
Çarşamba günkü kivilerin bir kısmının küçük olduğu bilgisi ilgisiz, ama böyle bir cümle eklenince GPT-4o için ünlü benchmark performansı %95’ten %77’ye düşüyor
Yine de bu çok etkileyici değil. Bir insan böyle bir problemi okuduğunda da iki olasılığı düşünmek zorunda kalır. Bu bilgi alakasız olabilir ya da soru yanlış yazılmış olup aslında ilgili olması amaçlanan bir bilgi olabilir
Ünlü bir mantık bulmacasını tersine çeviren LLM tuzağı sorularına bakınca ben de “yanlış” yapardım. Soruyu anlamadığımdan değil; bağlam yoksa o tersine çevirmenin bir yazım hatası olduğunu varsayabileceğimden
- Böyle küçük tuzaklar koymak, matematik ve fizik eğitiminde öğrencinin önceki problemlerin yalnızca yüzey yapısını mekanik biçimde izleyip izlemediğini değil, yeni problemi gerçekten anlayıp anlamadığını kontrol etmeye yönelik bir taktiktir
  Buradaki argüman, LLM’nin akıl yürütmediği, kol çevirir gibi mekanik cevap verdiği yönünde
  Bu problem 6. sınıf matematik sınavında çıksa garip olmazdı. Sözel problemlerde gerçek soruyla ilgili bilgiyi öğretmenin koyduğu yem bilgilerden ayırma becerisini öğrendiğimi çok net hatırlıyorum
- Gerçek söylemde her türlü nedenle çok fazla alakasız bilgi karışır
  Akademi ya da uzmanlık alanları gibi soruların dikkatli ve belirli biçimde sunulduğu dar bağlamlar da var, ama genel amaçlı bir yardımcı araç, alakasız olanların içinden ilgili olanı bulabilmelidir
  Çok iyi tanımlanmış matematik problemlerini iyi çözebilme becerisi, belirli bir alan yardımcı aracı olarak faydalı olabilir; fakat kendi başına aynı beceri değildir
  Bir yapay zeka projesi AGI’ye ulaşacağına 100 milyar dolar yatırıyorsa, bu bağlamları birbirine karıştırmak onun işine gelir. Böyle durumlarda SAT, LSAT, GRE gibi biçimsel sorulara odaklanmak, gerçek kullanım örneklerinden çok mikrobenchmark’lara uyum sağlamaya yakındır
- Alakasız bilgiyi ayırt etmek ilkokul düzeyinde de öğretilir ve SAT’te de gereken bir beceridir
  Aslında LLM ya da makine öğrenmesi olmasa bile, neredeyse her tür modelin alakasız bilgiyi filtrelemesi gerekir
  Esas mesele, mantıksal olarak savunulabilir ve çoğunluğun kabul edeceği bir cevap üretmektir. Model “bu kısmın yazım hatası olup olmadığından emin değilim” deseydi, model üreticileri RLHF yönünü farklı belirlerdi. Çünkü bu, bir ölçüde makul ve savunulabilir olurdu
  Ancak bu belirli problemde tek bir nesnel cevap olduğunu düşünüyorum. Elbette yanıltıcı ya da alakasız prompt’lar her zaman böyle değildir, fakat model yanıt verme biçimi gereği fiilen kandırılıyor
  RLHF çalışanı olarak bazen benzer sorular yazmam istendiği için böyle görüyorum. Sonuçta model üreticilerinin istediği dil tahmin etme biçimi bu ve kullanıcı da bu akışa kapılıyor
- Bu sonucun geçerli olduğunu düşünüyorum. Transformer modeller mantığı açıkça yürütmekten ziyade, girdi dizisi ve öğrenilmiş bilgiye dayanarak attention mekanizmasıyla cevabı “sezgisel” olarak tutturur; sonuçta metin dizisini tahmin eder
  Bu yüzden girdiye alakasız bağlam eklendiğinde çıktının etkilenme olasılığı yüksektir
  Attention mekanizması bunu aşabilir de, ama aşamazsa gerçek dünya uygulamaları ve güvenilirlik açısından oldukça büyük bir tuzaktır. Gerçek ortamlarda hangi bilginin ilgili olduğu çoğu zaman hemen açık değildir
  Hangi bilgiyi ekleyeceğine insan karar vermek zorundaysa ve çıktı da bu karara bağlıysa, modelin kullanışlılığı büyük ölçüde azalır. Şu anda da faydalı, ama yatırımcıların beklediği seviye bundan çok daha büyük görünüyor
- Gürültüden sinyali süzme becerisi, sinyalden sonuç çıkarma becerisi kadar, belki ondan da önemli olduğu için bu sonuç önemli
Bu sonuç, birkaç ay önce tartışılan Alice in Wonderland problemiyle çok benzer. Diğer makalenin yazarları bunu çok daha eleştirel değerlendirip “tam bir akıl yürütme çöküşü” diye adlandırıyor
Modelin örüntü eşleştirme ile akıl yürütme arasında ara bir durumda olması nedeniyle böyle sorunlar çıktığı düşünülebilir
Problemin karakterleri, sayıları ve cümle yapısı değiştirildiğinde sonuç 20 yüzde puanından fazla değişiyorsa, matematik ve akıl yürütmeyle ilgili LLM benchmark sonuçlarını güvenilir görmek zor
https://arxiv.org/html/2406.02061v1
https://news.ycombinator.com/item?id=40811329
- Akıl yürütme becerisiyle ilgili ilginç bir örnek vardı: https://x.com/colin_fraser/status/1834336440819614036
  “Bir adam hastaneye getirildi. Doktor onu görünce ‘Bu kişiyi ameliyat edemem. O benim oğlum!’ diye bağırdı. Bu nasıl mümkün olabilir?”
  Test ettiğim tüm LLM’ler, GPT o1-preview dahil, bu soruyu yanlış yaptı. Doktorun erkek olduğuna dair cinsiyet kalıbını kıran bir bilmece olduğunu varsayıyorlar; oysa burada “he exclaims” deniyor, yani doktorun erkek olduğu açık, dolayısıyla çelişki yok ve o adam hastanın babası olabilir
  LLM’nin yanılmasının nedeni, benzer bir akıl yürütme örüntüsü bulup onu uygulaması gibi görünüyor. Ek yönlendirme yapıldığında bile hata yapmaya devam etti ve bir ara bunun eşcinsel bir ilişki olabileceğini bile ileri sürdü
  İlginç biçimde, bu örnek O1 başlığında gündeme geldiğinde HN’deki birçok kişi de soruyu yanlış anladı. Belki insanlar da en baştan düşünmek yerine akıl yürütmede önceki örneklerden çokça yararlanıyordur
- Claude-3.5 ve o1-preview bu soruyu doğru yanıtlıyor
  “Alice’in 3 erkek kardeşi ve 2 kız kardeşi var. Alice’in erkek kardeşlerinin kaç kız kardeşi vardır?” sorusunda kilit nokta, erkek kardeşlerin Alice’in 2 kız kardeşine ek olarak Alice’in kendisini de kız kardeş olarak sayması; bu yüzden cevap toplam 3’tür
- Alice in Wonderland makalesine dair daha büyük HN tartışması burada
  https://news.ycombinator.com/item?id=40585039
“Soru cümleciklerinin sayısı arttıkça matematiksel akıl yürütme performansı ciddi biçimde düşüyor ve mevcut LLM’ler gerçek mantıksal akıl yürütme yapamıyor” açıklaması için daha basit bir neden de mümkün: tokenizasyon
“12345 * 27271” token’lara ayrıldığında “123”, “45”, “ *”, “ ”, “272”, “71” gibi bölünüyor
Basit aritmetik bağlamında bu token’ların birbirini tahmin etme olasılığı istatistiksel olarak pek anlamlı değil
Bunun araç kullanımının gerekli olduğu bir nokta olduğu söylenebilir ve ben de buna katılıyorum; ancak bunun “gerçek mantıksal akıl yürütme” için iyiye işaret olduğunu söylemek zor
- Nanda ve diğerleri, Transformer’ın modüler toplama yapmayı öğrenirken kullandığı kesin mekanizmayı başarıyla yeniden ortaya çıkardı
  Transformer’da sonuçta eğitim verisi kilit önemde; verinin hangi sırayla öğrenildiğinin çok önemli olduğunu giderek daha fazla öğreneceğiz. Ancak Transformer’ın aritmetiğin genelleştirilmiş bir çözümünü kodlayabildiği açık
  Uygun bir tokenizasyon yöntemi ve eğitim prosedürüyle istatistiksel olarak sağlam aritmetik becerilere sahip bir LLM yapılabilir. Yine de bir hesap makinesinin algoritmik kesinliği yerine olasılıksal bir modele güvenmem; fakat matematikçiler için daha önemli olan, bu modellerin karmaşık problemler üzerinde akıl yürütmeye ve ağırlıkların istatistiksel gücünden yararlanarak zor matematik problemlerinde yeni alanlar açmaya yardım edip edemeyeceği
  https://arxiv.org/abs/2301.05217
- Saygıyla katılmıyorum. Tokenizasyonun dil modellerinin girdiyi işlemesini etkilediği doğru, ancak matematiksel akıl yürütmedeki zorluğu tamamen tokenizasyona bağlamak aşırı basitleştirme olur
  Modern dil modelleri yalnızca tek tek token tahminine dayanmaz; birden çok katman boyunca bağlam temsilleri oluşturur. Aksi halde, son derece basit durumlar dışında modelin çalışması bile imkânsız olurdu
  Karmaşıklık arttığında performansın düşmesinin nedeni çalışma belleği veya dikkat kapsamı sınırları, uzun dizilerde tutarlılığı korumanın zorluğu, birbirine bağımlı birden fazla mantıksal kısıtı aynı anda yönetmenin güçlüğü gibi başka etkenler olabilir
  Her hâlükârda OpenAI’nin o1 modelinin şu anda matematikte çok iyi olduğunu düşünüyorum. Yinelemeli ve model güdümlü düşünce zinciri yaklaşımı oldukça karmaşık problemleri de ele alıyor gibi görünüyor
- Tokenizasyonu biraz değiştirsek, örneğin tek basamaklı bir sayıyı tek bir token ile eşlesek, bu özel soruna yardımcı olmaz mı?
- LLM de “123” ile “45”in ardışık gelen bir sayı olduğunu bilecektir. Bir insanın “123”ten sonra çok kısa durup “45” dendiğinde bunu tek bir sayı olarak anlamasına benzer
İçinde yaşadığımız dünyanın aptallığını anlamakta zorlanıyorum. Borsanın balon olduğu, özellikle de AI ile ilgili hisselerin devasa bir balon olduğu çok açık görünüyor
Patladığında çok çirkin olacak ama para akmaya devam ediyor. Sabine’in dediği gibi, parçacık fiziğinde sürekli daha büyük çarpıştırıcılar istemeye benzeyen bir hâl alıyor. Yöntem yanlışsa çarpıştırıcıyı büyütmek anlamlı getiriyi artırmaz
Sonunda akıtılacak üstel miktardaki nakit tükenecek ve yatırımcılar soru sormaya başlayacak. Hisseler şimdiden kârın 60 katından fazlasıyla değerleniyor; balon patladığında tepeden alan kişi olmak istemezsiniz
Genel kamuoyunun LLM’lerin sorunlarını fark etmesi biraz daha zaman alacak, ama sonunda olacak
- 5 yıl önceki ölçekleme tahminleri şimdiye kadar doğru çıktı. Parametre ve hesaplama miktarı artırılmaya devam edildi, modeller de giderek güçlendi
  2024’te LLM’lerin kusurları başlı başına önemli değil. 2021’de LLM’lerin kusurlarının önemli olmadığı gibi; önemli olan değişim hızı ve bu dik yükselişin sürmeyeceğine dair kanıtın azlığı
  Özellikle GPT-4’ün dev yatırımları tetikleyen bir tür ön gösterim modeli olduğu düşünülürse, o yatırımla zorlanan modeller önümüzdeki 2 yıl içinde ortaya çıkmaya başlayacak
  Eğilim kırılır ve ölçekleme başarısız olursa balondaki havanın büyük kısmının ineceğini düşünüyorum
  https://arxiv.org/pdf/2001.08361
- Bilgisayarlar onlarca yıldır matematiksel hesaplamaları ve mantıksal çıkarımları ucuz ve kusursuz biçimde yapabiliyor; üretken yapay zekanın faydalı olması için bu işi bizzat iyi yapması da şart değil
  Python kodu yazıp çalıştırarak halledebiliyorsa bu yeterli; genellikle de bunu oldukça iyi yapıyor
  Bunu gerçekten yapıp yapamadığı akademik olarak ilginç bir soru, ama faydalı olup olmadığıyla ayrı bir konu. Faydalı olmak için mutlaka gerçek AGI olması da gerekmiyor
LLM’leri ilgisiz cümleciklerin karıştırıp karıştırmadığı ve bunun önemli olup olmadığı üzerine çok tartışma var, ama bence daha kritik olan şu kısım: “GSM-Symbolic benchmark’ında yalnızca sorudaki sayısal değerleri değiştirmek bile tüm modellerin performansını düşürüyor”
Bu, overfitting için çürütmesi zor bir kanıt gibi görünüyor. İyi tarafından bakılsa bile mevcut LLM’lerde genel olarak overfitting’in yaygın olduğu anlamına gelir; kötü tarafından bakılırsa, eğitim verisinden matematiksel akıl yürütmeyi öğrenememeye dair temel bir sınırı gizliyor demektir
Çok ilginç ve LLM’lerin yaptığı “düşünme” türüne ilişkin beklentilerimle de uyumlu
Sadece bu tür bir “düşünme” ile çoğu okul dersinden geçilebilir gibi görünüyor. Elbette öğretmenin örüntü eşleştirmeyle çözülmesi zor sınav soruları hazırladığı dersler hariç
LeetCode tarzı mülakat sorularını düşününce, adayları değerlendirmede hangi soruların daha iyi ya da kötü olduğuna benzer bir fark var
Saf dil modeliyle birlikte çalışacak başka tür düşünme biçimleri eklemek için birçok kişinin sıkı çalıştığını da biliyorum
LLM’leri benzer şekilde test ediyorum. Örneğin çiftçinin lahana, keçi ve kurtla nehri geçtiği ünlü mantık bulmacası GPT-2 zamanından beri çözülebiliyordu; ancak kurdu ineğe çevirirseniz gpt-o bulmacanın kurallarını doğru çıkarımladığı hâlde çözüm bulamıyor
- Nehir geçme bulmacası, LLM’nin nasıl çöktüğünü göstermek için iyi
  Örneğin Gemini’ye birçok varyasyon verdim; çiftçinin teknesinin bir seferde yalnızca bir yolcu ya da eşya taşıyabileceği kısıtının olmadığı kolay bir sürüm de vardı
  “Çiftçinin bir eşi, tavuğu, lahanası ve bebeği var; hepsi tekneyle nehri geçmeli. En iyi yöntem nedir?” diye sorulduğunda, testlerde LLM neredeyse her zaman teknede yük sınırı olduğunu varsayıp birçok gidiş geliş içeren tuhaf çözümler üretti
- Tamamen yeni ve hiçbir yerde belgelenmemiş bir mantık oyunu tasarlayıp LLM’den çözmesini istesek ne olur? Uzman olmayan biri olarak bana AI’nin akıl yürütmesini ölçmek için iyi bir yöntem gibi görünüyor
- Yeni bir LLM’i her test ettiğimde bunu ilk soru olarak kullandım ve GPT-4 öncesi modellerin doğru cevaba yaklaştığından bile pek emin değilim. GPT-2 ya da 3’ün çözebildiği bir prompt gösterebilir misin?
- Sonuçta süslü bir Google’dan ibaret olduğu anlamına geliyor
Bu tür çalışmaları genişletip hayvanların ve insanların matematiksel akıl yürütme sınırlarını da gösterebilmek ilginç olurdu
Örneğin bir köpeğin Fourier dönüşümünü asla anlayamaması gibi, insanların da anlayamayacağı fikirlerin var olma olasılığı yüksek
Kendi sınırlarımızı bilebilirsek, insanların yapamayacağı biçimde akıl yürüten makineler üretip üretemeyeceğimizi merak ediyorum
- Böyle sınırların gerçekten var olduğunu varsaymak bile naif bir kabul olabilir. Burada “var olmak” ile kastedilen, tutarlı ve görece basit biçimde açıklanabildiği için işe yarar olan sınırlardır
  Dilde de Noam Chomsky üzerinden benzer bir fikir araştırılmış, insan yetisinin hayvanlardan nasıl farklı olduğunu göstermek için anlamanın net ve biçimselleştirilmiş sınırları çizilmeye çalışılmıştı
  Kişisel olarak bu yaklaşımın geri döndürülemez biçimde tamamen başarısız olduğunu düşünüyorum, ancak araştırmanın kendisi işe yaramaz değildi
Biçimsel akıl yürütmeyle uğraşmış biri için şaşırtıcı bir sonuç değil. LLM’ler biçimsel anlamda gerçek mantıksal akıl yürütme yapamaz; SMT solver bunu daha iyi yapabilir
Aynı zamanda eğitim verisi bugüne kadar üretilmiş neredeyse tüm yazılarsa, eğitim verisinden gelen “akıl yürütme adımlarını” uygulamak bile pek çok mantık problemini çözebilir
İkisi aynı anda doğru olabilir; bu bir çelişki değil, ilginç bir ikiliktir

LLM’lerin Matematiksel Akıl Yürütme Sınırlarını Anlamak

Yalnızca GSM8K ile görülmesi zor matematiksel akıl yürütme yeteneği

Şablon üretimi ve değerlendirme yöntemi

Aynı problem yapısında bile dalgalanan performans

Adlardan çok sayı değişikliklerine duyarlı

Koşul cümlelerindeki artış ve GSM-NoOp’ta ortaya çıkan kırılganlık

İlgili okumalar

1 yorum

Hacker News yorumları