Son araştırmalar, LLM'lerin bileşimsel görevlerde zorlandığını gösteriyor

(quantamagazine.org)

11 puan yazan GN⁺ 2025-02-03 | 5 yorum | WhatsApp'ta paylaş

LLM'ler bileşimsel görevlerde (Compositional Task) zorlanıyor ve bu, yeteneklerinde bir sınır olduğuna işaret ediyor
- Bu sorun, LLM'lerin eğitim verilerinde gördüklerinin ötesinde akıl yürütemediğini gösteriyor
17 Aralık 1962'de Life International'da 15 cümleden oluşan bir mantık bulmacası yayımlandı
Her cümle, “İngiliz kırmızı evde yaşar” veya “Ortadaki evde süt içilir” gibi bir ipucu veriyordu
Beş evin rengi, sakinlerin milliyeti, evcil hayvanları, içecekleri gibi özelliklerin hepsi farklıydı ve temel soru “Zebraya kim sahip?” idi
Bu problem Einstein’s puzzle (veya riddle) olarak biliniyor ve son dönemde makine öğrenimi modellerinin, özellikle de büyük dil modellerinin (LLM), çok adımlı akıl yürütme yeteneğini ölçen bir gösterge olarak kullanılıyor
Allen Institute for AI araştırma bilim insanı Nouha Dziri ve çalışma arkadaşları, ChatGPT gibi LLM'leri bu bulmacaya uygulayarak sınırlarını doğruladı
LLM'lerin, eğitim verilerinde gördüklerinin ötesindeki karmaşık problemleri çözmekte zorlandığı ortaya çıktı
Bu durum, “adım adım elde edilen sonuçları birleştirerek nihai cevaba ulaşma” biçimindeki bileşimsel akıl yürütmenin zorluğunu gösteriyor
Dziri'nin araştırma ekibi, LLM'lerin yalnızca kelime tahminiyle eğitilmesinden kaynaklanan yapısal bir sınıırı olduğunu savunuyor
Başka araştırmacılar da bugün yaygın olarak kullanılan transformer mimarisinin bu tür karmaşık problem çözmede matematiksel sınırlara sahip olduğunu kanıtladı
Giderek daha güçlü modeller ortaya çıksa da, bunların temelde tüm bileşimsel akıl yürütme problemlerini çözemeyebileceği öne sürülüyor
Andrew Wilson (NYU), bu tür araştırmaların yapay zeka araştırma topluluğunu transformer merkezli yaklaşımı sürdürüp sürdürmemeyi yeniden düşünmeye ittiğini belirtiyor

Şaşırtıcı başarıların doğurduğu soru işaretleri

Dziri'ye göre, LLM'ler etkileyici dil yetenekleri göstermeye başladıkça, “gerçekten akıl yürütebiliyorlar mı” sorusuna duyulan merak büyüdü
LLM'ler, internetteki devasa metin yığınlarından basit bir yöntemle (cümle tamamlama tahmini) öğrenmelerine rağmen doğal dil işleme, belge özetleme ve kod üretimi gibi karmaşık görevleri yerine getirebiliyor
OpenAI'ın o1'i, GPT-4, Google'ın Gemini'si ve Anthropic'in Claude'u bu tür dev modellerin önde gelen örnekleri
Ancak bu modeller bazen, insanlara göre basit görünen problemlerde beklenmedik hatalar yapabiliyor
Örneğin, basit çarpma işlemlerinde bile sık sık hata yaptıkları bildirildi
Dziri'nin araştırmasına göre GPT-4'e üç basamaklı çarpma yaptırıldığında yalnızca %59 oranında doğru sonuç verdi; dört basamaklı çarpmada ise bu oran %4'e kadar düştü
Einstein’s puzzle'ın değiştirilmiş sürümlerinde de, evler küçük olduğunda (2-3 özellik) yüksek doğruluk görülürken, özellik sayısı 4-5'e çıktığında başarı oranı dramatik biçimde düştü
GPT-3, 1,8 milyon çarpma verisiyle fine-tune edildiğinde, eğitim kapsamındaki aralıkta iyi performans gösterdi; ancak eğitim örneklerinden farklı bir format sorulduğunda doğruluk keskin biçimde geriledi
Bu da modelin algoritmanın kendisini anlamasından çok, eğitim örneklerine dayanarak taklit ettiğini düşündürüyor

Açık sınırlar

Dziri ve diğer araştırmacıların ortak olarak işaret ettiği sorun, ‘bileşimsel akıl yürütme yeteneği’nin eksikliği
Binghui Peng (Stanford University), Columbia Üniversitesi'nde doktora yaparken LLM'lerin “babanın babası kimdir” gibi olgusal bileşim sorularında sık sık hata yaptığını fark etti
Basit transformer katmanlarının bu tür problemleri çözmek için ne kadar parametreye ihtiyaç duyduğunu hesapladı ve alan boyutu model parametre sayısından büyükse problemin çözülemeyeceği sonucuna ulaştı
Ardından bunu çok katmanlı transformer'lara genişletti ve karmaşık bileşimsel akıl yürütme problemleriyle karşılaşıldığında bunun matematiksel olarak imkansız olduğunu kanıtladı
Yani model ölçeği büyüdüğünde daha zor problemler çözülebilse de, aynı anda problem zorluğu da artarsa sınırlar yeniden ortaya çıkıyor
Bazı araştırmacılar transformer dışındaki başka sinir ağı yapıları, örneğin state-space models, üzerinde denemeler yaptı; ancak benzer sınırlamalar burada da doğrulandı

Sınırları aşma girişimleri

LLM'lerin sınırlarını aşmak için çeşitli tamamlayıcı yöntemler öneriliyor
Örneğin University of Maryland'den Tom Goldstein'ın ekibi, sayılar transformer'a girilirken ek konum bilgisi vererek daha büyük basamaklı işlemleri mümkün hale getirdi
Bu çalışmalar sonucunda, 20 basamaklı sayılarla eğitilen bir modelin 100 basamaklı toplamada bile %98 doğruluk gösterdiği görüldü
Bir başka yöntem de, çözüm sürecini prompt içinde adım adım sunan chain-of-thought tekniği
GPT-4 gibi modellerin bu yöntemle daha karmaşık problemleri çözme potansiyeli gösterdiği gözlemlendi
Bu yaklaşım, “büyük bir problemi daha küçük problemlerin zincirine ayırma” ilkesine dayanıyor ve bu yöntemin transformer'ların işleyebildiği işlem aralığını genişlettiğine dair teorik yorumlar da var
Ancak gerçek modeller bu yeteneği her problemde sergilemiyor; sonuçlar eğitim yöntemi ve model yapısına göre değişiyor
Sonuç olarak LLM'ler örüntü eşleştirmeye dayandığı için, büyük veya karmaşık bileşimsel akıl yürütme problemlerinde her zaman bir sınıra sahip
Buna rağmen sıradan kullanıcı açısından bu sınırlamalar çok da önemli olmayabilir
Buna karşılık, model geliştiren araştırmacılar için yapısal sınırları anlamak ve düzeltmek temel bir görev olmaya devam ediyor
Dziri, “LLM'lerin iç işleyişini tam olarak anlayabilirsek, bu temel sorunları çözme ihtimalimiz artar” diye vurguluyor

5 yorum

ned0909 2025-02-05

Bu, akıl yürütme çağından önceki bir hikâye gibi.

bakyeono0 2025-02-04

~ işaretinin Markdown üstü çizili biçimlendirme işareti olarak algılanmasıyla ilgili bir sorun var. Düzeltirseniz iyi olur.

rabolution 2025-02-04

Kod yazarken LLM kullanınca, bu yüzden bağlaşıklık ne kadar düşük olur ve ilgi alanları ayrımı ne kadar iyi yapılırsa o kadar iyi çalışıyor. Aslında bunun insanlar için de geçerli olabileceğini düşünüyorum. ;)

hided62 2025-02-03

Yazının kendisi yeni, ama galiba temeli o1 öncesine dayanıyor.

"Babanın küçük erkek kardeşinin annesinin kız kardeşinin kızıyla benim akrabalık derecem nedir?" gibi bir şey sormuşlardı,
4o'nun belirgin sınırları var, ama o1 tuzakların hepsinden kaçınıyordu gibi.

GN⁺ 2025-02-03

Hacker News yorumu

LLM'ler, diğer makine öğrenimi modelleri gibi, girdi verilerindeki örüntüleri eşleştirerek istatistiksel olarak olası sonuçlar üretme özelliğine sahip
- "Chain of thought", pekiştirmeli öğrenmeyle birleştirildiğinde zor problemleri çözmeyi mümkün kılar
- Başarının net bir tanımı ve bir ödül modeli gerekir
- İnsanların problem çözme yeteneği de örüntü eşleştirmeye dayanır ve insanlar büyük miktarda bilgiyi verimli şekilde entegre edebilir
LLM'ler yapay zekanın harikası; geçmişte imkansız sayılan şeyleri her iki ayda bir ileri taşıyorlar
- Bazı bilim insanları LLM'lerin başarılarını küçümsüyor
- LeCun, LLM'lerin çıkmaz sokak olduğunu söyleyerek araştırmacılara başka bir yön önerdi
- Meta'nın LLM alanındaki performansının diğer şirketlerin gerisinde kalması, bu şüphecilikle ilişkili olabilir
LLM araştırmaları hakkında çok fazla yanlış bilgi var
- 6-12 aylık modeller yalnızca basit muhakeme yapabiliyor
- Karmaşık mantıksal ve algoritmik görevler için System 2 düşünme gerekiyor
- LLM'ler programlama yoluyla düşünebilir
o3-mini-high, Prolog kodunu hızlıca üretebildi
- Örnek olarak verilen Prolog kodu, problemi çözmede başarılıydı
Yakın tarihli araştırma sonuçları GPT-3, 3.5 ve ilk nesil 4'ü ele alıyor
ChatGPT hızlı bir arama motoru gibi hissettiriyor; çok sayıda halüsinasyon ve sınırlı bağlama sahip
- Gelecekteki gelişmelere dair çok vaat var, ancak gerçek ilerleme az
Araştırma sonuçlarının saf LLM'leri mi yoksa LLM sentez motorlarını mı analiz ettiğini ayırt etmek gerekir
- o3'ün ARC-AGI-1'deki performansı, sentez motorlarının yeteneğini gösteriyor
LLM'ler, 2D veya 3D düşünme gerektiren basit sorularda başarısız olabilir
- AI, 2D/3D dünyayı iyi temsil edebilecek şekilde eğitilebilir
Bir makalede LLM'lerin sınırlamalarından söz edildiğinde, birkaç ay sonra bu sınırlamalara sahip olmayan bir chatbot ortaya çıkıyor
- Bu sınırlamalar temel nitelikte değil
Akademik araştırmalar yayımlandığında çoğu zaman zaten birkaç ay geçmiş oluyor
- En güncel teknolojinin sınırlarını bilmek istiyorsanız, araştırma makalelerinden ziyade sosyal medyaya bakmak daha iyidir