11 puan yazan GN⁺ 2025-02-03 | 5 yorum | WhatsApp'ta paylaş
  • LLM'ler bileşimsel görevlerde (Compositional Task) zorlanıyor ve bu, yeteneklerinde bir sınır olduğuna işaret ediyor
    • Bu sorun, LLM'lerin eğitim verilerinde gördüklerinin ötesinde akıl yürütemediğini gösteriyor
  • 17 Aralık 1962'de Life International'da 15 cümleden oluşan bir mantık bulmacası yayımlandı
  • Her cümle, “İngiliz kırmızı evde yaşar” veya “Ortadaki evde süt içilir” gibi bir ipucu veriyordu
  • Beş evin rengi, sakinlerin milliyeti, evcil hayvanları, içecekleri gibi özelliklerin hepsi farklıydı ve temel soru “Zebraya kim sahip?” idi
  • Bu problem Einstein’s puzzle (veya riddle) olarak biliniyor ve son dönemde makine öğrenimi modellerinin, özellikle de büyük dil modellerinin (LLM), çok adımlı akıl yürütme yeteneğini ölçen bir gösterge olarak kullanılıyor
  • Allen Institute for AI araştırma bilim insanı Nouha Dziri ve çalışma arkadaşları, ChatGPT gibi LLM'leri bu bulmacaya uygulayarak sınırlarını doğruladı
  • LLM'lerin, eğitim verilerinde gördüklerinin ötesindeki karmaşık problemleri çözmekte zorlandığı ortaya çıktı
  • Bu durum, “adım adım elde edilen sonuçları birleştirerek nihai cevaba ulaşma” biçimindeki bileşimsel akıl yürütmenin zorluğunu gösteriyor
  • Dziri'nin araştırma ekibi, LLM'lerin yalnızca kelime tahminiyle eğitilmesinden kaynaklanan yapısal bir sınıırı olduğunu savunuyor
  • Başka araştırmacılar da bugün yaygın olarak kullanılan transformer mimarisinin bu tür karmaşık problem çözmede matematiksel sınırlara sahip olduğunu kanıtladı
  • Giderek daha güçlü modeller ortaya çıksa da, bunların temelde tüm bileşimsel akıl yürütme problemlerini çözemeyebileceği öne sürülüyor
  • Andrew Wilson (NYU), bu tür araştırmaların yapay zeka araştırma topluluğunu transformer merkezli yaklaşımı sürdürüp sürdürmemeyi yeniden düşünmeye ittiğini belirtiyor

Şaşırtıcı başarıların doğurduğu soru işaretleri

  • Dziri'ye göre, LLM'ler etkileyici dil yetenekleri göstermeye başladıkça, “gerçekten akıl yürütebiliyorlar mı” sorusuna duyulan merak büyüdü
  • LLM'ler, internetteki devasa metin yığınlarından basit bir yöntemle (cümle tamamlama tahmini) öğrenmelerine rağmen doğal dil işleme, belge özetleme ve kod üretimi gibi karmaşık görevleri yerine getirebiliyor
  • OpenAI'ın o1'i, GPT-4, Google'ın Gemini'si ve Anthropic'in Claude'u bu tür dev modellerin önde gelen örnekleri
  • Ancak bu modeller bazen, insanlara göre basit görünen problemlerde beklenmedik hatalar yapabiliyor
  • Örneğin, basit çarpma işlemlerinde bile sık sık hata yaptıkları bildirildi
  • Dziri'nin araştırmasına göre GPT-4'e üç basamaklı çarpma yaptırıldığında yalnızca %59 oranında doğru sonuç verdi; dört basamaklı çarpmada ise bu oran %4'e kadar düştü
  • Einstein’s puzzle'ın değiştirilmiş sürümlerinde de, evler küçük olduğunda (2-3 özellik) yüksek doğruluk görülürken, özellik sayısı 4-5'e çıktığında başarı oranı dramatik biçimde düştü
  • GPT-3, 1,8 milyon çarpma verisiyle fine-tune edildiğinde, eğitim kapsamındaki aralıkta iyi performans gösterdi; ancak eğitim örneklerinden farklı bir format sorulduğunda doğruluk keskin biçimde geriledi
  • Bu da modelin algoritmanın kendisini anlamasından çok, eğitim örneklerine dayanarak taklit ettiğini düşündürüyor

Açık sınırlar

  • Dziri ve diğer araştırmacıların ortak olarak işaret ettiği sorun, ‘bileşimsel akıl yürütme yeteneği’nin eksikliği
  • Binghui Peng (Stanford University), Columbia Üniversitesi'nde doktora yaparken LLM'lerin “babanın babası kimdir” gibi olgusal bileşim sorularında sık sık hata yaptığını fark etti
  • Basit transformer katmanlarının bu tür problemleri çözmek için ne kadar parametreye ihtiyaç duyduğunu hesapladı ve alan boyutu model parametre sayısından büyükse problemin çözülemeyeceği sonucuna ulaştı
  • Ardından bunu çok katmanlı transformer'lara genişletti ve karmaşık bileşimsel akıl yürütme problemleriyle karşılaşıldığında bunun matematiksel olarak imkansız olduğunu kanıtladı
  • Yani model ölçeği büyüdüğünde daha zor problemler çözülebilse de, aynı anda problem zorluğu da artarsa sınırlar yeniden ortaya çıkıyor
  • Bazı araştırmacılar transformer dışındaki başka sinir ağı yapıları, örneğin state-space models, üzerinde denemeler yaptı; ancak benzer sınırlamalar burada da doğrulandı

Sınırları aşma girişimleri

  • LLM'lerin sınırlarını aşmak için çeşitli tamamlayıcı yöntemler öneriliyor
  • Örneğin University of Maryland'den Tom Goldstein'ın ekibi, sayılar transformer'a girilirken ek konum bilgisi vererek daha büyük basamaklı işlemleri mümkün hale getirdi
  • Bu çalışmalar sonucunda, 20 basamaklı sayılarla eğitilen bir modelin 100 basamaklı toplamada bile %98 doğruluk gösterdiği görüldü
  • Bir başka yöntem de, çözüm sürecini prompt içinde adım adım sunan chain-of-thought tekniği
  • GPT-4 gibi modellerin bu yöntemle daha karmaşık problemleri çözme potansiyeli gösterdiği gözlemlendi
  • Bu yaklaşım, “büyük bir problemi daha küçük problemlerin zincirine ayırma” ilkesine dayanıyor ve bu yöntemin transformer'ların işleyebildiği işlem aralığını genişlettiğine dair teorik yorumlar da var
  • Ancak gerçek modeller bu yeteneği her problemde sergilemiyor; sonuçlar eğitim yöntemi ve model yapısına göre değişiyor
  • Sonuç olarak LLM'ler örüntü eşleştirmeye dayandığı için, büyük veya karmaşık bileşimsel akıl yürütme problemlerinde her zaman bir sınıra sahip
  • Buna rağmen sıradan kullanıcı açısından bu sınırlamalar çok da önemli olmayabilir
  • Buna karşılık, model geliştiren araştırmacılar için yapısal sınırları anlamak ve düzeltmek temel bir görev olmaya devam ediyor
  • Dziri, “LLM'lerin iç işleyişini tam olarak anlayabilirsek, bu temel sorunları çözme ihtimalimiz artar” diye vurguluyor

5 yorum

 
ned0909 2025-02-05

Bu, akıl yürütme çağından önceki bir hikâye gibi.

 
bakyeono0 2025-02-04

~ işaretinin Markdown üstü çizili biçimlendirme işareti olarak algılanmasıyla ilgili bir sorun var. Düzeltirseniz iyi olur.

 
rabolution 2025-02-04

Kod yazarken LLM kullanınca, bu yüzden bağlaşıklık ne kadar düşük olur ve ilgi alanları ayrımı ne kadar iyi yapılırsa o kadar iyi çalışıyor. Aslında bunun insanlar için de geçerli olabileceğini düşünüyorum. ;)

 
hided62 2025-02-03

Yazının kendisi yeni, ama galiba temeli o1 öncesine dayanıyor.

"Babanın küçük erkek kardeşinin annesinin kız kardeşinin kızıyla benim akrabalık derecem nedir?" gibi bir şey sormuşlardı,
4o'nun belirgin sınırları var, ama o1 tuzakların hepsinden kaçınıyordu gibi.

 
GN⁺ 2025-02-03
Hacker News yorumu
  • LLM'ler, diğer makine öğrenimi modelleri gibi, girdi verilerindeki örüntüleri eşleştirerek istatistiksel olarak olası sonuçlar üretme özelliğine sahip

    • "Chain of thought", pekiştirmeli öğrenmeyle birleştirildiğinde zor problemleri çözmeyi mümkün kılar
    • Başarının net bir tanımı ve bir ödül modeli gerekir
    • İnsanların problem çözme yeteneği de örüntü eşleştirmeye dayanır ve insanlar büyük miktarda bilgiyi verimli şekilde entegre edebilir
  • LLM'ler yapay zekanın harikası; geçmişte imkansız sayılan şeyleri her iki ayda bir ileri taşıyorlar

    • Bazı bilim insanları LLM'lerin başarılarını küçümsüyor
    • LeCun, LLM'lerin çıkmaz sokak olduğunu söyleyerek araştırmacılara başka bir yön önerdi
    • Meta'nın LLM alanındaki performansının diğer şirketlerin gerisinde kalması, bu şüphecilikle ilişkili olabilir
  • LLM araştırmaları hakkında çok fazla yanlış bilgi var

    • 6-12 aylık modeller yalnızca basit muhakeme yapabiliyor
    • Karmaşık mantıksal ve algoritmik görevler için System 2 düşünme gerekiyor
    • LLM'ler programlama yoluyla düşünebilir
  • o3-mini-high, Prolog kodunu hızlıca üretebildi

    • Örnek olarak verilen Prolog kodu, problemi çözmede başarılıydı
  • Yakın tarihli araştırma sonuçları GPT-3, 3.5 ve ilk nesil 4'ü ele alıyor

  • ChatGPT hızlı bir arama motoru gibi hissettiriyor; çok sayıda halüsinasyon ve sınırlı bağlama sahip

    • Gelecekteki gelişmelere dair çok vaat var, ancak gerçek ilerleme az
  • Araştırma sonuçlarının saf LLM'leri mi yoksa LLM sentez motorlarını mı analiz ettiğini ayırt etmek gerekir

    • o3'ün ARC-AGI-1'deki performansı, sentez motorlarının yeteneğini gösteriyor
  • LLM'ler, 2D veya 3D düşünme gerektiren basit sorularda başarısız olabilir

    • AI, 2D/3D dünyayı iyi temsil edebilecek şekilde eğitilebilir
  • Bir makalede LLM'lerin sınırlamalarından söz edildiğinde, birkaç ay sonra bu sınırlamalara sahip olmayan bir chatbot ortaya çıkıyor

    • Bu sınırlamalar temel nitelikte değil
  • Akademik araştırmalar yayımlandığında çoğu zaman zaten birkaç ay geçmiş oluyor

    • En güncel teknolojinin sınırlarını bilmek istiyorsanız, araştırma makalelerinden ziyade sosyal medyaya bakmak daha iyidir