2 puan yazan GN⁺ 2024-03-17 | 1 yorum | WhatsApp'ta paylaş

Quiet-STaR: Dil modellerine konuşmadan önce düşünmeyi öğretmek mümkün

  • İnsanlar yazarken veya konuşurken bazen düşünmek için duraklar; bu tür akıl yürütme neredeyse tüm yazılı metinlerin içine gömülüdür.
  • Self-Taught Reasoner(STaR), soru-cevapta az sayıda örnek üzerinden gerekçe çıkarıp doğru cevaba götüren gerekçelerden öğrenerek faydalı düşünmeyi öğrenmenin bir yolunu sunar.
  • Quiet-STaR, STaR'ın genelleştirilmiş bir hali olarak, gelecekteki metni açıklamak için dil modelinin her token'da gerekçe üretmeyi öğrenmesini sağlayarak tahminleri iyileştirir.

Başlıca zorluklar ve çözüm yolları

  • Sürekli metin üretiminin hesaplama maliyeti, dil modelinin başlangıçta içsel düşünceler üretmeyi veya kullanmayı bilmemesi ve tek tek bir sonraki token'ın ötesine geçen tahminlere ihtiyaç duyulması gibi zorluklar vardır.
  • Bu sorunları çözmek için, düşüncenin başlangıcını ve sonunu gösteren öğrenilebilir token'ları kullanan token başına paralel örnekleme algoritması ve genişletilmiş teacher-forcing tekniği önerilir.

Model performansında artış

  • Üretilen gerekçeler, zor token'ların tahmin edilmesine yardımcı olur ve dil modelinin zor sorulara doğrudan yanıt verme yeteneğini geliştirir.
  • İnternet metin korpusu üzerinde dil modeli Quiet-STaR ile ön eğitime devam ettirildiğinde, GSM8K'de (%5.9→%10.9) ve CommonsenseQA'da (%36.3→%47.2) zero-shot iyileşme görüldü; ayrıca doğal metinde zor token'lar için perplexity iyileşmesi gözlemlendi.
  • Bu iyileşmeler, ilgili görevlere yönelik ince ayar yapılmadan elde edildi.

GN⁺ görüşü

  • Quiet-STaR, dil modellerinin daha genel ve ölçeklenebilir bir şekilde akıl yürütmeyi öğrenebilmesi yönünde atılmış bir adımı gösteriyor.
  • Bu çalışma, yapay zeka alanında dil anlama ve akıl yürütme yeteneklerini güçlendiren önemli bir ilerlemeyi temsil ediyor ve doğal dil işleme teknolojilerinin gelişimine katkı sağlayabilir.
  • Eleştirel bakıldığında, bu teknolojinin gerçek dünyanın karmaşık problemlerine uygulanması beklenmedik sonuçlar doğurabilir; bu nedenle ek araştırma ve güvenlik önlemleri gereklidir.
  • Benzer işlevler sunan diğer projeler arasında OpenAI'nin GPT serisi ve Google'ın BERT'i bulunur; bunlarda da dil anlama ve üretim yeteneklerini geliştirmeye yönelik araştırmalar sürmektedir.
  • Teknolojinin benimsenmesinde dikkate alınması gerekenler arasında eğitim verisinin kalitesi ve çeşitliliği, modelin etik kullanımı ve hesaplama maliyeti yer alır; bu teknolojinin sağlayabileceği avantaj ise daha doğru ve daha ayrıntılı dil modeli üretimidir.

1 yorum

 
GN⁺ 2024-03-17
Hacker News görüşleri
  • Ağ yaklaşık 50 katman derinliğinde yapılandırılmışsa, bu ağın 50 'adımlık' sembolik sorular üzerinde akıl yürütebildiği anlamına gelir. Modelin eğitildiği alt uzaydaki 50 adım, bir insanın tek adımından daha fazlasını başarabiliyor olabilir; ancak insanların bu adımların ötesinde düşünüp etraflıca muhakeme edebildiğini biliyoruz.
  • Edsger Dijkstra, ana dili Felemenkçe olmasına rağmen son derece isabetli bir İngilizce üsluba sahipti. Çocukluğundan beri, bir cümleye başlamadan önce onu nasıl bitireceğini bilmesi gerektiğinin öğretildiğini anlattığını hatırlıyorum. Bu iki gözlem arasında nedensel bir ilişki olabileceğine dair bir tahmin var.
  • LLM tabanlı sistemlerin performans artışına katkıda bulunan 'düşünce zinciri' akıl yürütme örüntüsünün, Kahneman'ın 'Hızlı ve Yavaş Düşünme'sinde ele alınan iki sistem modeliyle paralel olduğu fikri aklıma geldi. 'Sistem 1', düşük çaba ve hesaplama ile işlenen düşünceler içindir; 'Sistem 2' ise bilinçli ve yüksek düzeyli bilişsel işler için kullanılır. LLM'lerin yalnızca 'Sistem 1'i kullanıyormuş gibi görünmesine yönelik eleştiriye karşı, LLM'yi adım adım düşünmeye yönlendirdiğimizde, bu sanki 'Sistem 2' benzeri bir karar verme kum havuzu sağlamak gibi oluyor.
  • Bu yöntem, bilinen yanıtları olup akıl yürütme adımları eksik olan birçok görev için yapay zekayı eğitmeye yarayan eksik parçayı sunuyor. Bu yöntemle, az miktarda etiketli veriyle bile akıl yürütme yeteneğine ulaşılabilir. Üretilen düşünceler insanlar için anlaşılması zor olsa bile doğru cevabı bulmada çok daha faydalı olabiliyorsa, kendimizden daha zeki bir şey yarattığımızı söyleyebiliriz.
  • Metnin anlamının büyük bir kısmı satır aralarında gizlidir ve bir belgede bir ifadenin neden yer aldığını anlamazsanız, okuyucunun kavrayışı yüzeysel kalır. Ancak çoğu insanın bir dünya modeli vardır ve kitapta yer alan ifadelerin nedenlerini bir ölçüde bilir. Örneğin, bir akışkanlar dinamiği ders kitabını okurken matematiği anlamıyor olabilirsiniz, ama o ifadenin neden orada olduğunu bilirsiniz.
  • Bu makalenin yazarlarının, OpenAI'nin söylentilerle çevrili Q* modeliyle bağlantılı olup olmadığına ya da bunun sadece isim benzerliği olup olmadığına dair bir soru var.
  • Kendi çalışmalarından yaklaşık 8 yıl önce RNN'lerde (öğrenilmiş) değişken hesaplamanın dil modellemeye uygulanmasına dair bir makaleye [1] atıf yapmamışlar. O dönemde Microsoft'un da görüntü tanıma için benzer bir yaklaşımı vardı.
  • Bu, temelde bu sabah prompt düzeyinde denediğim şeyle aynı, ancak LLM'nin kendi bağlamını yeniden keşfetmesine yardımcı olacak 'meta-token'lar ekleme fikrini daha da ileri götürmüş. Bu meta-token'ların bazıları, bağlamın bir bölümünü vurgulama, yapılandırma, özetleme ya da unutma gibi yan etkilere sahip olabilir. Bu, yalnızca LLM'ye mantıksal/akıl yürütme yeteneği kazandırmakla kalmayıp, kendi bilişsel yapısını oluşturabilmesi için de bir araç sağlayabilir.
  • Intel ekibinin, NeuralChat'te olduğu gibi, değerlendirme için uygun olmayan Base Mistral 7B'yi kullanmaya çalıştığı bir örnek var.
  • Bu araştırma oldukça ilginç görünüyor; araştırmacıların yakında kodu yayımlama ihtimali olup olmadığı soruluyor.