Meta AI'nin Coconut'u – Sürekli düşünce zinciriyle LLM muhakemesini geliştirmek

(aipapersacademy.com)

6 puan yazan GN⁺ 2025-01-01 | 1 yorum | WhatsApp'ta paylaş

Büyük dil modelleri (LLM'ler), çok büyük miktarda insan diliyle ön eğitim alarak güçlü muhakeme yetenekleri gösterir
"Chain-of-Thought (CoT)" yöntemi, modelin adım adım düşünme süreci üretmesini sağlayarak cevaba ulaşmasına yardımcı olur
Ancak LLM'lerin muhakemesi sözcükler olarak üretilmek zorundadır ve bu, modele temel bir kısıt getirir
İnsanlar düşüncelerini her zaman dille ifade etmez. Yapay zekanın da bunu yapması gerekir mi?
Meta'nın "Training Large Language Models to Reason in a Continuous Latent Space" başlıklı araştırma makalesi, bu sınırlamayı aşmak için yeni bir yöntem olan COCONUT (Chain of Continuous Thought) yaklaşımını öneriyor

Chain-of-Thought (CoT) yöntemi

CoT, soruyu girdi olarak alır ve adım adım muhakeme yoluyla nihai cevabı üretir
Model, girdi token'larını işleyerek ilk yanıt token'ını üretir (muhakeme sürecinin başlangıcı)
Soru ve önceki muhakeme token'ları modele tekrar tekrar verilerek tüm muhakeme süreci tamamlanır ve son olarak cevap üretilir

Chain of Continuous Thought (COCONUT) yöntemi

COCONUT, dil modu ile örtük düşünce (latent thought) modu arasında dönüşümlü olarak çalışır
- Dil modu: Standart bir dil modeli gibi çalışır, sonraki token'ı üretir
- Örtük düşünce modu: Son hidden state'i kullanarak bir sonraki adımı hesaplar
Örtük düşünce modunda son hidden state'in bir sonraki girdi olarak kullanılması, daha verimli muhakemeyi mümkün kılar
<bot> token'ı ile örtük düşünce modu başlatılır, <eot> token'ı ile sonlandırılır ve ardından dil moduna geçilir

Eğitim süreci

Model, mevcut CoT verileri (soru, muhakeme adımları, nihai cevap) temel alınarak eğitilir
Eğitim aşamalı olarak ilerler:
- İlk aşamada model, dil tabanlı muhakeme adımları ve cevabı üretmek üzere eğitilir
- Sonraki aşamalarda muhakeme adımları kaldırılır ve bunun yerine örtük düşünce token'ları eklenerek eğitim yapılır
Her aşamada kayıp, geriye kalan dil tabanlı muhakeme adımları ve cevap üzerinden hesaplanır
Örtük düşünce tamamen türevlenebilir olduğundan back-propagation (geri yayılım) mümkündür

Düşünce üretiminden sözcük token'ı üretimine geçiş

Modelin örtük düşünce modundan dil moduna nasıl geçeceği için iki strateji vardır.
İlk strateji, "ikili sınıflandırıcı kullanarak modelin karar vermesini" sağlamaktır; ikinci strateji ise "sabit sayıda örtük düşünce token'ı kullanmak"tır
Her iki strateji de benzer sonuçlar verdiği için, daha basit olan sabit sayı yaklaşımı benimsenmiştir

Deney sonuçları

Coconut yöntemi, No-CoT'ye kıyasla tüm veri kümelerinde daha iyi performans gösterir.
CoT ile karşılaştırıldığında matematikte CoT daha iyiyken, planlama yeteneği gerektiren ProsQA'da Coconut daha üstündür.
i-CoT ile karşılaştırıldığında Coconut, matematikte daha iyi doğruluk gösterir.
Coconut performansı:
- GSM8K (matematik): CoT'den daha düşük performans
- ProsQA (planlama gerektirir): CoT'den daha yüksek performans
- No-CoT (muhakeme olmadan doğrudan cevap üretimi): tüm veri kümelerinde daha iyi performans
- Verimlilik açısından CoT'den daha az token üretir
i-CoT ile karşılaştırma:
- Matematikte daha yüksek doğruluk
- Planlama ve mantıksal muhakemede benzer performans
Müfredat öğrenmesinin etkisi:
- "Müfredat olmadan (w/o curriculum)" modelin performansı belirgin biçimde daha düşüktür

BFS benzeri muhakeme yeteneği

ProsQA veri kümesinde, planlama odaklı problem çözmede COCONUT dikkat çekici sonuçlar gösterir
Grafik arama örneği:
- CoT: Var olmayan ilişkileri "halüsinasyon" yoluyla üretip yanlış sonuca ulaşır
- Coconut: Birden fazla örtük düşünce token'ı kullanarak doğru yolu arayabilir
Coconut, birden fazla olası yolu keşfedebildiği için planlama yoğun görevlerde daha iyi performans gösterir

Sonuç ve gelecekteki araştırma yönleri

Sonuç:
- COCONUT yaklaşımı, LLM'lerin muhakeme yeteneğini önemli ölçüde geliştirir
- Örtük uzayda muhakeme, BFS'ye benzer örüntüler üzerinden planlama odaklı görevlerde üstün performans sunar
Gelecekteki araştırma yönleri:
- Sürekli düşüncenin ön eğitim aşamasından itibaren entegre edilmesi
- Verimliliği artırarak çoklu ardışık muhakemenin işlenmesi
- CoT ile örtük düşüncenin birleştirilme olasılığının araştırılması

1 yorum

GN⁺ 2025-01-01

Hacker News görüşleri

BFS vurgusu benim denediğimin tersi. İnsanlar içgüdü ve sezgiye göre işi kısa adımlara ve bir sonraki adımı özetleyip/kaydeden uzun adımlara böler. Başarısızlık durumunda, başarısızlık ağacını özetleyip gelecekteki seçimlerin dışında bırakır.
- İçgüdünün etkisi mesafe arttıkça keskin biçimde azalır. BFS kullanmak, içgüdünün değerini düşürüp hesaplamayı tercih etmek anlamına gelir. Yaklaşım, problem türüne göre değişir.
- Birlikte prototip yapmak isterseniz iletişime geçin.
İnsan dili olmayan bir temsil oluşturmak sonraki adım. LLM'ler insan metin girdisi olmadan yalnızca embedding'lerle iletişim kurabilirse, bu yapay zekada yeni bir dönemin kapısını açar.
Meta, önceden eğitilmiş bir dil modeliyle başlayıp bunu adım adım akıl yürütme örnekleriyle ince ayar yapıyor. Modelin latent uzayda düşünme moduna geçmesi için yeni token'lar tanıtıyor.
- Son hidden layer'ı tekrar tekrar input layer'a kopyalayarak daha fazla içgörü elde ediyor.
- Eğitim, dilsel akıl yürütme adımlarını kademeli olarak latent uzay otomatik bağlanımlı adımlarla değiştiriyor. Model, latent uzay düşünme modunu kendi kendine etkinleştirip sonlandırmayı öğreniyor.
İç düşünme için embedding/unembedding adımlarını atlamanın mı büyük iyileştirme olduğu, yoksa CoT ile "latent düşünme" ve metin çıktısı arasında geçiş yapmayı öğreten eğitim yönteminin mi asıl belirleyici olduğu merak konusu.
- Sabit sayıda "latent düşünme" adımının ikili sınıflandırıcıyla aynı performansı göstermesi ilginç.
Bu, AI/LLM'ler için "işte o" an olabilir. İnsanlar "token"larla düşünmez. Latent uzayda kalmak, modelin fikirleri dilden daha yüksek çözünürlükte ifade etmesini sağlayabilir.
- Latent uzayın çalıştırma maliyeti düşüktür. Dil kodlama/kod çözme adımları olmadan düşünebilir. Çeşitli verileri girdi olarak alıp akıl yürütebilir.
Rakipler hızla yetişiyor. Birden fazla SkyNet'in rekabet etmesini bekliyorum.
Facebook'un yapay zeka tarafından üretilen karakter kullanıcı tabanının daha iyi etkileşimler kurup kuramayacağını merak ediyorum.
Site makaleyi basitleştirdiğini iddia ediyor ama çok reklam var ve resmi Meta FAIR sayfasında "Coconut" bulunamıyor. Bu sitenin bağlantı vermek için en iyi seçenek olup olmadığı şüpheli.
Bu, 20 gün önce paylaşılmış bir tekrar gönderi.

Meta AI'nin Coconut'u – Sürekli düşünce zinciriyle LLM muhakemesini geliştirmek

Chain-of-Thought (CoT) yöntemi

Chain of Continuous Thought (COCONUT) yöntemi

Eğitim süreci

Düşünce üretiminden sözcük token'ı üretimine geçiş

Deney sonuçları

BFS benzeri muhakeme yeteneği

Sonuç ve gelecekteki araştırma yönleri

İlgili okumalar

1 yorum

Hacker News görüşleri