- Büyük dil modelleri (LLM'ler), çok büyük miktarda insan diliyle ön eğitim alarak güçlü muhakeme yetenekleri gösterir
- "Chain-of-Thought (CoT)" yöntemi, modelin adım adım düşünme süreci üretmesini sağlayarak cevaba ulaşmasına yardımcı olur
- Ancak LLM'lerin muhakemesi sözcükler olarak üretilmek zorundadır ve bu, modele temel bir kısıt getirir
- İnsanlar düşüncelerini her zaman dille ifade etmez. Yapay zekanın da bunu yapması gerekir mi?
- Meta'nın "Training Large Language Models to Reason in a Continuous Latent Space" başlıklı araştırma makalesi, bu sınırlamayı aşmak için yeni bir yöntem olan COCONUT (Chain of Continuous Thought) yaklaşımını öneriyor
Chain-of-Thought (CoT) yöntemi
- CoT, soruyu girdi olarak alır ve adım adım muhakeme yoluyla nihai cevabı üretir
- Model, girdi token'larını işleyerek ilk yanıt token'ını üretir (muhakeme sürecinin başlangıcı)
- Soru ve önceki muhakeme token'ları modele tekrar tekrar verilerek tüm muhakeme süreci tamamlanır ve son olarak cevap üretilir
Chain of Continuous Thought (COCONUT) yöntemi
- COCONUT, dil modu ile örtük düşünce (latent thought) modu arasında dönüşümlü olarak çalışır
- Dil modu: Standart bir dil modeli gibi çalışır, sonraki token'ı üretir
- Örtük düşünce modu: Son hidden state'i kullanarak bir sonraki adımı hesaplar
- Örtük düşünce modunda son hidden state'in bir sonraki girdi olarak kullanılması, daha verimli muhakemeyi mümkün kılar
<bot> token'ı ile örtük düşünce modu başlatılır, <eot> token'ı ile sonlandırılır ve ardından dil moduna geçilir
Eğitim süreci
- Model, mevcut CoT verileri (soru, muhakeme adımları, nihai cevap) temel alınarak eğitilir
- Eğitim aşamalı olarak ilerler:
- İlk aşamada model, dil tabanlı muhakeme adımları ve cevabı üretmek üzere eğitilir
- Sonraki aşamalarda muhakeme adımları kaldırılır ve bunun yerine örtük düşünce token'ları eklenerek eğitim yapılır
- Her aşamada kayıp, geriye kalan dil tabanlı muhakeme adımları ve cevap üzerinden hesaplanır
- Örtük düşünce tamamen türevlenebilir olduğundan back-propagation (geri yayılım) mümkündür
Düşünce üretiminden sözcük token'ı üretimine geçiş
- Modelin örtük düşünce modundan dil moduna nasıl geçeceği için iki strateji vardır.
- İlk strateji, "ikili sınıflandırıcı kullanarak modelin karar vermesini" sağlamaktır; ikinci strateji ise "sabit sayıda örtük düşünce token'ı kullanmak"tır
- Her iki strateji de benzer sonuçlar verdiği için, daha basit olan sabit sayı yaklaşımı benimsenmiştir
Deney sonuçları
- Coconut yöntemi, No-CoT'ye kıyasla tüm veri kümelerinde daha iyi performans gösterir.
- CoT ile karşılaştırıldığında matematikte CoT daha iyiyken, planlama yeteneği gerektiren ProsQA'da Coconut daha üstündür.
- i-CoT ile karşılaştırıldığında Coconut, matematikte daha iyi doğruluk gösterir.
- Coconut performansı:
- GSM8K (matematik): CoT'den daha düşük performans
- ProsQA (planlama gerektirir): CoT'den daha yüksek performans
- No-CoT (muhakeme olmadan doğrudan cevap üretimi): tüm veri kümelerinde daha iyi performans
- Verimlilik açısından CoT'den daha az token üretir
- i-CoT ile karşılaştırma:
- Matematikte daha yüksek doğruluk
- Planlama ve mantıksal muhakemede benzer performans
- Müfredat öğrenmesinin etkisi:
- "Müfredat olmadan (w/o curriculum)" modelin performansı belirgin biçimde daha düşüktür
BFS benzeri muhakeme yeteneği
- ProsQA veri kümesinde, planlama odaklı problem çözmede COCONUT dikkat çekici sonuçlar gösterir
- Grafik arama örneği:
- CoT: Var olmayan ilişkileri "halüsinasyon" yoluyla üretip yanlış sonuca ulaşır
- Coconut: Birden fazla örtük düşünce token'ı kullanarak doğru yolu arayabilir
- Coconut, birden fazla olası yolu keşfedebildiği için planlama yoğun görevlerde daha iyi performans gösterir
Sonuç ve gelecekteki araştırma yönleri
- Sonuç:
- COCONUT yaklaşımı, LLM'lerin muhakeme yeteneğini önemli ölçüde geliştirir
- Örtük uzayda muhakeme, BFS'ye benzer örüntüler üzerinden planlama odaklı görevlerde üstün performans sunar
- Gelecekteki araştırma yönleri:
- Sürekli düşüncenin ön eğitim aşamasından itibaren entegre edilmesi
- Verimliliği artırarak çoklu ardışık muhakemenin işlenmesi
- CoT ile örtük düşüncenin birleştirilme olasılığının araştırılması
1 yorum
Hacker News görüşleri
BFS vurgusu benim denediğimin tersi. İnsanlar içgüdü ve sezgiye göre işi kısa adımlara ve bir sonraki adımı özetleyip/kaydeden uzun adımlara böler. Başarısızlık durumunda, başarısızlık ağacını özetleyip gelecekteki seçimlerin dışında bırakır.
İnsan dili olmayan bir temsil oluşturmak sonraki adım. LLM'ler insan metin girdisi olmadan yalnızca embedding'lerle iletişim kurabilirse, bu yapay zekada yeni bir dönemin kapısını açar.
Meta, önceden eğitilmiş bir dil modeliyle başlayıp bunu adım adım akıl yürütme örnekleriyle ince ayar yapıyor. Modelin latent uzayda düşünme moduna geçmesi için yeni token'lar tanıtıyor.
İç düşünme için embedding/unembedding adımlarını atlamanın mı büyük iyileştirme olduğu, yoksa CoT ile "latent düşünme" ve metin çıktısı arasında geçiş yapmayı öğreten eğitim yönteminin mi asıl belirleyici olduğu merak konusu.
Bu, AI/LLM'ler için "işte o" an olabilir. İnsanlar "token"larla düşünmez. Latent uzayda kalmak, modelin fikirleri dilden daha yüksek çözünürlükte ifade etmesini sağlayabilir.
Rakipler hızla yetişiyor. Birden fazla SkyNet'in rekabet etmesini bekliyorum.
Facebook'un yapay zeka tarafından üretilen karakter kullanıcı tabanının daha iyi etkileşimler kurup kuramayacağını merak ediyorum.
Site makaleyi basitleştirdiğini iddia ediyor ama çok reklam var ve resmi Meta FAIR sayfasında "Coconut" bulunamıyor. Bu sitenin bağlantı vermek için en iyi seçenek olup olmadığı şüpheli.
Bu, 20 gün önce paylaşılmış bir tekrar gönderi.