A*’ın Ötesinde: Transformer ile Daha İyi Planlama

(arxiv.org)

2 puan yazan GN⁺ 2024-02-25 | 1 yorum | WhatsApp'ta paylaş

Transformer ve LLM’ler sohbet, görüntü anlama ve kod tamamlama alanlarında güçlü olsa da çok adımlı planlama ve üst düzey akıl yürütmede istikrarlı performans göstermek zor
Bu makale, planlama görevlerini ve en iyi çözümleri token dizilerine dönüştürüyor; ayrıca A*’ın problemi çözerken izlediği çalıştırma izini de eğitim verisine katıyor
Searchformer, önce A*’ın arama sürecini taklit ediyor; ardından en iyi planı korurken daha kısa arama dizileri üretecek şekilde ince ayar yapılıyor
Sokoban deneylerinde Searchformer ailesindeki modeller, test görevlerinin %93,7’sini çözdü ve A* referans uygulamasına göre ortalama %26,8 daha az arama adımı kullandı
Çalıştırma izi, üretilecek dizileri 10×~100× uzatma yükü getirse de, yalnızca çözümle eğitilen daha büyük modellere kıyasla daha az eğitim dizisiyle bile bilinmeyen görevlerde en iyi planları daha sık üretiyor

Transformer’ın İyi Olduğu İşler ve Zayıf Kaldığı Planlama Görevleri

Transformer tabanlı mimariler birçok görevde yüksek performans gösteriyor
- İnsan düzeyinde sohbet
- Yüksek kaliteli görüntü anlama
- Video üretimi
- Çok modlu üretim
- Kod tamamlama
İnternet ölçeğinde verilerle eğitilen LLM benzeri modeller, gerçek kullanım senaryolarında iyi genelleme yapabiliyor
Ancak planlama ve akıl yürütme görevlerinde hâlâ sınırlar var
- LLM’ler çok adımlı planlama görevlerinde yetersiz kalabiliyor
- Üst düzey akıl yürütme sırasında da zorluklar görülüyor

Adım Adım Düşünme Promptlarının Sınırları

Son yaklaşımlar, Transformer’ı arada “düşünceler” üretip sonra yanıt vermeye yönlendirerek performansı artırmaya çalışıyor
Chain-of-Thought(CoT) promptlama ve Tree-of-thoughts(ToT), modelin adım adım “düşünmesini” teşvik ediyor
Bu teknikler çoğu zaman etkili olsa da self-enforcing gibi nedenlerle performansı tersine düşürebiliyor
Bir veri kümesinde iyi çalışan yöntem başka bir veri kümesinde başarısız olabiliyor
- Gerekli akıl yürütme türlerinin uzamsal akıl yürütme ile matematiksel akıl yürütme gibi farklılaştığı durumlar buna örnek
Transformer ve LLM’lerin planlama, çok adımlı karar verme ve akıl yürütmeyi istikrarlı biçimde yapmasını sağlamak hâlâ aktif bir araştırma konusu

A* Arama Dinamiklerini Eğitim Verisine Dahil Etme Yöntemi

Bu yaklaşım, Transformer’ın karmaşık planlama görevlerini daha sağlam biçimde çözmesini öğretmeye odaklanıyor
Model, LLM’lerde olduğu gibi bir kelime dizisi verildiğinde sonraki kelimeyi tahmin edecek şekilde eğitiliyor
Deneyler, sentetik dil ve sentetik söz varlığı kullanan sentetik olarak üretilmiş veri kümelerinde yapılıyor
Planlama görevleri ve en iyi çözüm planları, token adı verilen kelime dizileriyle temsil ediliyor
A*’ın yürüttüğü hesaplama süreci, çalıştırma izi token dizisi olarak kaydediliyor
- Çalıştırma izi, A*’ın arama dinamiklerini içeren bir dizi veri kümesi oluşturuyor
- Transformer, aramayla zenginleştirilmiş diziler üzerinden A*’ın arama dinamiklerini ve en iyi planı birlikte kodlayan token dizileri üretmeyi öğreniyor

Searchformer’ın Eğitim Süreci

Nihai model olan Searchformer iki aşamada oluşturuluyor
- Önce Transformer, A*’ın arama sürecini taklit edecek şekilde eğitiliyor
- Ardından en iyi planı çıktılarken planı daha az arama adımı içinde bulacak şekilde ince ayar yapılıyor
Bu sürece search dynamics bootstrapping adı veriliyor
Amaç, A* referans uygulamasından daha az arama adımıyla karmaşık planlama görevlerini çözebilen bir Transformer elde etmek

Sokoban Deneyi ve Genelleme Performansı

Sokoban bulmacalarında Searchformer ailesindeki modeller, tüm test görevlerinin %93,7’sini çözdü
Ortalama arama adımı sayısı, A* referans uygulamasına göre %26,8 daha az
Görev karmaşıklığı, veri kümesi boyutu ve model boyutu kontrol edilen deneylerde, çalıştırma izi eklemenin etkisi doğrulandı
Çalıştırma izini eğitim verisine eklemek, üretilen dizi uzunluğunu 10×~100× artırıyor
Buna rağmen bağımsız test görevleri setinde performans artıyor
search-augmented model, daha büyük solution-only modele kıyasla eğitim dizisi 10 kat daha az olsa bile bilinmeyen görevlerde en iyi planları daha sık üretiyor
- search-augmented model; görev açıklaması, çözüm ve çalıştırma izini içeren verilerle eğitiliyor
- solution-only model, yalnızca görev açıklaması ve görev çözümünü içeren dizilerle eğitiliyor
Bu sonuç, A*’ın arama dinamiklerini Transformer eğitim sürecine dahil etmenin planlama görevlerindeki performansı artırabileceğini gösteriyor

1 yorum

GN⁺ 2024-02-25

Hacker News yorumları

Robot hareket planlamasında transformer kullanan daha ilginç bir çalışma da vardı 0
Bir robot kolunu A noktasından B noktasına çarpışmalardan kaçınarak götürme problemi, yüksek boyutlu ve sürekli olduğu için çok zor; mevcut planlama yöntemleri de hesaplama açısından ağır olup performansları genelde iyi değil
Bu yüzden robot hareketlerinin “doğal olmayan” görünmesinin ve robotların istediğimiz pek çok işi iyi yapamamasının nedenlerinden biri bu; bu yaklaşım ise neredeyse en iyi rotaları daha hızlı planlayarak diğer yöntemlerle epey rekabetçi görünüyor
Araştırma yönüne gitmeden önce, oyun grafikleri/yol bulma için bir A* optimizasyonu olan değiştirilmiş J algoritmasını* denediler mi merak ediyorum
Merak edenler için Game AI Pro 2’de var 0
- Bununla ilgili olarak https://github.com/anvaka/ngraph.path de var
- Adil olmak gerekirse, makalenin sonunda kendi yol bulucularının henüz son teknoloji ile yarışacak seviyede olmadığını söylüyorlar
  Bu makale, transformer’ların yürütme izlerini ne kadar iyi tahmin edebildiğini — örneğin JIT derleyici durumlarında olduğu gibi — ve bunun yol bulma gibi alanlarda sezgiselleri iyileştirmeye yardımcı olup olmadığını test ediyor
  Yine de transformer’lar yavaş olduğu için temkinli bakıyorum
- Bu kitapları seviyorum ve Steve Rabin’in çalışmaya devam etmesi de güzel, ama e-kitabın 120 dolar olması beklenmedik
Planlama problemleri zaten graf arama, SAT çözücüleri, yöneylem araştırması, Prolog gibi yerleşik tekniklerle iyi şekilde ele alınıyor
Genelde öz, pek çok olası alternatif arasından optimizasyon yapmak; transformer’ların buna uygun olup olmadığından pek emin değilim
LLM ailesi tekniklerin rolü daha çok doğal dil açıklamalarını çalıştırılabilir programlara çevirmek gibi görünüyor; ama Prolog da zaten klasik doğal dil işleme için tasarlandığından buna oldukça yakın
- Benzer bir amaç için Prolog ve LLM karşılaştırması ilginç olabilir
Makine çevirisi eskiden arama kullanan karmaşık dilbilgisel çözümleme gerektiriyordu; şimdi ise çok daha basit, fiilen arama gerektirmeyen çözümleme için transformer kullanıyor
Artık tam özyinelemeli yapılara kadar gidebiliriz
Fikir, mevcut en iyi tahmin modelleriyle sinir mimarisi araması (NAS) için sezgiselleri öğrenmek ve transformer ya da mamba’dan daha iyi yeni bir sinir ağı bloğu bulmak
- “Bir dilbilimciyi her kovduğunuzda konuşma tanıma sisteminin performansı artar.” — Frederick Jelinek
- Sonunda, teknolojiyi geliştirenlerin bile artık nasıl çalıştığını anlamadığı bir dünyaya girebiliriz
  Tekillik geliyor…
Sokoban türü oyunlara ilgi duyuyorsanız https://thinky.gg sitesine bakabilirsiniz
Sokopath adlı eğlenceli bir Sokoban varyantı ve amacın A noktasından B noktasına en az adım sayısıyla gitmek olduğu Pathology adlı başka bir NP-zor varyant var
Topluluk çeşitli çözücüler yapmaya çalıştı ama ızgara 5x5’i geçince çok zorlaşıyor; thinky topluluğu ayrıca simulated annealing ile maksimum adım sayısı çok büyük olan ilginç seviyeler de buldu
“Standart A* aramaya göre arama adımlarında %26,8 azalma”
Yani Sokoban’da son teknolojiden uzak olan A*’tan biraz daha iyi sadece (https://festival-solver.site/)
Bu makalede etkileyici olanın ne olduğunu ya da neden Hacker News’e çıktığını anlamıyorum
- A*, kendi açıkça belirttiği belirli kısıtlar altında en optimal arama algoritmasıdır; dolayısıyla daha iyisi yapılamaz
  Ama aranan alanda kullanılabilecek başka kısıtlar varsa A*’tan daha iyi olunabilir
  Örneğin Jump Point Search, yalnızca belirli şekillerde hareket edilebilen ızgara aramasının özelliklerinden yararlanır
  Temel alanın özel özelliklerini insanların elle analiz etmesine gerek kalmadan bunları “otomatik olarak” etkili biçimde kullanan genel bir arama algoritması oluşturulabilse faydalı olmaz mıydı?
- Çünkü transformer ile standart A* aramadan daha iyi, makul bir çözüme ulaştılar
  A* daha çok “naif” temel çözüm gibi; bunlar algoritma tasarımını doğrudan düşünmediler
  Basit bir encoder-decoder transformer’ın bunu yapabilmesi oldukça etkileyici
- Özetin ilk satırında doğrudan yazıyor
  “Transformers have enabled tremendous progress in various application settings, such architectures still lag behind traditional symbolic planners for solving complex decision making tasks. In this work, we demonstrate how to train Transformers to solve complex planning tasks ...”
  Bu makale, karar vermede transformer kullanımına bir örnek olduğu için ilginç; şu anda A seviyesinde* olup olmamasıyla pek ilgilenmiyorum
- HN’e çıkmasının nedeni topluluğun beğenmiş olması
- Transformer’ların yalnızca sonraki token tahmini için değil, her tür öğrenme görevi için uygulanabilir tamamen genel amaçlı bir yaklaşım olduğuna dair transformer’ların akıl almaz etkililiğini destekleyen bir kanıt daha çıkmış oldu
  Elbette bu hipotezin güçlü ve zayıf sürümleri var; güçlü sürüm muhtemelen doğru değil, ama doğanın öğrenme konusundaki “tek gerçek yoluna” yaklaşıyor gibi göründüğümüz sürece bu önemli bir haber gibi görünüyor
Transformer’lar planlama yapabiliyorsa, genel yapay zeka için yalnızca daha iyi eğitim gerekebileceği anlamına gelebilir
- Kapsamlı aramayı yaklaşık olarak taklit etmek mantık ya da nedensellik değildir
- Gereken parçalar çok daha fazla ve eylemlilik bunun büyük bir bölümünü oluşturuyor
  Çevrimiçi öğrenme de gerekiyor; bunun dışında daha birçok katman olmalı
- Öngörülebilir gelecekte yön muhtemelen halüsinasyonları önlemeye çalışmak için gittikçe daha fazla veri yedirmek olacak
İşitsel öğrenenler için bu makalenin özetini sesli kitap biçiminde hazırlayan bir şey var
https://player.oration.app/09fefe41-f2a7-4257-a25e-30e479b30d6f
A* veya Focal search ve çeşitli tamsayılı doğrusal programlama aileleri gibi ayrık algoritmalarda öğrenilmiş sezgiseller kullanma konusunda çok iyimserim
CPLEX gibi modern ayrık optimizasyon kütüphanelerinin çoğunda performans farkını sezgiseller ve ayarlamalar açıklar
İyi anlaşılmış optimal arama rutinlerini uçtan uca öğrenme yaklaşımlarıyla değiştirmek bana daha az ikna edici geliyor, ama bu gereksiz bir kaygı da olabilir
Yine de yazarlar bu fırsatı kaçırmış gibi görünüyor
- Bence sadece transformer ve AI etrafındaki balon/abartı etkisi
  Ben de transformer ile tic-tac-toe çözmeyi deneyip VC parası başvurusunda bulunsam mı diye düşünüyorum
  Birkaç yıl sonra herkes gerçek kodun AI’dan ne kadar daha verimli olduğu hakkında yazıyor olabilir ;)
- Katılıyorum
  Kabul edilebilir sezgiseller öğrenirseniz en kötü durum performansını koruyabilirsiniz; bu da bu tür algoritmalar için her zaman ölçüt olmuştur
  Ortalama ya da p99 vakalarında daha hızlı olan ama en kötü durum garantisi sunmayan çözümler bulmak hiç de nadir değil
Derin öğrenmeyle daha iyi çalışır hâle gelen klasik algoritmaların ya da NP-tam problemlerin listesini kimin tuttuğunu merak ediyorum
- Kolaylık olsun diye, “AI”ın en kötü durumda son teknolojiden daha iyi performans gösterdiği NP-tam problemler listesini yazarsak:
- Anladığım kadarıyla bu hâlâ çok aktif bir araştırma aşamasında ve üretim ortamına dağıtılmış net bir başarı henüz yok

A*’ın Ötesinde: Transformer ile Daha İyi Planlama

Transformer’ın İyi Olduğu İşler ve Zayıf Kaldığı Planlama Görevleri

Adım Adım Düşünme Promptlarının Sınırları

A* Arama Dinamiklerini Eğitim Verisine Dahil Etme Yöntemi

Searchformer’ın Eğitim Süreci

Sokoban Deneyi ve Genelleme Performansı

İlgili okumalar

1 yorum

Hacker News yorumları