Yalnızca ajan sayısını artırmak bile LLM performansını ölçekleyebiliyor

(arxiv.org)

2 puan yazan GN⁺ 2024-04-08 | 1 yorum | WhatsApp'ta paylaş

LLM'ler karmaşık görevlerde doğruluk açısından dalgalanma yaşarken, bu araştırma ek yapılar yerine yalnızca örnekleme-oylama ile performansın artırılıp artırılamayacağını doğruluyor
Agent Forest, aynı sorguyu birden çok kez çalıştırıp yanıtları topladıktan sonra çoğunluk oylamasıyla nihai yanıtı seçen basit bir ansambl yöntemi
GSM8K'de ansambl boyutu 15 iken Llama2-13B, Llama2-70B'ye benzer doğruluğa ulaştı; Llama2-70B ve GPT-3.5-Turbo da daha güçlü karşılık modellere yaklaştı
Bu yöntem, CoT tabanlı yöntemler veya çoklu ajan iş birliği çerçeveleriyle bağımsız olarak birleştirilebildiği için mevcut tekniklerin üzerine ek performans artışı sağlayabiliyor
İyileşme özellikle zor görevlerde ve zayıf modellerde daha belirgin; karmaşık prompt tasarımı olmadan da maliyet/performans oranını yükseltme potansiyeli var

Karmaşık görevlerde dalgalanan LLM doğruluğu

LLM'ler dil üretimi, anlama ve akıl yürütme gibi çeşitli uygulamalarda güçlü yetenekler gösterse de karmaşık görevlerde doğru yanıt vermekte zorlanıyor
Mevcut performans iyileştirme çalışmaları büyük ölçüde ansambl yöntemlerinden ve çoklu LLM ajan iş birliği çerçevelerinden yararlandı
- LLM-Debate, birden fazla LLM ajanının aritmetik görevlerin nihai yanıtını tartışmasını sağlayarak tek ajana göre akıl yürütme performansını artırıyor
- CoT-SC, birden fazla düşünce zinciri (thought chain) üretip en tutarlı yanıtı seçen bir yöntem olarak, tek düşünce zinciri kullanan CoT'ye kıyasla akıl yürütme performansını iyileştiriyor
Önceki sonuçlarda da ajan sayısı veya düşünce zinciri sayısı arttıkça performansın yükseldiği gözlemlenmiş olsa da, temel LLM ajan sayısının ölçeklenme özellikleri başlı başına bir araştırma konusu olarak yeterince ele alınmamıştı

Agent Forest nasıl çalışıyor?

Agent Forest, LLM ajan sayısındaki artışın performansa etkisini görmek için basit bir örnekleme-oylama süreci kullanıyor
İşleyiş iki adıma ayrılıyor
- Görev sorgusu, tek bir LLM'ye veya çoklu LLM ajan iş birliği çerçevesine tekrar tekrar verilerek birden fazla çıktı üretiliyor
- Üretilen çıktılara çoğunluk oylaması uygulanarak nihai sonuç belirleniyor
Süreç CoT-SC'den ilham alıyor, ancak karmaşık CoT yolu tasarımına bağlı değil
Adı, klasik Random Forest'a bir saygı duruşu niteliğinde

GSM8K ve çeşitli görevlerde sonuçlar

Deneyler, farklı boyutlardaki çeşitli LLM'ler ve akıl yürütme/üretim görevlerini içeren birden fazla veri kümesi üzerinde yürütüldü
Genel olarak ansambl boyutu, yani ajan sayısı büyüdükçe LLM performansı artabiliyor
Figure 1'deki GSM8K sonuçlarında Llama2-13B, Llama2-70B ve GPT-3.5-Turbo'nun tümünde ansambl boyutu arttıkça doğruluk yükseliyor
- Ansambl boyutu 15'te Llama2-13B, Llama2-70B ile karşılaştırılabilir doğruluğa ulaşıyor
- Ansambl boyutu 15 ve 20'de Llama2-70B ile GPT-3.5-Turbo, sırasıyla daha güçlü karşılık modellerle karşılaştırılabilir doğruluk gösteriyor
- Şekildeki hata çubukları standart hatayı gösteriyor
Küçük LLM'ler de basit ansambl uygulandığında daha büyük LLM'lerle karşılaştırılabilir veya daha iyi performans gösterebiliyor

Mevcut tekniklerin üzerine eklenebilen performans artışı

Agent Forest, mevcut karmaşık LLM performans iyileştirme yöntemleriyle bağımsız olarak birleştirilebilen bir yaklaşım
CoT tabanlı yöntemlere eklenti gibi takılarak ek performans artışı sağlayabiliyor
Karmaşık yöntemlerle karşılaştırıldığında, çoğu durumda yalnızca Agent Forest ile de benzer performans elde edilebiliyor
Ek manuel prompt tasarımı veya karmaşık iş birliği çerçeveleri olmadan da rekabetçi sonuçlar alınabiliyor

Zorluk düzeyine göre etki ve optimizasyon

Performans artışı zor görevlerde ve zayıf modellerde daha büyük görünüyor
Problem zorluğunun Agent Forest etkisine olan etkisi üç boyutta inceleniyor
- Problemin içsel zorluğu
- Akıl yürütme adımlarının uzunluğu
- Doğru yanıtın önsel olasılığı
Her boyutun ayarlandığı deneylerle Agent Forest etkisini belirleyen özellikler doğrulanıyor
Belirlenen özelliklere dayanarak, “More Agents” etkisinin daha belirgin ortaya çıkmasını sağlayan ek optimizasyon stratejileri de geliştiriliyor
Açık kaynak kodu https://github.com/MoreAgentsIsAllYouNeed/AgentForest adresinde sunuluyor

1 yorum

GN⁺ 2024-04-08

Hacker News yorumları

Görünüşe göre bu makaleyi düzgün okumayan insanlar var
Bu makale, Chain-of-thought ya da LLM-Debate gibi çoklu ajan yapılandırmaları fikrini neredeyse çürütüyor gibi görünüyor
Makalede önerilen alternatif, aynı LLM’e aynı sorguyu birden fazla kez yöneltmek; ancak sorgular arasında bağlam paylaşmamak, sonra da yanıtlar arasındaki benzerliği hesaplayıp en sık çıkan cevabı seçmek
Eğer LLM halüsinasyonlarla doğru cevapları karışık veriyorsa, doğru cevaplar birbirine benzerken halüsinasyonlar dağınık şekilde yayılacağı için bu mantıklı
Üstelik bu basit algoritma, diğer çoklu ajan algoritmaları kadar, bazen onlardan daha da iyi çalışıyor
Yani akıllı prompt’lar kullanan diğer çoklu ajan teknikleri özel bir şey yapıyor gibi görünmüyor; iyileşmenin büyük kısmı muhtemelen LLM’i birden çok kez çalıştırıp “en iyi cevabı seçmesini” istemekten geliyor
- https://en.wikipedia.org/wiki/Lorenz_system
  Çok uzun zamandır hava simülasyonlarında giriş parametreleri ufak ufak değiştirilip model tekrar tekrar çalıştırılıyor, aykırı değerler atılıyor ve ortalama alınıyor; bu da oldukça iyi sonuç veriyor
  LLM’lerde de esasen rastgele bir seed, yani sıcaklık değeri olduğu için aynı girdiyi verip çıktıları ortalamak daha iyi bir tahmin sağlayabilir
  Lorenz system, halüsinasyon sorununun neden muhtemelen çözülemez olduğuna dair bir ipucu, hatta belki bir açıklama da sunuyor
  Bu bakış açısını kabul edince, LLM’lerin genel yapay zekaya giden yolda neredeyse çıkmaz sokak olduğu da hızlıca ortaya çıkıyor
  Simülasyon emülasyon değildir; LLM’lerin zekâ kazanma olasılığı, hava tahmininin havayı kontrol etme olasılığına benziyor
- GitHub Copilot kullanma deneyimime göre, halüsinasyonlar bir doğru olgunun olasılığı düşük olduğunda Copilot’un yine de en makul cevabı üretmesi yüzünden ortaya çıkıyor
  Genelde belirli bir kütüphane son derece alışılmadık ve belgelenmemiş bir şekilde çalışıyor oluyor; örnek istediğinizde ise, sanki o kütüphane gerçekten öyle çalışsaydı baştan ihtiyaç kalmayacak kadar güzel ve anlaşılır sahte fonksiyon kodu çıkıyor
  Böyle bir sorguyu birkaç kez daha çalıştırmanın yardımcı olacağını sanmıyorum
- Bu, makine öğreniminde uzun zamandır kullanılan ve etkili olduğu kanıtlanmış ensemble model fikrine çok benziyor
  Birden fazla tahminleyicinin sonuçlarını ortalamak ya da oylatıp en sık çıkan tahmini seçmek, farklı tahminlerin ortak paydasını alırken tahmin gürültüsünü de azaltabiliyor
- Sıcaklığı 0’a ayarlarsanız model en yüksek olasılıklı token’ı seçer ve çıktı her zaman aynı olur
  Ama bunun doğru cevabı garanti etmediğini zaten biliyoruz; öyleyse birden çok kez çalıştırmak nasıl daha iyi olabilir?
- “Eğer LLM halüsinasyonlarla doğru cevapları karışık veriyorsa, doğru cevaplar birbirine benzerken halüsinasyonlar dağınık şekilde yayılacaktır” kısmının, temel modelin belirli bir iddiaya ilişkin güven düzeyine yakın bir değer vereceğini varsaydığını düşünüyorum
  Bu kendi başına iyi, ama şehir efsaneleri ya da kültürel efsaneler de yüksek sıralara çıkacak gibi görünüyor
  Bu çok insani bir hata olsa da hâlâ bir hata
  Bunun ötesine geçmek için bir dünya modeli kurmak, çelişkileri bulmak ve bu çelişkileri giderecek yeni kanıtlar aramak gerektiğini düşünüyorum
Nihayet geldi
Yaklaşık 16 aydır, tek bir ajanı her şeyi doğru yapacak hale getirmeye odaklanmak yerine ajanları katmanlandırmak gerektiğini söylüyordum; artık işaret edebileceğim bir makale var, bu güzel
Görev başına azalan getirinin, ideal insan toplantısı büyüklüğüne benzer bir ölçekte hızla düzleşmesi de ilginç: https://www.researchgate.net/figure/18-Optimal-Meeting-Sizes...
Ajan sayısını daha ince adımlarla deneselerdi bu rakamlara ne kadar yaklaşacağını merak ediyorum
İleride her ajan biraz farklı hedeflere göre ince ayarlandığında performansın ne kadar daha artacağını da görmek isterim
Yalnızca her ajanın sıcaklık değerini farklı ayarlamak bile performans artışı sağlayabilir gibi geliyor
Araştırma topluluğunun bu yöne kaymaya başlaması beni çok sevindiriyor
- Kesinlikle katılıyorum
  LLMWare’in SLIM agents’ına da bakmaya değer: https://github.com/llmware-ai/llmware/tree/main/examples/SLI...
  Neredeyse tam olarak bu konuya odaklanıp birden fazla yerel LLM’i birbirine bağlıyor
  Bununla kesişen iyi bir konu da, modelin kullanım amacına göre deterministik örnekleme gerekliliği
  Terimi biraz yanlış kullanıyor olabilirim ama LLMWare ekibi bununla ilgili iyi bir iki bölümlük video hazırlamış: https://www.youtube.com/watch?v=7oMTGhSKuNY
  Geleceğin yolunun amaca özel küçük LLM’ler olduğunu düşünüyorum
  Bu arada onlarla hiçbir bağlantım yok; sadece gerçekten harika bir proje olduğunu düşünüyorum
- Bence insanlar da böyle çalışıyor
  Kafatasımızın içinde kendimizin 5 ya da 8 kadar farklı versiyonu dolaşıyor ve içlerinden biri bir ölçüde denetleyici rolü üstleniyor gibi
- Geçen yıl birkaç ay boyunca https://github.com/agi-merge/waggle-dance ile problem çözmeye yönelik bir çoklu ajan sistemi geliştiriyordum
- “Her birini biraz farklı hedeflere göre ince ayarlamak” dediğiniz şey, bir bakıma mixture of experts gibi değil mi?
- Araştırmacıların insanların deneysel olarak inşa ettiği şeyleri araştırması ilginç
  crewAI bunun bir örneği
Bunun yakın tarihli bir ACM ByteCast Edward Chang bölümüyle bağlantılı olduğu anlaşılıyor
Bölümde Stanford University Bilgisayar Bilimleri Bölümü'nde adjunct professor olan Edward Chang yer alıyor: https://learning.acm.org/bytecast/ep50-edward-y-chang
Dinlemek istemeyenler için bir döküm de var
Kullandığı yaklaşım, günümüz LLM'lerindeki tipik soru/cevap biçimi yerine, birden fazla LLM'in bir tartışma konusu hakkında birbiriyle konuşması ve insanın da moderatör rolünü üstlenmesi
Aynı kaynaklarla, birden fazla LLM'in konuşarak ulaştığı nihai yanıtın hem kesinlik hem de doğruluk açısından büyük ölçüde iyileştiği söyleniyor
- Bu makale sanki tartışma kısmının gerekli olmadığını söylüyor gibi
  LLM'lerin problemi bağımsız olarak çözmesine izin verip sonra en popüler yanıtı seçmek yeterli
- Haskell ile benzer bir şey yaptım
  Benchmark yapmadım ama oldukça ikna edici geldi
  Örneğin her agent'ı matematiğin alt alanlarına göre farklı bir “uzman” olarak tanımladım: kanıt teorisyeni, soyut cebir uzmanı vb.
  Yardımcı oldu ama sinyal/gürültü oranı yüksekti ve birçok agent aynı noktaları tekrarlıyordu
- Bu aslında crewAI gibi bir şeyi mi tarif ediyor?
Bütün bu uzman karışımı araştırmalarında beni hayal kırıklığına uğratan bir nokta var
Rastgele algoritmalara giriş ya da temel olasılıksal muhakemeye bakınca bile, sıcaklık parametresi 0'dan büyükse LLM'e N kez sorgu gönderip çoğunluk oylaması sonucunu seçmenin, bir kez sorup o sonucu seçmekten genelde daha iyi performans vereceği görülür
Farklı LLM'leri uzmanlaştırıp karıştırırsanız ek iyileşme mümkün gibi görünüyor; böyle bir durumda sıcaklığı 0'da da çalıştırabilirsiniz
Ya da bu makalenin önerdiği gibi işi alt görevlere daha iyi ayırmanın yolları olabilir
Ama bana göre kimse bu varsayımsal kazancı basit rastgele tekrar yöntemiyle karşılaştırıp gerçekten nicel olarak ölçmedi
Özellikle bazı oylama stratejileri veya karışım yöntemleri, hatta bazı modellerde MoE benzeri yaklaşımlar, saf tekrardan kesin olarak daha kötü bile olabilir
LLM araştırmacısı değilim, daha çok endişeli bir vatandaş gibiyim; bir şeyi gözden kaçırmış olabilirim
Yine de LLM araştırmacıları Motwani/Raghavan'ın ilk bölümünü unutmuş gibi göründüğünden garip geliyor
- Rastgele seçilmiş token'lar arasından en iyi token'ı seçmekle, rastgele seçilmiş token dizeleri arasından en iyi dizeyi seçmek arasında bir fark var gibi görünüyor
Grafiğe kabaca bakınca kazancın büyük kısmı 10 agent'ta geliyor, 20'de biraz daha artıyor, ondan sonra ise azalan getiri var
Sadece daha fazla agent eklemek çözüm olmayacak gibi
Herkese açık bir depo var: https://anonymous.4open.science/r/more_agent_is_all_you_need...
Benchmark'ta kullanılan prompt'lar burada: https://anonymous.4open.science/r/more_agent_is_all_you_need...
Oldukça ilginç
Bunun gibi, ama araç setleri kullanan LLM tabanlı agent'ları benchmark eden çalışmalar da görmek isterim
Bu inanılmaz pahalı ve sürdürülemez bir yöntem değil mi?
En yeni modellerde muhtemelen azalan getiri başlayacaktır; bu yüzden yolun MoE'den geçtiği fikrine katılıyorum
Ama tek bir prompt'un işlem maliyeti bir anda 7~15 kat artmıyor mu?
- GPT-4, GPT-3.5'ten 20 kat daha pahalı ama benzer yanıt kalitesi almak için GPT-3.5'i 10 kez çalıştırmak yeterliyse, muhtemelen daha hızlı da olacağı için yine avantajlıdır
- “Tek gereken altı haneli bir OpenAI faturası”
- Yenilenemeyen kaynak kullanımı ve emisyonlar da 7~15 kat artıyor
- Eee, sorun ne? GPU'lar hesaplama sıkıntısı çekiyor değil ya
- Aynen, GPT-3.5 ve GPT-4 fiyatlarına bakmak yeterli
Sadece mevcut en üstteki birkaç yorumu okumak bile, LLM hizmeti sunan şirketlerin iş modelini tuhaf hissettiriyor
Bu, sizi A'dan B'ye götürmek için n kez çağrılması gereken bir araç hizmeti ya da kıyafetin “muhtemelen” temiz olması için deterjanın n kez uygulanması gereken bir deterjan gibi
Şirket para karşılığında “yapay zeka” sağlıyorsa, yalnızca doğru cevap için ödeme yapmak daha mantıklı değil mi?
Bir araç hizmeti veriliyorsa, ancak sizi hedefe ulaştırdığında ödeme yapmanız gerekmez mi?
- Katılıyorum
  Yeterince sık başarısız oluyorsa, insanın ya da genel amaçlı geleneksel otomasyonun daha iyi olduğu eşik oldukça düşmüyor mu?
  Bu balonun böyle patlayacağını düşünüyorum
  LLM'lerin çığır açıcı araçlar olduğundan şüphem yok ama son derece dar uygulamalar dışında samimi olarak şüpheliyim
  Belki de ders şu: LLM agent'larında sorumluluğu dağıtma biçimi, mevcut insan organizasyonlarının başarısızlık modeliyle aynı
- Şirketler normalde hizmet ya da ürün sunar
  Kararlaştırılan şeyi sağlayamazlarsa müşteri düzeltme talep edebilir
  Bir taksi şoförü gereksiz derecede karmaşık bir rota izlerse, aşırı ücret alırsa ya da sizi hedefe ulaştırmazsa taksi şirketine şikayette bulunabilirsiniz
  Çamaşır düzgün yıkanmadıysa yeniden yapılmasını istersiniz
  Ama birçok faaliyet doğası gereği risklidir veya sonucu belirsizdir
  Çünkü kimsenin kontrol edemeyeceği unsurlar her zaman vardır
  Bir avukat davayı kazanacağını garanti edemez ama elinden gelenin en iyisiyle davayı temsil etmelidir
  Bir doktor yeniden sağlıklı olacağınızı garanti etmez
  Hiçbir taksi şoförü hedefe zamanında varacağınızı garanti etmez ama sizi hedefe götürür
  Atlassian, yönetilen bir JIRA instance'ı kullandığınız için sürüm teslim tarihini tutturacağınızı garanti etmez ama veri kaybını önlemek için elinden geleni yapar
  Temelde chatbot erişimi satan şirketler de doğru sonucu garanti etmeyecektir
  Muhtemelen garanti edebilecekleri şey erişilebilirliktir
- Karşı argüman olarak, National Weather Service'in tahminleri her zaman doğru değildir ama sadece tahminin tuttuğu günlerde NWS'ye ödeme yapmıyoruz
GPT-3.5 agent'larını ne kadar ensemble ederseniz edin, doğruluk tek bir GPT-4 çağrısından daha düşük kalıyor
- İşin ilginç yanı, GPT-4'ün aslında bir tür GPT-3.5 sürüsü olması
  Sadece doğru şekilde bir araya getirmek gerekiyor

Yalnızca ajan sayısını artırmak bile LLM performansını ölçekleyebiliyor

Karmaşık görevlerde dalgalanan LLM doğruluğu

Agent Forest nasıl çalışıyor?

GSM8K ve çeşitli görevlerde sonuçlar

Mevcut tekniklerin üzerine eklenebilen performans artışı

Zorluk düzeyine göre etki ve optimizasyon

İlgili okumalar

1 yorum

Hacker News yorumları