[Çeviri] MoA (Mixture-of-Agents, ajan karışımı tekniği): LLM performansını artırmak için yeni bir yöntem

(discuss.pytorch.kr)

3 puan yazan ninebow 2024-06-24 | Henüz yorum yok. | WhatsApp'ta paylaş

PyTorchKR

MoE (Mixture-of-Experts) ve MoD (Mixture-of-Depths) sonrasında, LLM performansını artırmaya yönelik yeni bir teknik daha önerildi ve burada tanıtıyoruz. Ajan karışımı (MoA, Mixture-of-Agents) adı verilen bu teknik, birden fazla LLM’in güçlü yönlerini bir araya getirerek kolektif uzmanlıktan yararlanıp performansı önemli ölçüde artırabilen bir yöntem olarak tanıtılıyor. Gelin birlikte bakalım. :smiley:

Uzman karışımı (MoE, Mixture-of-Experts) tekniğine kısa bir giriş

Uzman karışımı olarak bilinen MoE (Mixture-of-Experts) tekniği, eğitim aşamasında birden fazla uzman modeli içerecek şekilde eğitilir; böylece modelin boyutu büyük olsa da, çalıştırma (çıkarım, inference) aşamasında kullanıcının sorusuna (query) uygun yanıt verebilecek yalnızca bazı uzmanlar etkinleştirilir. Bu yaklaşım model performansını artırmak için kullanılır. #mixture-of-experts

Derinlik karışımı (MoD, Mixture-of-Depths) tekniğine kısa bir giriş

Son dönemde, derinlik karışımı tekniği olarak adlandırılabilecek MoD (Mixture-of-Depths) tekniği üzerine de çalışmalar yapıldı ve bu teknik yayımlandı. Bu yaklaşım, etkinleştirilen katman sayısını azaltarak derinliği (depth) düşürmeye odaklanır. #mixture-of-depths

MoA (Mixture-of-Agents, ajan karışımı tekniği): LLM performansını artırmak için yeni bir yöntem

Ajan karışımı (MoA, Mixture-of-Agents) tekniğine ait makaleye giriş

Son dönemde pek çok büyük dil modeli (LLM) piyasaya sürülüyor ve açık hale getiriliyor; her bir LLM de bir veya birden fazla alanda etkileyici performans sergiliyor. Ancak bu LLM’lerin performansı model boyutu, eğitim verisi ve hesaplama altyapısı ile orantılı şekilde artıyor; dolayısıyla bu modelleri daha da ölçeklendirmek oldukça maliyetli hale geliyor.

Bu makale(Mixture-of-Agents Enhances Large Language Model Capabilities), birden fazla LLM’in güçlü yanlarından yararlanarak çıkarım ve dil üretim yeteneklerini geliştirebilen bir ajan karışımı (Mixture-of-Agent) çerçevesi öneriyor. Bu ajan karışımı tekniği, modelin başka modellerin yanıtlarını kullandığında, bu yanıtların kalitesi düşük olsa bile, kullanmadığı duruma kıyasla daha iyi kalitede yanıt üretebilmesine dayanan LLM’ler arası işbirlikçilik (collaborativeness) kavramına dayanıyor.

Bu MoA tekniği sayesinde, farklı LLM’lerin sahip olduğu özgün güçlü yönler bir araya getirilerek uzmanlıkları birleştiriliyor ve sonuçta daha iyi performans elde ediliyor. Sonuç olarak AlpacaEval 2.0, MT-Benchmark ve FLASK gibi çeşitli benchmark’larda üstün performans gösterdi; özellikle de GPT-4o (GPT-4 Omni) karşısında daha iyi sonuçlar verdi.

Daha da önemlisi, MoA tekniğinin en büyük avantajı, mevcut LLM’in kendisini değiştirmeden yalnızca giriş prompt’unu ve bazı ayarları (temperature dahil sampling options) değiştirerek kullanılabilmesidir. Yani ek bir fine-tuning süreci gerektirmez; ayrıca kullanılan ajan LLM’in ölçeğinden veya mimarisinden bağımsız olarak en güncel LLM’leri hemen uygulamaya alabilme esnekliği ve ölçeklenebilirliği sağlar.

Ajan karışımı (MoA, Mixture-of-Agents) tekniğine giriş

Mixture-of-Agents (MoA) metodolojisi, birden fazla LLM’in kolektif uzmanlığını hiyerarşik bir yapı üzerinden kullanmayı amaçlar. Her katman, birden fazla LLM ajanından oluşur ve önceki katmanın çıktılarına dayanarak yanıt üretip nihai çıktıyı kademeli olarak iyileştirir.

MoA tekniğinin temel fikri, büyük dil modellerinin (LLM) başka modellerin yanıtlarına başvurduğunda daha yüksek kaliteli yanıtlar üretebilmesidir. Yani birden fazla LLM’in yanıtlarının birbirine referans olmasına izin verilerek işbirlikçilik (collaborativeness) kazandırılır ve böylece son yanıtın performansı artırılır. Bu sayede ara çıktılar düşük kaliteli olsa bile, nihai yanıtın kalitesi önemli ölçüde yükseltilebilir.

Ajan karışımı tekniğinin başlıca özellikleri şöyle özetlenebilir:

Hiyerarşik yapı: MoA çerçevesi, birden fazla LLM ajanından oluşan çok katmanlı bir yapı kullanır. Her ajan, önceki katmandaki yanıtları iyileştirerek nihai çıktıyı kademeli biçimde geliştirir.
Model çeşitliliği: Çerçeve, her katmanda farklı LLM’lerin kullanılmasını özellikle vurgular. Farklı modeller bir araya geldiğinde daha zengin ve daha ayrıntılı yanıtlar üretilebilir.
Yinelemeli iyileştirme: Yinelemeli süreç, üretilen metnin sürekli olarak iyileştirilmesini sağlar ve birden fazla modelin işbirlikçi senteziyle en iyi sonucun elde edilmesine yardımcı olur.

Büyük dil modellerinin işbirlikçiliği (Collaborativeness)

Büyük dil modellerinin (LLM, Large Language Models) işbirlikçiliği (collaborativeness), farklı LLM’lerin birbirlerinin çıktılarına başvurduğunda daha iyi yanıtlar üretebilme yeteneğini ifade eder. Pek çok araştırmaya göre, bir dil modeli başka bir modelin çıktısını yardımcı bilgi olarak kullandığında yanıt kalitesi artar. Bunun nedeni, her modelin farklı güçlü yönlere sahip olmasıdır.

Örneğin bir model karmaşık komutları çok iyi takip ederken, başka bir model kod üretiminde daha üstün performans gösterebilir. Bu çeşitlilik, işbirlikçi bir ortamda her modelin diğerinin zayıf yönlerini telafi etmesini mümkün kılar. Bu işbirlikçiliği deneysel olarak göstermek için çeşitli benchmark testleri kullanıldı; özellikle AlpacaEval 2.0 benchmark’ında, birden fazla model birbirinin çıktılarını referans aldığında performansın ciddi biçimde arttığı görüldü.

Böylece LLM’lere, bağımsız olarak üretilmiş yanıtlar sağlandığında genel performansın belirgin şekilde yükseldiği gözlemlenebiliyor. Bu tür sonuçlar, LLM’lerin doğası gereği işbirlikçi bir özellik taşıdığını gösteriyor. Ayrıca düşük kaliteli çıktıların bile, başka modellerin çıktılarından bilgi alındığında daha iyi yanıtlar üretilmesine katkı sağlayabildiğine işaret ediyor.

Bu makalede, ajan karışımı tekniğinde (MoA) kullanılan LLM’lerin rolleri ikiye ayrılarak anlatılıyor: önerici (Proposer) ve birleştirici (Aggregator).

Önerici (Proposer) LLM: Başka modellerin kullanabileceği faydalı referans yanıtlar üretmede başarılı olan LLM’dir. İyi bir önerici, tek başına mutlaka yüksek puan alan yanıtlar üretmeyebilir; ancak daha fazla bağlam ve farklı bakış açıları sağlayarak, sonuçta birleştirici (Aggregator) ile birlikte kullanıldığında daha iyi bir nihai yanıta katkıda bulunabilir.
Birleştirici (Aggregator) LLM: Başka model(ler)in yanıtlarını tek bir yüksek kaliteli çıktıda sentezleme konusunda yetkin modeldir. Etkili bir birleştirici, önerici (Proposer) tarafından sağlanan girdiler kendi başına üretebileceği yanıttan daha düşük kaliteli olsa bile nihai yanıtın kalitesini koruyabilmeli veya artırabilmelidir.

Ajan karışımı tekniğinin yapısı (Architecture of MoA, Mixture-of-Agents)

MoA çerçevesi, yukarıdaki şekilde görüldüğü gibi birden fazla katmandan (Layer, $l$) oluşur ve her katmanda (Layer-$i$) birden fazla ($n$) LLM bulunur. Şekilde, $i$’inci katmandaki her LLM sırasıyla $A_{i,1}$, $A_{i,2}$, ...$A_{i,n}$ olarak gösterilmektedir. Bu yapıda her katmandaki ajanlar, önceki katmanın tüm çıktılarını yardımcı bilgi olarak kullanarak yanıt üretir. Burada dikkat edilmesi gereken nokta, her LLM’in aynı katmanda ve farklı katmanlarda yeniden kullanılabilmesidir.

Başlangıçta ilk katmandaki LLM’ler, verilen prompt’a bağımsız olarak yanıt üretir. Ardından bu yanıtlar, daha rafine yanıtlar üretmeleri için bir sonraki katmandaki ajanlara aktarılır. Bu süreç, sonunda daha hassas ve daha kapsamlı bir yanıt oluşana kadar tekrarlanır. Süreç birden fazla kez yinelenir ve sonuçta daha güçlü ve daha bütüncül bir yanıt elde edilir. Böylece tek tek modellerin sınırları aşılabilir, daha çeşitli bilgi ve bakış açıları birleştirilerek yüksek kaliteli yanıtlar üretilebilir; bu da özellikle karmaşık problem çözümünde çok yararlıdır.

Bu ajan karışımı mimarisinin bir diğer önemli unsuru da model seçimidir. Her katmana dahil edilecek modellerin performans ve çeşitlilik açısından dikkatle seçilmesi önemlidir. Performans göstergeleri ve model çeşitliliği dikkate alınarak en uygun ajan bileşimi belirlenir.

Kullanılacak ajanların (LLM) seçim ölçütleri

Ajan karışımı tekniğinde, belirli bir görevi ne kadar iyi yerine getirdiğini gösteren performans göstergelerinin yanı sıra, ne kadar çeşitli yanıtlar üretebildiğini gösteren çeşitlilik de model seçiminde kullanılır:

Performans göstergeleri (Performance Metrics): Her modelin belirli bir görevde ne kadar iyi performans gösterdiğini ifade eder ve bu sayede yüksek kaliteli çıktı üretebilen modeller seçilir. Çeşitlilik ise modellerin sorunlara farklı şekillerde yaklaşma ve çözme yeteneğini ifade eder. Örneğin bir model doğal dil işlemede çok güçlü olabilirken, başka bir model kod üretimi veya matematik problemi çözümünde daha iyi olabilir. Bu farklı yeteneklere sahip modeller karıştırıldığında, çok ajanlı yapı daha kapsamlı ve daha güçlü yanıtlar üretebilir.
Çeşitlilik değerlendirmeleri (Diversity Considerations): Model çeşitliliği, tek bir modelin sahip olabileceği önyargıları azaltır ve daha geniş bir problem yelpazesini çözmeyi mümkün kılar. Örneğin aynı model birden fazla katmanda tekrar tekrar kullanılırsa, modelin sınırlamaları nedeniyle yanıt kalitesi düşebilir. Bu yüzden farklı modeller kullanmak önemlidir. Performans göstergeleri ve çeşitlilik birlikte değerlendirilerek her katman için uygun modellerin seçilmesi, nihai yanıt kalitesini en üst düzeye çıkarabilir.

Tek önericili (Single-Proposer) yapı ve çok önericili (Multi-Proposer) yapı

Yüksek düzeyde soyut bir bakış açısından, ajan karışımı tekniği (MoA), uzman karışımı tekniğinin (MoE) model düzeyine taşınmış hali olarak görülebilir. MoA tekniği, LLM’in iç aktivasyonlarını veya ağırlıklarını değiştirmeden tamamen prompt arayüzü üzerinden çalışabilir. Yani MoE’de olduğu gibi tek bir model içinde uzmanlaşmış alt ağlar kullanmak yerine, bir veya birden fazla LLM’i birden fazla katmana yayarak kullanır.

Tek önericili (Single-Proposer) yapı: Ajan karışımı tekniği (MoA) temelde birden fazla ajan (LLM) kullanmayı esas alsa da, aynı LLM birden çok kez de kullanılabilir. Bu durumda aynı modele girdi verilirken temperature başta olmak üzere çeşitli sampling ayarları değiştirilerek farklı çıktılar üretilmesi sağlanır. Bu tek önericili yapıda her katmanda yalnızca bir veya az sayıda model etkin olsa da, bu modellerin ürettiği çeşitli yanıtlar, birleştiricinin (Aggregator) nihai yanıtı oluşturmasında önemli rol oynar.
Çok önericili (Multi-Proposer) yapı: Her katmanda farklı modeller kullanılarak farklı çıktılar üretilir. Bu, modeller arası etkileşimi ve işbirlikçiliği en üst düzeye çıkararak daha kapsamlı ve daha yüksek kaliteli yanıtlar üretmeyi mümkün kılar. Çok önericili yapı, model çeşitliliğinden azami düzeyde yararlanarak problem çözümünün kapsamını genişletir ve tek bir modelin sınırlamalarını aşabilir. Bu yapı sayesinde çok ajanlı sistem, daha güçlü ve daha bütüncül çözümler sunabilir.

Burada önericiler (Proposers) ile birleştiriciler (Aggregators) birbirini tamamlayan roller üstlenir. Önericiler farklı yaklaşımlarla ilk yanıtları üretirken, birleştiriciler bu yanıtları sentezleyerek nihai yanıtın kalitesini güvence altına alır. Bu işbirlikçi yapı sayesinde çok ajanlı sistem, tek bir modele kıyasla daha güçlü ve daha kapsamlı yanıtlar sunabilir.

MoA tekniğinin performansı ve maliyet verimliliği

MoA tekniğinin performansı

Yukarıdaki tabloda MoA ve MoA-Lite, 6 önericiye (proposer) sahip olup sırasıyla 3 katmanlı ve 2 katmanlı modellerdir. MoA w/ GPT-4o ise MoA’nin son birleştiricisi (aggregator) olarak GPT-4o kullanan modeldir. Yukarıdaki benchmark sonuçları, her biri üç kez çalıştırıldıktan sonra ortalama puan ve standart sapma ile birlikte yayımlanmıştır.

MoA tekniğini kullanan model, AlpacaEval 2.0’da %65.1 puan alarak GPT-4o’nun %57.5’lik sonucunu geride bıraktı. Ayrıca MT-Benchmark’ta da GPT-4o’dan daha iyi performans gösterdi.

Yukarıdaki şekilde görüldüğü gibi, MoA tekniği tek bir LLM kullanıldığında elde edilenden daha iyi performans sergiliyor. Bunun nedeni, birleştiricinin (aggregator) yalnızca önerici (proposer) LLM’lerin ürettiği yanıtlar arasından birini seçmesi değil; önerilen yanıtların tümünü birlikte değerlendirerek kendi yanıtını üretmesi gibi görünüyor.

Yukarıdaki şeklin sağ tarafında ise BLEU benzeri benzerlik puanları kullanılarak birleştiricinin (aggregator) yanıtı ile önericilerin (proposer) yanıtları karşılaştırılmıştır. Her örnekte, önericilerin $n$ adet yanıtına dayanarak GPT-4 tabanlı bir değerlendiricinin belirlediği $n$ adet tercih puanı ile $n$ adet benzerlik puanı arasındaki sıra korelasyon katsayısı hesaplanmıştır. Başka bir deyişle, kazanma oranı ile BLEU puanı arasında pozitif korelasyon olduğu doğrulanmıştır.

Bunun dışında, her katman için uygun önerici sayısını bulmak amacıyla önerici sayısı (soldaki üst tabloda $n$) değiştirilerek bunun nihai kalite üzerindeki etkisi de analiz edilmiştir. $n$ arttıkça nihai kalitenin arttığı görülmüştür; bu da farklı modellerin farklı yanıtlar üretmesi sayesinde birleştiricinin kullanabileceği bilgi miktarının artmasıyla açıklanabilir. (Buradaki tek önericili (Single-Proposer) yapı, tek bir LLM’in temperature değeri 0.7’ye sabitlenerek kullanıldığı sonuçtur.)

Ayrıca, önerici ve birleştirici rollerinden hangisinde özellikle başarılı modeller olup olmadığını görmek için deneyler de yapılmıştır. (Sağ üst tablo) GPT-4o, Qwen ve LLaMA-3 modelleri hem önerici hem birleştirici olarak iyi performans gösterirken, WizardLM dahil bazı modellerin birleştirici olmaktan çok önerici olarak daha iyi sonuç verdiği görülmüştür.

MoA tekniğinin token ve maliyet verimliliği

Bütçe ve token analizleri de dahil olmak üzere sonuçlar, MoA’nin diğer son teknoloji modellere kıyasla daha düşük maliyetle yüksek performans sunabildiğini gösteriyor. Bu da yaklaşımın yalnızca etkili değil, aynı zamanda maliyet açısından verimli olduğunu; aşırı harcama yapmadan LLM yeteneklerini genişletmek için pratik bir çözüm sunduğunu ifade ediyor.

Yukarıdaki görselin sol tarafında (a), AlpacaEval 2.0 benchmark’ındaki her örnek için ortalama çıkarım maliyeti ve LC kazanma oranı gösteriliyor. Hesaplama, her API sağlayıcısının maliyetleri temel alınarak yapılmış; bu da MoA tekniğinin yüksek performans elde ederken aşırı maliyet yaratmayan, maliyet açısından verimli bir yöntem olduğunu ortaya koyuyor. Özellikle MoA-Lite’ın, GPT-4 Turbo’dan yaklaşık %4 daha iyi performans göstermesi ve maliyet verimliliğinde iki katın üzerine çıkması dikkat çekici.

Yukarıdaki görselin sağ tarafında (b) ise LC kazanma oranı ile teraflop sayısı arasındaki ilişki gösteriliyor. Burada teraflop sayısı, gecikme süresini (latency) temsil eden bir değer olarak kullanılıyor. Burada da maliyet verimliliği analizine benzer şekilde bir Pareto frontier gözlemleniyor. Yani hesaplama kaynakları verimli biçimde kullanılırken LC kazanma oranının en üst düzeye çıkarıldığı görülüyor.

İşbirlikçilik ve çeşitlilik üzerine ek değerlendirmeler

Bu makalede gerçekleştirilen çeşitli deneylerin sonucunda, LLM’lerin başka modellerin çıktılarını referans aldıklarında daha iyi yanıtlar ürettiği doğrulanmıştır. Bu işbirlikçilik, MoA tekniğinin performans artışı sağlamasındaki temel unsurdur. Ayrıca her katmanda farklı LLM’ler kullanmanın, tek bir modele bağımlı kalmaktan tutarlı biçimde daha iyi sonuç verdiği de gösterilmiştir. Başka bir deyişle, model çeşitliliğinin ortaya çıkardığı yanıt çeşitliliğinin genel performansı artırmada etkili olduğu doğrulanmıştır.

Sonuç

Buraya kadar görüldüğü üzere, ajan karışımı tekniği (MoA, Mixture-of-Agents), birden fazla LLM’in kolektif güçlü yönlerinden yararlanma açısından önemli bir ilerlemeyi temsil ediyor. Hiyerarşik ve işbirlikçi yaklaşımı sayesinde MoA, çeşitli benchmark’larda üstün performans sergiliyor ve model çeşitliliği ile yinelemeli rafinasyonun değerini ortaya koyuyor. Bu yaklaşım kullanılarak daha güçlü ve daha verimli LLM sistemleri için yeni denemeler yapılabileceği düşünülüyor.

MoA tekniği makalesi

https://arxiv.org/abs/2406.04692

MoA tekniği deposu

https://github.com/togethercomputer/moa

OpenPipe, MoA tekniğini kullanarak GPT-4 performansını 25 kat daha düşük maliyetle aşan bir model sunuyor

https://discuss.pytorch.kr/t/openpipe-moa-25-gpt-4/4668

Bu yazı, GPT modeliyle derlenmiş bir metne dayanılarak hazırlanmıştır; bu nedenle içerik, özgün metnin anlamı veya niyetiyle tam olarak örtüşmeyebilir. Konu ilginizi çekiyorsa özgün metne de göz atmanız önerilir. Okurken garip veya hatalı bir bölüm fark ederseniz lütfen yorumlarda bildirin. 🤗

⚠️Reklam⚠️: :pytorch:PyTorch Kore Kullanıcı Topluluğu🇰🇷 tarafından derlenen bu yazıyı faydalı bulduysanız, üye olup öne çıkan yazıları e-posta💌 ile alabilirsiniz! (Varsayılan gönderim Weekly’dir, ancak Daily olarak da değiştirilebilir.)