2 puan yazan GN⁺ 2024-04-08 | 1 yorum | WhatsApp'ta paylaş

Gereken tek şey daha fazla ajan

  • Büyük dil modellerinin (LLM'ler) performansının, örneklenmiş ajanların sayısına bağlı olarak ölçeklenebileceği bulundu.
  • Örnekleme ve oylama yöntemleriyle, mevcut karmaşık yöntemlerden bağımsız olarak LLM'ler geliştirilebilir ve iyileşme düzeyi görev zorluğuyla ilişkilidir.
  • Çeşitli LLM benchmark'larında kapsamlı deneyler yürütülerek bu bulgunun varlığı doğrulandı ve ortaya çıkışını teşvik edebilecek özellikler incelendi.
  • Araştırmada kullanılan kodlar kamuya açık olarak erişilebilir.

GN⁺ görüşü

  • Bu araştırma, büyük dil modellerinin performansını artırmaya yönelik yeni bir yaklaşım sunarak yapay zeka alanına önemli bir katkı sağlayabilir.
  • Ajan sayısını artırmanın performans artışı üzerinde doğrudan etkili olduğuna dair bulgu, kaynak ölçeklenebilirliği ve verimlilik konusunda yeni bir bakış açısı sunuyor.
  • Deneysel sonuçların gerçek uygulamalara nasıl uyarlanabileceğine dair ek araştırmalara ihtiyaç var.
  • Performans artışının görev zorluğuyla ilişkili olması, belirli görevler için dil modellerine yönelik optimizasyon stratejileri oluşturmaya yardımcı olabilir.
  • Açık olarak paylaşılan kodlar sayesinde diğer araştırmacılar bu çalışmayı yeniden üretebilir ve genişletebilir; bu da bilimsel şeffaflığı ve iş birliğini teşvik eder.

1 yorum

 
GN⁺ 2024-04-08
Hacker News görüşleri
  • Birinci yorum özeti:

    • Bu makale, çoklu ajan kurulumlarının (ör. Chain-of-thought, LLM-Debate) arkasındaki genel fikri sorguluyor.
    • Alternatif bir yöntem olarak aynı LLM’ye aynı sorguyu birkaç kez çalıştırıp, yanıtlar arasındaki benzerlik algoritmasını kullanarak en yaygın yanıtı seçiyor.
    • Bu basit algoritma, diğer çoklu ajan algoritmalarıyla karşılaştırıldığında da üstün performans gösteriyor.
    • Bu da çoklu ajan şemasının özel bir şey yapmadığını ve iyileşmiş sonuçların esas olarak LLM’nin birden çok kez çalıştırılması ve en iyi yanıtı seçmesinin istenmesinden kaynaklandığını düşündürüyor.
  • İkinci yorum özeti:

    • Son 16 aydır, tek bir ajanın her şeyi doğru yapmasına odaklanmak yerine ajanları katmanlandırmak gerektiğini savunduğunu söylüyor.
    • Görev başına getirinin, ideal insan toplantısı büyüklüğüne benzer şekilde hızla azalmasının ilginç olduğunu belirtiyor.
    • Ajan sayısı daha ince ayarlanırsa bunun ideal toplantı büyüklüğüyle ne kadar örtüşeceğini merak ediyor.
    • Her ajanın biraz farklı hedeflerle ince ayarlandığında ne kadar performans artışı elde edilebileceğini görmek istiyor.
  • Üçüncü yorum özeti:

    • Bunun, yakın tarihli bir ACM ByteCast podcast bölümünde Stanford Üniversitesi Bilgisayar Bilimleri bölümünden Profesör Edward Chang’in ele aldığı konuyla ilgili olduğunu söylüyor.
    • Birden fazla LLM’nin bir tartışma konusu hakkında birbiriyle konuştuğu ve bir insanın moderatör rolü üstlendiği bir yaklaşım kullanılıyor.
    • Birden fazla LLM’nin diyalog yoluyla ulaştığı nihai yanıt, hem doğruluk hem de hassasiyet açısından büyük ölçüde iyileşiyor.
  • Dördüncü yorum özeti:

    • Mixture of Experts üzerine araştırmalarda duyduğu hayal kırıklığı, LLM’yi birkaç kez sorgulayıp çoğunluk oyu ile sonucu seçmenin, bir kez sorgulayıp o sonucu seçmekten genel olarak daha iyi performans göstermesinin zaten temel bir olasılıksal çıkarım olması.
    • Farklı LLM karışımları ya da işi alt görevlere bölmenin daha iyi yollarını bularak kazanımların daha da artırılabileceğini düşünüyor.
  • Beşinci yorum özeti:

    • Grafiklere bakıldığında, kazanımın büyük kısmı 10 ajanla elde ediliyor, 20 ajanla biraz daha fazla kazanım geliyor ve sonrasında getiri azalıyor.
  • Altıncı yorum özeti:

    • LLM hizmeti sunan şirketlerin iş modeli hakkında şakacı bir düşünce paylaşıyor: hedefe ulaşmak için birkaç kez çağırmanız gereken bir araç hizmeti ya da giysilerin ancak birkaç kez uygulandığında "belki" temizlendiği bir deterjan gibi.
    • "Yapay zeka" sunan bir şirketse, yalnızca doğru yanıtlar için ödeme yapmanın mantıklı olacağını söylüyor.
  • Yedinci yorum özeti:

    • Bu yöntemin çok pahalı ve sürdürülebilir olmayan bir şey olup olmadığını soruyor; yeni modellerde getirinin muhtemelen azalacağı için MoE’nin gidilmesi gereken yön olduğu görüşüne katılıyor.
    • Tek bir prompt için hesaplama maliyetinin 7-15 kat artacağını belirtiyor.
  • Sekizinci yorum özeti:

    • Yayınlanan depo ve benchmark için kullanılan prompt’ların oldukça ilginç olduğunu söylüyor.
    • Araç seti kullanan LLM tabanlı ajanların benchmark’landığını görmek istiyor.
  • Dokuzuncu yorum özeti:

    • "x her şeyin ihtiyacıdır" türü tüm ifadeleri bir araya getirirseniz, aslında pek çok şeye ihtiyaç olduğunu fark edeceğinizi söylüyor.
  • Onuncu yorum özeti:

    • Herhangi bir sayıda GPT 3.5 ajanından oluşan bir ensemble’ın, tek bir GPT-4 çağrısından daha düşük doğruluğa sahip olduğunu söylüyor.