[2024/06/17 ~ 06/23] Bu Haftanın Öne Çıkan ML Makaleleri (Top ML Papers of the Week)
(discuss.pytorch.kr)-
DAIR.AI tarafından her hafta yayımlanan ML makalelerine dair yazıyı otomatik olarak çevirdik.
-
Bu hafta seçilen makalelere bakıldığında, genel olarak iki ana eğilim öne çıkıyor. İlk olarak, makalelerin çoğunun doğal dil işleme (NLP) ile ilgili konulara odaklandığı görülüyor. Özellikle uzun bağlamı ele alan dil modelleri (LM) ile bilgi erişimi ve soru-cevap (QA) sistemlerinin verimliliğini artırmaya yönelik yöntemler başlıca ilgi alanları olarak öne çıkıyor. Örneğin, ‘Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?’ gibi makaleler uzun bağlamı anlama konusunda dil modellerinin potansiyelini araştırırken, ‘PlanRAG’ ve ‘From RAG to Rich Parameters’ bilgi erişimi ve soru-cevap sistemlerini geliştirmek için yeni yaklaşımlar sunuyor.
-
Dikkat çeken bir diğer eğilim ise dil modellerindeki memorization’ı (ezberleme olgusu) azaltma ya da self-refine süreçleriyle performansı iyileştirme girişimleri. ‘Mitigating Memorization in LLMs’ ve ‘Monte Carlos Tree Self-Refine’ bu açıdan öne çıkıyor. Ezberleme olgusunun azaltılması, dil modellerinin yalnızca eğitim verisini tekrar etmesi yerine daha genellenebilir bilgi öğrenebilmesi ve daha yaratıcı yanıtlar üretebilmesi açısından önem taşıyor. Bu da dil modellerinin pratikliğini ve faydasını en üst düzeye çıkarmanın anahtarlarından biri.
-
Bu eğilimler muhtemelen çeşitli etkenlerle hız kazanıyor. İlk olarak, yapay zeka alanında doğal dil işlemenin önemi her geçen gün artıyor ve buna yönelik teknik ilerleme de hızla sürüyor. İkinci olarak, bilgi miktarı muazzam ölçüde arttıkça bunu etkili şekilde işleyebilen ve kullanıcılara faydalı bilgi sunabilen teknolojilere duyulan ihtiyaç da büyüyor. Son olarak, son dönemin dil modelleri giderek daha karmaşık ve güçlü hale gelse de bu modellerin karşılaştığı sorunları çözmek için yeni yaklaşımlara sürekli ihtiyaç duyuluyor. Bu ihtiyacı karşılamak için araştırmacılar, mevcut çerçevelerin ötesine geçen yeni fikir ve yöntemler aramayı sürdürüyor.
Claude 3.5 Sonnet / Claude 3.5 Sonnet
Makale tanıtımı
MMLU ve HumanEval gibi çeşitli yaygın benchmark’larda son teknoloji performansına ulaşan yeni bir modeldir; matematik sözel problem çözme görevleri hariç çeşitli benchmark’larda Claude 3 Opus ve GPT-4o’dan daha iyi performans gösterir; görüntü-metne transkripsiyon ve artifact üretimi gibi çeşitli yeni özellikleri destekleyen görsel görevlerde de güçlü performans sunar.
A new model that achieves state-of-the-art performance on several common benchmarks such as MMLU and HumanEval; it outperforms Claude 3 Opus and GPT-4o on several benchmarks with the exception of math word problem-solving tasks; achieves strong performance on vision tasks which also helps power several new features like image-text transcription and generation of artifacts.
Makale bağlantısı
https://www.anthropic.com/news/claude-3-5-sonnet
Daha fazlası
https://discuss.pytorch.kr/t/gn-claude-3-5-sonnet-gpt4o/4665
https://x.com/AnthropicAI/status/1803790676988920098
DeepSeek-Coder-V2
Makale tanıtımı
Kod ve matematik üretim görevlerinde kapalı kaynak modellerle rekabet eder; HumanEval’da %90.2 ve MATH’ta %75.7 elde eder; rapora göre bu sonuçlar GPT-4-Turbo-0409 performansından daha yüksektir; 128K bağlam uzunluğuna sahip 16B ve 236B parametreli modeller içerir.
Competes with closed-sourced models on code and math generation tasks; achieves 90.2% on HumanEval and 75.7% on MATH; these results are higher than GPT-4-Turbo-0409 performance according to their report; includes a 16B and 236B parameter model with 128K context length.
Makale özeti (Abstract)
Kod odaklı görevlerde GPT4-Turbo ile kıyaslanabilir performans elde eden açık kaynaklı bir Mixture-of-Experts (MoE) kod dil modeli olan DeepSeek-Coder-V2’yi sunuyoruz. Özellikle DeepSeek-Coder-V2, DeepSeek-V2’nin ara checkpoint’lerinden biri üzerinden ek 6 trilyon token ile daha fazla ön eğitim almıştır. Bu devam eden ön eğitim sayesinde DeepSeek-Coder-V2, genel dil görevlerinde benzer performansı korurken DeepSeek-V2’nin kodlama ve matematiksel akıl yürütme yeteneklerini önemli ölçüde geliştirir. DeepSeek-Coder-33B ile karşılaştırıldığında DeepSeek-Coder-V2, hem akıl yürütme ve genel yeteneklerde hem de kodla ilgili görevlerin çeşitli yönlerinde kayda değer ilerleme göstermektedir. Ayrıca DeepSeek-Coder-V2, desteklediği programlama dillerini 86’dan 338’e çıkarırken bağlam uzunluğunu da 16K’den 128K’ye genişletmiştir. Standart benchmark değerlendirmelerinde DeepSeek-Coder-V2, kodlama ve matematik benchmark’larında GPT4-Turbo, Claude 3 Opus ve Gemini 1.5 Pro gibi kapalı kaynak modellere kıyasla daha üstün performans elde etmiştir.
We present DeepSeek-Coder-V2, an open-source Mixture-of-Experts (MoE) code language model that achieves performance comparable to GPT4-Turbo in code-specific tasks. Specifically, DeepSeek-Coder-V2 is further pre-trained from an intermediate checkpoint of DeepSeek-V2 with additional 6 trillion tokens. Through this continued pre-training, DeepSeek-Coder-V2 substantially enhances the coding and mathematical reasoning capabilities of DeepSeek-V2, while maintaining comparable performance in general language tasks. Compared to DeepSeek- Coder-33B, DeepSeek-Coder-V2 demonstrates significant advancements in various aspects of code-related tasks, as well as reasoning and general capabilities. Additionally, DeepSeek-Coder- V2 expands its support for programming languages from 86 to 338, while extending the context length from 16K to 128K. In standard benchmark evaluations, DeepSeek-Coder-V2 achieves superior performance compared to closed-source models such as GPT4-Turbo, Claude 3 Opus, and Gemini 1.5 Pro in coding and math benchmarks.
Makale bağlantısı
https://github.com/deepseek-ai/DeepSeek-Coder-V2/blob/main/paper.pdf
Daha fazlası
https://github.com/deepseek-ai/DeepSeek-Coder-V2
https://x.com/omarsar0/status/1803078095219417475
TextGrad: Metin yoluyla otomatik 'türev alma' / TextGrad: Automatic "Differentiation" via Text
Makale tanıtımı
LLM’nin sağladığı metinsel geri bildirim üzerinde geri yayılım yoluyla otomatik diferansiyasyon için yeni bir çerçeve; bireysel bileşenleri iyileştiriyor ve doğal dil, hesaplama grafiğini optimize etmeye yardımcı oluyor; istemleri veya bileşenleri ayarlamadan yalnızca bir amaç fonksiyonu vererek çalışıyor; GPT-4o ile birleştirildiğinde GPQA’da LeetCodeHard en iyi skorlarını ve SoTA performansını elde ettiğini öne sürüyor.
A new framework for automatic differentiation through backpropagation on textual feedback provided by an LLM; this improves individual components and the natural language helps to optimize the computation graph; it works by providing an objective function without tuning prompts or components; claims to achieve LeetCodeHard best scores and SoTA performance on GPQA when combined with GPT4o.
Makale özeti (Abstract)
Yapay zeka, birden fazla büyük dil modeli (LLM) ve diğer karmaşık bileşenleri orkestre eden sistemlerin sağladığı atılımlarla bir paradigma değişimi yaşıyor. Bunun sonucunda, bileşik yapay zeka sistemleri için ilkesel ve otomatik optimizasyon yöntemleri geliştirmek en önemli yeni zorluklardan biri haline geliyor. Sinir ağları da ilk dönemlerinde benzer bir zorlukla karşılaşmıştı, ancak geri yayılım ve otomatik diferansiyasyon optimizasyonu anahtar teslim hale getirerek bu alanı dönüştürdü. Bundan ilhamla, metin aracılığıyla otomatik “diferansiyasyon” gerçekleştiren güçlü bir çerçeve olan TextGrad’i tanıtıyoruz. TextGrad, LLM’lerin sağladığı metinsel geri bildirimi geri yayarak bileşik bir yapay zeka sisteminin tek tek bileşenlerini iyileştirir. Çerçevemizde LLM’ler, kod parçacıklarından moleküler yapılara kadar uzanan hesaplama grafiği değişkenlerini optimize etmek için zengin, genel ve doğal dilde öneriler sunar. TextGrad, PyTorch’un sözdizimi ve soyutlamalarını takip eder; esnek ve kullanımı kolaydır. Kullanıcıların çerçevenin bileşenlerini veya istemlerini ayarlamasına gerek kalmadan, yalnızca amaç fonksiyonunu sağlamasıyla çeşitli görevlerde doğrudan kullanılabilir. Soru yanıtlama ve molekül optimizasyonundan radyoterapi tedavi planlamasına kadar çeşitli uygulamalarda TextGrad’in etkinliğini ve genelliğini gösteriyoruz. Çerçevede herhangi bir değişiklik yapmadan TextGrad, Google-Proof Question Answering’de GPT-4o’nun zero-shot doğruluğunu $51%$’den $55%$’e çıkarıyor, LeetCode-Hard kodlama problemlerinin çözüm optimizasyonunda göreli olarak $20%$ performans artışı sağlıyor, akıl yürütme için istemleri iyileştiriyor, istenen in silico bağlanmaya sahip yeni ilaç benzeri küçük moleküller tasarlıyor ve yüksek özgüllükte radyasyon onkolojisi tedavi planları oluşturuyor. TextGrad, yeni nesil yapay zeka sistemlerinin geliştirilmesini hızlandıracak bir temel oluşturuyor.
AI is undergoing a paradigm shift, with breakthroughs achieved by systems orchestrating multiple large language models (LLMs) and other complex components. As a result, developing principled and automated optimization methods for compound AI systems is one of the most important new challenges. Neural networks faced a similar challenge in its early days until backpropagation and automatic differentiation transformed the field by making optimization turn-key. Inspired by this, we introduce TextGrad, a powerful framework performing automatic ``differentiation'' via text. TextGrad backpropagates textual feedback provided by LLMs to improve individual components of a compound AI system. In our framework, LLMs provide rich, general, natural language suggestions to optimize variables in computation graphs, ranging from code snippets to molecular structures. TextGrad follows PyTorch's syntax and abstraction and is flexible and easy-to-use. It works out-of-the-box for a variety of tasks, where the users only provide the objective function without tuning components or prompts of the framework. We showcase TextGrad's effectiveness and generality across a diverse range of applications, from question answering and molecule optimization to radiotherapy treatment planning. Without modifying the framework, TextGrad improves the zero-shot accuracy of GPT-4o in Google-Proof Question Answering from $51%$ to $55%$, yields $20%$ relative performance gain in optimizing LeetCode-Hard coding problem solutions, improves prompts for reasoning, designs new druglike small molecules with desirable in silico binding, and designs radiation oncology treatment plans with high specificity. TextGrad lays a foundation to accelerate the development of the next-generation of AI systems.
Makale bağlantısı
https://arxiv.org/abs/2406.07496v1
Daha fazlasını okuyun
https://x.com/james_y_zou/status/1800917174124740667
Uzun bağlamlı dil modelleri Retrieval, RAG, SQL ve daha fazlasının yerini alabilir mi? / Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?
Makale tanıtımı
Bağlam içi getirme ve akıl yürütme konusunda uzun bağlamlı LLM’lerin derinlemesine bir performans analizini sunuyor; önce 1 milyon token bağlam gerektiren gerçek dünya görevlerinden oluşan bir benchmark tanıtıyor; görevler üzerinde açık bir eğitim olmadan bile uzun bağlamlı LLM’lerin son teknoloji retrieval ve RAG sistemleriyle rekabet edebildiğini bildiriyor; SQL benzeri görevlerde gereken bileşimsel akıl yürütmenin bu LLM’ler için hâlâ zor olduğunu öne sürüyor; ayrıca uzun bağlam problemlerine uygulandığında performansta belirgin artışlar gördükleri için gelişmiş istem stratejileri üzerine araştırmaların sürmesi gerektiğini vurguluyor.
Conducts a deep performance analysis of long-context LLMs on in-context retrieval and reasoning; they first present a benchmark with real-world tasks requiring 1M token context; reports that long-context LLMs can rival state-of-the-art retrieval and RAG systems, without any explicit training on the tasks; suggests that compositional reasoning (required in SQL-like tasks) is still challenging for these LLMs; they also encourage the need for continued research on advanced prompting strategies as they noted significant boosts in performance when applying them for long context problems.
Makale özeti (Abstract)
Uzun bağlamlı dil modelleri (LCLM), arama sistemleri veya veritabanları gibi dış araçlara dayanan görevlere yaklaşımımızı kökten değiştirme potansiyeline sahiptir. LCLM'lerin tüm bilgi korpusunu yerel olarak alıp işleme yeteneğinden yararlanmak birçok avantaj sunar. Araçlar hakkında uzmanlık gereksinimini ortadan kaldırarak kullanım kolaylığını artırır, karmaşık işlem hatlarında zincirleme hataları en aza indiren güçlü uçtan uca modelleme sağlar ve tüm sistem genelinde gelişmiş prompt tekniklerinin uygulanmasına olanak tanır. Bu paradigma değişimini değerlendirmek için, bağlam içinde arama ve akıl yürütme konusunda LCLM performansını ölçmek üzere tasarlanmış, milyonlarca tokene kadar bağlam gerektiren gerçek dünya görevlerinden oluşan bir kıyaslama seti olan LOFT tanıtılıyor. Araştırma sonuçları, LCLM'lerin bu görevler için açıkça eğitilmemiş olmalarına rağmen, en gelişmiş arama ve RAG sistemleriyle rekabet edebilen şaşırtıcı bir yeteneğe sahip olduğunu gösteriyor. Ancak LCLM'ler, SQL benzeri görevlerde gereken bileşimsel akıl yürütme gibi alanlarda hâlâ zorlanıyor. Özellikle prompt stratejileri performansı önemli ölçüde etkilediğinden, bağlam uzunluğu arttıkça sürekli araştırma gereksinimi vurgulanıyor. Genel olarak LOFT, model yetenekleri ölçeklendikçe mevcut paradigmaların yerini alma ve yeni görevleri ele alma potansiyelini ortaya koyarken, LCLM'ler için de sıkı bir test zemini sunuyor.
Long-context language models (LCLMs) have the potential to revolutionize our approach to tasks traditionally reliant on external tools like retrieval systems or databases. Leveraging LCLMs' ability to natively ingest and process entire corpora of information offers numerous advantages. It enhances user-friendliness by eliminating the need for specialized knowledge of tools, provides robust end-to-end modeling that minimizes cascading errors in complex pipelines, and allows for the application of sophisticated prompting techniques across the entire system. To assess this paradigm shift, we introduce LOFT, a benchmark of real-world tasks requiring context up to millions of tokens designed to evaluate LCLMs' performance on in-context retrieval and reasoning. Our findings reveal LCLMs' surprising ability to rival state-of-the-art retrieval and RAG systems, despite never having been explicitly trained for these tasks. However, LCLMs still face challenges in areas like compositional reasoning that are required in SQL-like tasks. Notably, prompting strategies significantly influence performance, emphasizing the need for continued research as context lengths grow. Overall, LOFT provides a rigorous testing ground for LCLMs, showcasing their potential to supplant existing paradigms and tackle novel tasks as model capabilities scale.
Makale bağlantısı
https://arxiv.org/abs/2406.13121
Daha fazlasını okuyun
https://github.com/google-deepmind/loft
https://x.com/omarsar0/status/1804184820806766875
PlanRAG: Karar verici olarak üretici büyük dil modelleri için planlama sonrası retrieval augmented generation / PlanRAG: A Plan-then-Retrieval Augmented Generation for Generative Large Language Models as Decision Makers
Makale tanıtımı
Yinelemeli planlama sonrası RAG (PlanRAG) adlı yeni bir RAG tekniğiyle karar verme sürecini iyileştiriyor ve iki aşamadan oluşuyor: 1) LM, veri şemasını ve soruyu inceleyerek karar verme için bir plan oluşturuyor ve 2) retriever, veri analizi için sorgular üretiyor. Son aşamada ise ek analiz için yeni bir plana ihtiyaç olup olmadığı kontrol ediliyor; gerekirse önceki adımlar yineleniyor ya da veriye ilişkin bir karar veriliyor. PlanRAG'nin, önerilen Decision QA görevlerinde yinelemeli RAG'den daha etkili olduğu bulunmuştur.
Enhances decision making with a new RAG technique called iterative plan-then-RAG (PlanRAG); involves two steps: 1) an LM generates the plan for decision making by examining data schema and questions and 2) the retriever generates the queries for data analysis; the final step checks if a new plan for further analysis is needed and iterates on previous steps or makes a decision on the data; PlanRAG is found to be more effective than iterative RAG on the proposed Decision QA tasks.
Makale özeti (Abstract)
Bu makale, karmaşık veri analizi gerektiren karar verme süreçleri için bir çözüm olarak LLM'lerin kullanımını inceliyor. Karar verme QA'si, bir karar verme sorusu $Q$, iş kuralları $R$ ve veritabanı $D$ için en iyi karar olan $d_{best}$ yanıtını bulma görevi olarak tanımlanıyor. Karar verme QA'sini değerlendirebilecek bir benchmark bulunmadığı için, DQA adlı bir karar verme QA benchmark'ı öneriliyor. Bu benchmark, karar verme QA ile neredeyse aynı hedefe sahip iki video oyunundan (Europa Universalis IV ve Victoria 3) oluşturulmuş iki senaryodan, yani Locating ve Building'den oluşuyor. Ayrıca ekip, Decision QA'i etkili biçimde ele almak için iteratif plan-sonra-getirme ile zenginleştirilmiş üretim (PlanRAG) adlı yeni bir RAG tekniği de öneriyor. PlanRAG tabanlı LM, ilk adımda karar verme için bir plan üretiyor; ikinci adımda ise veri analizi için sorgular getirme sistemi tarafından oluşturuluyor. Önerilen yöntem, en gelişmiş iteratif RAG yöntemine kıyasla Locating senaryosunda %15,8 ve Building senaryosunda %7,4 daha iyi performans gösterdi. Kod ve benchmark https://github.com/myeon9h/PlanRAG adresinde yayımlandı.
In this paper, we conduct a study to utilize LLMs as a solution for decision making that requires complex data analysis. We define Decision QA as the task of answering the best decision, $d_{best}$, for a decision-making question $Q$, business rules $R$ and a database $D$. Since there is no benchmark that can examine Decision QA, we propose Decision QA benchmark, DQA. It has two scenarios, Locating and Building, constructed from two video games (Europa Universalis IV and Victoria 3) that have almost the same goal as Decision QA. To address Decision QA effectively, we also propose a new RAG technique called the iterative plan-then-retrieval augmented generation (PlanRAG). Our PlanRAG-based LM generates the plan for decision making as the first step, and the retriever generates the queries for data analysis as the second step. The proposed method outperforms the state-of-the-art iterative RAG method by 15.8% in the Locating scenario and by 7.4% in the Building scenario, respectively. We release our code and benchmark at https://github.com/myeon9h/PlanRAG.
Makale bağlantısı
https://arxiv.org/abs/2406.12430
Daha fazlası
https://github.com/myeon9h/PlanRAG
https://x.com/omarsar0/status/1803262374574448757
Japon balığı gibi olmayın, ezberlemeyin! Generative LLM'lerde ezberlemeyi azaltmak / Be like a Goldfish, Don't Memorize! Mitigating Memorization in Generative LLMs
Makale tanıtımı
Bu çalışma, ezberlenmiş eğitim verilerinin kelimesi kelimesine üretilmesini azaltmak için sonraki token tahmini hedefini goldfish loss adı verilen bir yöntemle değiştiriyor; eğitim sırasında eğitim token'larının sözde rastgele bir alt kümesini hariç tutan basit bir teknik kullanıyor ve goldfish lossun ezberlemeye direnç gösterirken modeli kullanışlı tutabildiğini, ancak eğitim verilerinden daha etkili öğrenmek için daha uzun eğitim gerekebileceğini gösteriyor.
Presents a modification of the next-token prediction objective called goldfish loss to help mitigate the verbatim generation of memorized training data; it uses a simple technique that excludes a pseudorandom subset of training tokens at training time; they show that the goldfish loss resists memorization and keeps the model useful; however, it may need to train for longer to more effectively learn from the training data.
Makale özeti (Abstract)
Büyük dil modelleri, eğitim verilerini ezberleyip tekrar edebilir; bu da gizlilik ve telif hakkı riskleri doğurabilir. Ezberlemeyi azaltmak için, goldfish loss adını verdikleri sonraki token eğitim hedefine küçük ama etkili bir değişiklik getiriyorlar. Eğitim sırasında rastgele örneklenen token alt kümeleri kayıp hesaplamasının dışında bırakılıyor. Bu şekilde çıkarılan token'lar model tarafından ezberlenmiyor; böylece eğitim kümesindeki tam bir token zincirinin kelimesi kelimesine yeniden üretilmesi önlenebiliyor. Önceden eğitilmiş modeller ve sıfırdan eğitilen modeller dahil olmak üzere milyar ölçekli Llama-2 modelleri üzerinde kapsamlı deneyler yürüten araştırmacılar, aşağı akış benchmark'larda çok az ya da hiç etki olmadan çıkarılabilir ezberlemede anlamlı düşüşler gösterdi.
Large language models can memorize and repeat their training data, causing privacy and copyright risks. To mitigate memorization, we introduce a subtle modification to the next-token training objective that we call the goldfish loss. During training, a randomly sampled subset of tokens are excluded from the loss computation. These dropped tokens are not memorized by the model, which prevents verbatim reproduction of a complete chain of tokens from the training set. We run extensive experiments training billion-scale Llama-2 models, both pre-trained and trained from scratch, and demonstrate significant reductions in extractable memorization with little to no impact on downstream benchmarks.
Makale bağlantısı
https://arxiv.org/abs/2406.10209
Daha fazlası
https://github.com/ahans30/goldfish-loss
https://x.com/omarsar0/status/1802729440163647754
Monte Carlo Tree ile GPT-4 seviyesinde Matematik Olimpiyatı çözümlerine erişmek: LLaMa-3 8B ile self-refine / Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B
Makale tanıtımı
LLM'leri Monte Carlo Tree Search ile birleştiren bir yaklaşımla GPT-4 seviyesinde matematik olimpiyatı çözümlerine ulaşıldığı bildiriliyor. Bu yaklaşım, sistemin matematiksel akıl yürütme performansını sistematik keşif, self-refinement ve self-evaluation gibi yetenekler üzerinden geliştirmeye odaklanıyor.
Report to have achieved GPT-4 level mathematical olympiad solution using an approach that integrates LLMs with Monte Carlo Tree Search; this approach focuses on enhancing the mathematical reasoning performance of the system through capabilities such as systematic exploration, self-refinement, and self-evaluation.
Makale özeti (Abstract)
Bu beyaz makale, karmaşık matematiksel akıl yürütme görevlerinde performansı artırmak için tasarlanmış, Büyük Dil Modelleri (LLM) ile Monte Carlo Tree Search (MCTS) yöntemini yenilikçi biçimde birleştiren MCT Self-Refine (MCTSr) algoritmasını tanıtıyor. Özellikle stratejik ve matematiksel akıl yürütmede LLM’lerin doğruluk ve güvenilirlik sorunlarını ele alan MCTSr, LLM içindeki karar verme çerçevesini geliştirmek için sistematik keşif ve sezgisel self-refine mekanizmalarından yararlanıyor. Algoritma; Selection, self-refine, self-evaluation ve Backpropagation süreçlerinin yinelemeli akışıyla bir Monte Carlo arama ağacı kuruyor ve keşif-sömürü dengesini optimize etmek için geliştirilmiş bir Upper Confidence Bound (UCB) formülü kullanıyor. Kapsamlı deneyler, MCTSr’nin olimpiyat düzeyindeki matematik problemlerini çözmedeki etkinliğini gösterdi; GSM8K, GSM Hard, MATH ile Math Odyssey, AIME ve OlympiadBench gibi olimpiyat düzeyi kıyaslamalar dahil birden fazla veri kümesinde başarı oranlarını önemli ölçüde artırdı. Bu çalışma, karmaşık akıl yürütme görevlerinde LLM’lerin kullanımını ileri taşıyor ve gelecekteki yapay zeka entegrasyonu için bir temel oluşturarak LLM tabanlı uygulamalarda karar verme doğruluğu ile güvenilirliği artırıyor.
This paper introduces the MCT Self-Refine (MCTSr) algorithm, an innovative integration of Large Language Models (LLMs) with Monte Carlo Tree Search (MCTS), designed to enhance performance in complex mathematical reasoning tasks. Addressing the challenges of accuracy and reliability in LLMs, particularly in strategic and mathematical reasoning, MCTSr leverages systematic exploration and heuristic self-refine mechanisms to improve decision-making frameworks within LLMs. The algorithm constructs a Monte Carlo search tree through iterative processes of Selection, self-refine, self-evaluation, and Backpropagation, utilizing an improved Upper Confidence Bound (UCB) formula to optimize the exploration-exploitation balance. Extensive experiments demonstrate MCTSr's efficacy in solving Olympiad-level mathematical problems, significantly improving success rates across multiple datasets, including GSM8K, GSM Hard, MATH, and Olympiad-level benchmarks, including Math Odyssey, AIME, and OlympiadBench. The study advances the application of LLMs in complex reasoning tasks and sets a foundation for future AI integration, enhancing decision-making accuracy and reliability in LLM-driven applications.
Makale bağlantısı
https://arxiv.org/abs/2406.07394v2
Daha fazlasını okuyun
https://x.com/rohanpaul_ai/status/1801259208341373013
RAG’den zengin parametrelere: Dil modellerinin olgusal sorgular için parametrik bilgi yerine dış bilgiyi nasıl kullandığını incelemek / From RAGs to rich parameters: Probing how language models utilize external knowledge over parametric information for factual queries
Makale tanıtımı
LLM’lerin olgusal sorgularda parametrik bilgiye kıyasla dış bilgiyi nasıl kullandığını daha yakından inceleyen çalışma, RAG hattında LLM’lerin bir “kestirme” yol izlediğini ve soruyu yanıtlamak için bağlam bilgisini kullanmaya güçlü biçimde eğilimli olduğunu, buna karşılık parametrik belleğe ise çok az dayandığını ortaya koyuyor.
Investigates more closely how LLMs utilize external knowledge over parametric information for factual queries; finds that in a RAG pipeline, LLMs take a “shortcut” and display a strong bias towards utilizing only the context information to answer the question, while relying minimally on their parametric memory.
Makale özeti (Abstract)
Retrieval Augmented Generation (RAG), dil modellerinin dış bağlamı kullanarak akıl yürütme yeteneğini zenginleştirir ve verilen bir kullanıcı istemine yönelik yanıtları güçlendirir. Bu yaklaşım, arama, soru-cevap ve chatbot’lar gibi alanlarda dil modellerinin pratik uygulamaları nedeniyle popülerlik kazanmıştır. Ancak bu yaklaşımın tam olarak nasıl çalıştığının doğası net biçimde anlaşılmış değildir. Bu makalede, araştırmacılar RAG hattını mekanistik olarak inceleyerek dil modellerinin kestirme yollara başvurduğunu ve soruyu yanıtlamak için yalnızca bağlam bilgisini kullanmaya güçlü biçimde eğilimli olduğunu, parametrik belleğe ise çok az dayandığını vurguluyor. Dil modellerindeki bu mekanistik davranış şu yollarla inceleniyor: (i) bir soruyu yanıtlarken parametrik belleğin asgari düzeyde kullanıldığını göstermek için Causal Mediation Analysis ve (ii) son token residual stream’in sorudaki özne token’ından değil, bağlamdaki diğer bilgilendirici token’lardan beslendiğini göstermek için Attention Contributions ve Knockouts. Bu belirgin kestirme davranışın hem LLaMa hem de Phi model ailelerinde geçerli olduğu bulunuyor.
Retrieval Augmented Generation (RAG) enriches the ability of language models to reason using external context to augment responses for a given user prompt. This approach has risen in popularity due to practical applications in various applications of language models in search, question/answering, and chat-bots. However, the exact nature of how this approach works isn't clearly understood. In this paper, we mechanistically examine the RAG pipeline to highlight that language models take shortcut and have a strong bias towards utilizing only the context information to answer the question, while relying minimally on their parametric memory. We probe this mechanistic behavior in language models with: (i) Causal Mediation Analysis to show that the parametric memory is minimally utilized when answering a question and (ii) Attention Contributions and Knockouts to show that the last token residual stream do not get enriched from the subject token in the question, but gets enriched from other informative tokens in the context. We find this pronounced shortcut behaviour true across both LLaMa and Phi family of models.
Makale bağlantısı
https://arxiv.org/abs/2406.12824
Daha fazlasını okuyun
https://x.com/omarsar0/status/1803254134289895555
Open-Sora
Makale tanıtımı
16 saniyelik 720p videolar üretebilen açık kaynaklı bir video üretim modeli; 30 milyondan fazla veriyle eğitilmiş 1.1B parametreli bu model artık image-to-video’yu da destekliyor; uzamsal ve zamansal sıkıştırma için geliştirilmiş bir diffusion modeli ve video sıkıştırma ağı sunarak üretimlerin kontrol edilebilirliğini artırıyor ve eğitim maliyetlerini düşürüyor.
An open-source video generation model that can generate 16-second 720p videos; it’s a 1.1B parameter model trained on more than 30m data and now supports image-to-video; presents an enhanced diffusion model and video compression network for spatial and temporal compression; increases controllability of generations and reduces training costs.
Makale bağlantısı
[IMG] Open-Sora 1.2 Report|1028x812
Daha fazla bilgi
https://discuss.pytorch.kr/t/open-sora-feat-hpc-ai/3794
https://x.com/omarsar0/status/1803176105010171957
Dil Modeli Ajanları için Ağaç Arama / Tree Search for Language Model Agents
Makale tanıtımı
LM ajanlarının keşif yapmasını ve çok adımlı akıl yürütmeyi mümkün kılan bir çıkarım zamanı ağaç arama algoritması öneriyor; etkileşimli web ortamlarında test edilip GPT-4o’ya uygulanarak performansı önemli ölçüde artırıyor; test zamanı hesaplama artırıldığında performansın da ölçeklendiğini gösteriyor.
Proposes an inference-time tree search algorithm for LM agents to perform exploration and enable multi-step reasoning; it’s tested on interactive web environments and applied to GPT-4o to significantly improve performance; demonstrates that performance scales when increasing test-time compute.
Makale özeti (Abstract)
Dil modelleri (LM) tarafından desteklenen otonom ajanlar, web otomasyonu gibi karar verme görevlerini yerine getirme becerilerinde umut vaat ettiğini gösterdi. Ancak temel bir zorluk sürüyor: esas olarak doğal dil anlama ve üretimi için optimize edilen LM’ler, gerçekçi bilgisayar görevlerini çözmeye çalışırken çok adımlı akıl yürütme, planlama ve çevresel geri bildirimi kullanma konusunda zorlanıyor. Bunu ele almak için, etkileşimli web ortamlarında LM ajanlarının keşif ve çok adımlı planlamayı açıkça gerçekleştirmesini sağlayan bir çıkarım zamanı arama algoritması öneriyoruz. Yaklaşımımız, gerçek ortam uzayı içinde çalışan bir en iyi öncelikli ağaç araması biçimidir ve mevcut son teknoloji ajanların çoğuyla tamamlayıcı niteliktedir. Bu, gerçekçi web görevlerinde etkinliğini gösteren LM ajanlarına yönelik ilk ağaç arama algoritmasıdır. Zorlu VisualWebArena benchmark’ında, arama algoritmamızın bir GPT-4o ajanı üzerine uygulanması, arama uygulanmayan aynı baseline’a kıyasla başarı oranında %39,7 göreli artış sağlayarak son teknoloji %26,4 başarı oranına ulaştı. WebArena’da da arama, baseline ajana göre %28,0 göreli iyileşme sağlayarak rekabetçi %19,2 başarı oranı elde etti. Deneylerimiz, web ajanları için aramanın etkinliğini vurguluyor ve test zamanı hesaplama arttıkça performansın da ölçeklendiğini gösteriyoruz. Sonuçlarımızı kapsamlı biçimde analiz ederek aramanın sağladığı iyileşmeleri, sınırlamaları ve gelecekteki çalışmalar için umut verici yönleri ortaya koyuyoruz.
Autonomous agents powered by language models (LMs) have demonstrated promise in their ability to perform decision-making tasks such as web automation. However, a fundamental challenge remains: LMs, primarily optimized for natural language understanding and generation, struggle with multi-step reasoning, planning, and using environmental feedback when attempting to solve realistic computer tasks. Towards addressing this, we propose an inference-time search algorithm for LM agents to explicitly perform exploration and multi-step planning in interactive web environments. Our approach is a form of best-first tree search that operates within the actual environment space, and is complementary with most existing state-of-the-art agents. It is the first tree search algorithm for LM agents that shows effectiveness on realistic web tasks. On the challenging VisualWebArena benchmark, applying our search algorithm on top of a GPT-4o agent yields a 39.7% relative increase in success rate compared to the same baseline without search, setting a state-of-the-art success rate of 26.4%. On WebArena, search also yields a 28.0% relative improvement over a baseline agent, setting a competitive success rate of 19.2%. Our experiments highlight the effectiveness of search for web agents, and we demonstrate that performance scales with increased test-time compute. We conduct a thorough analysis of our results to highlight improvements from search, limitations, and promising directions for future work.
Makale bağlantısı
https://jykoh.com/search-agents/paper.pdf
Daha fazla bilgi
https://jykoh.com/search-agents
https://x.com/kohjingyu/status/1803604487216701653
Orijinal metin
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-c0f
Bu yazı GPT modeliyle derlenmiştir; hatalı kısımlar olabileceğinden lütfen aşağıdaki orijinal metne de göz atın. Okurken garip ya da yanlış bir içerik fark ederseniz, lütfen yorumlarda bildirin. 🤗
⚠️Reklam⚠️: 🔥PyTorch Kore Kullanıcı Topluluğu🇰🇷 tarafından derlenen bu yazıyı faydalı buldunuz mu? Üye olursanız önemli yazıları size e-posta💌 ile göndeririz! (Varsayılan Weekly’dir, ancak Daily olarak da değiştirilebilir.)
Henüz yorum yok.