[2024/09/16 ~ 09/22] Haftanın Öne Çıkan ML Makaleleri (Top ML Papers of the Week)
(discuss.pytorch.kr)-
DAIR.AI tarafından her hafta yayımlanan ML makalelerine dair yazıları otomatik olarak çevirdik.
-
Bu hafta seçilen makalelere baktığımızda birkaç belirgin eğilim göze çarpıyor. İlk olarak, büyük dil modelleri (LLM) üzerine araştırmalar önemli bir yer tutuyor. 'Training LLMs to Self-Correct via RL', 'Qwen2.5 Coder', 'A Comprehensive Evaluation of Quantized Instruction-Tuned LLMs' gibi çeşitli makaleler, LLM’lerin performansını artırma ve uygulamalarını ele alıyor. Bu da LLM’lerin günümüzde yapay zeka araştırmalarının temel konularından biri olduğunu yansıtıyor.
-
İkinci olarak, yapay zekanın düşünme süreciyle ilgili araştırmalar oldukça fazla. 'Diagram of Thought (DoT)', 'Iteration of Thought', 'To CoT or not to CoT?' gibi makaleler, yapay zekanın düşünme biçimi veya akıl yürütme sürecini derinlemesine inceliyor. Bu çalışmalarda, yapay zeka sistemlerinin doğruluğunu ve verimliliğini artırma çabası görülüyor.
-
Bu eğilimlerin ortaya çıkmasının birkaç nedeni olduğu söylenebilir. Öncelikle, büyük dil modelleri gerek çeşitli uygulama imkanları gerekse yüksek performansları nedeniyle hem sanayide hem akademide büyük ilgi görüyor. Özellikle modelin kendi kendini düzeltme yeteneği ya da performans iyileştirmeye yönelik çeşitli teknikler aktif biçimde araştırılıyor. Ayrıca, yapay zekanın düşünme sürecine ilişkin araştırmalar, insan benzeri düşünme yeteneklerine sahip yapay zeka geliştirme yönündeki nihai hedefle bağlantılı. Bu da daha karmaşık ve daha zeki görevlerin otomasyonunda temel unsurlardan biri olarak görülüyor.
-
Özetle, bu haftaki makalelerin başlıca trendleri büyük dil modellerinin performansını iyileştirme ve yapay zekanın düşünme sürecini araştırma olarak öne çıkıyor. Bu, güncel yapay zeka araştırmalarının hangi yönde ilerlediğini açıkça gösteren bir örnek.
Moshi
Makale tanıtımı
Konuşma-metni temel modeli ile tam çift yönlü sesli diyalog çerçevesi, sistemin çeşitli bileşenleri, 7B parametreli metin LLM’i Helium, ses kalitesinde en ileri düzey performansa sahip anlamsal-akustik nöral ses kodu Mimi ve konuşmadan konuşmaya biçiminde rastgele diyalog üretebilen hiyerarşik çok akışlı mimari tanıtılıyor.
> Introduces a speech-text foundation model and full-duplex spoken dialogue framework; they present several components of the systems; Helium is a 7B parameter text LLM; Mimi is a semantic-acoustic neural audio code with state-of-the-art performance on audio quality; a hierarchical multi-stream architecture that can generate arbitrary conversation in a speech-to-speech manner.
Makale özeti (Abstract)
Konuşma-metni temel modeli ve tam çift yönlü sesli diyalog çerçevesi olan Moshi’yi tanıtıyoruz. Günümüzde sesli diyalog sistemleri, ses etkinliği tespiti, konuşma tanıma, metin tabanlı diyalog ve metinden konuşmaya gibi bağımsız bileşenlerden oluşan işlem hatlarına dayanıyor. Bu tür çerçeveler gerçek konuşma deneyimini taklit edemiyor. Birincisi, karmaşıklıkları etkileşimler arasında birkaç saniyelik gecikmeye neden oluyor. İkincisi, diyalog için ara biçim olarak metin kullanıldığından, anlamı değiştiren duygu veya konuşma dışı sesler gibi dilsel olmayan bilgiler etkileşim sırasında kayboluyor. Son olarak, üst üste konuşma, söz kesme ve ünlemleri hesaba katmayan, konuşmacı sıralarına bölme yaklaşımına dayanıyorlar. Moshi, sesli diyaloğu konuşmadan konuşmaya üretim olarak ele alarak tüm bu birbirinden bağımsız sorunları aynı anda çözüyor. Metin dil modeli omurgasından başlayan Moshi, nöral bir ses codec’inin artık niceleyicisinden sesi token’lar olarak üretirken, kendi konuşmasını ve kullanıcının konuşmasını paralel akışlarda ayrı ayrı modelliyor. Bu sayede açık konuşmacı sıralarını ortadan kaldırabiliyor ve rastgele konuşma dinamiklerini modelleyebiliyor. Ayrıca önceki çalışmaların hiyerarşik anlamsaldan akustiğe token üretimini genişleterek, ses token’larına önek olarak zaman hizalı metin token’larını önce tahmin ediyoruz. Bu “Inner Monologue” yöntemi yalnızca üretilen konuşmanın dilsel kalitesini önemli ölçüde artırmakla kalmıyor, aynı zamanda akış tabanlı konuşma tanıma ve metinden konuşmaya için nasıl kullanılabileceğini de gösteriyor. Ortaya çıkan modelimiz, teorik olarak 160 ms, pratikte 200 ms gecikmeye sahip ilk gerçek zamanlı tam çift yönlü konuşan büyük dil modelidir ve github.com/kyutai-labs/moshi adresinde mevcuttur.
> We introduce Moshi, a speech-text foundation model and full-duplex spoken dialogue framework. Current systems for spoken dialogue rely on pipelines of independent components, namely voice activity detection, speech recognition, textual dialogue and text-to-speech. Such frameworks cannot emulate the experience of real conversations. First, their complexity induces a latency of several seconds between interactions. Second, text being the intermediate modality for dialogue, non-linguistic information that modifies meaning— such as emotion or non-speech sounds— is lost in the interaction. Finally, they rely on a segmentation into speaker turns, which does not take into account overlapping speech, interruptions and interjections. Moshi solves these independent issues altogether by casting spoken dialogue as speech-to-speech generation. Starting from a text language model backbone, Moshi generates speech as tokens from the residual quantizer of a neural audio codec, while modeling separately its own speech and that of the user into parallel streams. This allows for the removal of explicit speaker turns, and the modeling of arbitrary conversational dynamics. We moreover extend the hierarchical semantic-to-acoustic token generation of previous work to first predict time-aligned text tokens as a prefix to audio tokens. Not only this “Inner Monologue” method significantly improves the linguistic quality of generated speech, but we also illustrate how it can provide streaming speech recognition and text-to-speech. Our resulting model is the first real-time full-duplex spoken large language model, with a theoretical latency of 160ms, 200ms in practice, and is available at github.com/kyutai-labs/moshi.
Makale bağlantısı
Daha fazlası
https://github.com/kyutai-labs/moshi
https://x.com/kyutai_labs/status/1836427396959932492
Pekiştirmeli öğrenme ile dil modellerini kendi kendini düzeltmeye eğitmek / Training Language Models to Self-Correct via Reinforcement Learning
Makale tanıtımı
LLM'nin öz-düzeltme yeteneklerini iyileştirmek için çok turlu çevrimiçi pekiştirmeli öğrenme geliştirildi; tamamen kendi kendine üretilen verilere dayanıyor; SFT'nin öz-düzeltme öğreniminde etkisiz olduğu ve eğitim verileriyle model yanıtları arasındaki dağılım uyumsuzluğu nedeniyle zorlandığı gösteriliyor; önce düzeltme davranışını optimize edip ardından eğitim sırasında öz-düzeltmeyi güçlendirmek için ödül bonusu kullanan iki aşamalı bir yaklaşım öneriliyor; Gemini 1.0 Pro ve 1.5 Flash modellerine uygulandığında, MATH ve HumanEval benchmark'larında temel modellerin öz-düzeltme performansını sırasıyla %15,6 ve %9,1 artırarak son teknoloji öz-düzeltme performansı elde ediyor.
> Bir LLM'nin öz-düzeltme kabiliyetlerini geliştirmek için çok turlu çevrimiçi pekiştirmeli öğrenme geliştiriyor; tamamen kendi ürettiği verilere dayanıyor; SFT'nin öz-düzeltme öğrenmede etkisiz olduğu ve eğitim verileriyle model yanıtları arasında dağılım uyumsuzluğu yaşadığı gösteriliyor; önce düzeltme davranışını optimize eden, ardından eğitim sırasında öz-düzeltmeyi güçlendirmek için ödül bonusu kullanan iki aşamalı bir yaklaşım öneriyor; Gemini 1.0 Pro ve 1.5 Flash modellerine uygulandığında, MATH ve HumanEval benchmark'larında temel modellerin öz-düzeltmesini sırasıyla %15,6 ve %9,1 iyileştirerek son teknoloji öz-düzeltme performansı elde ediyor.
Makale Özeti (Abstract)
Öz-düzeltme, büyük dil modellerinin (LLM) son derece arzu edilen bir yeteneğidir; ancak modern LLM'lerde bunun büyük ölçüde etkisiz olduğu sürekli olarak görülmüştür. Öz-düzeltme eğitimi için mevcut yaklaşımlar ya birden fazla model gerektiriyor ya da daha yetenekli bir modele veya başka denetim biçimlerine dayanıyor. Bu amaçla Unity, tamamen kendi kendine üretilen verileri kullanarak bir LLM'nin öz-düzeltme becerisini önemli ölçüde geliştiren çok turlu çevrimiçi pekiştirmeli öğrenme (RL) yaklaşımı SCoRe'u geliştirdi. SCoRe'u oluşturmak için önce, çevrimdışı model tarafından üretilen düzeltme izleri üzerinde yapılan denetimli ince ayarın (SFT) çeşitli türevlerinin öz-düzeltme davranışını kazandırmak için yetersiz olduğunu gösteriyorlar. Özellikle, SFT ile eğitimin ya eğitim verileri ile modelin kendi yanıtları arasında dağılım uyumsuzluğu yaşadığını ya da test zamanında çoğu kez etkili olmayan belirli bir düzeltme davranışı kipini örtük olarak tercih ettiğini gözlemliyorlar. SCoRe, modelin kendi ürettiği düzeltme izlerinin dağılımı altında eğitim yaparak ve öğrenme sürecini, verilen bir istem için yalnızca yüksek ödüllü yanıtları ezberlemek yerine test zamanında etkili bir öz-düzeltme stratejisi öğrenmeye yönlendiren uygun düzenlileştirme kullanarak bu sorunları ele alıyor. Bu düzenlileştirme, önce temel model üzerinde RL'in ilk aşamasını çalıştırarak çöküşe daha az yatkın bir politika başlangıcı oluşturmayı, ardından eğitim sırasında öz-düzeltmeyi güçlendirmek için bir ödül bonusu kullanmayı öngörüyor. Gemini 1.0 Pro ve 1.5 Flash modellerine uygulandığında, SCoRe'un MATH ve HumanEval benchmark'larında temel modellerin öz-düzeltme performansını sırasıyla %15,6 ve %9,1 iyileştirerek son teknoloji öz-düzeltme performansı elde ettiği görülmüştür.
> Öz-düzeltme, büyük dil modellerinin (LLM'ler) son derece arzu edilen bir yeteneğidir, ancak modern LLM'lerde büyük ölçüde etkisiz olduğu sürekli olarak görülmüştür. Öz-düzeltmeyi eğitmeye yönelik mevcut yaklaşımlar ya birden fazla model gerektirir ya da daha yetenekli bir modele veya başka denetim biçimlerine dayanır. Bu amaçla, tamamen kendi kendine üretilen verileri kullanarak bir LLM'nin öz-düzeltme yeteneğini önemli ölçüde iyileştiren çok turlu çevrimiçi pekiştirmeli öğrenme (RL) yaklaşımı SCoRe'u geliştiriyoruz. SCoRe'u oluşturmak için önce, çevrimdışı olarak model tarafından üretilen düzeltme izleri üzerinde yapılan denetimli ince ayarın (SFT) çeşitli türevlerinin öz-düzeltme davranışını kazandırmak için yetersiz olduğunu gösteriyoruz. Özellikle, SFT ile eğitimin ya eğitim verileri ile modelin kendi yanıtları arasında dağılım uyumsuzluğu yaşadığını ya da çoğu zaman test anında etkili olmayan yalnızca belirli bir düzeltme davranışı kipini örtük olarak tercih ettiğini gözlemliyoruz. SCoRe, modelin kendi ürettiği düzeltme izlerinin dağılımı altında eğitim yaparak ve öğrenme sürecini, verilen bir istem için yalnızca yüksek ödüllü yanıtları uydurmaktan ziyade test anında etkili bir öz-düzeltme stratejisi öğrenmeye yönlendiren uygun düzenlileştirme kullanarak bu zorlukları ele alır. Bu düzenlileştirme, önce temel model üzerinde RL'in ilk aşamasını çalıştırarak çöküşe daha az açık bir politika başlangıcı üretmeyi, ardından eğitim sırasında öz-düzeltmeyi güçlendirmek için bir ödül bonusu kullanmayı öngörür. Gemini 1.0 Pro ve 1.5 Flash modellerine uygulandığında, SCoRe'un MATH ve HumanEval benchmark'larında temel modellerin öz-düzeltmesini sırasıyla %15,6 ve %9,1 iyileştirerek son teknoloji öz-düzeltme performansı elde ettiğini görüyoruz.
Makale bağlantısı
https://arxiv.org/abs/2409.12917
Daha fazlasını okuyun
https://x.com/omarsar0/status/1837228446839361984
Qwen2.5-Coder teknik dokümanı / Qwen2.5-Coder Technical Report
Makale tanıtımı
1,5B ve 7B parametreli modelleri içeren bir seri; 5,5 trilyon token üzerinde sürekli ön eğitimden geçirilen Qwen2.5 mimarisi üzerine inşa edildi; 10'dan fazla benchmark'ta son teknoloji performans elde ediyor; kod üretimi, tamamlama, akıl yürütme ve onarımda güçlü yetenekler içeriyor.
> 1.5B ve 7B parametreleri içeren bir model serisi; 5,5 trilyon token üzerinde sürekli ön eğitimden geçirilen Qwen2.5 mimarisi üzerine kuruludur; 10'dan fazla benchmark genelinde son teknoloji performans elde eder; kod üretimi, tamamlama, akıl yürütme ve onarımda güçlü yetenekler içerir.
Makale Özeti (Abstract)
Bu raporda, önceki sürüm CodeQwen1.5’e göre önemli ölçüde yükseltilmiş olan Qwen2.5-Coder serisini tanıtıyoruz. Bu seri iki model içeriyor: Qwen2.5-Coder-1.5B ve Qwen2.5-Coder-7B. Koda özel bir model olan Qwen2.5-Coder, Qwen2.5 mimarisi üzerine inşa edilmiştir ve 5,5 trilyondan fazla token içeren devasa bir korpus üzerinde ön eğitimini sürdürür. Titiz veri temizleme, ölçeklenebilir sentetik veri üretimi ve dengeli veri karışımı sayesinde Qwen2.5-Coder, genel çok yönlülüğünü korurken etkileyici kod üretim yetenekleri sergiler. Model; kod üretimi, tamamlama, akıl yürütme ve onarım dahil olmak üzere 10’dan fazla benchmarkta en ileri seviye (SOTA) performans elde ederek geniş bir kod odaklı görev yelpazesinde değerlendirilmiş ve aynı model boyutundaki daha büyük modelleri sürekli olarak geride bırakmıştır. Unity, Qwen2.5-Coder serisinin yayımlanmasının yalnızca kod zekâsı araştırmalarının sınırlarını ileri taşımakla kalmayıp, aynı zamanda esnek lisanslaması sayesinde geliştiricilerin bunu gerçek dünya uygulamalarında daha geniş ölçekte benimsemesini teşvik edeceğine inanıyor.
> In this report, we introduce the Qwen2.5-Coder series, a significant upgrade from its predecessor, CodeQwen1.5. This series includes two models: Qwen2.5-Coder-1.5B and Qwen2.5-Coder-7B. As a code-specific model, Qwen2.5-Coder is built upon the Qwen2.5 architecture and continues pretrained on a vast corpus of over 5.5 trillion tokens. Through meticulous data cleaning, scalable synthetic data generation, and balanced data mixing, Qwen2.5-Coder demonstrates impressive code generation capabilities while retaining general versatility. The model has been evaluated on a wide range of code-related tasks, achieving state-of-the-art (SOTA) performance across more than 10 benchmarks, including code generation, completion, reasoning, and repair, consistently outperforming larger models of the same model size. We believe that the release of the Qwen2.5-Coder series will not only push the boundaries of research in code intelligence but also, through its permissive licensing, encourage broader adoption by developers in real-world applications.
Makale bağlantısı
https://arxiv.org/abs/2409.12186
Daha fazla oku
https://x.com/huybery/status/1837170643563073960
Düşünce Diyagramı (DoT) Üzerine / On the Diagram of Thought
Makale tanıtımı
Matematiksel titizlik yoluyla LLM’lerin akıl yürütme yeteneklerini geliştirir; DAT, LLM’lerdeki yinelemeli akıl yürütmeyi yönlendirilmiş çevrimsiz bir grafiğin inşası olarak modeller ve önermeleri, eleştirileri, iyileştirmeleri ve doğrulamaları birleşik bir DAG yapısında bütünleştirerek doğrusal veya ağaç tabanlı yaklaşımların ötesinde karmaşık mantıksal çıkarımı yakalayabilmesini sağlar.
> Enhances the reasoning capabilities of LLMs through mathematical rigor; DAT models iterative reasoning in LLM as the construction of a directed acyclic graph; it integrates propositions, critiques, refinement, and verification into a unified DAG structure; this allows DoT to capture complex logical deduction beyond linear or tree-based approaches.
Makale özeti (Abstract)
Büyük dil modellerinde (LLM) yinelemeli akıl yürütmeyi, tek bir model içinde yönlendirilmiş çevrimsiz bir grafiğin (DAG) inşası olarak modelleyen bir çerçeve olan Düşünce Diyagramı’nı (DoT) tanıtıyoruz. Akıl yürütmeyi doğrusal zincirler ya da ağaçlar olarak temsil eden geleneksel yaklaşımlardan farklı olarak DoT, önermeleri, eleştirileri, iyileştirmeleri ve doğrulamaları bütünlüklü bir DAG yapısı içinde düzenleyerek modelin mantıksal tutarlılığı korurken karmaşık akıl yürütme yollarını keşfetmesine olanak tanır. Diyagramdaki her düğüm, önerilmiş, eleştirilmiş, iyileştirilmiş veya doğrulanmış bir önermeye karşılık gelir ve LLM’nin doğal dil geri bildirimi yoluyla akıl yürütmesini yinelemeli olarak geliştirmesini sağlar. Role özgü token’larla otomatik regresif sonraki token tahmininden yararlanarak DoT, fikir önermek ile bunları eleştirel biçimde değerlendirmek arasında sorunsuz geçişleri kolaylaştırır ve ikili sinyallerden daha zengin geri bildirim sunar. Ayrıca DoT çerçevesini Topos Theory kullanarak formelleştiriyor ve akıl yürütme sürecinde mantıksal tutarlılık ile sağlamlığı güvence altına alan matematiksel bir temel sağlıyoruz. Bu yaklaşım, tek bir LLM içinde hem eğitim hem de çıkarım süreçlerini geliştirerek birden fazla modele veya harici kontrol mekanizmalarına duyulan ihtiyacı ortadan kaldırır. DoT; eğitim verimliliğini, güçlü akıl yürütme yeteneklerini ve kuramsal temeli vurgulayarak yeni nesil akıl yürütme odaklı modeller tasarlamak için kavramsal bir çerçeve sunar. Kodlara https://github.com/diagram-of-thought/diagram-of-thought adresinden ulaşabilirsiniz.
> We introduce Diagram of Thought (DoT), a framework that models iterative reasoning in large language models (LLMs) as the construction of a directed acyclic graph (DAG) within a single model. Unlike traditional approaches that represent reasoning as linear chains or trees, DoT organizes propositions, critiques, refinements, and verifications into a cohesive DAG structure, allowing the model to explore complex reasoning pathways while maintaining logical consistency. Each node in the diagram corresponds to a proposition that has been proposed, critiqued, refined, or verified, enabling the LLM to iteratively improve its reasoning through natural language feedback. By leveraging auto-regressive next-token prediction with role-specific tokens, DoT facilitates seamless transitions between proposing ideas and critically evaluating them, providing richer feedback than binary signals. Furthermore, we formalize the DoT framework using Topos Theory, providing a mathematical foundation that ensures logical consistency and soundness in the reasoning process. This approach enhances both the training and inference processes within a single LLM, eliminating the need for multiple models or external control mechanisms. DoT offers a conceptual framework for designing next-generation reasoning-specialized models, emphasizing training efficiency, robust reasoning capabilities, and theoretical grounding. The code is available at https://github.com/diagram-of-thought/diagram-of-thought.
Makale bağlantısı
https://arxiv.org/abs/2409.10038
Daha fazlası için
https://github.com/diagram-of-thought/diagram-of-thought
https://x.com/omarsar0/status/1835882277563179512
Yazılım mühendisliğinde ajanlar: araştırma, görünüm ve vizyon / Agents in Software Engineering: Survey, Landscape, and Vision
Makale tanıtımı
Yazılım mühendisliğinde LLM tabanlı ajan çerçevelerine dair kapsamlı bir genel bakış sunuyor.
> Provides a comprehensive overview of frameworks of LLM-based agents in software engineering.
Makale özeti (Abstract)
Son yıllarda Büyük Dil Modelleri (LLM'ler) kayda değer bir başarı elde etti ve özellikle yazılım mühendisliği (SE) alanındaki görevler olmak üzere çeşitli aşağı akış görevlerinde yaygın biçimde kullanılmaya başlandı. LLM'leri ve SE'yi birleştiren birçok çalışmanın, açık ya da örtük biçimde ajan kavramını kullandığını görüyoruz. Ancak mevcut çalışmaların gelişim bağlamını düzenleyen, mevcut çalışmaların çeşitli görevleri optimize etmek için LLM tabanlı ajan teknolojilerini nasıl birleştirdiğini analiz eden ve SE'deki LLM tabanlı ajanların çerçevesini netleştiren derinlemesine bir araştırma eksikliği bulunuyor. Bu makalede, LLM tabanlı ajanlarla SE'nin birleştirilmesine ilişkin çalışmaları ilk kez tarıyor ve SE'deki LLM tabanlı ajanlar için algı, bellek ve eylem olmak üzere üç temel modülü içeren bir çerçeve sunuyoruz. Ayrıca iki alanın birleştirilmesinde şu anda karşılaşılan zorlukları özetliyor ve mevcut zorluklara yanıt olarak gelecekteki fırsatları öneriyoruz. İlgili makalelerin GitHub deposuna şu adresten ulaşılabilir: https://github.com/DeepSoftwareAnalytics/Awesome-Agent4SE.
> In recent years, Large Language Models (LLMs) have achieved remarkable success and have been widely used in various downstream tasks, especially in the tasks of the software engineering (SE) field. We find that many studies combining LLMs with SE have employed the concept of agents either explicitly or implicitly. However, there is a lack of an in-depth survey to sort out the development context of existing works, analyze how existing works combine the LLM-based agent technologies to optimize various tasks, and clarify the framework of LLM-based agents in SE. In this paper, we conduct the first survey of the studies on combining LLM-based agents with SE and present a framework of LLM-based agents in SE which includes three key modules: perception, memory, and action. We also summarize the current challenges in combining the two fields and propose future opportunities in response to existing challenges. We maintain a GitHub repository of the related papers at: https://github.com/DeepSoftwareAnalytics/Awesome-Agent4SE.
Makale bağlantısı
https://arxiv.org/abs/2409.09030
Daha fazlası için
https://github.com/DeepSoftwareAnalytics/Awesome-Agent4SE
https://x.com/omarsar0/status/1835705359723319702
CoT yapılmalı mı, yapılmamalı mı? Düşünce zinciri esas olarak matematik ve sembolik akıl yürütmeye yardımcı oluyor / To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning
Makale tanıtımı
100'den fazla makale ve çeşitli değerlendirmeler üzerinde yapılan bir meta-analiz aracılığıyla, hangi görev türlerinin düşünce zinciri (CoT) istemlerinden en çok fayda sağladığı incelendi; sonuçta CoT'nin başlıca matematik ve mantık içeren görevlerde güçlü performans kazanımları sağladığı bulundu. Ayrıca CoT kazanımının büyük bölümünün sembolik yürütmeyi iyileştirmesinden kaynaklandığı, ancak sembolik bir çözücünün bundan daha iyi performans gösterdiği ortaya kondu.
> Investigates what kinds of tasks benefit the most from chain-of-thought (CoT) prompting; after a meta-analysis on 100+ papers and several evaluations, it finds that CoT produces strong performance benefits primarily on tasks involving math and logic; they find that most of the CoT gain comes from improving symbolic execution, but a symbolic solver outperforms it.
Makale özeti (Abstract)
Prompting yoluyla düşünce zinciri (CoT), büyük dil modellerinde (LLM) akıl yürütme yeteneklerini ortaya çıkarmanın fiili olarak tek yöntemidir. Ancak bu ek "düşünme" hangi tür görevlerde gerçekten faydalıdır? Bunu analiz etmek için CoT kullanan 100'den fazla makaleyi kapsayan nicel bir meta analiz gerçekleştirdik ve 14 model genelinde 20 veri kümesi üzerinde kendi değerlendirmelerimizi yaptık. Sonuçlar, CoT'nin esas olarak matematik veya mantık içeren görevlerde güçlü performans avantajları sağladığını, diğer görev türlerinde ise kazanımın çok daha sınırlı olduğunu gösteriyor. MMLU'da, soru veya modelin yanıtı sembolik işlemler ve akıl yürütmeyi işaret eden bir eşittir işareti içermediği sürece, CoT olmadan doğrudan yanıt üretmek CoT ile neredeyse aynı doğruluğa ulaşıyor. Bu bulgudan hareketle, planlama ile yürütmeyi ayırarak ve araçlarla güçlendirilmiş LLM'lerle karşılaştırarak CoT'nin bu problemler üzerindeki davranışını analiz ediyoruz. CoT'nin sağladığı kazanımın büyük kısmı sembolik yürütmeyi iyileştirmesinden kaynaklanıyor, ancak sembolik çözücü kullanmaya kıyasla daha düşük performans gösteriyor. Sonuçlar, CoT'nin seçici biçimde uygulanarak performans korunurken çıkarım maliyetlerinin azaltılabileceğini gösteriyor. Ayrıca, prompt tabanlı CoT'nin ötesine geçip tüm LLM uygulamaları genelinde ara hesaplamaları daha iyi kullanan yeni paradigmalara yönelme ihtiyacına işaret ediyor.
> Chain-of-thought (CoT) via prompting is the de facto method for eliciting reasoning capabilities from large language models (LLMs). But for what kinds of tasks is this extra ``thinking'' really helpful? To analyze this, we conducted a quantitative meta-analysis covering over 100 papers using CoT and ran our own evaluations of 20 datasets across 14 models. Our results show that CoT gives strong performance benefits primarily on tasks involving math or logic, with much smaller gains on other types of tasks. On MMLU, directly generating the answer without CoT leads to almost identical accuracy as CoT unless the question or model's response contains an equals sign, indicating symbolic operations and reasoning. Following this finding, we analyze the behavior of CoT on these problems by separating planning and execution and comparing against tool-augmented LLMs. Much of CoT's gain comes from improving symbolic execution, but it underperforms relative to using a symbolic solver. Our results indicate that CoT can be applied selectively, maintaining performance while saving inference costs. Furthermore, they suggest a need to move beyond prompt-based CoT to new paradigms that better leverage intermediate computation across the whole range of LLM applications.
Makale bağlantısı
https://arxiv.org/abs/2409.12183
Daha fazlasını okuyun
https://x.com/omarsar0/status/1836599280477299013
Nicemlenmiş komut ayarlı büyük dil modellerine yönelik kapsamlı bir değerlendirme: 405B'ye kadar deneysel analiz / A Comprehensive Evaluation of Quantized Instruction-Tuned Large Language Models: An Experimental Analysis up to 405B
Makale tanıtımı
7B ile 405B arasındaki modellerde çeşitli nicemleme yöntemleri boyunca instruction-tuned LLM'lerin performansını değerlendiren çalışma, şu temel bulguları ortaya koyuyor: 1) daha büyük bir LLM'yi daha küçük bir FP16 LLM ile benzer boyuta nicemlemek, çoğu benchmark'ta genel olarak daha iyi performans veriyor, 2) performans nicemleme yöntemi, model boyutu ve bit genişliğine göre önemli ölçüde değişiyor; yalnızca ağırlık kullanan yöntemler daha büyük modellerde sıkça daha iyi sonuç veriyor, 3) görev zorluğu, nicemleme kaynaklı doğruluk düşüşünü anlamlı ölçüde etkilemiyor.
> Evaluates the performance of instruction-tuned LLMs across various quantization methods on models ranging from 7B to 405B; the key findings are 1) quantizing a larger LLM to a similar size as a smaller FP16 LLM generally performs better across most benchmarks, 2) performance varies significantly with different quantization methods, model size, and bit-width, with weight-only methods often yielding better results in larger models, and 3) task difficulty does not significantly impact accuracy degradation due to quantization.
Makale özeti(Abstract)
Önceki çalışmalar, nicemlenmiş LLM'leri perplexity, birkaç temel bilgi görevi ve eski veri kümeleri gibi sınırlı ölçütlerle değerlendirdi. Ayrıca, 405B'ye kadar çıkan Llama 3.1 gibi yakın dönem büyük ölçekli modeller de kapsamlı biçimde incelenmemişti. Bu makale, 7B ile 405B arasındaki modellerde çeşitli nicemleme yöntemleri (GPTQ, AWQ, SmoothQuant, FP8) boyunca komut ince ayarlı LLM'lerin performansını değerlendiriyor. 13 benchmark kullanılarak sağduyuya dayalı soru-cevap, bilgi ve dil anlama, yönerge takibi, halüsinasyon tespiti, matematik ve diyalog olmak üzere 6 görev türündeki performans ölçüldü. Başlıca bulgular şunları ortaya koyuyor: (1) daha büyük bir LLM'yi daha küçük bir FP16 LLM ile benzer boyuta nicemlemek, genel olarak halüsinasyon tespiti ve yönerge takibi dışındaki çoğu benchmark'ta daha iyi performans veriyor; (2) performans, nicemleme yöntemi, model boyutu ve bit genişliğine göre önemli ölçüde değişiyor ve yalnızca ağırlık temelli yöntemler daha büyük modellerde çoğu zaman daha iyi sonuç veriyor; (3) görev zorluğu, nicemleme kaynaklı doğruluk düşüşünü anlamlı ölçüde etkilemiyor; ayrıca MT-Bench değerlendirme yönteminin, son dönemin yüksek performanslı LLM'leri arasında ayırt edicilik gücünün sınırlı olduğu görüldü.
> Prior research works have evaluated quantized LLMs using limited metrics such as perplexity or a few basic knowledge tasks and old datasets. Additionally, recent large-scale models such as Llama 3.1 with up to 405B have not been thoroughly examined. This paper evaluates the performance of instruction-tuned LLMs across various quantization methods (GPTQ, AWQ, SmoothQuant, and FP8) on models ranging from 7B to 405B. Using 13 benchmarks, we assess performance across six task types: commonsense Q&A, knowledge and language understanding, instruction following, hallucination detection, mathematics, and dialogue. Our key findings reveal that (1) quantizing a larger LLM to a similar size as a smaller FP16 LLM generally performs better across most benchmarks, except for hallucination detection and instruction following; (2) performance varies significantly with different quantization methods, model size, and bit-width, with weight-only methods often yielding better results in larger models; (3) task difficulty does not significantly impact accuracy degradation due to quantization; and (4) the MT-Bench evaluation method has limited discriminatory power among recent high-performing LLMs.
Makale bağlantısı
https://arxiv.org/abs/2409.11055
Daha fazlasını okuyun
https://x.com/omarsar0/status/1836479309390995790
Düşüncenin Yinelemesi: Otonom Büyük Dil Modeli Akıl Yürütmesi için İç Diyalogdan Yararlanma / Iteration of Thought: Leveraging Inner Dialogue for Autonomous Large Language Model Reasoning
Makale tanıtımı
Uyarlanabilir akıl yürütme yollarıyla LLM yanıtlarını ve akıl yürütme yeteneklerini geliştirmek için, rehber görevi gören bir iç diyalog ajanından yararlanan Iteration of Thought (IoT) çerçevesi öneriliyor; bu ajan, akıl yürütme yollarını dinamik olarak ayarlayarak uyarlanabilir çapraz yol keşfini mümkün kılıyor ve yanıt doğruluğunu artırıyor. Bu yaklaşım, prompt üretiminin uyarlanabilen dinamik bir süreç olması bakımından CoT ve ToT'tan (ikisi de katı süreçlerdir) ayrılıyor.
> Proposes the Iteration of Thought (IoT) framework to enhance the LLM responses and reasoning capabilities with adaptive reasoning paths; it leverages an inner dialogue agent, acting as a guide, to dynamically adjust reasoning paths which allows adaptive cross-path exploration and enhance response accuracy; it's different from CoT and ToT (both rigid processes) in that its prompt generation is a dynamic process that allows it to adapt.
Makale özeti(Abstract)
Tekrarlayan insan katılımı, büyük dil modellerinin (LLM) gelişmiş dil işleme gücünden yararlanmanın yaygın ve etkili bir yoludur. İyi yapılandırılmış konuşma tabanlı prompt'lar kullanıldığında, insan kullanıcılar LLM'yi daha düşünülmüş ve daha doğru yanıtlar geliştirmesi yönünde etkili biçimde yönlendirebilir. Bu içgörüden hareketle, bir giriş sorgusu ve LLM'nin mevcut yanıt yinelemesi karşısında "düşünmeyi" teşvik eden prompt'lar üreterek LLM yanıtlarını iyileştirmeye yönelik Iteration of Thought (IoT) çerçevesini öneriyoruz. Chain of Thought (CoT) veya Tree of Thoughts (ToT) gibi statik ya da yarı statik yaklaşımların aksine IoT, gelişen bağlama göre akıl yürütme yolunu dinamik olarak uyarlar ve sonunda elenecek alternatif keşif amaçlı düşünceler üretmez. IoT çerçevesinin üç bileşeni şunlardır: (1) öğretici, bağlama özgü prompt'lar üreten Inner Dialogue Agent (IDA), (2) bu prompt'ları işleyerek yanıtlarını iyileştiren LLM Agent (LLMA) ve (3) ilk iki bileşen arasındaki konuşmayı hayata geçiren yinelemeli prompt döngüsü. Çerçevemizin iki varyantını sunuyoruz: LLM'nin yinelemeyi ne zaman durduracağına kendisinin karar verdiği Autonomous Iteration of Thought (AIoT) ve her zaman sabit sayıda yinelemeyi zorunlu kılan Guided Iteration of Thought (GIoT). IoT'nin performansını, GPQA veri kümesindeki karmaşık akıl yürütme görevlerinden Game of 24'teki keşif odaklı problem çözmeye, Mini Crosswords'teki bulmaca çözümünden HotpotQA veri kümesindeki çok adımlı soru yanıtlama görevlerine kadar çeşitli veri kümeleri üzerinde inceliyoruz. Sonuçlarımız, IoT'nin LLM'lerde otonom yanıt iyileştirme için uygulanabilir bir paradigma olduğunu, CoT'ye kıyasla kayda değer iyileşmeler sunduğunu ve böylece insan müdahalesini en aza indiren daha uyarlanabilir ve verimli akıl yürütme sistemlerini mümkün kıldığını gösteriyor.
> Iterative human engagement is a common and effective means of leveraging the advanced language processing power of large language models (LLMs). Using well-structured prompts in a conversational manner, human users can effectively influence an LLM to develop more thoughtful and accurate responses. Motivated by this insight, we propose the Iteration of Thought (IoT) framework for enhancing LLM responses by generating "thought"-provoking prompts vis a vis an input query and the current iteration of an LLM's response. Unlike static or semi-static approaches, e.g. Chain of Thought (CoT) or Tree of Thoughts (ToT), IoT adapts its reasoning path dynamically, based on evolving context, and without generating alternate explorative thoughts which are ultimately discarded. The three components of the IoT framework are (1) an Inner Dialogue Agent (IDA) responsible for generating instructive, context-specific prompts; (2) an LLM Agent (LLMA) that processes these prompts to refine its responses; and (3) an iterative prompting loop that implements a conversation between the former two components. We introduce two variants of our framework: Autonomous Iteration of Thought (AIoT), where an LLM decides when to stop iterating, and Guided Iteration of Thought (GIoT), which always forces a fixed number iterations. We investigate the performance of IoT across various datasets, spanning complex reasoning tasks from the GPQA dataset, explorative problem-solving in Game of 24, puzzle solving in Mini Crosswords, and multi-hop question answering from the HotpotQA dataset. Our results show that IoT represents a viable paradigm for autonomous response refinement in LLMs, showcasing significant improvements over CoT and thereby enabling more adaptive and efficient reasoning systems that minimize human intervention.
Makale bağlantısı
https://arxiv.org/abs/2409.12618
Daha fazlası için
https://x.com/omarsar0/status/1836977595847692671
Schrödinger'in Hafızası: Büyük Dil Modelleri / Schrodinger's Memory: Large Language Models
Makale tanıtımı
Evrensel Yaklaştırma Teoremi'ni kullanarak LLM'lerin bellek mekanizmasını açıklıyor. Ayrıca farklı modellerin bellek kapasitelerini karşılaştırarak LLM performansını değerlendirmek için yeni bir yaklaşım öneriyor; Transformer mimarisi, girdileri uyarlamalı olarak eşleştirme konusunda güçlü bir yeteneğe sahip dinamik bir UAT modeli olarak işliyor ve bu da LLM'lerin asgari girdi bilgisiyle tüm içeriği hatırlamasını mümkün kılıyor.
> Uses the Universal Approximation Theorem to explain the memory mechanism of LLMs. It also proposes a new approach to evaluate LLM performance by comparing the memory capacities of different models; the Transformer architecture functions as a dynamic fitting UAT model, with a strong ability to adaptively fit inputs; this enables LLMs to recall entire content based on minimal input information.
Makale özeti (Abstract)
Bellek, tüm insan faaliyetlerinin temelidir; bellek olmadan insanların günlük hayatta herhangi bir görevi yerine getirmesi neredeyse imkansız olurdu. Large Language Models (LLM) geliştikçe, dil yetenekleri giderek insanlara daha benzer hale geliyor. Peki LLM'lerin de belleği var mı? Mevcut performansa bakıldığında, LLM'ler gerçekten de bellek sergiliyor gibi görünüyor. Öyleyse bu belleğin altında yatan mekanizma nedir? Önceki araştırmalar, LLM'lerin bellek yetenekleri ve bunun temelindeki teori üzerine derinlemesine bir inceleme sunmakta yetersiz kaldı. Bu makalede, LLM'lerdeki bellek mekanizmasını açıklamak için Universal Approximation Theorem (UAT) kullanıyoruz. Ayrıca çeşitli LLM'lerin bellek yeteneklerini doğrulamak için deneyler gerçekleştiriyor ve bu bellek yeteneklerine dayalı olarak kapasitelerini değerlendirmek için yeni bir yöntem öneriyoruz. LLM belleğinin Schrödinger'in belleği gibi çalıştığını, yani yalnızca belirli bir bellek sorgulandığında gözlemlenebilir hale geldiğini savunuyoruz. Bir modelin belleği koruyup korumadığını yalnızca sorguya verdiği çıktıya bakarak anlayabiliriz; aksi halde durum belirsiz kalır. Son olarak, insan beyni ile LLM'lerin bellek yeteneklerini karşılaştırarak ve çalışma mekanizmalarındaki benzerlikler ile farklılıkları vurgulayarak bu kavramı genişletiyoruz.
> Memory is the foundation of all human activities; without memory, it would be nearly impossible for people to perform any task in daily life. With the development of Large Language Models (LLMs), their language capabilities are becoming increasingly comparable to those of humans. But do LLMs have memory? Based on current performance, LLMs do appear to exhibit memory. So, what is the underlying mechanism of this memory? Previous research has lacked a deep exploration of LLMs' memory capabilities and the underlying theory. In this paper, we use Universal Approximation Theorem (UAT) to explain the memory mechanism in LLMs. We also conduct experiments to verify the memory capabilities of various LLMs, proposing a new method to assess their abilities based on these memory ability. We argue that LLM memory operates like Schr"odinger's memory, meaning that it only becomes observable when a specific memory is queried. We can only determine if the model retains a memory based on its output in response to the query; otherwise, it remains indeterminate. Finally, we expand on this concept by comparing the memory capabilities of the human brain and LLMs, highlighting the similarities and differences in their operational mechanisms.
Makale bağlantısı
https://arxiv.org/abs/2409.10482
Daha fazlasını okuyun
https://x.com/omarsar0/status/1835882330323554321
Sembolik matematikle Large Language Models jailbreak etme / Jailbreaking Large Language Models with Symbolic Mathematics
Makale tanıtımı
Etkili bir jailbreak tekniği olarak kullanılan matematiksel olarak kodlanmış prompt'lar üretmek için GPT-4o kullanılıyor; 13 son teknoloji modelde ortalama %73,6 saldırı başarı oranı göstererek mevcut güvenlik eğitimi mekanizmalarının matematiksel olarak kodlanmış girdilere genellenemediğini vurguluyor.
> Uses GPT-4o to generate mathematically encoded prompts that serve as an effective jailbreaking technique; shows an average attack success rate of 73.6% across 13 state-of-the-art; this highlights the inability of existing safety training mechanisms to generalize to mathematically encoded inputs.
Makale özeti(Abstract)
Yapay zeka güvenliğindeki son gelişmeler, güvenli olmayan içerik üretimini azaltmak için Large Language Models (LLM) eğitme ve red-teaming çalışmalarını artırdı. Ancak bu güvenlik mekanizmaları kapsamlı olmayabilir ve potansiyel zafiyetlerin bir kısmı keşfedilmeden kalabilir. Bu makale, LLM'lerin gelişmiş sembolik matematik yeteneklerini kullanarak güvenlik mekanizmalarını aşan yeni bir jailbreak tekniği olan MathPrompt'u tanıtıyor. Zararlı doğal dil prompt'larını matematik problemlerine kodlayarak, mevcut yapay zeka güvenlik önlemlerindeki kritik bir zafiyeti gösteriyoruz. 13 son teknoloji LLM üzerinde yapılan deneyler, ortalama saldırı başarı oranının %73,6 olduğunu ortaya koyarak mevcut güvenlik eğitimi mekanizmalarının matematiksel olarak kodlanmış girdilere genellenemediğini gösterdi. Embedding vektörlerinin analizi, orijinal prompt'lar ile kodlanmış prompt'lar arasında önemli bir anlamsal kayma olduğunu ortaya koyuyor ve bu da saldırının başarısını açıklamaya yardımcı oluyor. Bu çalışma, yapay zeka güvenliğine bütüncül bir yaklaşımın önemini vurguluyor ve tüm olası girdi türleri ile bunlara bağlı riskler için güçlü korumalar geliştirmek amacıyla red-teaming çabalarının genişletilmesi çağrısında bulunuyor.
> Recent advancements in AI safety have led to increased efforts in training and red-teaming large language models (LLMs) to mitigate unsafe content generation. However, these safety mechanisms may not be comprehensive, leaving potential vulnerabilities unexplored. This paper introduces MathPrompt, a novel jailbreaking technique that exploits LLMs' advanced capabilities in symbolic mathematics to bypass their safety mechanisms. By encoding harmful natural language prompts into mathematical problems, we demonstrate a critical vulnerability in current AI safety measures. Our experiments across 13 state-of-the-art LLMs reveal an average attack success rate of 73.6%, highlighting the inability of existing safety training mechanisms to generalize to mathematically encoded inputs. Analysis of embedding vectors shows a substantial semantic shift between original and encoded prompts, helping explain the attack's success. This work emphasizes the importance of a holistic approach to AI safety, calling for expanded red-teaming efforts to develop robust safeguards across all potential input types and their associated risks.
Makale bağlantısı
https://arxiv.org/abs/2409.11445
Daha fazlasını okuyun
https://x.com/omarsar0/status/1836603922405806501
Orijinal metin
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-277
- Bu yazı GPT modeliyle derlenmiştir; hatalı kısımlar olabilir, bu nedenle lütfen yazının alt kısmındaki özgün metne de göz atın! Okurken kulağa tuhaf gelen veya yanlış olduğunu düşündüğünüz bir içerik fark ederseniz, lütfen yorumlarda bize bildirin.* 🤗
⚠️Reklam⚠️: 🔥PyTorch Kore Kullanıcı Topluluğu🇰🇷 tarafından derlenen bu yazıyı faydalı buldunuz mu? Üye olursanız, önemli yazıları size e-posta💌 ile göndeririz! (Varsayılan olarak haftalıktır, ancak günlük olarak da değiştirebilirsiniz.)
3 yorum
Başlık Haziran diyor ama bağlantılı gönderi Eylül. Bu, otomatik tamamlama yüzünden mi olmuş?
Vay, doğruymuş;;; Bildirdiğiniz için teşekkürler. T_T
Başlığı '[2024/09/16 ~ 09/22] Bu haftanın öne çıkan ML makaleleri (Top ML Papers of the Week)' olarak yapmam gerekiyordu ama şablon kullanırken hata yaptım. xguru-nim bunu görürse değiştirebilir misiniz? 🙇♂️
Teşekkür ederim!!