1 puan yazan ninebow 2024-02-05 | Henüz yorum yok. | WhatsApp'ta paylaş

Genel Bakış

  • DAIR.AI tarafından her hafta yayımlanan ML makalelerine dair yazıyı otomatik olarak çevirdik.

  • Bu hafta seçilen makalelerin eğilimlerine bakıldığında, büyük dil modelleri (Large Language Models, LLMs) ve bunların türevleri üzerine yapılan çalışmaların öne çıktığı görülüyor. "OLMo", "Advances in Multimodal LLMs", "Corrective RAG", "LLMs for Mathematical Reasoning", "Compression Algorithms for LLMs", "MoE-LLaVA", "Rephrasing the Web", "Redefining Retrieval in RAG", "Hallucination in LVLMs", "SliceGPT" gibi makale başlıkları, dil modellerinin performansını artırmaya, uygulama alanlarını genişletmeye ve verimliliği yükseltmeye odaklanan araştırmaların yoğun olduğunu gösteriyor.

  • Bu araştırma eğilimi, dil işleme teknolojilerinin sınırlarını aşmak ve daha karmaşık problemleri çözmek için akademi ile sanayinin sürdürdüğü çabaların bir yansıması olarak yorumlanabilir. Son dönemde LLM'ler, yalnızca basit metin işlemenin ötesine geçerek karmaşık matematiksel akıl yürütme, çok modlu veri işleme, daha gelişmiş bilgi erişimi ve yeniden yapılandırma gibi çeşitli alanlara uygulanmaya başladı. Ayrıca bu modellerin büyük boyutu ve karmaşıklığı nedeniyle, model sıkıştırma gibi teknikler modellerin gerçek ortamlarda daha verimli şekilde dağıtılıp kullanılmasını sağlayan temel unsurlar haline geliyor. Büyük modellerin görece sınırlı kaynaklarla çalıştırılması gereken durumlarda bu tekniklerin önemi giderek artıyor.

  • Ayrıca, 'Multimodal LLMs' ve 'MoE-LLaVA' üzerine çalışmalar, metin dışındaki çeşitli veri türlerinin (ör. görüntü, ses vb.) birlikte işlenmesine yönelik yöntemlerin geliştiğini gösteriyor; bu da yapay zeka sistemlerinin gerçek dünyadaki bilgileri daha zengin biçimde anlayıp kullanabilmesine işaret ediyor. Model yorumlanabilirliğini ve güvenilirliğini artırmaya yönelik teknikler arasında 'Corrective RAG' ve 'Redefining Retrieval in RAG', modelin akıl yürütme sürecini ve sonuçlarının doğruluğunu iyileştirme girişimleri olarak görülebilir. Modellerin ürettiği içeriğin kalitesini artırmaya odaklanan çalışmalar arasında ise 'Hallucination in LVLMs' ve 'Rephrasing the Web' öne çıkıyor. Tüm bu eğilimler, yakın gelecekte daha akıllı ve daha gelişmiş yapay zeka sistemlerinin ortaya çıkacağına işaret eden sinyaller olarak değerlendiriliyor.


OLMo: Dil Modeli Bilimini Hızlandırmak / OLMo: Accelerating the Science of Language Models

Makale Tanıtımı

  • Açık eğitim kodu, açık veri, tam model ağırlıkları, değerlendirme kodu ve ince ayar kodunu içeren 7b parametreli açık dil modeli (OLMo) tanıtılıyor; birçok üretici görevde güçlü performans gösteriyor; ayrıca daha küçük bir sürümü olan olmo 1b de bulunuyor.

    Introduces open language model (olmo), a 7b parameter model; it includes open training code, open data, full model weights, evaluation code, and fine-tuning code; it shows strong performance on many generative tasks; there is also a smaller version of it, olmo 1b.

Makale Özeti (Abstract)

  • Dil modelleri (LM'ler), hem NLP araştırmalarında hem de ticari ürünlerde yaygın hale geldi. Ticari önemleri hızla arttıkça, en güçlü modeller kapalı hale gelerek mülkiyet sahibi arayüzlerin arkasına gizlendi; eğitim verileri, mimarileri ve geliştirme süreçlerine dair önemli ayrıntılar açıklanmadı. Bu ayrıntıların, önyargılar ve potansiyel riskler dahil olmak üzere bu modelleri bilimsel olarak incelemede ne kadar önemli olduğu düşünüldüğünde, araştırma topluluğunun güçlü ve gerçekten açık LM'lere erişebilmesinin kritik olduğuna inanıyoruz. Bu amaçla, bu teknik rapor, dil modelleme biliminin inşa edilmesi ve incelenmesi için son teknoloji ürünü, gerçekten Açık bir Dil Modeli olan OLMo'nun ve onun çerçevesinin ilk sürümünü ayrıntılı olarak açıklamaktadır. Yalnızca model ağırlıkları ve çıkarım kodunu yayımlayan önceki girişimlerin çoğunun aksine, OLMo'yu tüm çerçevesiyle birlikte, eğitim verileri ve eğitim ile değerlendirme kodları dahil olacak şekilde yayımlıyoruz. Bu sürümün açık araştırma topluluğunu güçlendirmesini ve yeni bir inovasyon dalgasına ilham vermesini umuyoruz.

    Language models (LMs) have become ubiquitous in both NLP research and in commercial product offerings. As their commercial importance has surged, the most powerful models have become closed off, gated behind proprietary interfaces, with important details of their training data, architectures, and development undisclosed. Given the importance of these details in scientifically studying these models, including their biases and potential risks, we believe it is essential for the research community to have access to powerful, truly open LMs. To this end, this technical report details the first release of OLMo, a state-of-the-art, truly Open Language Model and its framework to build and study the science of language modeling. Unlike most prior efforts that have only released model weights and inference code, we release OLMo and the whole framework, including training data and training and evaluation code. We hope this release will empower and strengthen the open research community and inspire a new wave of innovation.

Makale Bağlantısı

https://arxiv.org/abs/2402.00838

Daha Fazla Okuma

https://x.com/omarsar0/status/1753080417530318872


MM-LLM: Çok Modlu Büyük Dil Modellerindeki Son Gelişmeler / MM-LLMs: Recent Advances in MultiModal Large Language Models

Makale Tanıtımı

  • Çok modlu büyük dil modelleri etrafındaki model mimarisi ve eğitim pipeline'ı için tasarım formülasyonlarını açıklayan kapsamlı bir derleme makalesi.

    A comprehensive survey outlining design formulations for model architecture and training pipeline around multimodal large language models.

Makale Özeti (Abstract)

  • Geçen bir yıl içinde çok modlu büyük dil modelleri (MM-LLM), maliyet açısından verimli eğitim stratejileriyle hazır LLM’leri MM girdi veya çıktıları destekleyecek şekilde güçlendirerek önemli ilerlemeler kaydetti. Ortaya çıkan modeller, yalnızca LLM’lerin doğuştan gelen akıl yürütme ve karar verme yeteneklerini korumakla kalmıyor, aynı zamanda geniş bir MM görev yelpazesini de destekliyor. Bu makalede, MM-LLM’lere yönelik daha fazla araştırmayı teşvik etmeyi amaçlayan kapsamlı bir derleme sunuluyor. Özellikle önce model mimarisi ve eğitim hattı için genel tasarım formülasyonları ana hatlarıyla açıklanıyor. Ardından, her biri kendine özgü formülasyonlarla karakterize edilen mevcut $26$ MM-LLM kısaca tanıtılıyor. Ayrıca, MM-LLM’lerin yaygın benchmark’lardaki performansı inceleniyor ve MM-LLM’lerin etkinliğini artırmaya yönelik temel eğitim reçeteleri özetleniyor. Son olarak, MM-LLM’ler için umut vadeden yönler ele alınırken, alandaki en son gelişmeleri gerçek zamanlı izleyen bir web sitesi de sürdürülüyor. Bu derlemenin MM-LLM alanının süregelen ilerlemesine katkıda bulunması umuluyor.
    > In the past year, MultiModal Large Language Models (MM-LLMs) have undergone substantial advancements, augmenting off-the-shelf LLMs to support MM inputs or outputs via cost-effective training strategies. The resulting models not only preserve the inherent reasoning and decision-making capabilities of LLMs but also empower a diverse range of MM tasks. In this paper, we provide a comprehensive survey aimed at facilitating further research of MM-LLMs. Specifically, we first outline general design formulations for model architecture and training pipeline. Subsequently, we provide brief introductions of $26$ existing MM-LLMs, each characterized by its specific formulations. Additionally, we review the performance of MM-LLMs on mainstream benchmarks and summarize key training recipes to enhance the potency of MM-LLMs. Lastly, we explore promising directions for MM-LLMs while concurrently maintaining a real-time tracking website for the latest developments in the field. We hope that this survey contributes to the ongoing advancement of the MM-LLMs domain.

Makale bağlantısı

https://arxiv.org/abs/2401.13601

Daha fazlası

https://x.com/omarsar0/status/1751705689964089616


CRAG: Kendini Düzelten Retrieval Augmented Generation / Corrective Retrieval Augmented Generation

Makale tanıtımı

  • RAG sistemlerinde üretimin sağlamlığını artırmak için Corrective Retrieval Augmented Generation (CRAG) öneriliyor; temel fikir, retriever için bir öz-düzeltme bileşeni uygulamak ve retrieval ile getirilen belgelerin üretimi zenginleştirmedeki kullanımını iyileştirmek; retrieval değerlendiricisi, verilen bir sorgu için getirilen belgelerin genel kalitesini değerlendirmeye yardımcı oluyor; web araması ve optimize edilmiş bilgi kullanımı işlemleri, otomatik öz-düzeltmeyi ve getirilen belgelerin verimli kullanımını iyileştirebiliyor.
    > Proposes corrective retrieval augmented generation (CRAG) to improve the robustness of generation in a rag system; the core idea is to implement a self-correct component for the retriever and improve the utilization of retrieved documents for augmenting generation; the retrieval evaluator helps to assess the overall quality of retrieved documents given a query; using web search and optimized knowledge utilization operations can improve automatic self-correction and efficient utilization of retrieved documents.

Makale özeti(Abstract)

  • Büyük dil modelleri (LLM'ler), ürettikleri metinlerin doğruluğu yalnızca içerdikleri parametrik bilgiyle güvence altına alınamadığı için kaçınılmaz olarak halüsinasyonlar sergiler. Retrieval-augmented generation (RAG), LLM'leri tamamlamak için pratik bir yöntemdir; ancak getirilen belgelerin ilgililiğine büyük ölçüde bağlı olduğundan, retrieval hatalı olduğunda modelin nasıl davranacağına dair endişeler ortaya çıkar. Bu amaçla, üretimin sağlamlığını artırmak için Corrective Retrieval Augmented Generation (CRAG) yöntemini öneriyoruz. Özellikle hafif bir retrieval değerlendiricisi, bir sorgu için getirilen belgelerin genel kalitesini değerlendirecek ve buna göre farklı bilgi getirme eylemlerini tetikleyebilecek bir güven derecesi döndürecek şekilde tasarlanmıştır. Statik ve sınırlı corpus'lardan yapılan retrieval yalnızca optimal olmayan belgeler döndürebileceği için, büyük ölçekli web aramaları retrieval sonuçlarını güçlendiren bir uzantı olarak kullanılır. Ayrıca, getirilen belgelerdeki kilit bilgilere seçici biçimde odaklanmak ve ilgisiz bilgileri filtrelemek için decompose-then-recompose algoritması tasarlanmıştır. CRAG, plug-and-play yapıdadır ve çeşitli RAG tabanlı yaklaşımlarla sorunsuz biçimde birleştirilebilir. Kısa ve uzun biçimli üretim görevlerini kapsayan dört veri kümesi üzerindeki deneyler, CRAG'in RAG tabanlı yaklaşımların performansını önemli ölçüde artırabildiğini göstermektedir.
    > Large language models (LLMs) inevitably exhibit hallucinations since the accuracy of generated texts cannot be secured solely by the parametric knowledge they encapsulate. Although retrieval-augmented generation (RAG) is a practicable complement to LLMs, it relies heavily on the relevance of retrieved documents, raising concerns about how the model behaves if retrieval goes wrong. To this end, we propose the Corrective Retrieval Augmented Generation (CRAG) to improve the robustness of generation. Specifically, a lightweight retrieval evaluator is designed to assess the overall quality of retrieved documents for a query, returning a confidence degree based on which different knowledge retrieval actions can be triggered. Since retrieval from static and limited corpora can only return sub-optimal documents, large-scale web searches are utilized as an extension for augmenting the retrieval results. Besides, a decompose-then-recompose algorithm is designed for retrieved documents to selectively focus on key information and filter out irrelevant information in them. CRAG is plug-and-play and can be seamlessly coupled with various RAG-based approaches. Experiments on four datasets covering short- and long-form generation tasks show that CRAG can significantly improve the performance of RAG-based approaches.

Makale bağlantısı

https://arxiv.org/abs/2401.15884

Daha fazlası

https://x.com/omarsar0/status/1752173216942944556


Matematiksel Akıl Yürütme için Büyük Dil Modelleri: İlerlemeler ve Zorluklar / Large Language Models for Mathematical Reasoning: Progresses and Challenges

Makale tanıtımı

  • Matematiksel akıl yürütme için makine öğrenmesi alanındaki araştırma geliştirmelerine genel bir bakış sunuyor; matematik için LLM'lere yönelik süregelen araştırmalara ilham vermek amacıyla ilerlemeleri, yetenekleri, sınırlamaları ve uygulamaları tartışıyor.
    > Introduces an overview of research developments in llms for mathematical reasoning; discusses advancements, capabilities, limitations, and applications to inspire ongoing research on llms for mathematics.

Makale özeti (Abstract)

  • Matematiksel akıl yürütme, insan zekasının temel bilişsel yeteneklerini değerlendirmede bir köşe taşı görevi görür. Son dönemde, matematik problemlerinin otomatik çözümüne odaklanan büyük dil modellerinin (LLM) geliştirilmesinde dikkat çekici bir artış yaşanmıştır. Ancak matematik problemi türlerinin dünyası son derece geniş ve çeşitlidir; LLM odaklı teknikler de farklı veri kümeleri ve ortamlarda değerlendirilmektedir. Bu çeşitlilik, hızla büyüyen bu alandaki gerçek ilerlemeleri ve engelleri ayırt etmeyi zorlaştırmaktadır. Bu derleme dört kritik boyutu ele almayı amaçlamaktadır: i) incelenen çeşitli matematik problemleri ve bunlara karşılık gelen veri kümelerinin kapsamlı bir incelemesi, ii) matematik problemi çözümü için önerilen LLM odaklı teknikler yelpazesinin incelenmesi, iii) LLM'lerin matematik çözümünde karşılaştığı etkenler ve kaygılara genel bir bakış, iv) bu alandaki kalıcı zorlukların açıklığa kavuşturulması. Bildiğimiz kadarıyla bu derleme, matematik alanındaki LLM ekosistemini kapsamlı biçimde inceleyen ilk çalışmalardan biridir ve hızla gelişen bu alanın mevcut durumu, başarıları ve gelecekteki zorlukları hakkında bütüncül bir bakış sunmaktadır.
    > Mathematical reasoning serves as a cornerstone for assessing the fundamental cognitive capabilities of human intelligence. In recent times, there has been a notable surge in the development of Large Language Models (LLMs) geared towards the automated resolution of mathematical problems. However, the landscape of mathematical problem types is vast and varied, with LLM-oriented techniques undergoing evaluation across diverse datasets and settings. This diversity makes it challenging to discern the true advancements and obstacles within this burgeoning field. This survey endeavors to address four pivotal dimensions: i) a comprehensive exploration of the various mathematical problems and their corresponding datasets that have been investigated; ii) an examination of the spectrum of LLM-oriented techniques that have been proposed for mathematical problem-solving; iii) an overview of factors and concerns affecting LLMs in solving math; and iv) an elucidation of the persisting challenges within this domain. To the best of our knowledge, this survey stands as one of the first extensive examinations of the landscape of LLMs in the realm of mathematics, providing a holistic perspective on the current state, accomplishments, and future challenges in this rapidly evolving field.

Makale bağlantısı

https://arxiv.org/abs/2402.00157

Daha fazlası

https://x.com/omarsar0/status/1753424518171738194


Dil Modelleri için Sıkıştırma Algoritmalarına Kapsamlı Bir Bakış / A Comprehensive Survey of Compression Algorithms for Language Models

Makale tanıtımı

  • budama, nicemleme, bilgi damıtma, düşük-rank yaklaşımı, parametre paylaşımı ve verimli mimari tasarımı gibi sıkıştırma algoritmalarını ele alır.
    > Covers compression algorithms like pruning, quantization, knowledge distillation, low-rank approximation, parameter sharing, and efficient architecture design.

Makale özeti (Abstract)

  • Doğruluktan ödün vermeden dil modellerini nasıl sıkıştırabiliriz? Son dönemdeki dil modellerinin kayda değer ilerlemelerinden, artan karbon emisyonları ve yüksek bakım maliyetleri gibi devasa model boyutlarının yan etkileri olmadan yararlanabilmek için dil modellerine yönelik sıkıştırma algoritmalarının sayısı hızla artıyor. Çok sayıda sıkıştırma algoritması dil modellerini sıkıştırmada dikkat çekici ilerleme göstermiş olsa da, ironik bir şekilde algoritma sayısının aşırı artması yeni eğilimleri yakalamayı ve bunların temelindeki kavramları belirlemeyi zorlaştırıyor. Bu makale; budama, nicemleme, bilgi damıtma, düşük-rank yaklaşımı, parametre paylaşımı ve verimli mimari tasarımı dahil çeşitli sıkıştırma algoritmalarını inceliyor ve özetliyor. Yalnızca farklı sıkıştırma algoritmalarının genel eğilimlerini özetlemekle kalmıyor, aynı zamanda temsil gücü yüksek algoritmaları seçerek bunların derinlemesine analizini de sunuyor. Her sıkıştırma algoritması kategorisinin değerini ve büyük dil modellerinin ortaya çıkışıyla birlikte önemli etki yaratan düşük maliyetli sıkıştırma algoritmalarının sahip olması gereken özellikleri tartışıyor. Son olarak, anket sonuçlarına dayanarak gelecek vaat eden araştırma konularını tanıtıyor.
    > How can we compress language models without sacrificing accuracy? The number of compression algorithms for language models is rapidly growing to benefit from remarkable advances of recent language models without side effects due to the gigantic size of language models, such as increased carbon emissions and expensive maintenance fees. While numerous compression algorithms have shown remarkable progress in compressing language models, it ironically becomes challenging to capture emerging trends and identify the fundamental concepts underlying them due to the excessive number of algorithms. In this paper, we survey and summarize diverse compression algorithms including pruning, quantization, knowledge distillation, low-rank approximation, parameter sharing, and efficient architecture design. We not only summarize the overall trend of diverse compression algorithms but also select representative algorithms and provide in-depth analyses of them. We discuss the value of each category of compression algorithms, and the desired properties of low-cost compression algorithms which have a significant impact due to the emergence of large language models. Finally, we introduce promising future research topics based on our survey results.

Makale bağlantısı

https://arxiv.org/abs/2401.15347

Daha fazla okuma

https://x.com/omarsar0/status/1752746770377974072


MoE-LLaVA: Büyük Ölçekli Görsel-Dil Modelleri için Uzman Karışımı / MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

Makale tanıtımı

  • Büyük ölçekli görsel-dil modelleri için uzman karışımı ayarlamasını kullanarak sabit hesaplama maliyetiyle parametreleri ciddi ölçüde azaltan seyrek bir model kurar; bu yaklaşım ayrıca çok modlu öğrenme ve model seyreklikle ilişkili performans düşüşünü gidermeye de yardımcı olur.
    > Employs mixture of experts tuning for large vision-language models which constructs a sparse model with a substantial reduction in parameters with a constant computational cost; this approach also helps to address performance degradation associated with multi-modal learning and model sparsity.

Makale özeti (Abstract)

  • Büyük görsel-dil modellerinde (LVLM) modeli ölçeklendirmek, performansı etkili biçimde artırabilir. Ancak model parametrelerini büyütmek, hesaplama sırasında her token için tüm model parametreleri etkinleştirildiğinden eğitim ve çıkarım maliyetlerini önemli ölçüde artırır. Bu çalışmada, parametre sayısı son derece yüksek olmasına rağmen hesaplama maliyeti sabit kalan seyrek bir model kurabilen ve genellikle çok modlu öğrenme ile model seyreklikine eşlik eden performans düşüşünü etkili biçimde ele alan, LVLM'ler için yeni bir eğitim stratejisi olan MoE-tuning'i öneriyorlar. Ayrıca MoE tabanlı seyrek LVLM mimarisi olan MoE-LLaVA çerçevesini tanıtıyorlar. Bu çerçeve, dağıtım sırasında yönlendiriciler aracılığıyla yalnızca en iyi k uzmanın etkinleşmesini sağlarken geri kalan uzmanları pasif durumda tutuyor. Kapsamlı deneyler, MoE-LLaVA'nın görsel anlama konusundaki güçlü yeteneklerini ve model çıktılarındaki halüsinasyonları azaltma potansiyelini ortaya koyuyor. Dikkat çekici biçimde, yalnızca seyrek olarak etkinleştirilen 3 milyar parametreyle MoE-LLaVA, çeşitli görsel anlama veri kümelerinde LLaVA-1.5-7B ile karşılaştırılabilir performans gösterdi ve nesne halüsinasyonu karşılaştırmalarında LLaVA-1.5-13B'yi bile geride bıraktı. MoE-LLaVA ile seyrek LVLM'ler için bir başlangıç referansı oluşturmayı ve daha verimli, daha etkili çok modlu öğrenme sistemlerinin geliştirilmesine yönelik gelecekteki araştırmalara değerli içgörüler sunmayı amaçlıyorlar. Kod \url{https://github.com/PKU-YuanGroup/MoE-LLaVA} adresinde yayımlandı.
    > Büyük Görsel-Dil Modelleri (LVLM) için modeli ölçeklendirmek performansı etkili biçimde artırabilir. Ancak model parametrelerini genişletmek, hesaplama sırasında her token için tüm model parametreleri etkinleştirildiğinden eğitim ve çıkarım maliyetlerini önemli ölçüde artırır. Bu çalışmada, parametre sayısı olağanüstü yüksek ancak hesaplama maliyeti sabit olan seyrek bir model kurabilen ve çok modlu öğrenme ile model seyreklikine tipik olarak eşlik eden performans düşüşünü etkili biçimde gideren, LVLM'ler için yeni bir eğitim stratejisi olan MoE-tuning önerilmektedir. Ayrıca, MoE tabanlı seyrek bir LVLM mimarisi olan MoE-LLaVA çerçevesi sunulmaktadır. Bu çerçeve, dağıtım sırasında yönlendiriciler aracılığıyla yalnızca en iyi k uzmanı etkinleştirir ve geri kalan uzmanları pasif tutar. Kapsamlı deneylerimiz, MoE-LLaVA'nın görsel anlamadaki üstün yeteneklerini ve model çıktılarındaki halüsinasyonları azaltma potansiyelini vurgulamaktadır. Dikkat çekici olarak, yalnızca 3 milyar seyrek etkinleştirilen parametre ile MoE-LLaVA, çeşitli görsel anlama veri kümelerinde LLaVA-1.5-7B ile karşılaştırılabilir performans sergilemekte ve nesne halüsinasyonu kıyaslamalarında LLaVA-1.5-13B'yi bile aşmaktadır. MoE-LLaVA aracılığıyla, seyrek LVLM'ler için bir temel oluşturmayı ve daha verimli ve etkili çok modlu öğrenme sistemlerinin geliştirilmesine yönelik gelecekteki araştırmalar için değerli içgörüler sağlamayı amaçlıyoruz. Kod \url{https://github.com/PKU-YuanGroup/MoE-LLaVA} adresinde yayımlanmıştır.

Makale bağlantısı

https://arxiv.org/abs/2401.15947

Daha fazlasını okuyun

https://github.com/PKU-YuanGroup/MoE-LLaVA

https://x.com/LinBin46984/status/1753403875531375003


Web'i yeniden ifade etmek: Hesaplama ve veri açısından verimli dil modelleme için bir tarif / Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling

Makale tanıtımı

  • “Vikipedi gibi” veya “soru-cevap biçiminde” gibi belirli stil ve formatlarda web belgelerini yeniden ifade etmesi istenen hazır bir instruction-tuned model kullanılarak, gerçek ve sentetik yeniden ifadeler üzerinde yapay zeka ortak ön eğitimden geçirilir; bu yöntem ön eğitimi yaklaşık 3 kat hızlandırır, perplexity'yi iyileştirir ve birçok görevde zero-shot soru yanıtlama doğruluğunu artırır.
    > “Vikipedi gibi” veya “soru-cevap biçimi” gibi belirli stil ve formatlarda web belgelerini yeniden ifade etmesi için yönlendirilen hazır bir instruction-tuned model kullanarak, gerçek ve sentetik yeniden ifadeler üzerinde llm'leri ortak olarak ön eğitir; ön eğitimi yaklaşık 3 kat hızlandırır, perplexity'yi iyileştirir ve birçok görevde zero-shot soru yanıtlama doğruluğunu artırır.

Makale özeti (Abstract)

  • Büyük dil modelleri genellikle yapılandırılmamış, gürültülü ve kötü ifade edilmiş devasa web kazıntıları üzerinde eğitilir. Mevcut ölçekleme yasalarına göre bu tür verilerden öğrenmek, eğitilen modelin boyutuyla birlikte artan bol miktarda hem hesaplama gücü hem de veri gerektirir. Bu, ön eğitime bağlı büyük hesaplama maliyeti ve süre ile web üzerindeki yüksek kaliteli verinin giderek azalması nedeniyle uygulanabilir değildir. Bu çalışma, web üzerindeki belgeleri "Wikipedia gibi" ya da "soru-cevap formatında" gibi belirli stillerde yeniden ifade etmeye yönlendirilen hazır bir instruction-tuned model kullanan ve gerçek ile sentetik yeniden ifadeler üzerinde LLM'leri birlikte ön eğiten Web Rephrase Augmented Pre-training ($\textbf{WRAP}$) yöntemini öneriyor. İlk olarak, doğal olarak gürültülü olan C4 veri kümesinde WRAP kullanımının ön eğitimi $\sim3x$ hızlandırdığını gösteriyor. Aynı ön eğitim hesaplama bütçesiyle, Pile'ın farklı alt kümelerinde perplexity'yi ortalama %10'dan fazla iyileştiriyor ve 13 görevde zero-shot soru yanıtlama doğruluğunu %2'den fazla artırıyor. İkinci olarak, yeniden ifade etme stilinin model performansı üzerindeki etkisini inceleyerek, eğitim verisinin bileşiminin OOD ayarlarında LLM performansını nasıl etkileyebileceğine dair içgörüler sunuyor. Elde edilen kazanımlar, yeniden ifade edilmiş sentetik verinin yalnızca gerçek veriye kıyasla daha yüksek fayda sağlamasına bağlanıyor; çünkü bu veri (i) aşağı akış değerlendirme stilini yakından yansıtan stil çeşitliliği içeriyor ve (ii) web'den kazınmış veriye göre daha yüksek "kaliteye" sahip.

    > Large language models are trained on massive scrapes of the web, which are often unstructured, noisy, and poorly phrased. Current scaling laws show that learning from such data requires an abundance of both compute and data, which grows with the size of the model being trained. This is infeasible both because of the large compute costs and duration associated with pre-training, and the impending scarcity of high-quality data on the web. In this work, we propose Web Rephrase Augmented Pre-training ($\textbf{WRAP}$) that uses an off-the-shelf instruction-tuned model prompted to paraphrase documents on the web in specific styles such as "like Wikipedia" or in "question-answer format" to jointly pre-train LLMs on real and synthetic rephrases. First, we show that using WRAP on the C4 dataset, which is naturally noisy, speeds up pre-training by $\sim3x$. At the same pre-training compute budget, it improves perplexity by more than 10% on average across different subsets of the Pile, and improves zero-shot question answer accuracy across 13 tasks by more than 2%. Second, we investigate the impact of the re-phrasing style on the performance of the model, offering insights into how the composition of the training data can impact the performance of LLMs in OOD settings. Our gains are attributed to the fact that re-phrased synthetic data has higher utility than just real data because it (i) incorporates style diversity that closely reflects downstream evaluation style, and (ii) has higher 'quality' than web-scraped data.

Makale bağlantısı

https://arxiv.org/abs/2401.16380

Daha fazlasını oku

https://x.com/pratyushmaini/status/1752337225097076809


Gürültünün Gücü: RAG Sistemleri için Retrieval'ın Yeniden Tanımlanması / The Power of Noise: Redefining Retrieval for RAG Systems

Makale tanıtımı

  • RAG sisteminin retrieval bileşenini iyileştirmek için gereken unsurlara odaklanan bir çalışma; ilgili bilginin sorguya yakın yerleştirilmesi gerektiğini, aksi halde modelin bu bilgiye odaklanmakta zorlandığını doğruluyor; şaşırtıcı biçimde, ilgili belgelerin RAG sisteminin performansını mutlaka artırmadığını buluyor; daha da beklenmedik şekilde, alakasız ve gürültülü belgeler bile doğru yerleştirildiklerinde doğruluğu artırmaya yardımcı olabiliyor.
    > a study that focuses on the components needed to improve the retrieval component of a rag system; confirms that the position of relevant information should be placed near the query, the model will struggle to attend to the information if this is not the case; surprisingly, it finds that related documents don't necessarily lead to improved performance for the rag system; even more unexpectedly, irrelevant and noisy documents can help drive up accuracy if placed correctly.

Makale özeti(Abstract)

  • Arama ile zenginleştirilmiş üretim (RAG) sistemleri, geleneksel büyük dil modellerine (LLM) kıyasla önemli bir ilerlemeyi temsil eder. RAG sistemleri, Bilgi Erişimi (IR) aşamasıyla getirilen harici verileri entegre ederek üretim yeteneğini güçlendirir; böylece önceden eğitilmiş bilgi ve sınırlı bağlam penceresiyle kısıtlanan standart LLM'lerin sınırlamalarını aşar. Bu alandaki araştırmaların çoğu, ağırlıklı olarak RAG sistemleri içindeki LLM'lerin üretici yönüne odaklanmıştır. Bu çalışma, IR bileşenlerinin RAG sistemleri üzerindeki etkisini kapsamlı ve eleştirel biçimde analiz ederek bu boşluğu doldurur. Makale, etkili bir RAG isteminin oluşturulması için bir getiricinin hangi özelliklere sahip olması gerektiğini, özellikle de hangi tür belgelerin getirilmesi gerektiğine odaklanarak inceler. Belgelerin istemle ilgililiği, belgelerin konumu ve bağlama dahil edilen belge sayısı gibi çeşitli unsurlar değerlendirilir. Bulgularımız, diğer içgörülerin yanı sıra, ilgisiz belgelerin dahil edilmesinin kaliteyi düşüreceği yönündeki ilk varsayımımızın aksine, doğrulukta %30'dan fazla beklenmedik bir performans artışı sağlayabildiğini ortaya koyuyor. Bu sonuçlar, getirme ile dil üretim modellerini entegre etmek için özelleşmiş stratejiler geliştirilmesi gerektiğini vurgularken, bu alandaki gelecekteki araştırmalar için de bir temel oluşturuyor.
    > Retrieval-Augmented Generation (RAG) systems represent a significant advancement over traditional Large Language Models (LLMs). RAG systems enhance their generation ability by incorporating external data retrieved through an Information Retrieval (IR) phase, overcoming the limitations of standard LLMs, which are restricted to their pre-trained knowledge and limited context window. Most research in this area has predominantly concentrated on the generative aspect of LLMs within RAG systems. Our study fills this gap by thoroughly and critically analyzing the influence of IR components on RAG systems. This paper analyzes which characteristics a retriever should possess for an effective RAG's prompt formulation, focusing on the type of documents that should be retrieved. We evaluate various elements, such as the relevance of the documents to the prompt, their position, and the number included in the context. Our findings reveal, among other insights, that including irrelevant documents can unexpectedly enhance performance by more than 30% in accuracy, contradicting our initial assumption of diminished quality. These results underscore the need for developing specialized strategies to integrate retrieval with language generation models, thereby laying the groundwork for future research in this field.

Makale bağlantısı

https://arxiv.org/abs/2401.14887

Daha fazlası

https://x.com/omarsar0/status/1751803310267314509


Büyük görsel-dil modellerindeki halüsinasyonlar üzerine bir derleme makalesi / A Survey on Hallucination in Large Vision-Language Models

Makale tanıtımı

  • Büyük görsel-dil modellerindeki (LVLM; Large Vision-Language Model) halüsinasyon sorununu ve bu sorunu hafifletmeye yönelik teknikleri ele alır; LVLM halüsinasyon değerlendirme yöntemleri ile benchmark'larını tanıtır; LVLM halüsinasyonlarının nedenleri ve bunları hafifletmenin olası yollarına dair ipuçları ve yararlı analizler sunar.
    > Discusses hallucination issues and techniques to mitigate hallucination in large vision-language models (lvlm); it introduces lvlm hallucination evaluation methods and benchmarks; provides tips and a good analysis of the causes of lvlm hallucinations and potential ways to mitigate them.

Makale özeti (Abstract)

  • Son dönemde Büyük Görsel-Dil Modellerinin (LVLM) geliştirilmesi, pratik uygulama potansiyeli nedeniyle yapay zeka ekosisteminde giderek daha fazla ilgi çekmektedir. Ancak 'halüsinasyon', daha spesifik olarak ise olgusal görsel içerik ile buna karşılık gelen metin üretimi arasındaki uyumsuzluk, LVLM'lerin kullanımında önemli bir zorluk yaratmaktadır. Bu kapsamlı derleme, genel bir çerçeve oluşturmak ve gelecekteki hafifletme çalışmalarını kolaylaştırmak amacıyla LVLM ile ilişkili halüsinasyonları ayrıntılı biçimde inceliyor. İnceleme, önce LVLM'lerde halüsinasyon kavramını netleştirerek, çeşitli halüsinasyon belirtilerini sunuyor ve LVLM halüsinasyonlarının doğasında bulunan benzersiz zorlukları vurguluyor. Ardından, LVLM'lere özgü halüsinasyonları değerlendirmek üzere özel olarak tasarlanmış benchmark'ları ve metodolojileri özetliyor. Ayrıca, eğitim verileri ve model bileşenlerinden elde edilen içgörüleri kapsayacak şekilde, bu halüsinasyonların kök nedenlerini derinlemesine araştırıyor. Bunun yanında, halüsinasyonları hafifletmeye yönelik mevcut yöntemleri de eleştirel biçimde gözden geçiriyor. Son olarak bu derleme, LVLM'lerdeki halüsinasyonlara ilişkin açık soruları ve gelecekteki yönelimleri tartışarak sona eriyor.
    > Recent development of Large Vision-Language Models (LVLMs) has attracted growing attention within the AI landscape for its practical implementation potential. However, ``hallucination'', or more specifically, the misalignment between factual visual content and corresponding textual generation, poses a significant challenge of utilizing LVLMs. In this comprehensive survey, we dissect LVLM-related hallucinations in an attempt to establish an overview and facilitate future mitigation. Our scrutiny starts with a clarification of the concept of hallucinations in LVLMs, presenting a variety of hallucination symptoms and highlighting the unique challenges inherent in LVLM hallucinations. Subsequently, we outline the benchmarks and methodologies tailored specifically for evaluating hallucinations unique to LVLMs. Additionally, we delve into an investigation of the root causes of these hallucinations, encompassing insights from the training data and model components. We also critically review existing methods for mitigating hallucinations. The open questions and future directions pertaining to hallucinations within LVLMs are discussed to conclude this survey.

Makale bağlantısı

https://arxiv.org/abs/2402.00253

Daha fazlası

https://x.com/omarsar0/status/1753449211931079101


SliceGPT: Satır ve Sütunları Silerek Büyük Dil Modellerini Sıkıştırma / SliceGPT: Compress Large Language Models by Deleting Rows and Columns

Makale tanıtımı

  • Her ağırlık matrisini daha küçük yoğun matrislerle değiştiren bir eğitim sonrası seyreltme çerçevesi öneren yeni bir LLM sıkıştırma tekniğidir; ağın gömme boyutunu azaltmaya yardımcı olur ve yoğun modellerin zero-shot performansının büyük kısmını korurken Llama2-70B ve Phi-2 modellerindeki model parametrelerinin %20'sine kadarını kaldırabilir.
    > A new llm compression technique that proposes a post-training sparsification scheme that replaces each weight matrix with a smaller dense matrix; helps reduce the embedding dimension of the network and can remove up to 20% of model parameters for llama2-70b and phi-2 models while retaining most of the zero-shot performance of the dense models.

Makale özeti (Abstract)

  • Büyük dil modelleri doğal dil işlemenin temel taşı haline geldi, ancak bunların kullanımı hesaplama ve bellek kaynakları açısından ciddi maliyetler getiriyor. Seyreltme, bu kaynak kısıtlarını hafifletmek için bir çözüm sunuyor ve son çalışmalar eğitilmiş modellerin sonradan seyreltilebildiğini gösterdi. Mevcut seyreltme teknikleri, ek veri yapıları gerektirmeleri ve mevcut donanımla sınırlı hız artışı sağlamaları nedeniyle zorluklarla karşı karşıya. Bu makalede, her ağırlık matrisini daha küçük (yoğun) bir matrisle değiştirerek ağın gömme boyutunu azaltan yeni bir eğitim sonrası seyreltme yöntemi olan SliceGPT sunuluyor. Kapsamlı deneyler, SliceGPT'nin LLAMA2-70B, OPT 66B ve Phi-2 modellerinde model parametrelerinin (gömmeler dahil) %25'ine kadarını kaldırırken sırasıyla yoğun modelin zero-shot görev performansının %99, %99 ve %90'ını koruyabildiğini gösteriyor. Dilimlenmiş modeller daha az GPU üzerinde çalışıyor ve ek kod optimizasyonu olmadan daha hızlı çalışıyor: 24GB tüketici GPU'larında LLAMA2-70B çıkarımı için toplam hesaplamayı yoğun modelin %64'üne, 40GB A100 GPU'larında ise %66'sına düşürüyoruz. Çalışma, SliceGPT'yi mümkün kılan transformer ağlarında hesaplama değişmezliğine dair yeni bir içgörü sunuyor ve bunun önceden eğitilmiş modellerin bellek ve hesaplama gereksinimlerini azaltmaya yönelik gelecekteki yaklaşımlara ilham vermesi ve olanak sağlaması umuluyor. Kod şu adreste mevcut: https://github.com/microsoft/TransformerCompression
    > Large language models have become the cornerstone of natural language processing, but their use comes with substantial costs in terms of compute and memory resources. Sparsification provides a solution to alleviate these resource constraints, and recent works have shown that trained models can be sparsified post-hoc. Existing sparsification techniques face challenges as they need additional data structures and offer constrained speedup with current hardware. In this paper we present SliceGPT, a new post-training sparsification scheme which replaces each weight matrix with a smaller (dense) matrix, reducing the embedding dimension of the network. Through extensive experimentation, we show that SliceGPT can remove up to 25% of the model parameters (including embeddings) for LLAMA2-70B, OPT 66B and Phi-2 models while maintaining 99%, 99% and 90% zero-shot task performance of the dense model respectively. Our sliced models run on fewer GPUs and run faster without any additional code optimization: on 24GB consumer GPUs we reduce the total compute for inference on LLAMA2-70B to 64% of that of the dense model; on 40GB A100 GPUs we reduce it to 66%. We offer a new insight, computational invariance in transformer networks, which enables SliceGPT and we hope it will inspire and enable future avenues to reduce memory and computation demands for pre-trained models. Code is available at: https://github.com/microsoft/TransformerCompression

Makale bağlantısı

https://arxiv.org/abs/2401.15024v1

Daha fazlası

https://github.com/microsoft/TransformerCompression

https://x.com/_akhaliq/status/1751796334531592496


Orijinal metin

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-c5e


⚠️Reklam⚠️: PyTorch Kore Kullanıcı Topluluğu tarafından derlenen bu yazıyı faydalı buldunuz mu? Üye olursanız önemli yazıları e-posta ile gönderiyoruz! (Varsayılan ayar Weekly'dir, ancak Daily olarak da değiştirebilirsiniz.)

Henüz yorum yok.

Henüz yorum yok.