1 puan yazan ninebow 2024-03-27 | Henüz yorum yok. | WhatsApp'ta paylaş
  • DAIR.AI tarafından her hafta yayımlanan ML makalelerine dair yazıları otomatik olarak çevirdik.
  • Bu hafta seçilen makalelerde genel olarak büyük dil modellerini (LLMs) kullanan araştırmaların öne çıktığı görülüyor. Özellikle, "Tool Use in LLMs", "Step-by-Step Comparisons Make LLMs Better Reasoners", "LLM4Decompile", "Agent-FLAN", "LLMs Leak Proprietary Information", "Retrieval-Augmented Fine-Tuning" gibi başlıklardan da anlaşılacağı üzere, bu makaleler LLM'lerin farklı uygulama alanlarını, performans artırma yöntemlerini ve hatta güvenlik sorunlarını ele alıyor gibi görünüyor.

  • Bu eğilim, son birkaç yılda yapay zeka alanında LLM'ler öne çıkarken, çeşitli araştırma alanlarında bunların kullanım kapsamını keşfetmeye yönelik çabaların bir sonucu olarak görülebilir. Özellikle, mevcut işleri daha verimli işlemek için metodolojilerin yanı sıra, araç kullanımı veya problem çözme süreçlerinde akıl yürütme yeteneğinin geliştirilmesi, yazılım tersine mühendisliği gibi yeni uygulama alanlarının keşfi ve model güvenilirliği ile güvenliği üzerine araştırmalar, LLM'lerin gelişim potansiyelini genişletiyor. Ayrıca bu çalışmalar, LLM'lerin gerçek dünyada nasıl kullanılabileceğini ve buna bağlı olası sorunların neler olduğunu anlamayı derinleştirmede önemli bir rol oynuyor denebilir.

  • Buna ek olarak, "Evolutionary Model Merge", "DROID" gibi makaleler model entegrasyonu ve gelişim sürecine ilişkin araştırmalar önererek, model performansını sürekli iyileştirme ve optimize etme yöntemlerine yönelik ilginin de arttığını gösteriyor. Bu, yalnızca LLM'ler için değil, çeşitli yapay zeka teknolojilerinin gelişimi ve entegrasyonu açısından da önemli bir yön ortaya koyuyor ve gelecek araştırmalarda da önemli bir konu olmaya devam etmesi bekleniyor. Dolayısıyla bu hafta seçilen makaleler, LLM'lerle ilgili araştırmaların mevcut eğilimleri ve gelecekteki yönü hakkında değerli içgörüler sunuyor.


Grok-1

Makale tanıtımı

  • Temel model ağırlıklarının ve ağ mimarisinin açık olarak yayımlanmasını içeren, 314B parametreli bir mixture-of-experts modeli; bu MoE modeli, verilen bir token için ağırlıkların %25'ini etkinleştiriyor ve ön eğitim kesim tarihi Ekim 2023.

    a mixture-of-experts model with 314B parameters which includes the open release of the base model weights and network architecture; the MoE model activates 25% of the weights for a given token and its pretraining cutoff date is October 2023.

Makale bağlantısı

https://x.ai/blog/grok-os

Daha fazlasını okuyun

https://discuss.pytorch.kr/t/x-ai-grok/3793/1

https://x.com/ibab_ml/status/1769447989192675748


Model birleştirme tariflerinin evrimsel optimizasyonu / Evolutionary Optimization of Model Merging Recipes

Makale tanıtımı

  • Açık kaynak modelleri birleştirmek için evrimi kullanarak foundation model geliştirmeyi otomatikleştiren bir yaklaşım; alanlar arası birleştirmeyi mümkün kılarak, Japonca Math LLM'in bu görevler için açıkça eğitilmemiş olmasına rağmen Japonca LLM kıyaslamalarında son teknoloji performansa ulaşmasını ve hatta çok daha fazla parametreye sahip modelleri geride bırakmasını sağladı.

    an approach for automating foundation model development using evolution to combine open-source models; facilitates cross-domain merging where a Japanese Math LLM achieved state-of-the-art performance on Japanese LLM benchmarks, even surpassing models with significantly more parameters, despite not explicitly trained for these tasks.

Makale özeti (Abstract)

  • Güçlü foundation model'lerin oluşturulmasını otomatikleştirmek için evrimsel algoritmaların yeni bir uygulamasını sunuyoruz. Model birleştirme, maliyet etkinliği nedeniyle LLM geliştirmede umut verici bir yaklaşım olarak öne çıkmış olsa da, şu anda insan sezgisine ve alan bilgisine dayanıyor; bu da potansiyelini sınırlıyor. Burada, geniş ek eğitim verisi veya hesaplama gerektirmeden, farklı açık kaynak modellerin etkili kombinasyonlarını otomatik olarak keşfeden ve onların kolektif zekasından yararlanan evrimsel bir yaklaşım öneriyoruz. Yaklaşımımız hem parametre uzayında hem de veri akışı uzayında çalışıyor; bu da yalnızca tek tek modellerin ağırlıklarının ötesinde optimizasyona olanak tanıyor. Bu yaklaşım, matematiksel akıl yürütme yeteneklerine sahip bir Japonca LLM gibi modeller üreterek alanlar arası birleştirmeyi de mümkün kılıyor. Şaşırtıcı biçimde, Japonca Math LLM'imiz bu tür görevler için açıkça eğitilmemiş olmasına rağmen, yerleşik çeşitli Japonca LLM kıyaslamalarında son teknoloji performans elde etti ve hatta çok daha fazla parametreye sahip modelleri geride bıraktı. Ayrıca yaklaşımımızla oluşturulan kültürel farkındalığa sahip Japonca VLM, Japon kültürüne özgü içeriği açıklamada önceki Japonca VLM'lerden daha iyi performans göstererek etkinliğini kanıtladı. Bu çalışma yalnızca yeni son teknoloji modelleri yeniden açık kaynak topluluğuna kazandırmakla kalmıyor, aynı zamanda otomatik model bileşimi için yeni bir paradigma da sunarak foundation model geliştirmeye yönelik alternatif ve verimli yaklaşımların keşfinin önünü açıyor.

    We present a novel application of evolutionary algorithms to automate the creation of powerful foundation models. While model merging has emerged as a promising approach for LLM development due to its cost-effectiveness, it currently relies on human intuition and domain knowledge, limiting its potential. Here, we propose an evolutionary approach that overcomes this limitation by automatically discovering effective combinations of diverse open-source models, harnessing their collective intelligence without requiring extensive additional training data or compute. Our approach operates in both parameter space and data flow space, allowing for optimization beyond just the weights of the individual models. This approach even facilitates cross-domain merging, generating models like a Japanese LLM with Math reasoning capabilities. Surprisingly, our Japanese Math LLM achieved state-of-the-art performance on a variety of established Japanese LLM benchmarks, even surpassing models with significantly more parameters, despite not being explicitly trained for such tasks. Furthermore, a culturally-aware Japanese VLM generated through our approach demonstrates its effectiveness in describing Japanese culture-specific content, outperforming previous Japanese VLMs. This work not only contributes new state-of-the-art models back to the open-source community, but also introduces a new paradigm for automated model composition, paving the way for exploring alternative, efficient approaches to foundation model development.

Makale bağlantısı

https://arxiv.org/abs/2403.13187

Daha fazla oku

https://x.com/SakanaAILabs/status/1770613032198279663


TacticAI: futbol taktikleri için yapay zeka asistanı / TacticAI: an AI assistant for football tactics

Makale tanıtımı

  • Liverpool FC’den alan uzmanlarıyla iş birliği içinde geliştirilip değerlendirilen, futbol taktiklerine yönelik yapay zeka destekli bir yardımcı sistemdir; antrenörlere korner organizasyonları için alternatif oyuncu yerleşimlerini örnekleyip keşfetme ve başarı olasılığı en yüksek taktiği seçme imkanı sunar. TacticAI’nin model önerileri, vakaların %90’ında mevcut taktiklere tercih edilmekte ve etkili bir korner arama sistemi sağlamaktadır.

    an AI-powered assistant for football tactics developed and evaluated in collaboration with domain experts from Liverpool FC; the systems offer coaches a way to sample and explore alternative player setups for a corner kick routine and select the tactic with the highest predicted likelihood of success; TacticAI’s model suggestions are favored over existing tactics 90% of the time and it offers an effective corner kick retrieval system.

Makale özeti (Abstract)

  • Rakip takımların kullandığı taktiklerdeki temel örüntüleri belirlemek ve etkili karşılıklar geliştirmek, modern futbolun merkezinde yer alır. Ancak bunu algoritmik olarak yapmak hâlâ açık bir araştırma problemidir. Bu karşılanmamış ihtiyacı gidermek için Unity, Liverpool FC’den alan uzmanlarıyla yakın iş birliği içinde geliştirilen ve değerlendirilen bir yapay zeka futbol taktik asistanı olan TacticAI’yi öneriyor. Çalışma, antrenörlere müdahale ve iyileştirme için en doğrudan fırsatları sunduğu için korner analizine odaklanıyor. TacticAI, hem kestirimsel hem de üretici bileşenleri bir araya getirerek antrenörlerin her bir korner organizasyonu için alternatif oyuncu yerleşimlerini etkili biçimde örnekleyip keşfetmesine ve başarı olasılığı en yüksek olanları seçmesine olanak tanıyor. Unity, alıcı oyuncu ve şut denemesi tahmini ile oyuncu pozisyonu ayarlama önerileri gibi çeşitli kıyaslama görevlerinde TacticAI’yi doğruluyor. TacticAI’nin faydası, Liverpool FC’deki futbol alan uzmanlarıyla yürütülen nitel bir çalışmayla da doğrulandı. Sonuçlar, TacticAI’nin model önerilerinin yalnızca gerçek taktiklerden ayırt edilemez olmakla kalmadığını, aynı zamanda vakaların %90’ında mevcut taktiklere tercih edildiğini ve etkili bir korner arama sistemi sunduğunu gösteriyor. TacticAI, altın standart verinin sınırlı erişilebilirliğine rağmen, geometrik derin öğrenme yoluyla veri verimliliği sağlayarak bu sonuçlara ulaşabildi.

    Identifying key patterns of tactics implemented by rival teams, and developing effective responses, lies at the heart of modern football. However, doing so algorithmically remains an open research challenge. To address this unmet need, we propose TacticAI, an AI football tactics assistant developed and evaluated in close collaboration with domain experts from Liverpool FC. We focus on analysing corner kicks, as they offer coaches the most direct opportunities for interventions and improvements. TacticAI incorporates both a predictive and a generative component, allowing the coaches to effectively sample and explore alternative player setups for each corner kick routine and to select those with the highest predicted likelihood of success. We validate TacticAI on a number of relevant benchmark tasks: predicting receivers and shot attempts and recommending player position adjustments. The utility of TacticAI is validated by a qualitative study conducted with football domain experts at Liverpool FC. We show that TacticAI’s model suggestions are not only indistinguishable from real tactics, but also favoured over existing tactics 90% of the time, and that TacticAI offers an effective corner kick retrieval system. TacticAI achieves these results despite the limited availability of gold-standard data, achieving data efficiency through geometric deep learning.

Makale bağlantısı

https://www.nature.com/articles/s41467-024-45965-x

Daha fazla oku

https://discuss.pytorch.kr/t/tacticai-ai-feat-deepmind-fc/3841

https://x.com/GoogleDeepMind/status/1770121564085707082


LLM'lerde araç kullanımı / Tool Use in LLMs

Makale tanıtımı

  • Araç kullanımı paradigmasının resmi bir tanımı, LLM’lerin araç kullanımından yararlandığı senaryolar ve bu yaklaşımın hangi görevlerde iyi çalıştığı dahil olmak üzere LLM’lerde araç kullanımına genel bir bakış sunar; ayrıca karmaşık araç kullanımına dair bir analiz sağlar ve LM araç kullanımı çalışmalarındaki test ortamları ile değerlendirme metriklerini özetler.

    provides an overview of tool use in LLMs, including a formal definition of the tool-use paradigm, scenarios where LLMs leverage tool usage, and for which tasks this approach works well; it also provides an analysis of complex tool usage and summarize testbeds and evaluation metrics across LM tooling works.

Makale özeti (Abstract)

Dil modelleri (LM), güçlü olmalarına rağmen çoğunlukla metin üretme görevlerinde kullanılır. Araçlar, karmaşık beceriler gerektiren görevlerde performanslarını önemli ölçüde artırmıştır. Ancak birçok çalışma “araç” terimini farklı şekillerde kullandığı için şu soruyu gündeme getiriyor: Sonuçta araç nedir? Peki araçlar, LM’lere nerede ve nasıl yardımcı olur? Bu ankette, araçlar için LM’lerin kullandığı harici programlar olarak birleşik bir tanım sunuyor ve LM araç kullanım senaryoları ile yaklaşımlarını sistematik biçimde inceliyoruz. Bu incelemeye dayanarak, çeşitli kıyaslamalarda gereken hesaplama maliyeti ile performans kazanımlarını ölçerek farklı araç kullanımı yöntemlerinin verimliliğini ampirik olarak araştırıyor; ayrıca bu alandaki bazı zorlukları ve gelecekteki olası araştırma yönlerini vurguluyoruz.

Language models (LMs) are powerful yet mostly for text generation tasks. Tools have substantially enhanced their performance for tasks that require complex skills. However, many works adopt the term “tool” in different ways, raising the question: What is a tool anyway? Subsequently, where and how do tools help LMs? In this survey, we provide a unified definition of tools as external programs used by LMs, and perform a systematic review of LM tooling scenarios and approaches. Grounded on this review, we empirically study the efficiency of various tooling methods by measuring their required compute and performance gains on various benchmarks, and highlight some challenges and potential future research in the field.

Makale bağlantısı

https://zorazrw.github.io/files/WhatAreToolsAnyway.pdf

Daha fazlası

https://x.com/omarsar0/status/1770497515898433896


RankPrompt: adım adım karşılaştırmalarla dil modellerini daha iyi muhakeme eden sistemlere dönüştürmek / RankPrompt: Step-by-Step Comparisons Make Language Models Better Reasoners

Makale tanıtımı

  • Ek kaynak gerektirmeden LLM’lerin kendi yanıtlarını sıralamasını sağlayan bir istem yöntemi olan RankPrompt öneriliyor. Bu öz-sıralama yaklaşımı, adayları sistematik adım adım karşılaştırmalı değerlendirme yoluyla sıralıyor; ayrıca LLM’lerin gösterim olarak karşılaştırma zincirleri üretme yeteneğinden yararlandığı için iyi çalışıyor gibi görünüyor. RankPrompt, birçok aritmetik ve sağduyu muhakemesi görevinde ChatGPT ve GPT-4’ün muhakeme performansını belirgin biçimde artırıyor.

    proposes RankPrompt, a prompting method to enable LLMs to self-rank their responses without additional resources; this self-ranking approach ranks candidates through a systematic, step-by-step comparative evaluation; it seems to work well as it leverages the capabilities of LLMs to generate chains of comparisons as demonstrations; RankPrompt significantly enhances the reasoning performance of ChatGPT and GPT-4 on many arithmetic and commonsense reasoning tasks.

Makale özeti (Abstract)

  • Büyük Dil Modelleri (LLM’ler), çeşitli muhakeme görevlerinde etkileyici performans göstermiştir. Ancak ChatGPT gibi en ileri seviye LLM’ler bile muhakeme süreçleri sırasında mantıksal hatalara yatkındır. Göreve özel doğrulayıcılar kullanmak veya birden fazla muhakeme yolu üzerinde oylama yapmak gibi mevcut çözümler, ya kapsamlı insan anotasyonları gerektirir ya da yanıtların tutarsız olduğu senaryolarda başarısız olur. Bu zorlukları ele almak için, ek kaynak olmadan LLM’lerin kendi yanıtlarını sıralamasını sağlayan yeni bir istem yöntemi olan RankPrompt’u tanıtıyoruz. RankPrompt, sıralama problemini farklı yanıtlar arasındaki bir dizi karşılaştırmaya ayırır ve LLM’lerin bağlama uygun örnekler olarak karşılaştırma zincirleri üretmeye yönelik doğal yeteneklerinden yararlanır. 11 aritmetik ve sağduyu muhakemesi görevi üzerindeki deneylerimiz, RankPrompt’un ChatGPT ve GPT-4’ün muhakeme performansını anlamlı biçimde artırdığını ve iyileşmenin %13’e kadar ulaştığını göstermektedir. Ayrıca RankPrompt, açık uçlu görevler için LLM tabanlı otomatik değerlendirmelerde de üstün performans sergileyerek AlpacaEval veri kümesinde insan yargılarıyla zamanın %74’ünde uyum göstermiştir. Yanıt sırası ve tutarlılıktaki değişimlere karşı da dayanıklılık sergiler. Toplu olarak bu sonuçlar, RankPrompt’u dil modellerinden yüksek kaliteli geri bildirim elde etmek için etkili bir yöntem olarak doğrulamaktadır.

    Large Language Models (LLMs) have achieved impressive performance across various reasoning tasks. However, even state-of-the-art LLMs such as ChatGPT are prone to logical errors during their reasoning processes. Existing solutions, such as deploying task-specific verifiers or voting over multiple reasoning paths, either require extensive human annotations or fail in scenarios with inconsistent responses. To address these challenges, we introduce RankPrompt, a new prompting method that enables LLMs to self-rank their responses without additional resources. RankPrompt breaks down the ranking problem into a series of comparisons among diverse responses, leveraging the inherent capabilities of LLMs to generate chains of comparison as contextual exemplars. Our experiments across 11 arithmetic and commonsense reasoning tasks show that RankPrompt significantly enhances the reasoning performance of ChatGPT and GPT-4, with improvements of up to 13%. Moreover, RankPrompt excels in LLM-based automatic evaluations for open-ended tasks, aligning with human judgments 74% of the time in the AlpacaEval dataset. It also exhibits robustness to variations in response order and consistency. Collectively, our results validate RankPrompt as an effective method for eliciting high-quality feedback from language models.

Makale bağlantısı

https://arxiv.org/abs/2403.12373

Daha fazlası

https://x.com/omarsar0/status/1770492690129359135


LLM4Decompile: büyük dil modelleriyle ikili kodun decompile edilmesi / LLM4Decompile: Decompiling Binary Code with Large Language Models

Makale tanıtımı

  • 1 milyardan 3,3 milyara kadar parametreye sahip açık erişimli bir decompile LLM ailesi; bu modeller 4 milyar token’lık C kaynak kodu ve buna karşılık gelen assembly kodu üzerinde eğitildi; yazarlar ayrıca decompilation için yeniden derlenebilirlik ve yeniden çalıştırılabilirliği değerlendiren ve program semantiği perspektifinden ölçüm yapmayı amaçlayan Decompile-Eval adlı veri kümesini tanıtıyor; LLM4Decompile ise assembly kodunun %21’ini decompile edebilme yeteneği göstererek GPT-4’e kıyasla %50 iyileşme sağlıyor.

    1B ile 33B parametre arasında değişen açık erişimli decompilation LLM’lerinden oluşan bir aile; bu modeller 4 milyar token’lık C kaynak kodu ve buna karşılık gelen assembly kodu üzerinde eğitilmiştir; yazarlar ayrıca decompilation için yeniden derlenebilirlik ve yeniden çalıştırılabilirliği değerlendirmek ve program semantiği perspektifinden ölçüm yapmak için Decompile-Eval adlı bir veri kümesi tanıtıyor; LLM4Decompile, assembly kodunun %21’ini decompile edebilme kapasitesi göstererek GPT-4’e göre %50 iyileşme elde ediyor.

Makale özeti (Abstract)

  • Decompilation, derlenmiş kodu insan tarafından okunabilir kaynak koda geri döndürmeyi amaçlar, ancak isimler ve yapı gibi ayrıntılar nedeniyle zorluk yaşar. Büyük dil modelleri (LLM'ler), programlama görevlerinde umut verici sonuçlar göstererek bunların decompilation alanında uygulanmasını teşvik etmektedir. Ancak decompilation için açık kaynaklı bir LLM mevcut değildir. Ayrıca mevcut decompilation değerlendirme sistemleri çoğunlukla token düzeyinde doğruluğu dikkate almakta, herhangi bir programın en önemli özelliği olan kodun çalıştırılabilirliğini ise büyük ölçüde göz ardı etmektedir. Bu nedenle, 4 milyar token’lık C kaynak kodu ve buna karşılık gelen assembly kodu üzerinde önceden eğitilmiş, 1 milyardan 3,3 milyara kadar parametreye sahip ilk açık erişimli decompilation LLM’lerini yayımlıyoruz. Bu açık kaynaklı LLM’ler, alandaki daha ileri geliştirmeler için bir temel oluşturabilir. Pratik program değerlendirmesini sağlamak amacıyla, decompilation için yeniden derlenebilirlik ve yeniden çalıştırılabilirliği dikkate alan ilk veri kümesi olan Decompile-Eval’i tanıtıyoruz. Bu benchmark, decompilation modelini program semantiği perspektifinden değerlendirmenin önemini vurgulamaktadır. Deneyler, LLM4Decompile modelimizin assembly kodunun %21’ini doğru şekilde decompile edebildiğini ve bunun GPT-4’e göre %50 performans artışı sağladığını göstermektedir. Kodumuz, veri kümemiz ve modellerimiz https://github.com/albertan017/LLM4Decompile adresinde yayımlanmıştır.

    Decompilation, derlenmiş kodu insan tarafından okunabilir kaynak koda geri döndürmeyi amaçlar, ancak isimler ve yapı gibi ayrıntılar nedeniyle zorlanır. Büyük dil modelleri (LLM’ler) programlama görevleri için umut vaat etmekte ve bu da bunların decompilation’a uygulanmasını motive etmektedir. Ancak decompilation için herhangi bir açık kaynaklı LLM bulunmamaktadır. Dahası, mevcut decompilation değerlendirme sistemleri esas olarak token düzeyindeki doğruluğu dikkate almakta ve herhangi bir programın en önemli özelliği olan kodun çalıştırılabilirliğini büyük ölçüde göz ardı etmektedir. Bu nedenle, C kaynak kodu ve buna karşılık gelen assembly kodundan oluşan 4 milyar token üzerinde önceden eğitilmiş, 1B ile 33B arasında değişen ilk açık erişimli decompilation LLM’lerini yayımlıyoruz. Bu açık kaynaklı LLM’ler, alandaki daha ileri geliştirmeler için temel modeller olarak hizmet edebilir. Pratik program değerlendirmesini sağlamak için, decompilation açısından yeniden derlenebilirlik ve yeniden çalıştırılabilirliği dikkate alan ilk veri kümesi olan Decompile-Eval’i tanıtıyoruz. Bu benchmark, decompilation modelini program semantiği perspektifinden değerlendirmenin önemini vurgulamaktadır. Deneyler, LLM4Decompile modelimizin assembly kodunun %21’ini doğru şekilde decompile etme yeteneği gösterdiğini ve bunun GPT-4’e göre %50 iyileşme sağladığını ortaya koymaktadır. Kodumuz, veri kümemiz ve modellerimiz https://github.com/albertan017/LLM4Decompile adresinde yayımlanmıştır.

Makale bağlantısı

https://arxiv.org/abs/2403.05286v1

Daha fazlasını okuyun

https://discuss.pytorch.kr/t/llm4decompile-llm-decompile/3809

https://github.com/albertan017/LLM4Decompile

https://x.com/omarsar0/status/1771218791399092351


Agent-FLAN: Büyük Dil Modelleri için Veri Tasarımı ve Etkili Ajan Ayarlama Yöntemleri / Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models

Makale tanıtımı

  • Ajanlar için dil modellerini etkili biçimde ince ayarlamaya yönelik veri ve yöntemler tasarlayan Agent-FLAN, çeşitli ajan değerlendirme veri kümelerinde Llama2-7B’nin önceki en iyi çalışmalardan %3,5 daha iyi performans göstermesini sağlıyor; Agent-FLAN, model boyutu ölçeklendiğinde halüsinasyon sorunlarını büyük ölçüde hafifletiyor ve genel olarak LLM’i iyileştirirken ajan yeteneklerini de tutarlı biçimde artırıyor;

    Ajanlar için dil modellerini etkili şekilde ince ayarlamak üzere veri ve yöntemler tasarlar; buna Agent-FLAN adı verilir; bu, Llama2-7B’nin çeşitli ajan değerlendirme veri kümelerinde önceki en iyi çalışmaları %3,5 oranında geride bırakmasını sağlar; Agent-FLAN, model boyutları ölçeklenirken halüsinasyon sorunlarını büyük ölçüde hafifletir ve genel olarak LLM’i iyileştirirken LLM’lerin ajan yeteneklerini de tutarlı biçimde geliştirir;

Makale özeti (Abstract)

  • Açık kaynaklı büyük dil modelleri (LLM'ler) çeşitli NLP görevlerinde büyük başarı elde etti, ancak ajan olarak çalıştıklarında hâlâ API tabanlı modellere kıyasla çok daha gerideler. Ajan yeteneğinin genel LLM'lere nasıl entegre edileceği kritik ve acil bir sorun hâline geliyor. Bu makale önce üç temel gözlemi ortaya koyuyor: (1) mevcut ajan eğitim korpusu hem biçim takibini hem de ajan muhakemesini iç içe barındırıyor ve bu nedenle ön eğitim verisinin dağılımından belirgin biçimde sapıyor; (2) LLM'ler, ajan görevlerinin gerektirdiği yeteneklerde farklı öğrenme hızları sergiliyor; (3) mevcut yaklaşımlar, ajan yeteneklerini halüsinasyon ekleyerek iyileştirirken yan etkilere yol açıyor. Bu bulgulara dayanarak, dil modellerini ajanlar için etkili biçimde ince ayar yapmayı sağlayan Agent-FLAN öneriliyor. Eğitim korpusunun dikkatli şekilde ayrıştırılması ve yeniden tasarlanması sayesinde Agent-FLAN, çeşitli ajan değerlendirme veri kümelerinde önceki en iyi çalışmaları %3.5 oranında geride bırakabiliyor. Kapsamlı biçimde oluşturulmuş negatif örneklerle Agent-FLAN, oluşturulan değerlendirme kıyaslamasına göre halüsinasyon sorunlarını büyük ölçüde hafifletiyor. Ayrıca model boyutu büyütüldüğünde LLM'lerin ajan yeteneğini tutarlı biçimde geliştirirken genel yeteneklerini de hafifçe artırıyor. Koda https://github.com/InternLM/Agent-FLAN adresinden ulaşılabilir.

    Open-sourced Large Language Models (LLMs) have achieved great success in various NLP tasks, however, they are still far inferior to API-based models when acting as agents. How to integrate agent ability into general LLMs becomes a crucial and urgent problem. This paper first delivers three key observations: (1) the current agent training corpus is entangled with both formats following and agent reasoning, which significantly shifts from the distribution of its pre-training data; (2) LLMs exhibit different learning speeds on the capabilities required by agent tasks; and (3) current approaches have side-effects when improving agent abilities by introducing hallucinations. Based on the above findings, we propose Agent-FLAN to effectively Fine-tune LANguage models for Agents. Through careful decomposition and redesign of the training corpus, Agent-FLAN enables Llama2-7B to outperform prior best works by 3.5% across various agent evaluation datasets. With comprehensively constructed negative samples, Agent-FLAN greatly alleviates the hallucination issues based on our established evaluation benchmark. Besides, it consistently improves the agent capability of LLMs when scaling model sizes while slightly enhancing the general capability of LLMs. The code will be available at https://github.com/InternLM/Agent-FLAN.

Makale bağlantısı

https://arxiv.org/abs/2403.12881v1

Daha fazla oku

https://github.com/InternLM/Agent-FLAN

https://x.com/_akhaliq/status/1770302813152690259


API ile korunan LLM'lerin logits'leri nedeniyle özel bilgilerin sızması / Logits of API-Protected LLMs Leak Proprietary Information

Makale tanıtımı

  • Logits kullanılarak API ile korunan LLM'ler hakkında büyük miktarda kamuya açık olmayan bilginin öğrenilebileceği gösteriliyor. Bu yaklaşım, görece az sayıda API sorgusuyla OpenAI'nin gpt-3.5-turbo modelinin embedding boyutunun yaklaşık 4.096 olduğunu tahmin ediyor; makale ayrıca kullanılan saldırılara karşı koruma önlemleri de öneriyor.

    shows that it’s possible to learn a large amount of non-public information about an API-protected LLM using the logits; with a relatively small number of API queries, the approach estimates that the embedding size of OpenAI's gpt-3.5-turbo to be about 4,096; the paper also proposes guardrails against the attacks used.

Makale özeti (Abstract)

  • Büyük dil modellerinin (LLM) ticarileşmesi, özel modellere yalnızca yüksek seviyeli API erişiminin yaygın bir uygulama haline gelmesine yol açtı. Bu çalışma, model mimarisine ilişkin temkinli varsayımlar altında bile, görece az sayıda API sorgusuyla (örneğin OpenAI'nin gpt-3.5-turbo modeli için 1.000 doların altında bir maliyetle) API ile korunan bir LLM hakkında şaşırtıcı derecede çok sayıda kamuya açık olmayan bilginin öğrenilebildiğini gösteriyor. Bu çalışmanın temel bulgusu, modern LLM'lerin çoğunun softmax darboğazından muzdarip olması ve bunun model çıktısını tüm çıktı uzayının doğrusal bir alt uzayıyla sınırlaması. Bunun model image veya model signature için uygun olduğunu ve böylece LLM'in gizli boyutunu verimli biçimde keşfetme, tam sözlük çıktıları elde etme, farklı model güncellemelerini tespit edip ayırt etme, tek bir tam LLM çıktısı verildiğinde kaynak LLM'i tanımlama ve hatta çıktı katmanı parametrelerini tahmin etme gibi çeşitli yetenekleri düşük maliyetle mümkün kıldığını gösteriyoruz. Ampirik incelemelerimiz bu yöntemlerin etkili olduğunu doğruladı ve bu sayede OpenAI'nin gpt-3.5-turbo modelinin embedding boyutunu yaklaşık 4.096 olarak tahmin edebildik. Son olarak, LLM sağlayıcılarının bu tür saldırılara karşı nasıl savunma geliştirebileceğini ve bu yeteneklerin hata değil bir özellik olarak değerlendirilip daha fazla şeffaflık ve hesap verebilirlik sağlayabileceğini tartışıyoruz.

    The commercialization of large language models (LLMs) has led to the common practice of high-level API-only access to proprietary models. In this work, we show that even with a conservative assumption about the model architecture, it is possible to learn a surprisingly large amount of non-public information about an API-protected LLM from a relatively small number of API queries (e.g., costing under $1,000 for OpenAI's gpt-3.5-turbo). Our findings are centered on one key observation: most modern LLMs suffer from a softmax bottleneck, which restricts the model outputs to a linear subspace of the full output space. We show that this lends itself to a model image or a model signature which unlocks several capabilities with affordable cost: efficiently discovering the LLM's hidden size, obtaining full-vocabulary outputs, detecting and disambiguating different model updates, identifying the source LLM given a single full LLM output, and even estimating the output layer parameters. Our empirical investigations show the effectiveness of our methods, which allow us to estimate the embedding size of OpenAI's gpt-3.5-turbo to be about 4,096. Lastly, we discuss ways that LLM providers can guard against these attacks, as well as how these capabilities can be viewed as a feature (rather than a bug) by allowing for greater transparency and accountability.

Makale bağlantısı

https://arxiv.org/abs/2403.09539

Daha fazla bilgi

https://x.com/DimitrisPapail/status/1768654579254579385


DROID: Büyük Ölçekli Gerçek Dünya Robot Manipülasyonu Veri Kümesi / DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset

Makale tanıtımı

  • Daha yetenekli ve daha sağlam robot manipülasyon politikalarını eğitmek ve geliştirmek için açık kaynaklı, büyük ölçekli bir robot manipülasyonu veri kümesi; 564 sahne ve 86 görevde toplanmış 76.000 gösterim yörüngesi içeriyor; DROID ile eğitim daha yüksek performanslı politikalar ve daha iyi genelleme sağlıyor.

    an open-source, large-scale robot manipulation dataset to train and build more capable and robust robotic manipulation policies; it contains 76K demonstration trajectories, collected across 564 scenes and 86 tasks; training with DROID leads to higher performing policies and generalization.

Makale özeti (Abstract)

  • Büyük, çeşitli ve yüksek kaliteli robot manipülasyonu veri kümeleri oluşturmak, daha yetenekli ve daha sağlam robot manipülasyon politikalarına giden yolda önemli bir basamaktır. Ancak bu tür veri kümelerini oluşturmak zordur: çeşitli ortamlarda robot manipülasyonu verisi toplamak lojistik ve güvenlik açısından zorluklar doğurur ve donanım ile insan emeğine ciddi yatırım gerektirir. Sonuç olarak, günümüzde en genel robot manipülasyonu politikaları bile çoğunlukla sahne ve görev çeşitliliği sınırlı az sayıda ortamda toplanmış verilerle eğitilmektedir. Bu çalışmada, 12 ay boyunca Kuzey Amerika, Asya ve Avrupa'da 50 veri toplayıcısı tarafından 564 sahne ve 84 görevde toplanan 76 bin gösterim yörüngesi ya da 350 saatlik etkileşim verisini içeren çeşitli bir robot manipülasyonu veri kümesi olan DROID'i (Distributed Robot Interaction Dataset) tanıtıyoruz. DROID ile eğitimin daha yüksek performanslı ve genelleme yeteneği gelişmiş politikalara yol açtığını gösteriyoruz. Tam veri kümesini, politika öğrenme kodunu ve robot donanım kurulumumuzu yeniden oluşturmak için ayrıntılı kılavuzu açık kaynak olarak yayımlıyoruz.

    The creation of large, diverse, high-quality robot manipulation datasets is an important stepping stone on the path toward more capable and robust robotic manipulation policies. However, creating such datasets is challenging: collecting robot manipulation data in diverse environments poses logistical and safety challenges and requires substantial investments in hardware and human labour. As a result, even the most general robot manipulation policies today are mostly trained on data collected in a small number of environments with limited scene and task diversity. In this work, we introduce DROID (Distributed Robot Interaction Dataset), a diverse robot manipulation dataset with 76k demonstration trajectories or 350 hours of interaction data, collected across 564 scenes and 84 tasks by 50 data collectors in North America, Asia, and Europe over the course of 12 months. We demonstrate that training with DROID leads to policies with higher performance and improved generalization ability. We open source the full dataset, policy learning code, and a detailed guide for reproducing our robot hardware setup.

Makale bağlantısı

https://arxiv.org/abs/2403.12945

Daha fazla bilgi

https://x.com/chelseabfinn/status/1770311755140575413


RAFT: Alana özgü RAG için dil modelini uyarlama / RAFT: Adapting Language Model to Domain Specific RAG

Makale tanıtımı

  • RAG'in avantajları ile fine-tuning'i birleştirerek modelin "open-book" alan içi ortamlarda soruları yanıtlama yeteneğini geliştirir; bunu RAFT'in CoT tarzı yanıtıyla birleştirmek de akıl yürütmeyi iyileştirmeye yardımcı olur.

    combines the benefits of RAG and fine-tuning to improve a model's ability to answer questions in "open-book" in-domain settings; combining it with RAFT's CoT-style response helps to improve reasoning.

Makale özeti (Abstract)

  • Büyük metin veri korpusları üzerinde Large Language Model'leri (LLM) önceden eğitmek artık standart bir paradigma haline geldi. Bu LLM'leri birçok downstream uygulamada kullanırken, yeni bilgiyi (ör. zamana duyarlı haberler veya özel alan bilgisi) önceden eğitilmiş modele ek olarak yerleştirmek için genellikle RAG tabanlı prompting veya fine-tuning kullanılır. Ancak modelin bu tür yeni bilgiyi edinmesi için en uygun yöntem hâlâ açık bir soru olarak duruyor. Bu makalede, alan içi "open-book" ortamlarda modelin soruları yanıtlama yeteneğini geliştiren bir eğitim tarifi olan Retrieval Augmented FineTuning (RAFT) sunuluyor. RAFT'te, bir soru ve getirilen belge kümesi verildiğinde, modeli soruyu yanıtlamaya yardımcı olmayan belgeleri — dikkat dağıtıcı belgeler olarak adlandırılanları — görmezden gelecek şekilde eğitiyoruz. RAFT bunu, soruyu yanıtlamaya yardımcı olacak ilgili belgedeki doğru bölümü birebir alıntılayarak gerçekleştiriyor. Bu yaklaşım, RAFT'in chain-of-thought tarzı yanıtıyla birleştiğinde modelin akıl yürütme yeteneğini geliştirmeye yardımcı oluyor. Alana özgü RAG bağlamında RAFT, PubMed, HotpotQA ve Gorilla veri kümelerinde model performansını istikrarlı biçimde iyileştirerek, önceden eğitilmiş LLM'leri alan içi RAG için geliştiren bir post-training tarifi sunuyor. RAFT'in kodu ve demosu github.com/ShishirPatil/gorilla adresinde açık kaynak olarak sunulmuştur.

    Pretraining Large Language Models (LLMs) on large corpora of textual data is now a standard paradigm. When using these LLMs for many downstream applications, it is common to additionally bake in new knowledge (e.g., time-critical news, or private domain knowledge) into the pretrained model either through RAG-based-prompting, or fine-tuning. However, the optimal methodology for the model to gain such new knowledge remains an open question. In this paper, we present Retrieval Augmented FineTuning (RAFT), a training recipe that improves the model's ability to answer questions in a "open-book" in-domain settings. In RAFT, given a question, and a set of retrieved documents, we train the model to ignore those documents that don't help in answering the question, which we call, distractor documents. RAFT accomplishes this by citing verbatim the right sequence from the relevant document that would help answer the question. This coupled with RAFT's chain-of-thought-style response helps improve the model's ability to reason. In domain-specific RAG, RAFT consistently improves the model's performance across PubMed, HotpotQA, and Gorilla datasets, presenting a post-training recipe to improve pre-trained LLMs to in-domain RAG. RAFT's code and demo are open-sourced at github.com/ShishirPatil/gorilla.

Makale bağlantısı

https://arxiv.org/abs/2403.10131

Daha fazlası için

https://discuss.pytorch.kr/t/raft-rag-llm-rag-finetuning/3842

https://x.com/cwolferesearch/status/1770912695765660139


Orijinal metin

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-01b


Bu yazı GPT modeliyle derlenmiştir; hatalı kısımlar olabilir, bu nedenle lütfen aşağıdaki orijinal metne de göz atın! Okurken kulağa tuhaf gelen veya hatalı olduğunu düşündüğünüz bir bölüm fark ederseniz, lütfen yorumlarda bize bildirin.

⚠️Reklam⚠️: PyTorch Kore Kullanıcı Topluluğu tarafından derlenen bu yazıyı faydalı buldunuz mu? Üye olursanız önemli yazıları size e-postayla göndeririz! (Varsayılan olarak Weekly'dir, ancak Daily olarak da değiştirilebilir.)

Henüz yorum yok.

Henüz yorum yok.