7 puan yazan ninebow 2023-10-23 | Henüz yorum yok. | WhatsApp'ta paylaş

Genel Bakış

  • DAIR.AI tarafından her hafta yayımlanan ML makalelerine dair yazıyı otomatik olarak çevirdik.

  • Bu hafta seçilen makalelerde öne çıkan başlıca eğilimler iki ana başlıkta toplanıyor. İlki, açık alan diyalog sistemleri (Open domain dialog system) ve yapay zekanın kendi başına açıklamalar üretmesini ya da problemleri çözmesini sağlamaya yönelik araştırmalar.

  • Açık alan diyalog sistemleri, yapay zeka sistemlerinin kullanıcılarla doğal biçimde sohbet edebilmesini sağlayan bir teknoloji olarak, "OpenAgents", "LLMs for Software Engineering", "Eliciting Human Preferences with LLMs" gibi makalelerde ele alınıyordu. Bu tür makaleler, kullanıcılarla etkileşim üzerinden yapay zeka sistemlerinin kendi kendine öğrenip gelişebileceği yöntemleri araştırıyor.

  • Ayrıca, yapay zekanın kendi başına açıklama üretmesi ya da problem çözmesi üzerine çalışmalar da "A Study of LLM-Generated Self-Explanations", "Self-RAG", "Retrieval-Augmentation for Long-form Question Answering" gibi makalelerde yer alıyordu. Bu makalelerin temel amacı, yapay zekanın problem çözme veya açıklama üretme sürecini kullanıcıların anlayabileceği şekilde daha şeffaf hale getirmek. Bu eğilim, yapay zekanın daha şeffaf ve yaygın biçimde kullanılabilen bir teknolojiye dönüşmesini hedefleyen araştırmaların önemini düşündüğümüzde doğal bir akış gibi görünüyor.


Llemma (Remma): Matematik için Açık Bir Dil Modeli / Llemma: An Open Language Model For Mathematics

Makale tanıtımı

  • Proof-Pile-2 veri kümesi üzerinde Code Llama'nın sürekli ön eğitimiyle geliştirilen, matematik odaklı Llemma modeli. Bilimsel makaleler, matematik içeren web verileri, matematik kodu içeren veri kümeleri ve matematik benchmark'larında açık taban modelleri ve yayımlanmamış Minerva'yı geride bırakan performans; deneylerin yeniden üretilebilmesi için veri kümesi ve kodla birlikte modelin yayımlanması. #mathglm #

    Matematik için bir llm; Code Llama'nın Proof-Pile-2 veri kümesi üzerinde sürdürülmüş ön eğitimi temel alınmıştır. Veri kümesi bilimsel makaleler, matematik içeren web verileri ve matematiksel kod içerir; Llemma matematik benchmark'ında açık taban modelleri ve yayımlanmamış Minerva'yı geride bırakır; model, deneylerin yeniden üretilebilmesi için veri kümesi ve kodla birlikte yayımlanmıştır.

Makale özeti

  • Matematik için büyük bir dil modeli olan Llemma'yı tanıtıyoruz. Bilimsel makaleler, matematik içeren web verileri ve matematiksel kod karışımından oluşan Proof-Pile-2 üzerinde Code Llama'nın ön eğitimine devam ederek Llemma'yı oluşturduk. MATH benchmark'ında Llemma, eşit parametre düzeyinde bilinen tüm açık taban modelleri ve henüz yayımlanmamış Minerva model ailesini geride bırakan performans gösterdi. Ayrıca Llemma, ek bir fine-tuning olmadan araç kullanımını ve biçimsel teorem ispatını gerçekleştirebiliyor. 7 milyar ve 34 milyar parametreli modeller, Proof-Pile-2 ve deneylerimizi yeniden üretmeye yarayan kod dahil tüm artifact'leri açık biçimde yayımlıyoruz.

    We present Llemma, a large language model for mathematics. We continue pretraining Code Llama on the Proof-Pile-2, a mixture of scientific papers, web data containing mathematics, and mathematical code, yielding Llemma. On the MATH benchmark Llemma outperforms all known open base models, as well as the unreleased Minerva model suite on an equi-parameter basis. Moreover, Llemma is capable of tool use and formal theorem proving without any further finetuning. We openly release all artifacts, including 7 billion and 34 billion parameter models, the Proof-Pile-2, and code to replicate our experiments.

Makale bağlantısı

https://arxiv.org/abs/2310.10631

Daha fazlası

https://x.com/zhangir_azerbay/status/1714098025956864031


Yazılım Mühendisliği için Büyük Dil Modelleri: Araştırma ve Açık Problemler / Large Language Models for Software Engineering: Survey and Open Problems

Makale tanıtımı

  • Açık araştırma konuları ve teknik zorlukları da içeren, yazılım mühendisliği için LLM'lere dair kapsamlı bir derleme makalesi

    Yazılım mühendisliği için llm'lere dair, açık araştırma konuları ve teknik zorlukları da kapsayan kapsamlı bir derleme.

Makale özeti

  • Bu makale, Yazılım Mühendisliği (SE) için Büyük Dil Modelleri (LLM'ler) alanında ortaya çıkan yeni çalışma alanına dair bir derleme sunuyor. Ayrıca, yazılım mühendislerinin karşılaştığı teknik problemlerde LLM'lerin uygulanmasına yönelik açık araştırma sorunlarını ortaya koyuyor. LLM'lerin ortaya çıkan özellikleri; kodlama, tasarım, gereksinimler, onarım, refactoring, performans iyileştirme, dokümantasyon ve analiz dahil yazılım mühendisliği faaliyetlerinin tamamında yenilik ve yaratıcılık sağlıyor. Ancak bu aynı özellikler önemli teknik zorluklar da doğuruyor; halüsinasyon gibi yanlış çözümleri güvenilir biçimde ayıklayabilecek tekniklere ihtiyaç duyuyoruz. Bu derleme, güvenilir, verimli ve etkili LLM tabanlı SE sistemlerinin geliştirilmesi ve dağıtımında hibrit tekniklerin (geleneksel SE + LLM'ler) ne kadar kritik bir rol oynadığını gösteriyor.

    This paper provides a survey of the emerging area of Large Language Models (LLMs) for Software Engineering (SE). It also sets out open research challenges for the application of LLMs to technical problems faced by software engineers. LLMs' emergent properties bring novelty and creativity with applications right across the spectrum of Software Engineering activities including coding, design, requirements, repair, refactoring, performance improvement, documentation and analytics. However, these very same emergent properties also pose significant technical challenges; we need techniques that can reliably weed out incorrect solutions, such as hallucinations. Our survey reveals the pivotal role that hybrid techniques (traditional SE plus LLMs) have to play in the development and deployment of reliable, efficient and effective LLM-based SE.

Makale bağlantısı

https://arxiv.org/abs/2310.03533

Daha fazlası

https://x.com/omarsar0/status/1713940983199506910


Self-RAG: Öz-yansıma yoluyla arama, üretme ve eleştirmeyi öğrenmek / Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection

Makale tanıtımı

  • Arama ve öz değerlendirme yoluyla LM’nin kalitesini ve olgusallığını artıran yeni bir retrieval-augmented çerçeve sunar; gerektiğinde pasajları uyarlamalı olarak getirir ve özel reflection token’ları kullanarak pasajları ve kendi üretimlerini üretip bunlar üzerine düşünmesi için bir LM eğitir; olgusallık iyileştirmeleri dahil olmak üzere open-domain QA, akıl yürütme ve olgu doğrulama görevlerinde sota llms’leri (chatgpt ve retrieval-augmented llama2-chat) önemli ölçüde geride bırakır. #rag
    > Arama ve öz değerlendirme yoluyla bir LM’nin kalitesini ve olgusallığını artıran yeni bir retrieval-augmented çerçeve sunar; gerektiğinde pasajları uyarlamalı olarak getirip özel reflection token’ları kullanarak pasajlar ve kendi üretimleri üzerinde üretim ve değerlendirme yapan bir LM eğitir; open-domain QA, akıl yürütme ve olgu doğrulama görevlerinde, olgusallık iyileştirmeleri de dahil olmak üzere, sota llms’leri (chatgpt ve retrieval-augmented llama2-chat) belirgin biçimde geride bırakır.

Makale özeti

  • Büyük dil modelleri (LLM’ler), dikkat çekici yeteneklerine rağmen, yalnızca içerdikleri parametrik bilgiye dayandıkları için sık sık olgusal hatalar içeren yanıtlar üretir. İlgili bilginin getirilmesiyle LM’leri güçlendiren geçici bir yaklaşım olan Retrieval-Augmented Generation (RAG), bu tür sorunları azaltabilir. Ancak getirme gerekip gerekmediğine ya da pasajların ilgili olup olmadığına bakmadan sabit sayıda getirilen pasajın ayrım gözetmeden alınması ve entegre edilmesi, LM’nin çok yönlülüğünü azaltabilir veya faydasız yanıtlar üretmesine yol açabilir. Biz, getirme ve öz değerlendirme yoluyla bir LM’nin kalitesini ve olgusallığını artıran Self-Reflective Retrieval-Augmented Generation (Self-RAG) adlı yeni bir çerçeve sunuyoruz. Facebook’un çerçevesi, gerektiğinde pasajları uyarlamalı biçimde getiren tek bir rastgele LM’yi eğitiyor ve reflection token adı verilen özel token’lar kullanarak getirilen pasajları ve kendi üretimlerini üretip değerlendiriyor. Reflection token’larının üretilmesi, çıkarım aşamasında LM’nin kontrol edilebilmesini sağlar; böylece davranışı farklı görev gereksinimlerine göre ayarlanabilir. Deneyler, Self-RAG’in (7B ve 13B parametre) çeşitli görev kümelerinde son teknoloji LLM’lerden ve retrieval-augmented modellerden belirgin biçimde daha iyi performans gösterdiğini ortaya koyuyor. Özellikle Self-RAG, open-domain QA, akıl yürütme ve olgu doğrulama görevlerinde ChatGPT ve retrieval-augmented Llama2-chat’i geride bırakıyor; ayrıca bu modellere kıyasla uzun biçimli üretimlerde olgusallığı ve alıntı doğruluğunu iyileştirmede anlamlı kazanımlar sağlıyor.
    > Büyük dil modelleri (LLM’ler), dikkat çekici yeteneklerine rağmen, yalnızca kapsadıkları parametrik bilgiye dayandıkları için sıklıkla olgusal yanlışlıklar içeren yanıtlar üretir. İlgili bilginin getirilmesiyle LM’leri güçlendiren geçici bir yaklaşım olan Retrieval-Augmented Generation (RAG), bu tür sorunları azaltır. Ancak getirme gerekli olsun ya da olmasın veya pasajlar ilgili olsun ya da olmasın, sabit sayıda getirilen pasajın ayrım gözetmeksizin getirilip birleştirilmesi LM’nin çok yönlülüğünü azaltır ya da yararsız yanıt üretimine yol açabilir. Biz, retrieval ve öz değerlendirme yoluyla bir LM’nin kalitesini ve olgusallığını artıran Self-Reflective Retrieval-Augmented Generation (Self-RAG) adlı yeni bir çerçeve sunuyoruz. Çerçevemiz, gerektiğinde uyarlamalı olarak pasaj getiren tek bir keyfi LM’yi eğitir ve reflection token adı verilen özel token’lar kullanarak getirilen pasajları ve kendi üretimlerini üretip bunlar üzerinde düşünür. Reflection token’larının üretilmesi, çıkarım aşamasında LM’nin kontrol edilebilir olmasını sağlayarak davranışını farklı görev gereksinimlerine göre uyarlamasına olanak tanır. Deneyler, Self-RAG’in (7B ve 13B parametre) çeşitli görevler üzerinde state-of-the-art LLM’leri ve retrieval-augmented modelleri belirgin biçimde geride bıraktığını göstermektedir. Özellikle Self-RAG, Open-domain QA, akıl yürütme ve olgu doğrulama görevlerinde ChatGPT ve retrieval-augmented Llama2-chat’ten daha iyi performans gösterir; ayrıca bu modellere kıyasla uzun biçimli üretimlerde olgusallığı ve alıntı doğruluğunu iyileştirmede anlamlı kazanımlar sağlar.

Makale bağlantısı

https://arxiv.org/abs/2310.11511

Daha fazlası

https://x.com/AkariAsai/status/1715110277077962937


Uzun Biçimli Soru Yanıtlama için Retrieval Augmentation’ı Anlamak / Understanding Retrieval Augmentation for Long-Form Question Answering

Makale tanıtımı

  • Uzun biçimli soru yanıtlama için retrieval-augmented dil modellerini inceler; retrieval’ın önemli bir bileşen olduğunu ancak kanıt belgelerinin llm’e dikkatle eklenmesi gerektiğini bulur; getirilen belgelerde soruyu yanıtlamak için yeterli bilgi/kanıt bulunmadığında attribution hatalarının daha sık ortaya çıktığını gösterir.
    > Uzun biçimli soru yanıtlama için retrieval-augmented dil modellerini inceler; retrieval’ın önemli bir bileşen olduğunu ancak kanıt belgelerinin llm’e dikkatlice eklenmesi gerektiğini saptar; getirilen belgeler soruyu yanıtlamak için yeterli bilgi/kanıt içermediğinde attribution hatasının daha sık meydana geldiğini bulur.

Makale özeti

  • Uzun biçimli soru yanıtlama üzerine retrieval-augmented language models (LMs) için bir çalışma sunuluyor. Aynı kanıt belgeleri kullanılırken modellerin ürettiği yanıtlar karşılaştırılarak retrieval augmentation’ın farklı LM’leri nasıl etkilediği, ayrıca retrieval belge kümesinin kalite farklarının aynı LM tarafından üretilen yanıtları nasıl etkilediği analiz ediliyor. Üretilen yanıtların çeşitli özellikleri (ör. akıcılık, uzunluk, varyans) inceleniyor; özellikle de uzun biçimli yanıtların bağlam içi kanıt belgelerine atfı üzerinde duruluyor. Yanıt atfına ilişkin insan anotasyonları toplanıyor ve atfı otomatik olarak değerlendiren yöntemler ölçülüyor. Bu çalışma, retrieval augmentation’ın LM’lerin bilgi açısından zengin uzun metin üretimini nasıl etkilediğine dair yeni içgörüler sunuyor. Ayrıca uzun metin üretimindeki atıf örüntüleri belirleniyor ve atıf hatalarının başlıca nedenleri analiz ediliyor. Bu analizler birlikte, retrieval augmentation’ın bilgi açısından zengin uzun metin üretimini nasıl etkilediğini ortaya koyuyor ve gelecekteki çalışmalar için yön gösteriyor.
    > We present a study of retrieval-augmented language models (LMs) on long-form question answering. We analyze how retrieval augmentation impacts different LMs, by comparing answers generated from models while using the same evidence documents, and how differing quality of retrieval document set impacts the answers generated from the same LM. We study various attributes of generated answers (e.g., fluency, length, variance) with an emphasis on the attribution of generated long-form answers to in-context evidence documents. We collect human annotations of answer attribution and evaluate methods for automatically judging attribution. Our study provides new insights on how retrieval augmentation impacts long, knowledge-rich text generation of LMs. We further identify attribution patterns for long text generation and analyze the main culprits of attribution errors. Together, our analysis reveals how retrieval augmentation impacts long knowledge-rich text generation and provide directions for future work.

Makale bağlantısı

https://arxiv.org/abs/2310.12150

Daha fazlası

https://x.com/omarsar0/status/1714986431859282144


GenBench

Makale tanıtımı

  • NLP’deki genelleme araştırmalarını karakterize etmek ve anlamak için bir çerçeve sunuyor; 543 makale üzerinde bir meta-analiz ve genelleme çalışmalarını keşfetmek ve daha iyi anlamak için bir araç seti içeriyor.
    > Presents a framework for characterizing and understanding generalization research in nlp; involves a meta-analysis of 543 papers and a set of tools to explore and better understand generalization studies.

Makale bağlantısı

https://nature.com/articles/s42256-023-00729-y/…

Daha fazlası

https://x.com/AIatMeta/status/1715041427283902793


Büyük Dil Modelleri Kendilerini Açıklayabilir mi? LLM Tarafından Üretilen Öz-Açıklamalar Üzerine Bir Çalışma / Can Large Language Models Explain Themselves? A Study of LLM-Generated Self-Explanations

Makale tanıtımı

  • Özellik atfı açıklamalarını kendi kendine üretme konusunda bir LLM’nin yeteneğini değerlendiriyor. Öz-açıklama, LLM’lerde performansı ve doğruluğu artırmak için yararlı ve bu yetenek chain-of-thought prompting ile birlikte kullanılabiliyor. #chain-of-thought
    > Assesses an llm's capability to self-generate feature attribution explanations; self-explanation is useful to improve performance and truthfulness in llms; this capability can be used together with chain-of-thought prompting.

Makale özeti

  • ChatGPT gibi büyük dil modelleri (LLM'ler), duygu analizi, matematiksel akıl yürütme ve özetleme dahil çeşitli doğal dil işleme (NLP) görevlerinde üstün performans sergiledi. Ayrıca bu modeller, insan konuşmalarında "yardımcı" yanıtlar üretmeleri için yönerge ayarıyla eğitildiğinden, yanıtla birlikte açıklamalar da üretebilir ve çoğu zaman üretir; biz buna öz-açıklama diyoruz. Örneğin, bir film incelemesinin duygusunu analiz ederken model yalnızca duygunun olumlu olup olmadığını değil, aynı zamanda bir açıklama da verebilir (örneğin incelemedeki "fantastic", "memorable" gibi duygu yüklü kelimeleri listeleyerek). Peki bu otomatik olarak üretilen öz-açıklamalar ne kadar iyi? Bu makalede, bu soruyu duygu analizi görevi ve özellik atıfı açıklamaları bağlamında, yani yorumlanabilirlik literatüründe en yaygın incelenen kurulumlardan birinde (ChatGPT öncesi modeller için) ele alıyoruz. Özellikle, öz-açıklamaları ortaya çıkarmanın farklı yollarını inceliyor, bunların doğruluğunu bir dizi değerlendirme metriğiyle ölçüyor ve bunları occlusion ya da LIME önem haritaları gibi geleneksel açıklama yöntemleriyle karşılaştırıyoruz. Kapsamlı deneyler sonucunda, ChatGPT'nin öz-açıklamalarının geleneksel yöntemlerle aynı düzeyde performans gösterdiğini, ancak çeşitli uyum metriklerine göre onlardan oldukça farklı olduğunu ve tahminle birlikte üretildikleri için çok daha düşük maliyetli olduklarını bulduk. Ayrıca bunların birkaç ilginç özelliğini de belirledik; bu da ChatGPT (ve benzeri) LLM'ler çağında mevcut birçok model yorumlanabilirliği pratiğini yeniden düşünmemiz gerektiğini gösteriyor.

    Large language models (LLMs) such as ChatGPT have demonstrated superior performance on a variety of natural language processing (NLP) tasks including sentiment analysis, mathematical reasoning and summarization. Furthermore, since these models are instruction-tuned on human conversations to produce "helpful" responses, they can and often will produce explanations along with the response, which we call self-explanations. For example, when analyzing the sentiment of a movie review, the model may output not only the positivity of the sentiment, but also an explanation (e.g., by listing the sentiment-laden words such as "fantastic" and "memorable" in the review). How good are these automatically generated self-explanations? In this paper, we investigate this question on the task of sentiment analysis and for feature attribution explanation, one of the most commonly studied settings in the interpretability literature (for pre-ChatGPT models). Specifically, we study different ways to elicit the self-explanations, evaluate their faithfulness on a set of evaluation metrics, and compare them to traditional explanation methods such as occlusion or LIME saliency maps. Through an extensive set of experiments, we find that ChatGPT's self-explanations perform on par with traditional ones, but are quite different from them according to various agreement metrics, meanwhile being much cheaper to produce (as they are generated along with the prediction). In addition, we identified several interesting characteristics of them, which prompt us to rethink many current model interpretability practices in the era of ChatGPT(-like) LLMs.

Makale bağlantısı

https://arxiv.org/abs/2310.11207

Daha fazlası

https://x.com/omarsar0/status/1714665747752923620


OpenAgents (OpenAgents): Vahşi Doğadaki Dil Ajanları için Açık Bir Platform / OpenAgents: An Open Platform for Language Agents in the Wild

Makale tanıtımı

  • Veri analizi için bir veri ajanı, 200'den fazla günlük API aracı içeren bir eklenti ajanı ve otonom web gezintisi için bir web ajanı dahil olmak üzere üç ajanı kapsayan, vahşi doğada dil ajanlarını kullanmak ve barındırmak için açık bir platform.

    An open platform for using and hosting language agents in the wild; includes three agents, including a data agent for data analysis, a plugins agent with 200+ daily api tools, and a web agent for autonomous web browsing.

Makale özeti

  • Dil ajanları, özellikle büyük dil modelleri (LLM) üzerine inşa edildiğinde, çeşitli ortamlarda çeşitli ve karmaşık görevler için doğal dili kullanabilme potansiyeli gösteriyor. Mevcut dil ajanı çerçeveleri, kavram kanıtı niteliğinde dil ajanlarının oluşturulmasını kolaylaştırmayı hedefliyor; ancak uzman olmayan kullanıcıların ajanlara erişimini göz ardı ediyor ve uygulama düzeyindeki tasarımlara çok az önem veriyor. Biz, günlük yaşamda dil ajanlarını kullanmak ve barındırmak için açık bir platform olan OpenAgents'i tanıtıyoruz. OpenAgents üç ajandan oluşur: (1) Python/SQL ve veri araçlarıyla veri analizi için Data Agent, (2) 200'den fazla günlük API aracı içeren Plugins Agent, (3) otonom web gezinimi için Web Agent. Genel kullanıcılar, hızlı yanıtlar ve yaygın hatalar için optimize edilmiş bir web kullanıcı arayüzü üzerinden ajan işlevleriyle etkileşime girebilirken; geliştiriciler ve araştırmacılar, yerel kurulumlarda sorunsuz bir dağıtım deneyimi sayesinde yenilikçi dil ajanları geliştirmek ve gerçek dünya değerlendirmelerini kolaylaştırmak için bir temel elde eder. Gelecekte gerçek dünya dil ajanlarının araştırma ve geliştirilmesi için bir temel oluşturma amacıyla zorlukları ve fırsatları açıklıyoruz.
    > Dil ajanları, özellikle büyük dil modelleri (LLM) üzerine inşa edildiğinde, çeşitli ortamlarda çeşitli ve karmaşık görevler için doğal dili kullanabilme potansiyeli gösteriyor. Mevcut dil ajanı çerçeveleri, kavram kanıtı niteliğinde dil ajanlarının oluşturulmasını kolaylaştırmayı hedeflerken uzman olmayan kullanıcıların ajanlara erişimini ihmal ediyor ve uygulama düzeyindeki tasarımlara çok az dikkat ediyor. OpenAgents'i sunuyoruz: günlük yaşamın içinde dil ajanlarını kullanmak ve barındırmak için açık bir platform. OpenAgents üç ajan içerir: (1) Python/SQL ve veri araçlarıyla veri analizi için Data Agent; (2) 200'den fazla günlük API aracı içeren Plugins Agent; (3) otonom web gezinimi için Web Agent. OpenAgents, genel kullanıcıların hızlı yanıtlar ve yaygın hatalar için optimize edilmiş bir web kullanıcı arayüzü üzerinden ajan işlevleriyle etkileşime girmesini sağlarken, geliştiricilere ve araştırmacılara yerel kurulumlarda sorunsuz bir dağıtım deneyimi sunar; bu da yenilikçi dil ajanları geliştirmek ve gerçek dünya değerlendirmelerini kolaylaştırmak için bir temel sağlar. Zorlukları ve fırsatları açıklıyor, gerçek dünya dil ajanlarının gelecekteki araştırma ve geliştirilmesi için bir temel atmayı amaçlıyoruz.

Makale bağlantısı

https://arxiv.org/abs/2310.10634v1

Daha fazla oku

https://x.com/ChengZhoujun/status/1714343204148113860


Dil Modelleri ile İnsan Tercihlerinin Ortaya Çıkarılması / Eliciting Human Preferences with Language Models

Makale tanıtımı

  • Dil modelleri, görev tanımlama sürecini yönlendirmek için kullanılıyor ve bir öğrenme çerçevesi sayesinde modellerin kullanıcılarla serbest biçimli, dil tabanlı etkileşim yoluyla amaçlanan davranışı ortaya çıkarmasına ve çıkarsamasına yardımcı oluyor; ayrıca açık uçlu sorular üreterek sistemin, kullanıcıların yazdığı istemlerden daha fazla bilgi içeren yanıtlar oluşturduğunu gösteriyor.
    > Görev tanımlama sürecini yönlendirmek için dil modellerini ve modellerin kullanıcılarla serbest biçimli, dil tabanlı etkileşim yoluyla amaçlanan davranışı ortaya çıkarmasına ve çıkarsamasına yardımcı olan bir öğrenme çerçevesini kullanır; açık uçlu sorular üreterek sistemin, kullanıcı tarafından yazılan istemlerden daha bilgilendirici yanıtlar oluşturduğunu gösterir.

Makale özeti

  • Dil modelleri (LM'ler), etiketli örnekler veya doğal dil istemleri kullanılarak hedef görevleri yerine getirecek şekilde yönlendirilebilir. Ancak örnek seçmek ya da istem yazmak zor olabilir; özellikle sıra dışı edge case'ler içeren, belirsiz tercihlerin hassas biçimde ifade edilmesini gerektiren veya LM davranışına ilişkin doğru bir zihinsel model gerektiren görevlerde bu daha da güçleşir. Biz, görev tanımlama sürecini yönlendirmek için LM'lerin kendisini kullanmayı öneriyoruz. Bu makalede, modellerin kullanıcılarla serbest biçimli, dil temelli etkileşim yoluyla amaçlanan davranışı ortaya çıkarıp çıkarsadığı bir öğrenme çerçevesi olan Generative Active Task Elicitation (GATE)'i tanıtıyoruz. GATE'i üç alanda inceliyoruz: e-posta doğrulama, içerik önerisi ve ahlaki muhakeme. Önceden kaydedilmiş deneylerde, GATE uygulaması için yönlendirilen LM'lerin (örneğin açık uçlu sorular üretme veya bilgilendirici edge case'ler sentezleme yoluyla) kullanıcıların yazdığı istemler veya etiketlerden çoğu zaman daha bilgilendirici yanıtlar ortaya çıkardığını gösterdik. Kullanıcılar, etkileşimli görev ortaya çıkarımının istem yazmaya veya örnek etiketlemeye göre daha az çaba gerektirdiğini ve başlangıçta öngörmedikleri yeni hususları görünür kıldığını bildiriyor. Bulgularımız, LM güdümlü ortaya çıkarımın modelleri karmaşık insan tercihleri ve değerleriyle hizalamada güçlü bir araç olabileceğini gösteriyor.
    > Language models (LMs) can be directed to perform target tasks by using labeled examples or natural language prompts. But selecting examples or writing prompts for can be challenging--especially in tasks that involve unusual edge cases, demand precise articulation of nebulous preferences, or require an accurate mental model of LM behavior. We propose to use LMs themselves to guide the task specification process. In this paper, we introduce Generative Active Task Elicitation (GATE): a learning framework in which models elicit and infer intended behavior through free-form, language-based interaction with users. We study GATE in three domains: email validation, content recommendation, and moral reasoning. In preregistered experiments, we show that LMs prompted to perform GATE (e.g., by generating open-ended questions or synthesizing informative edge cases) elicit responses that are often more informative than user-written prompts or labels. Users report that interactive task elicitation requires less effort than prompting or example labeling and surfaces novel considerations not initially anticipated by users. Our findings suggest that LM-driven elicitation can be a powerful tool for aligning models to complex human preferences and values.

Makale bağlantısı

https://arxiv.org/abs/2310.11589

Daha fazlasını okuyun

https://x.com/AlexTamkin/status/1715040019520569395


AutoMix: Dil modellerinin otomatik karıştırılması / AutoMix: Automatically Mixing Language Models

Makale tanıtımı

  • Küçük dil modellerinin doğruluğuna göre sorguları llms'e yönlendiren bir yaklaşım (bu, few-shot self-verification ile gerçekleştirilir); doğrulayıcının çıktısını (genellikle daha küçük bir model) kontrol eden ve gerekirse sorguyu daha büyük bir dil modeline yönlendiren bir meta-doğrulayıcı tanıtılıyor. llama2-13/70b ile beş bağlam temelli akıl yürütme veri kümesi üzerinde yapılan deneyler, AutoMix'in mevcut temel yöntemleri aştığını ve maliyet başına artımlı faydayı %89'a kadar iyileştirdiğini gösteriyor.
    > An approach to route queries to llms based on the correctness of smaller language models (done via few-shot self-verification); a meta-verifier is introduced to check the verifier's output (typically a smaller model) and route the query to a larger language model if needed. experiments using llama2-13/70b, on five context-grounded reasoning datasets demonstrate that automix surpasses established baselines, improving the incremental benefit per cost by up to 89%.

Makale özeti

  • Büyük dil modelleri (LLM'ler) artık bulut API sağlayıcıları tarafından farklı boyut ve yapılandırmalarda sunuluyor. Bu çeşitlilik geniş bir seçenek yelpazesi sağlasa da, hesaplama maliyeti ile performansı optimize etmek için bu seçeneklerden etkili biçimde yararlanmak hâlâ zor bir problem. Bu çalışmada, küçük bir LM'nin çıktılarının yaklaşık doğruluğuna dayanarak sorguları stratejik olarak daha büyük LM'lere yönlendiren bir yaklaşım olan AutoMix'i sunuyoruz. AutoMix'in merkezinde, eğitim gerektirmeden kendi çıktılarının güvenilirliğini tahmin eden few-shot self-verification mekanizması yer alıyor. Doğrulamaların gürültülü olabileceği göz önüne alındığında, AutoMix bu değerlendirmelerin doğruluğunu iyileştirmek için bir meta-doğrulayıcı kullanıyor. Beş bağlam temelli akıl yürütme veri kümesinde LLAMA2-13/70B kullanılarak yapılan deneyler, AutoMix'in yerleşik temel yöntemleri geride bıraktığını ve maliyet başına artımlı faydayı %89'a kadar iyileştirdiğini gösteriyor. Kod ve veriler https://github.com/automix-llm/automix adresinde bulunabilir.
    > Large language models (LLMs) are now available in various sizes and configurations from cloud API providers. While this diversity offers a broad spectrum of choices, effectively leveraging the options to optimize computational cost and performance remains challenging. In this work, we present AutoMix, an approach that strategically routes queries to larger LMs, based on the approximate correctness of outputs from a smaller LM. Central to AutoMix is a few-shot self-verification mechanism, which estimates the reliability of its own outputs without requiring training. Given that verifications can be noisy, we employ a meta verifier in AutoMix to refine the accuracy of these assessments. Our experiments using LLAMA2-13/70B, on five context-grounded reasoning datasets demonstrate that AutoMix surpasses established baselines, improving the incremental benefit per cost by up to 89%. Our code and data are available at https://github.com/automix-llm/automix.

Makale bağlantısı

https://arxiv.org/abs/2310.12963

Daha fazlasını okuyun

https://x.com/omarsar0/status/1715385477627334718


Video Dil ile Planlama / Video Language Planning

Makale Tanıtımı

  • Önerilen algoritma, görsel-dil modellerini politika ve değer fonksiyonu, metin-video modelini ise dinamik model olarak eğiten bir ağaç arama prosedürü aracılığıyla robotik alanlarının genelinde karmaşık, uzun ufuklu video planları sentezleyebiliyor.
    > Enables synthesizing complex long-horizon video plans across robotics domains; the proposed algorithm involves a tree search procedure that trains vision-language models to serve as policies and value functions, and text-to-video models as dynamic models.

Makale Özeti

  • İnternet ölçeğindeki veriler üzerinde önceden eğitilmiş büyük üretici modellerdeki son gelişmelerden yararlanarak, üretilen videolar ve dil uzayında karmaşık, uzun ufuklu görevler için görsel planlamayı mümkün kılmakla ilgileniyoruz. Bu amaçla, bir ağaç arama prosedüründen oluşan bir algoritma olan video dil ile planlamayı (VLP) tanıtıyoruz; bu algoritmada (i) politika ve değer fonksiyonu olarak görev yapacak görsel-dil modellerini ve (ii) dinamik modeller olarak metin-video modellerini eğitiyoruz. VLP, girdi olarak uzun ufuklu bir görev talimatı ile mevcut görüntü gözlemini alır ve nihai görevin nasıl tamamlanacağını açıklayan ayrıntılı çok modlu (video ve dil) spesifikasyonlar sunan uzun bir video planı çıktısı üretir. VLP, hesaplama bütçesi arttıkça ölçeklenir; daha fazla hesaplama süresi daha iyi video planlarıyla sonuçlanır ve çoklu nesne yeniden düzenlemeden çok kameralı çift kollu çevik manipülasyona kadar farklı robotik alanlarında uzun ufuklu video planları sentezleyebilir. Üretilen video planları, üretilen videonun her ara karesine koşullandırılan hedef koşullu politikalar aracılığıyla gerçek robot eylemlerine dönüştürülebilir. Deneyler, VLP'nin hem simülasyondaki hem de gerçek robotlarda (3 donanım platformu genelinde) önceki yöntemlere kıyasla uzun ufuklu görev başarı oranlarını önemli ölçüde artırdığını gösteriyor.
    > We are interested in enabling visual planning for complex long-horizon tasks in the space of generated videos and language, leveraging recent advances in large generative models pretrained on Internet-scale data. To this end, we present video language planning (VLP), an algorithm that consists of a tree search procedure, where we train (i) vision-language models to serve as both policies and value functions, and (ii) text-to-video models as dynamics models. VLP takes as input a long-horizon task instruction and current image observation, and outputs a long video plan that provides detailed multimodal (video and language) specifications that describe how to complete the final task. VLP scales with increasing computation budget where more computation time results in improved video plans, and is able to synthesize long-horizon video plans across different robotics domains: from multi-object rearrangement, to multi-camera bi-arm dexterous manipulation. Generated video plans can be translated into real robot actions via goal-conditioned policies, conditioned on each intermediate frame of the generated video. Experiments show that VLP substantially improves long-horizon task success rates compared to prior methods on both simulated and real robots (across 3 hardware platforms).

Makale Bağlantısı

https://arxiv.org/abs/2310.10625

Daha Fazlası

https://x.com/du_yilun/status/1714297584842318157

Orijinal Metin

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-ff8

Henüz yorum yok.

Henüz yorum yok.