17] Bu Haftanın Öne Çıkan ML Makaleleri (Top ML Papers of the Week)

(discuss.pytorch.kr)

4 puan yazan ninebow 2024-03-19 | 6 yorum | WhatsApp'ta paylaş

[2024/03/11 ~ 03/17] Bu Haftanın Öne Çıkan ML Makaleleri (Top ML Papers of the Week)

DAIR.AI tarafından her hafta yayımlanan ML makalelerine ilişkin yazıyı otomatik olarak çevirdik.
Bu hafta, büyük dil modelleri (Large Language Models, LLMs) üzerine makaleler başlıca eğilim olarak öne çıktı. Birçok makalede, LLM'lere odaklanarak çeşitli sorunları çözme ya da onları anlama çabası bu eğilimi gösteriyor. Örneğin, "SIMA", "Retrieval Augmented Thoughts", "LMs Can Teach Themselves to Think Before Speaking", "Knowledge Conflicts for LLMs" ve "LLMs Predict Neuroscience Results" gibi makaleler büyük dil modellerini kullanıyor ya da bunların performansıyla ilgili meseleleri ele alıyor. Ayrıca "Stealing Part of a Production Language Model" gibi çalışmalar, dil modellerinin güvenlik boyutuyla da araştırıldığını gösteriyor.
Bu eğilim, son birkaç yılda yapay zeka araştırma topluluğunda büyük dil modellerinin yarattığı dönüştürücü değişimi ve etkisini yansıtıyor gibi görünüyor. Büyük dil modelleri yalnızca doğal dil işleme (Natural Language Processing, NLP) alanında değil, çeşitli alanlarda da etkili foundation model'ler olarak konumlarını sağlamlaştırıyor. Bu doğrultuda LLM'ler, çeşitli dil anlama ve üretme görevlerinde yüksek performans gösterirken, uygulamalı araştırmalarda da geniş çapta inceleniyor. Ek olarak, "Multimodal LLM Pre-training" gibi makaleler, LLM'lerin görüntü, ses gibi diğer veri türleriyle birleştirilerek multimodal öğrenme yeteneklerinin güçlendirildiğini gösteren güncel araştırma eğilimlerini yansıtıyor.
Bu analiz temelinde öngörüldüğünde, önümüzdeki dönemde de LLM araştırmaları doğal dil anlamayı daha da geliştirecek, çeşitli yeni uygulama alanlarına genişleyecek ve yapay zeka teknolojilerinin ilerlemesinde önemli bir rol oynayacaktır. Yalnızca LLM performansının artırılması değil, aynı zamanda uygulamalı araştırma, güvenlik ve etik sorunları kapsayan geniş bir mesele yelpazesinin de inceleneceği görülüyor.

SIMA / SIMA

Makale tanıtımı

Geniş bir 3D sanal ortam ve video oyunu yelpazesinde doğal dil talimatlarını izleyen, 3D sanal ortamlar için genel amaçlı bir yapay zeka ajanıdır; gezinme, nesne etkileşimi ve menü kullanımı dahil 600 temel beceri üzerinde değerlendirilmiştir. Dilin performans üzerinde büyük bir etken olduğu görülüyor.

A generalist ai agent for 3d virtual environments that follows natural-language instructions in a broad range of 3d virtual environments and video games; sima is evaluated across 600 basic skills, spanning navigation, object interaction, and menu use. language seems to be a huge factor in performance.

Makale özeti (Abstract)

Herhangi bir 3D ortamda rastgele dil talimatlarını takip edebilen bedenlenmiş yapay zeka sistemleri kurmak, genel yapay zeka yaratmanın temel zorluklarından biridir. Bu hedefe ulaşmak için, karmaşık görevleri yerine getirebilmek adına dilin algı ve bedenlenmiş eylemlerle ilişkilendirilmesini öğrenmek gerekir. Scalable, Instructable, Multiworld Agent (SIMA) projesi, ajanları çok çeşitli sanal 3D ortamlarda serbest biçimli talimatları takip edecek şekilde eğiterek bu sorunu ele alıyor. Buna seçilmiş araştırma ortamlarının yanı sıra açık uçlu ticari video oyunları da dahildir. Amaçları, herhangi bir simüle edilmiş 3D ortamda bir insanın yapabildiği her şeyi yapabilen, talimat alabilen bir ajan geliştirmektir. Yaklaşımları, asgari varsayımlarla dil odaklı genelliğe odaklanır. Ajanlar, gerçek zamanlı olarak ortamlarla insan benzeri genel bir arayüz üzerinden etkileşime girer: girdiler görüntü gözlemleri ve dil talimatları, çıktılar ise klavye ve fare eylemleridir. Bu genel yaklaşım zorludur, ancak ajanların dili görsel olarak karmaşık ve anlamsal açıdan zengin çok sayıda ortamda temellendirmesine olanak tanırken, aynı zamanda yeni ortamlarda da kolayca çalıştırılabilmelerini sağlar. Bu makalede, motivasyonlarını ve hedeflerini, kaydettikleri ilk ilerlemeyi ve çeşitli araştırma ortamları ile farklı ticari video oyunlarındaki umut verici ön sonuçları açıklıyorlar.

Building embodied AI systems that can follow arbitrary language instructions in any 3D environment is a key challenge for creating general AI. Accomplishing this goal requires learning to ground language in perception and embodied actions, in order to accomplish complex tasks. The Scalable, Instructable, Multiworld Agent (SIMA) project tackles this by training agents to follow free-form instructions across a diverse range of virtual 3D environments, including curated research environments as well as openended, commercial video games. Our goal is to develop an instructable agent that can accomplish anything a human can do in any simulated 3D environment. Our approach focuses on language-driven generality while imposing minimal assumptions. Our agents interact with environments in real-time using a generic, human-like interface: the inputs are image observations and language instructions and the outputs are keyboard-and-mouse actions. This general approach is challenging, but it allows agents to ground language across many visually complex and semantically rich environments while also allowing us to readily run agents in new environments. In this paper we describe our motivation and goal, the initial progress we have made, and promising preliminary results on several diverse research environments and a variety of commercial video games.

Makale bağlantısı

https://storage.googleapis.com/deepmind-media/DeepMind.com/…

Daha fazlası

https://discuss.pytorch.kr/t/gn-google-sima-3d-ai/3764

https://x.com/GoogleDeepMind/status/1767918515585994818

RAT: Arama ile güçlendirilmiş düşünceler uzun ufuklu üretimde bağlama duyarlı akıl yürütmeyi ortaya çıkarıyor / RAT: Retrieval Augmented Thoughts Elicit Context-Aware Reasoning in Long-Horizon Generation

Makale tanıtımı

Bilgi erişimiyle düşünce zincirini yinelemeli olarak revize etmenin, uzun ufuklu üretim görevlerinde LLM'lerin muhakeme ve üretim yeteneklerini önemli ölçüde iyileştirebildiğini gösteriyor. Temel fikir, her düşünce adımının görev sorgusu ile mevcut ve geçmiş düşünce adımlarıyla ilgili geri getirilen bilgilerle revize edilmesidir. Retrieval-Augmented Thoughts (RAT), GPT-4 ve CodeLLaMA-7B gibi farklı modellere uygulanarak uzun ufuklu üretim görevlerini (ör. yaratıcı yazma ve somutlaşmış görev planlama) iyileştirebilir; RAT, zero-shot prompting yaklaşımıdır ve zero-shot CoT prompting, vanilla RAG ve diğer baseline'ları içeren yöntemlere kıyasla belirgin iyileşmeler sağlar.

Shows that iteratively revising a chain of thoughts with information retrieval can significantly improve llm reasoning and generation in long-horizon generation tasks; the key idea is that each thought step is revised with relevant retrieved information to the task query, the current and past thought steps; retrieval augmented thoughts (rat) can be applied to different models like gpt-4 and codellama-7b to improve long-horizon generation tasks (e.g., creative writing and embodied task planning); rat is a zero-shot prompting approach and provides significant improvements to baselines that include zero-shot cot prompting, vanilla rag, and other baselines.

Makale Özeti (Abstract)

Bilgi erişiminin yardımıyla düşünce zincirini yinelemeli olarak revize etmenin, uzun süreli üretim görevlerinde büyük dil modellerinin muhakeme ve üretim yeteneğini nasıl önemli ölçüde artırdığını, aynı zamanda halüsinasyonu ciddi ölçüde azalttığını inceliyoruz. Özellikle önerilen yöntem olan Retrieval-Augmented Thoughts (RAT), ilk zero-shot CoT üretildikten sonra, görev sorgusuyla ilgili geri getirilen bilgilerle mevcut ve geçmiş düşünce adımlarını kullanarak her düşünce adımını tek tek revize eder. RAT'ın GPT-3.5, GPT-4 ve CodeLLaMA-7b'ye uygulanması, çeşitli uzun ufuklu üretim görevlerinde performansı kayda değer biçimde artırıyor; değerlendirme puanlarındaki göreli artış ortalama olarak kod üretiminde %13,63, matematiksel muhakemede %16,96, yaratıcı yazmada %19,2 ve somutlaşmış görev planlamasında %42,78 oldu. Demo sayfasına https://craftjarvis.github.io/RAT adresinden ulaşılabilir.

We explore how iterative revising a chain of thoughts with the help of information retrieval significantly improves large language models' reasoning and generation ability in long-horizon generation tasks, while hugely mitigating hallucination. In particular, the proposed method -- retrieval-augmented thoughts (RAT) -- revises each thought step one by one with retrieved information relevant to the task query, the current and the past thought steps, after the initial zero-shot CoT is generated. Applying RAT to GPT-3.5, GPT-4, and CodeLLaMA-7b substantially improves their performances on various long-horizon generation tasks; on average of relatively increasing rating scores by 13.63% on code generation, 16.96% on mathematical reasoning, 19.2% on creative writing, and 42.78% on embodied task planning. The demo page can be found at https://craftjarvis.github.io/RAT

Makale Bağlantısı

https://arxiv.org/abs/2403.05313

Daha fazlasını okuyun

https://x.com/omarsar0/status/1767251740443746435

Quiet-STaR: Dil modelleri konuşmadan önce kendi kendine düşünmeyi öğrenebilir / Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking

Makale Tanıtımı

Dil modellerinin (LM'lerin) daha genel ve ölçeklenebilir biçimde muhakeme öğrenmesini sağlamak için STaR'ın quiet-star adlı bir genellemesini sunuyor; quiet-star, LM'lerin gelecekteki metni açıklamak için her token düzeyinde gerekçeler üretmesini sağlıyor; iç düşünceleri verimli biçimde üreterek LM tahminlerini iyileştirmeye yardımcı olan token bazında paralel bir örnekleme algoritması öneriyor ve gerekçe üretimi REINFORCE kullanılarak iyileştiriliyor.

Presents a generalization of star, called quiet-star, to enable language models (lms) to learn to reason in more general and scalable ways; quiet-star enables lms to generate rationales at each token to explain future text; it proposes a token-wise parallel sampling algorithm that helps improve lm predictions by efficiently generating internal thoughts; the rationale generation is improved using reinforce.

Makale Özeti (Abstract)

Yazarken veya konuşurken insanlar bazen durup düşünür. Akıl yürütmeye odaklanan çalışmalar çoğu zaman akıl yürütmeyi soruları yanıtlama ya da fail tabanlı görevleri tamamlama yöntemi olarak çerçevelese de, akıl yürütme neredeyse tüm yazılı metinlerin içinde örtük olarak bulunur. Örneğin bu, bir ispatın satır aralarında açıkça belirtilmeyen adımlar ya da bir konuşmanın temelindeki zihin kuramı için geçerlidir. Self-Taught Reasoner (STaR, Zelikman ve diğerleri, 2022) yaklaşımında yararlı düşünme, soru-cevapta az örnekli örneklerden gerekçeler çıkarılarak ve doğru cevaba götüren örneklerden öğrenilerek edinilir. Bu oldukça kısıtlı bir ortamdır — ideal olarak bir dil modeli bunun yerine keyfi metinlerde açıkça belirtilmeyen gerekçeleri çıkarmayı öğrenebilmelidir. Biz, dil modellerinin gelecekteki metni açıklamak için her token’da gerekçeler üretmeyi öğrenerek tahminlerini iyileştirdiği, STaR’ın genelleştirilmiş bir sürümü olan Quiet-STaR’ı sunuyoruz. 1) devam üretmenin hesaplama maliyeti, 2) LM’in başlangıçta içsel düşünceler üretmeyi veya kullanmayı bilmemesi ve 3) tek tek sonraki token’ların ötesini tahmin etme gerekliliği gibi temel zorlukları ele alıyoruz. Bunları çözmek için, bir düşüncenin başlangıcını ve sonunu gösteren öğrenilebilir token’lar ile genişletilmiş bir teacher forcing tekniği kullanan, token bazında paralel örnekleme algoritması öneriyoruz. Cesaret verici biçimde, üretilen gerekçeler özellikle tahmin edilmesi zor token’ları modellemeye yardımcı oluyor ve LM’in zor soruları doğrudan yanıtlama becerisini geliştiriyor. Özellikle, bir LM internet metni derlemi üzerinde Quiet-STaR ile sürekli ön eğitimden geçirildiğinde, GSM8K’de (5.9% $\rightarrow$ 10.9%) ve CommonsenseQA’de (36.3% $\rightarrow$ 47.2%) zero-shot iyileşmeler görüldüğünü ve doğal metindeki zor token’larda perplexity iyileşmesi gözlemlediğimizi bulduk. Kritik olarak, bu iyileşmeler bu görevlerde herhangi bir fine-tuning gerektirmiyor. Quiet-STaR, daha genel ve ölçeklenebilir bir şekilde akıl yürütmeyi öğrenebilen LM’lere doğru atılmış bir adımdır.

Yazarken ve konuşurken insanlar bazen durup düşünür. Akıl yürütmeye odaklanan çalışmalar çoğu zaman akıl yürütmeyi soruları yanıtlama ya da fail tabanlı görevleri tamamlama yöntemi olarak çerçevelese de, akıl yürütme neredeyse tüm yazılı metinlerin içinde örtük olarak bulunur. Örneğin bu, bir ispatın satır aralarında açıkça belirtilmeyen adımlar ya da bir konuşmanın temelindeki zihin kuramı için geçerlidir. Self-Taught Reasoner (STaR, Zelikman et al. 2022) yaklaşımında yararlı düşünme, soru-cevapta az örnekli örneklerden gerekçeler çıkarılarak ve doğru cevaba götüren örneklerden öğrenilerek edinilir. Bu oldukça kısıtlı bir ortamdır -- ideal olarak bir dil modeli bunun yerine keyfi metinlerde açıkça belirtilmeyen gerekçeleri çıkarmayı öğrenebilmelidir. Quiet-STaR’ı sunuyoruz; bu, STaR’ın bir genelleştirmesi olup, burada LM’ler gelecekteki metni açıklamak için her token’da gerekçeler üretmeyi öğrenerek tahminlerini iyileştirir. 1) devam üretmenin hesaplama maliyeti, 2) LM’in başlangıçta içsel düşünceler üretmeyi veya kullanmayı bilmemesi ve 3) tek tek sonraki token’ların ötesini tahmin etme gerekliliği dahil temel zorlukları ele alıyoruz. Bunları çözmek için, bir düşüncenin başlangıcını ve sonunu gösteren öğrenilebilir token’lar ile genişletilmiş bir teacher-forcing tekniği kullanan, token bazında paralel örnekleme algoritması öneriyoruz. Cesaret verici biçimde, üretilen gerekçeler özellikle tahmin edilmesi zor token’ları modellemeye yardımcı oluyor ve LM’in zor soruları doğrudan yanıtlama becerisini geliştiriyor. Özellikle, bir LM internet metni derlemi üzerinde Quiet-STaR ile sürekli ön eğitimden geçirildikten sonra, GSM8K’de (5.9%$\rightarrow$10.9%) ve CommonsenseQA’de (36.3%$\rightarrow$47.2%) zero-shot iyileşmeler görüyor ve doğal metindeki zor token’larda perplexity iyileşmesi gözlemliyoruz. Kritik olarak, bu iyileşmeler bu görevlerde fine-tuning gerektirmiyor. Quiet-STaR, daha genel ve ölçeklenebilir bir şekilde akıl yürütmeyi öğrenebilen LM’lere doğru atılmış bir adımdır.

Makale bağlantısı

https://arxiv.org/abs/2403.09629

Daha fazla bilgi

https://x.com/omarsar0/status/1768681638009975088

LLM’ler için bilgi çatışmaları: Bir araştırma / Knowledge Conflicts for LLMs: A Survey

Makale tanıtımı

Bu araştırma makalesi, LLM’lerle çalışırken sık görülen bilgi çatışması sorunlarını bağlam-bellek, bağlamlar arası ve bellek içi çatışmalar olarak sınıflandırıyor; ayrıca bu bilgi çatışması sorunlarının nedenlerine ve bunları hafifletmenin olası yollarına dair içgörüler sunuyor.

LLM’lerle çalışırken sık karşılaşılan bilgi çatışması sorununa genel bir bakış; araştırma makalesi bu çatışmaları bağlam-bellek, bağlamlar arası ve bellek içi çatışma olarak sınıflandırıyor; ayrıca bu bilgi çatışması sorunlarının nedenleri ve bunları hafifletmenin potansiyel yolları hakkında içgörüler sunuyor.

Makale özeti (Abstract)

Bu derleme, büyük dil modellerindeki (LLM) bilgi çatışmalarına dair derinlemesine bir analiz sunarak bağlamsal bilgi ile parametrik bilginin harmanlanması sırasında karşılaşılan karmaşık zorlukları vurguluyor. Burada bağlam-bellek, bağlamlar arası ve bellek içi çatışma olmak üzere üç tür kapsamlı bilgi çatışmasına odaklanılıyor. Bu çatışmalar, özellikle gürültü ve yanlış bilginin yaygın olduğu gerçek dünya uygulamalarında, LLM'lerin güvenilirliği ve performansı üzerinde önemli etki yaratabilir. Bu derleme, bu çatışmaları sınıflandırarak, nedenlerini inceleyerek, LLM'lerin bu tür çatışmalar altındaki davranışlarını gözlemleyerek ve mevcut çözümleri gözden geçirerek, LLM'lerin dayanıklılığını artırmaya yönelik stratejilere ışık tutmayı ve böylece gelişmekte olan bu alandaki araştırmaları ilerletmek için değerli bir kaynak olmayı amaçlıyor.

This survey provides an in-depth analysis of knowledge conflicts for large language models (LLMs), highlighting the complex challenges they encounter when blending contextual and parametric knowledge. Our focus is on three categories of knowledge conflicts: context-memory, inter-context, and intra-memory conflict. These conflicts can significantly impact the trustworthiness and performance of LLMs, especially in real-world applications where noise and misinformation are common. By categorizing these conflicts, exploring the causes, examining the behaviors of LLMs under such conflicts, and reviewing available solutions, this survey aims to shed light on strategies for improving the robustness of LLMs, thereby serving as a valuable resource for advancing research in this evolving area.

Makale bağlantısı

https://arxiv.org/abs/2403.08319

Daha fazlası

https://x.com/omarsar0/status/1768288774532858003

Üretimdeki bir dil modelinin bir bölümünü çalmak / Stealing Part of a Production Language Model

Makale tanıtımı

ChatGPT veya PaLM-2 gibi üretimde kullanılan dil modellerinden bilgi çıkaran ilk model hırsızlığı saldırısını tanıtıyor ve tipik API erişimi üzerinden transformer tabanlı bir modelin embedding projeksiyon katmanının geri kazanılmasının mümkün olduğunu gösteriyor; örnek olarak, openai ada ve babbage modellerinden tüm projeksiyon matrisi 20 doların altında bir maliyetle çıkarıldı.

Presents the first model-stealing attack that extracts information from production language models like chatgpt or palm-2; shows that it's possible to recover the embedding projection layer of a transformer-based model through typical api access; as an example, the entire projection matrix was extracted from the openai ada and babbage models for under $20.

Makale özeti(Abstract)

OpenAI'nin ChatGPT'si veya Google'ın PaLM-2'si gibi kara kutu üretim dil modellerinden hassas ve önemsiz olmayan bilgileri çıkaran ilk model hırsızlığı saldırısını tanıtıyor. Özellikle bu saldırı, tipik API erişimi verildiğinde bir transformer modelinin embedding projeksiyon katmanını (simetrilere kadar) geri kazanıyor. 20 doların altında bir maliyetle OpenAI'nin Ada ve Babbage dil modellerinin tüm projeksiyon matrisi çıkarılabiliyor. Bu sayede, bu kara kutu modellerin gizli boyutlarının sırasıyla 1024 ve 2048 olduğu ilk kez doğrulanıyor. Ayrıca gpt-3.5-turbo modelinin tam gizli boyut büyüklüğü de geri kazanılıyor ve tüm projeksiyon matrisini geri kazanmanın sorgu maliyetinin 2.000 doların altında olacağı tahmin ediliyor. Son olarak, olası savunma ve azaltma yöntemleri sunuluyor ve saldırıyı genişletebilecek gelecekteki olası çalışmaların etkileri tartışılıyor.

We introduce the first model-stealing attack that extracts precise, nontrivial information from black-box production language models like OpenAI's ChatGPT or Google's PaLM-2. Specifically, our attack recovers the embedding projection layer (up to symmetries) of a transformer model, given typical API access. For under $20 USD, our attack extracts the entire projection matrix of OpenAI's Ada and Babbage language models. We thereby confirm, for the first time, that these black-box models have a hidden dimension of 1024 and 2048, respectively. We also recover the exact hidden dimension size of the gpt-3.5-turbo model, and estimate it would cost under $2,000 in queries to recover the entire projection matrix. We conclude with potential defenses and mitigations, and discuss the implications of possible future work that could extend our attack.

Makale bağlantısı

https://arxiv.org/abs/2403.06634

Daha fazlası

https://x.com/omarsar0/status/1767641831079067694

Branch-Train-MiX: Uzman LLM'leri bir Mixture-of-Experts LLM'ye karıştırmak / Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM

Makale tanıtımı

LLM eğitimi için hesaplama açısından daha verimli bir yaklaşım olarak uzman LLM'leri bir mixture-of-experts LLM içine karıştırmayı öneriyor. Bunun, daha büyük bir genel amaçlı LLM ya da birkaç ayrı uzmanlaşmış LLM eğitmekten daha verimli olduğu gösteriliyor. BTX adı verilen yaklaşım, önce farklı alanlarda uzmanlaşmış bir seed LLM'in birden çok kopyasını paralel olarak eğitiyor (yani uzman LLM'ler) ve bunları MoE feed-forward katmanları kullanarak tek bir LLM içinde birleştiriyor; ardından birleşik modelin tamamı fine-tune ediliyor.

Proposes mixing expert llms into a mixture-of-experts llm as a more compute-efficient approach for training llms; it's shown to be more efficient than training a larger generalist llm or several separate specialized llms; the approach, btx, first trains (in parallel) multiple copies of a seed llm specialized in different domains (i.e., expert llms) and merges them into a single llm using moe feed-forward layers, followed by fine-tuning of the overall unified model.

Makale özeti(Abstract)

Kodlama, matematiksel akıl yürütme ve dünya bilgisi gibi birden fazla uzmanlık alanında yetkinlik kazanacak şekilde büyük dil modellerini (LLM) eğitmenin verimli yöntemlerini araştırıyoruz. BTX (Branch-Train-MiX) adını verdiğimiz bu yöntem, uzmanları yüksek throughput ve azaltılmış iletişim maliyetiyle eğitmek için dallandırılmış bir başlangıç modelinden başlar. Bireysel uzmanlar eşzamansız olarak eğitildikten sonra BTX, feedforward parametrelerini Mixture-of-Expert (MoE) katmanlarında uzmanlar olarak bir araya getirir, kalan parametrelerin ortalamasını alır ve ardından token düzeyinde routing öğrenmek için bir MoE ince ayar aşamasından geçer. BTX, routing öğrenimi için MoE ince ayar aşaması olmayan Branch-Train-Merge yöntemini ve uzmanların eşzamansız eğitimi aşamasını atlayan sparse upcycling’i kapsayan iki özel durumu genelleştirir. Diğer yaklaşımlarla karşılaştırıldığında BTX, doğruluk ve verimlilik arasındaki en iyi dengeyi sağlar.

We investigate efficient methods for training Large Language Models (LLMs) to possess capabilities in multiple specialized domains, such as coding, math reasoning and world knowledge. Our method, named Branch-Train-MiX (BTX), starts from a seed model, which is branched to train experts in embarrassingly parallel fashion with high throughput and reduced communication cost. After individual experts are asynchronously trained, BTX brings together their feedforward parameters as experts in Mixture-of-Expert (MoE) layers and averages the remaining parameters, followed by an MoE-finetuning stage to learn token-level routing. BTX generalizes two special cases, the Branch-Train-Merge method, which does not have the MoE finetuning stage to learn routing, and sparse upcycling, which omits the stage of training experts asynchronously. Compared to alternative approaches, BTX achieves the best accuracy-efficiency tradeoff.

Makale bağlantısı

https://arxiv.org/abs/2403.07816

Daha fazlasını okuyun

https://x.com/jaseweston/status/1767727740952682667

Büyük dil modelleri, sinirbilim sonuçlarını tahmin etmede insan uzmanları geride bırakıyor / Large language models surpass human experts in predicting neuroscience results

Makale tanıtımı

Sinirbilim sonuçlarını tahmin etmede makine öğreniminin yeteneğini değerlendirmek için bir benchmark olan BrainBench’i öneriyor; makine öğreniminin deney sonuçlarını tahmin etmede uzmanları geçtiğini ortaya koyuyor ve sinirbilim literatürüne göre ayarlanmış makine öğrenimi modelinin daha da iyi performans gösterdiğini gösteriyor.

Proposes a benchmark, brainbench, for evaluating the ability of llms to predict neuroscience results; finds that llms surpass experts in predicting experimental outcomes; an llm tuned on neuroscience literature was shown to perform even better.

Makale özeti (Abstract)

Bilimsel keşifler çoğu zaman onlarca yıllık araştırmayı sentezlemeye dayanır ve bu görev potansiyel olarak insanın bilgi işleme kapasitesini aşabilir. Büyük dil modelleri (LLM) bir çözüm sunuyor. Geniş bilimsel literatür üzerinde eğitilen LLM’ler, gürültülü ancak birbiriyle ilişkili bulguları birleştirerek yeni sonuçları insan uzmanlardan daha iyi öngörebilir. Bu olasılığı değerlendirmek için sinirbilim sonuçlarını tahmin etmeye yönelik ileriye dönük bir benchmark olan BrainBench’i oluşturduk. Deney sonuçlarını tahmin etmede LLM’lerin uzmanları aştığını görüyoruz. Sinirbilim literatürü üzerinde ayarladığımız bir LLM olan BrainGPT ise daha da iyi performans gösterdi. İnsan uzmanlarda olduğu gibi, LLM’ler de tahminlerinden emin olduklarında daha doğru olma eğilimindeydi; bu da insanların ve LLM’lerin keşif yapmak için birlikte çalışacağı bir geleceğe işaret ediyor. Yaklaşımımız yalnızca sinirbilime özgü değil; bilgi yoğunluğu yüksek diğer alanlara da aktarılabilir.

Scientific discoveries often hinge on synthesizing decades of research, a task that potentially outstrips human information processing capacities. Large language models (LLMs) offer a solution. LLMs trained on the vast scientific literature could potentially integrate noisy yet interrelated findings to forecast novel results better than human experts. To evaluate this possibility, we created BrainBench, a forward-looking benchmark for predicting neuroscience results. We find that LLMs surpass experts in predicting experimental outcomes. BrainGPT, an LLM we tuned on the neuroscience literature, performed better yet. Like human experts, when LLMs were confident in their predictions, they were more likely to be correct, which presages a future where humans and LLMs team together to make discoveries. Our approach is not neuroscience-specific and is transferable to other knowledge-intensive endeavors.

Makale bağlantısı

https://arxiv.org/abs/2403.03230

Daha fazlasını okuyun

https://x.com/ProfData/status/1765689739682754824

C4AI Command-R

Makale tanıtımı

Akıl yürütme, özetleme ve soru yanıtlama gibi kullanım senaryoları için optimize edilmiş, 128k bağlam uzunluğuna sahip 35b parametreli bir model olan command-r; 10 dilde değerlendirilen çok dilli üretim yeteneği ile yüksek performanslı tool use ve RAG kabiliyetlerine sahip ve araştırma amaçlı olarak yayımlandı.

A 35b parameter model, with a context length of 128k, optimized for use cases that include reasoning, summarization, and question answering; command-r has the capability for multilingual generation evaluated in 10 languages and performant tool use and rag capabilities; it has been released for research purposes.

Makale bağlantısı

https://huggingface.co/CohereForAI/c4ai-command-r-v01

Daha fazlasını okuyun

https://x.com/CohereForAI/status/1767275927505977455

Embedding’lerin cosine similarity’si gerçekten benzerlikle mi ilgili? / Is Cosine-Similarity of Embeddings Really About Similarity?

Makale tanıtımı

Düzenlileştirilmiş doğrusal modellerden türetilen gömlemeleri inceliyor, kosinüs benzerliğinin nasıl keyfi ve anlamsız benzerlikler üretebildiğini analitik olarak ortaya koyuyor; ayrıca bazı doğrusal modellerde benzerliklerin tekil olmadığını, bazılarında ise düzenlileştirme tarafından kontrol edildiğini gösteriyor. Yazarlar, kosinüs benzerliğinin körü körüne kullanılmasına karşı uyarıyor ve dikkat edilmesi gereken noktalar ile alternatifler sunuyor.

Studies embeddings derived from regularized linear models and derive analytically how cosine-similarity can yield arbitrary and meaningless similarities; also finds that for some linear models, the similarities are not even unique and others are controlled by regularization; the authors caution against blindly using cosine similarity and presents considerations and alternatives.

Makale Özeti (Abstract)

Kosinüs benzerliği, iki vektör arasındaki açının kosinüsü ya da eşdeğer olarak, normalize edilmiş hallerinin nokta çarpımıdır. Öğrenilmiş düşük boyutlu özellik gömlemelerine kosinüs benzerliği uygulayarak yüksek boyutlu nesneler arasındaki anlamsal benzerliği nicelleştirmek için yaygın biçimde kullanılır. Bu yaklaşım pratikte, gömülü vektörler arasındaki normalize edilmemiş nokta çarpımından daha iyi sonuç verebilir; ancak bazen daha kötü de olabilir. Bu ampirik gözleme dair içgörü elde etmek için, kapalı form çözümlerin analitik içgörü sağladığı düzenlileştirilmiş doğrusal modellerden türetilen gömlemeleri inceliyoruz. Kosinüs benzerliğinin nasıl keyfi ve dolayısıyla anlamsız benzerlikler üretebildiğini analitik olarak gösteriyoruz. Bazı doğrusal modellerde bu benzerlikler tekil bile değildir; diğerlerinde ise düzenlileştirme tarafından örtük biçimde kontrol edilir. Bunun doğrusal modellerin ötesindeki etkilerini de tartışıyoruz: derin modeller eğitilirken çeşitli düzenlileştirmelerin birleşimleri kullanılır; bunlar, ortaya çıkan gömlemeler üzerinde kosinüs benzerliği alındığında örtük ve istenmeyen etkiler yaratarak sonuçları opak ve muhtemelen keyfi hale getirebilir. Bu içgörülere dayanarak, kosinüs benzerliğinin körü körüne kullanılmasına karşı uyarıyor ve alternatifler sunuyoruz.

Cosine-similarity is the cosine of the angle between two vectors, or equivalently the dot product between their normalizations. A popular application is to quantify semantic similarity between high-dimensional objects by applying cosine-similarity to a learned low-dimensional feature embedding. This can work better but sometimes also worse than the unnormalized dot-product between embedded vectors in practice. To gain insight into this empirical observation, we study embeddings derived from regularized linear models, where closed-form solutions facilitate analytical insights. We derive analytically how cosine-similarity can yield arbitrary and therefore meaningless `similarities.' For some linear models the similarities are not even unique, while for others they are implicitly controlled by the regularization. We discuss implications beyond linear models: a combination of different regularizations are employed when learning deep models; these have implicit and unintended effects when taking cosine-similarities of the resulting embeddings, rendering results opaque and possibly arbitrary. Based on these insights, we caution against blindly using cosine-similarity and outline alternatives.

Makale Bağlantısı

https://arxiv.org/abs/2403.05440

Daha Fazla Okuma

https://x.com/_reachsumit/status/1767045820384477575

MM1: Multimodal LLM Ön Eğitimi Üzerine Yöntemler, Analiz ve İçgörüler / MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training

Makale Tanıtımı

Multimodal LLM ön eğitimi için yöntemler, analizler ve içgörülere dair kapsamlı bir genel bakış sunuyor; farklı mimari bileşenleri inceliyor ve görüntü altyazısı, iç içe geçmiş görüntü-metin ve yalnızca metin verisinin dikkatli biçimde harmanlanmasının son teknoloji performans için kritik olduğunu ortaya koyuyor. Ayrıca, ön eğitim metriklerinde SOTA elde eden ve gelişmiş in-context learning, çoklu görüntü akıl yürütme ile few-shot chain-of-thought prompting gibi özellikler sunan, 30b parametreye kadar uzanan bir multimodal model ailesi öneriyor.

Provides a comprehensive overview of methods, analysis, and insights into multimodal llm pre-training; studies different architecture components and finds that carefully mixing image-caption, interleaved image-text, and text-only data is key for state-of-the-art performance; it also proposes a family of multimodal models up to 30b parameters that achieve sota in pre-training metrics and include properties such as enhanced in-context learning, multi-image reasoning, enabling few-shot chain-of-thought prompting.

Makale Özeti (Abstract)

Bu çalışmada, yüksek performanslı Çok Modlu Büyük Dil Modellerinin (MLLM) nasıl oluşturulacağı ele alınıyor. Özellikle çeşitli mimari bileşenlerin ve veri seçiminin önemi inceleniyor. Görüntü kodlayıcı, görsel-dil bağlayıcısı ve farklı ön eğitim veri seçimleri üzerinde yapılan dikkatli ve kapsamlı ablasyonlar sayesinde birkaç kritik tasarım dersi belirlendi. Örneğin, görüntü-açıklama, iç içe geçmiş görüntü-metin ve yalnızca metin verilerinin dikkatli bir kombinasyonuyla büyük ölçekli çok modlu ön eğitim yapılmasının, yayımlanmış diğer ön eğitim sonuçlarıyla karşılaştırıldığında, birden fazla benchmark'ta son teknoloji (SOTA) few-shot sonuçlar elde etmek için kritik olduğu gösteriliyor. Ayrıca, görüntü kodlayıcının görüntü çözünürlüğü ve görüntü token sayısıyla birlikte önemli bir etkiye sahip olduğu, buna karşılık görsel-dil bağlayıcısı tasarımının görece önemsiz kaldığı gösteriliyor. Sunulan reçete ölçeklendirilerek, hem yoğun modelleri hem de uzman karışımı (MoE) varyantlarını içeren, 30B parametreye kadar uzanan çok modlu model ailesi MM1 oluşturulmuş; bu aile ön eğitim metriklerinde SOTA olurken, çeşitli yerleşik çok modlu benchmark'larda denetimli ince ayarın ardından rekabetçi performans da elde etmiştir. Büyük ölçekli ön eğitim sayesinde MM1; gelişmiş in-context learning ve çoklu görüntü üzerinden akıl yürütme gibi çekici özelliklere sahip olup, bunlar few-shot chain-of-thought prompting'i mümkün kılmaktadır.

Bu çalışmada, yüksek performanslı Çok Modlu Büyük Dil Modelleri (MLLM) oluşturmayı tartışıyoruz. Özellikle çeşitli mimari bileşenlerin ve veri seçimlerinin önemini inceliyoruz. Görüntü kodlayıcı, görsel-dil bağlayıcısı ve çeşitli ön eğitim veri seçimleri üzerinde dikkatli ve kapsamlı ablasyonlar yaparak birkaç kritik tasarım dersi belirledik. Örneğin, görüntü-açıklama, iç içe geçmiş görüntü-metin ve yalnızca metin verilerinin dikkatli bir karışımıyla yapılan büyük ölçekli çok modlu ön eğitimin, yayımlanmış diğer ön eğitim sonuçlarıyla karşılaştırıldığında birden fazla benchmark genelinde son teknoloji (SOTA) few-shot sonuçlar elde etmek için kritik olduğunu gösteriyoruz. Ayrıca, görüntü kodlayıcının görüntü çözünürlüğü ve görüntü token sayısıyla birlikte kayda değer bir etkiye sahip olduğunu, buna karşın görsel-dil bağlayıcısı tasarımının karşılaştırmalı olarak ihmal edilebilir önemde kaldığını gösteriyoruz. Sunulan reçeteyi ölçeklendirerek, hem yoğun modellerden hem de uzman karışımı (MoE) varyantlarından oluşan ve 30B parametreye kadar çıkan çok modlu model ailesi MM1'i oluşturuyoruz; bu aile ön eğitim metriklerinde SOTA olup, yerleşik çok modlu benchmark'ların bir yelpazesinde denetimli ince ayarın ardından rekabetçi performans elde ediyor. Büyük ölçekli ön eğitim sayesinde MM1, geliştirilmiş in-context learning ve çoklu görüntü üzerinden akıl yürütme gibi cazip özelliklerden yararlanıyor; bu da few-shot chain-of-thought prompting'i mümkün kılıyor.

Bu yazı GPT modeliyle derlenmiştir; hatalı kısımlar olabilir, bu nedenle lütfen aşağıdaki orijinal metne de başvurun! Okurken garip ya da yanlış bir içerik fark ederseniz, lütfen yorumlarda bildirin.

⚠️Reklam⚠️: PyTorch Kore Kullanıcı Topluluğu tarafından derlenen bu yazıyı faydalı buldunuz mu? Üye olursanız, önemli yazıları e-postayla gönderiyoruz! (Varsayılan olarak Weekly, ancak Daily olarak da değiştirilebilir.)

6 yorum

prelude9903 2024-03-19

Hangi otomatik çeviri aracını kullandığınızı lütfen söyleyin.

ninebow 2024-03-19

Evet, DeepL kullanıyorum haha.
Kısa süre önce Korece için de çeviri sözlüğü oluşturulabildiği için denedim ama sorun çıktı orz...

libner 2024-03-19

RAT bölümündeki makale tanıtımında rat ve rag sırasıyla fare ve bez olarak çevrilmiş gibi görünüyor. Muhtemelen model, küçük harfli yazımı olduğu gibi okudu.

ninebow 2024-03-20

Aşağıdaki gibi düzelttim. Teşekkürler! :D

Bilgi erişimi yoluyla düşünce zincirini (CoT) yinelemeli olarak revize etmenin, uzun ölçekli üretim görevlerinde LLM akıl yürütmesini ve üretimini önemli ölçüde iyileştirebildiğini gösteriyor. Temel fikir, her düşünce adımının görev sorgusu ile mevcut ve geçmiş düşünce adımlarıyla ilgili olarak getirilen bilgilerle revize edilmesidir. Retrieval-augmented thoughts (RAT), GPT-4 ve CodeLlama-7b gibi diğer modellere uygulanarak uzun ölçekli üretim görevlerinde (ör. yaratıcı yazarlık ve ayrıntılandırılmış görev planlama) kullanılır; RAT, zero-shot prompting yaklaşımıdır ve zero-shot CoT prompting, temel RAG ve diğer baseline'lar dahil olmak üzere karşılaştırma yöntemlerini önemli ölçüde geride bırakır.

ninebow 2024-03-19

Aa evet, haklısınız; orijinal metni düzelteceğim haha
Teşekkürler!

ninebow 2024-03-19

Ah, başlık... lütfen 'Bu haftanın öne çıkan ML makaleleri' olarak değiştirin;;

[2024/03/11 ~ 03/17] Bu Haftanın Öne Çıkan ML Makaleleri (Top ML Papers of the Week)