[2023/12/25 ~ 12/31] Haftanın öne çıkan ML makaleleri (Top ML Papers of the Week)
(discuss.pytorch.kr)Genel Bakış
-
DAIR.AI tarafından her hafta yayımlanan ML makalelerine dair yazıyı otomatik olarak çevirdik.
-
Bu hafta seçilen makalelere bakıldığında, genel olarak GPT-4 gibi büyük dil modelleri (Large Language Models, LLMs) etrafında şekillenen araştırmaların ana akımı oluşturduğu görülüyor. Özellikle bu çalışmalar, GPT-4'ün yeni API'lerini kullanmaya, LLM'lerde olgusal hatırlama yeteneğine ve LLM'lerin daha iyi, daha yoğun arama yeteneklerine nasıl kavuşturulabileceğine odaklanıyor. Ayrıca, dil modeli tabanlı matematik problem çözümü ve bu modellerin nasıl akıl yürüttüğüyle ilgili konular da yer alıyor.
-
Bu eğilimin ortaya çıkması, LLM'lerin yapay zeka alanında hâlâ başlıca araştırma konusu olmasından kaynaklanıyor olabilir. GPT-4 gibi modeller, güçlü dil anlama ve üretme becerileri sayesinde çeşitli uygulama alanlarında kullanım potansiyelini genişletiyor; bu yetenekleri geliştirmeye ve yeni şekillerde kullanmaya yönelik araştırmalar da aralıksız sürüyor. Gerçek performans artışı için somut metodoloji araştırmaları ve uygulama örneği analizleri önemli bir araştırma alanı olarak öne çıkıyor ve bu hafta seçilen makalelerin de bu eğilimi yansıttığı görülüyor.
-
Öte yandan, LLM'lerin anlama düzeyi ve akıl yürütme yeteneğini değerlendirmeyi ve geliştirmeyi amaçlayan çalışmalar da popüler bir konu gibi görünüyor. Bu sayede akıllı ajanların insanlarla daha doğal ve etkili biçimde nasıl etkileşime girebileceğini araştırmak, yapay zeka alanında son derece önemli bir görev olacaktır. Bunun üzerinden daha yüksek verimlilik ve gerçek yaşamda uygulanabilirlik olanaklarını incelemek, gelecekteki araştırma eğilimlerinde önemli bir yer tutacak gibi görünüyor.
CogAgent: GUI Ajanları için Görsel Dil Modeli / CogAgent: A Visual Language Model for GUI Agents
Makale tanıtımı
- GUI anlama ve gezinmeye özel 18 milyar parametreli bir görsel dil modeli sunuyor; yüksek çözünürlüklü girdi (1120x1120) desteği veriyor ve görsel soru-cevap, görsel grounding ve GUI ajanı gibi görevlerde yetenek sergiliyor; metin açısından zengin 5 benchmark ile genel amaçlı 4 VQA benchmark'ında son teknoloji seviyesine ulaşıyor.
> Presents an 18 billion parameter visual language model specializing in gui understanding and navigation; supports high-resolution inputs (1120x1120) and shows abilities in tasks such as visual q&a, visual grounding, and gui agent; achieves state of the art on 5 text-rich and 4 general vqa benchmarks.
Makale özeti(Abstract)
- İnsanlar, bilgisayar ya da akıllı telefon ekranları gibi grafiksel kullanıcı arayüzleri (GUI'ler) üzerinden dijital cihazlarda muazzam miktarda zaman geçiriyor. ChatGPT gibi büyük dil modelleri (LLM'ler), e-posta yazma gibi işlerde insanlara yardımcı olabiliyor; ancak GUI'leri anlama ve onlarla etkileşime girme konusunda zorlandıkları için otomasyon seviyesini artırma potansiyelleri sınırlı kalıyor. Bu makalede, GUI anlama ve gezinmeye odaklanan 18 milyar parametreli bir görsel dil modeli (VLM) olan CogAgent tanıtılıyor. Düşük çözünürlüklü ve yüksek çözünürlüklü görüntü kodlayıcılarını birlikte kullanarak 11201120 çözünürlükte girdiyi destekliyor; böylece küçük sayfa öğelerini ve metinleri tanıyabiliyor. Genel amaçlı bir görsel dil modeli olarak CogAgent, VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet ve POPE dahil olmak üzere metin açısından zengin 5 benchmark ile genel amaçlı 4 VQA benchmark'ında en yüksek performansa ulaşıyor. Yalnızca ekran görüntülerini girdi olarak kullanan CogAgent, hem PC hem de Android GUI gezinme görevlerinde, çıkarılmış HTML metni tüketen LLM tabanlı yöntemler olan Mind2Web ve AITW'den daha iyi performans göstererek son teknoloji seviyesini ileri taşıyor. Model ve kodlar https://github.com/THUDM/CogVLM adresinde bulunabilir.
> People are spending an enormous amount of time on digital devices through graphical user interfaces (GUIs), e.g., computer or smartphone screens. Large language models (LLMs) such as ChatGPT can assist people in tasks like writing emails, but struggle to understand and interact with GUIs, thus limiting their potential to increase automation levels. In this paper, we introduce CogAgent, an 18-billion-parameter visual language model (VLM) specializing in GUI understanding and navigation. By utilizing both low-resolution and high-resolution image encoders, CogAgent supports input at a resolution of 11201120, enabling it to recognize tiny page elements and text. As a generalist visual language model, CogAgent achieves the state of the art on five text-rich and four general VQA benchmarks, including VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet, and POPE. CogAgent, using only screenshots as input, outperforms LLM-based methods that consume extracted HTML text on both PC and Android GUI navigation tasks -- Mind2Web and AITW, advancing the state of the art. The model and codes are available at https://github.com/THUDM/CogVLM .
Makale bağlantısı
https://arxiv.org/abs/2312.08914
Daha fazlası
https://x.com/cenyk1230/status/1739916469272789222
Google Gemini'den OpenAI Q* (Q-Star)'a: Üretken yapay zeka (AI) araştırma ekosisteminin yeniden şekillenmesine dair bir inceleme / From Google Gemini to OpenAI Q* (Q-Star): A Survey of Reshaping the Generative Artificial Intelligence (AI) Research Landscape
Makale tanıtımı
- 300'den fazla makaleyi tarayan ve üretken yapay zeka alanında dikkat edilmesi gereken Ar-Ge gelişmelerini özetleyen bu rapor; hesaplama zorlukları, ölçeklenebilirlik, gerçek dünyadaki etkiler ve üretken yapay zekanın sağlık, finans ve eğitim gibi alanlarda ilerlemeyi yönlendirme potansiyelini ele alıyor.
> Surveys 300+ papers and summarizes research developments to look at in the space of generative ai; it covers computational challenges, scalability, real-world implications, and the potential for gen ai to drive progress in fields like healthcare, finance, and education.
Makale özeti(Abstract)
- Bu kapsamlı araştırma, özellikle Uzman Karışımı (MoE), çok modlu öğrenme ve Yapay Genel Zekâya (AGI) yönelik öngörülen ilerlemelerin dönüştürücü etkilerine odaklanarak üretken yapay zekânın gelişen manzarasını inceledi. Bu rapor, üretken yapay zekânın mevcut durumunu ve gelecekteki yönelimini eleştirel biçimde değerlendirirken, Google'ın Gemini'si ve beklenen OpenAI Q* projesi gibi yeniliklerin, üretken yapay zekâ araştırma sınıflandırmasına etkilerinin analizi de dahil olmak üzere, çeşitli alanlarda araştırma önceliklerini ve uygulamaları nasıl yeniden şekillendirdiğini inceledi. Rapor, bu teknolojilerin hesaplama zorluklarını, ölçeklenebilirliğini ve gerçek hayattaki etkilerini değerlendirirken; sağlık, finans ve eğitim gibi alanlarda önemli ilerlemeler sağlayabilecek potansiyellerini de vurguladı. Ayrıca hem yapay zekâ temalı hem de yapay zekâ tarafından üretilmiş ön baskıların yaygınlaşmasının ortaya çıkardığı yeni akademik zorlukları ele alarak bunun hakem değerlendirme süreci ve akademik iletişim üzerindeki etkisini inceledi. Çalışma, yapay zekâ geliştirmede etik ve insan odaklı yöntemlerin entegre edilmesinin, toplumsal normlar ve refahla uyumun sağlanmasının önemini vurguladı ve üretken yapay zekâda MoE, çok modluluk ve AGI'nin dengeli ve sorumlu kullanımına odaklanan gelecekteki yapay zekâ araştırma stratejisini ortaya koydu.
> This comprehensive survey explored the evolving landscape of generative Artificial Intelligence (AI), with a specific focus on the transformative impacts of Mixture of Experts (MoE), multimodal learning, and the speculated advancements towards Artificial General Intelligence (AGI). It critically examined the current state and future trajectory of generative Artificial Intelligence (AI), exploring how innovations like Google's Gemini and the anticipated OpenAI Q* project are reshaping research priorities and applications across various domains, including an impact analysis on the generative AI research taxonomy. It assessed the computational challenges, scalability, and real-world implications of these technologies while highlighting their potential in driving significant progress in fields like healthcare, finance, and education. It also addressed the emerging academic challenges posed by the proliferation of both AI-themed and AI-generated preprints, examining their impact on the peer-review process and scholarly communication. The study highlighted the importance of incorporating ethical and human-centric methods in AI development, ensuring alignment with societal norms and welfare, and outlined a strategy for future AI research that focuses on a balanced and conscientious use of MoE, multimodality, and AGI in generative AI.
Makale bağlantısı
https://arxiv.org/abs/2312.10868
Daha fazlasını oku
https://x.com/omarsar0/status/1740119485011390558
PromptBench: Büyük dil modellerinin değerlendirilmesi için birleşik bir kütüphane / PromptBench: A Unified Library for Evaluation of Large Language Models
Makale tanıtımı
- Hızlı istem oluşturma, prompt engineering, veri kümesi ve model yükleme, adversarial prompt attack, dinamik değerlendirme protokolleri ve analiz araçları gibi işlevlerden oluşan birleşik bir kütüphanedir; LLM'lerin kapsamlı değerlendirme ve analizini destekler.
> A unified library that supports comprehensive evaluation and analysis of llms; it consists of functionalities for prompt construction, prompt engineering, dataset and model loading, adversarial prompt attack, dynamic evaluation protocols, and analysis tools.
Makale özeti (Abstract)
- Büyük dil modellerinin (LLM) değerlendirilmesi, performanslarının ölçülmesi ve potansiyel güvenlik risklerinin azaltılması açısından kritik öneme sahiptir. Bu makalede, LLM'leri değerlendirmek için birleşik bir kütüphane olan PromptBench tanıtılmaktadır. Bu kütüphane, araştırmacıların kolayca kullanıp genişletebileceği birkaç temel bileşenden oluşur: istem oluşturma, prompt engineering, veri kümesi ve model yükleme, adversarial prompt attack, dinamik değerlendirme protokolleri ve analiz araçları. PromptBench, yeni benchmark'lar oluşturma, aşağı akış uygulamalarını devreye alma ve yeni değerlendirme protokolleri tasarlama üzerine özgün çalışmaları kolaylaştırabilecek; araştırma amaçlı açık, genel ve esnek bir kod tabanı olarak tasarlanmıştır. Kodlar https://github.com/microsoft/promptbench adresinde bulunmaktadır ve sürekli olarak desteklenecektir.
> The evaluation of large language models (LLMs) is crucial to assess their performance and mitigate potential security risks. In this paper, we introduce PromptBench, a unified library to evaluate LLMs. It consists of several key components that are easily used and extended by researchers: prompt construction, prompt engineering, dataset and model loading, adversarial prompt attack, dynamic evaluation protocols, and analysis tools. PromptBench is designed to be an open, general, and flexible codebase for research purposes that can facilitate original study in creating new benchmarks, deploying downstream applications, and designing new evaluation protocols. The code is available at: https://github.com/microsoft/promptbench and will be continuously supported.
Makale bağlantısı
https://arxiv.org/abs/2312.07910v1
Daha fazlasını oku
https://x.com/omarsar0/status/1739360426134028631
Yeni GPT-4 API'lerinden yararlanmak / Exploiting Novel GPT-4 APIs
Makale tanıtımı
- GPT-4 API'lerinde sunulan üç özellik üzerinde — ince ayar, fonksiyon çağırma ve bilgi erişimi — red-team çalışması yürütülerek şu temel sonuçlara ulaşıldı: 1) 15 zararlı örnek veya 100 iyi huylu örnekle yapılan ince ayar, GPT-4'ün temel güvenlik önlemlerini kaldırabiliyor, 2) GPT-4 asistanları fonksiyon çağrısı şemasını açığa vurabiliyor ve rastgele fonksiyon çağrılarını yürütmeye yönlendirilebiliyor, 3) erişim belgelerine komut enjekte edilerek bilgi erişimi ele geçirilebiliyor.
> Performs red-teaming on three functionalities exposed in the gpt-4 apis: fine-tuning, function calling, and knowledge retrieval; main findings: 1) fine-tuning on as few as 15 harmful examples or 100 benign examples can remove core safeguards from gpt-4, 2) gpt-4 assistants divulge the function call schema and can be made to execute arbitrary function calls, and 3) knowledge retrieval can be hijacked by injecting instructions into retrieval documents.
Makale Özeti(Abstract)
- Dil modeli saldırıları genellikle iki uç tehdit modelinden birini varsayar: model ağırlıklarına tam white-box erişim ya da yalnızca metin üretim API'siyle sınırlı black-box erişim. Ancak gerçek dünyadaki API'ler çoğu zaman yalnızca metin üretiminden daha esnektir; bu API'ler yeni tehdit vektörlerine yol açan
gray-boxerişim sunar. Bunu incelemek için GPT-4 API'lerinde sunulan üç yeni özelliği — ince ayar, fonksiyon çağırma ve bilgi erişimi — red-team kapsamında test ettik. Modelin yalnızca 15 zararlı örnek veya 100 iyi huylu örnek üzerinde ince ayar yapılmasının, GPT-4'ün temel güvenlik önlemlerini kaldırabildiğini ve bunun da çeşitli zararlı çıktılara olanak tanıdığını bulduk. Ayrıca GPT-4 Assistants'ın fonksiyon çağrısı şemasını kolayca açığa vurduğunu ve rastgele fonksiyon çağrılarını yürütmeye yönlendirilebildiğini tespit ettik. Son olarak, erişim belgelerine komut enjekte edilerek bilgi erişiminin ele geçirilebildiğini bulduk. Bu zafiyetler, bir API'nin sunduğu işlevlere yapılan her eklemenin yeni güvenlik açıkları yaratabileceğini gösteriyor.
> Language model attacks typically assume one of two extreme threat models: full white-box access to model weights, or black-box access limited to a text generation API. However, real-world APIs are often more flexible than just text generation: these APIs expose ``gray-box'' access leading to new threat vectors. To explore this, we red-team three new functionalities exposed in the GPT-4 APIs: fine-tuning, function calling and knowledge retrieval. We find that fine-tuning a model on as few as 15 harmful examples or 100 benign examples can remove core safeguards from GPT-4, enabling a range of harmful outputs. Furthermore, we find that GPT-4 Assistants readily divulge the function call schema and can be made to execute arbitrary function calls. Finally, we find that knowledge retrieval can be hijacked by injecting instructions into retrieval documents. These vulnerabilities highlight that any additions to the functionality exposed by an API can create new vulnerabilities.
Makale Bağlantısı
https://arxiv.org/abs/2312.14302
Daha fazlası
https://x.com/omarsar0/status/1739677995747450964
LLM'lerde Olgu Geri Çağırma / Fact Recalling in LLMs
Makale Tanıtımı
- MLP katmanlarının olgusal hatırlama için bir arama tablosunu nasıl uyguladığını inceliyor; Pythia 2.8b'deki erken MLP'lerin farklı sporcuların üç farklı spordan hangisini yaptığını nasıl bulduğuna odaklanarak çalışmayı genişletiyor; erken MLP katmanlarının bir arama tablosu gibi işlediğini öne sürüyor ve modelde olgusal bilginin hatırlanmasını çoklu token gömmeleri olarak düşünmeyi öneriyor.
> Investigates how mlp layers implement a lookup table for factual recall; scopes the study on how early mlps in pythia 2.8b look up which of 3 different sports various athletes play; suggests that early mlp layers act as a lookup table and recommends thinking about the recall of factual knowledge in the model as multi-token embeddings.
Makale Bağlantısı
https://www.alignmentforum.org/s/hpWHhjvjn67LJ4xXX/p/iGuwZTHWb6DFY3sKB
Daha fazlası
https://x.com/NeelNanda5/status/1738559368361349122
Matematik için üretken yapay zeka: Bölüm I -- MathPile: Matematik için milyar token ölçekli bir ön eğitim korpusu / Generative AI for Math: Part I -- MathPile: A Billion-Token-Scale Pretraining Corpus for Math
Makale Tanıtımı
- Foundation modellerini eğitmek için yaklaşık 9,5 milyar tokenden oluşan, çeşitli ve yüksek kaliteli, matematik odaklı bir korpus sunuyor.
> Presents a diverse and high-quality math-centric corpus comprising of ~9.5 billion tokens to train foundation models.
Makale Özeti(Abstract)
- Yüksek kaliteli, büyük ölçekli derlemler, foundation model’ler inşa etmenin temel taşıdır. Bu çalışmada, yaklaşık 9,5 milyar token’dan oluşan, çeşitli ve yüksek kaliteli, matematik odaklı bir derlem olan ${MathPile}$’ı tanıtıyoruz. Bu derlemi oluştururken
'az ama öz'ilkesine bağlı kaldık ve ön eğitim aşamasında bile veri miktarından çok veri kalitesinin üstün olduğuna güçlü biçimde inandık. Ön işleme, ön filtreleme, dil tanımlama, temizleme, filtreleme ve yineleme kaldırma gibi karmaşık ön işleme süreçlerinden geçerek derlemin yüksek kalitesini güvence altına almak için titiz veri toplama ve işleme çalışmaları yürüttük. Ayrıca, tekrarları ortadan kaldırmak için aşağı akış benchmark test kümelerinde veri kirlenmesi tespiti yaptık. Metin aracılığıyla matematiksel akıl yürütmenin, dil modellerinin matematiksel akıl yürütme yeteneklerini geliştirmeye yardımcı olmasını umuyoruz. Gelecekte bu alandaki ilerlemeyi desteklemek için, işleme sırasında kullanılan betiklerle birlikte $MathPile$’ın farklı sürümlerini açık kaynak olarak yayımlamayı planlıyoruz.
> High-quality, large-scale corpora are the cornerstone of building foundation models. In this work, we introduce ${MathPile}$, a diverse and high-quality math-centric corpus comprising about 9.5 billion tokens. Throughout its creation, we adhered to the principle of{less is more}, firmly believing in the supremacy of data quality over quantity, even in the pre-training phase. Our meticulous data collection and processing efforts included a complex suite of preprocessing, prefiltering, language identification, cleaning, filtering, and deduplication, ensuring the high quality of our corpus. Furthermore, we performed data contamination detection on downstream benchmark test sets to eliminate duplicates. We hope our ${MathPile}$ can help to enhance the mathematical reasoning abilities of language models. We plan to open-source different versions of \mathpile with the scripts used for processing, to facilitate future developments in this field.
Makale bağlantısı
https://arxiv.org/abs/2312.17120
Daha fazlasını okuyun
https://x.com/arankomatsuzaki/status/1740564961032556942
Yalnızca İlkeli Talimatlar, LLaMA-1/2 ve GPT-3.5/4’ü Sorgulamak İçin Yeterlidir / Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4
Makale tanıtımı
- Büyük dil modellerini sorgulama ve prompt verme sürecini sadeleştirmek için tasarlanmış 26 talimat ilkesini tanıtıyor; bu ilkeleri uygulayarak llama-1/2 (7b, 13b, 70b) ve gpt-3.5/4 üzerinde kapsamlı deneyler gerçekleştirip bunların talimat ve prompt tasarımındaki etkinliğini doğruluyor.
> Introduces 26 guiding principles designed to streamline the process of querying and prompting large language models; applies these principles to conduct extensive experiments on llama-1/2 (7b, 13b and 70b), gpt-3.5/4 to verify their effectiveness on instructions and prompts design.
Makale özeti(Abstract)
- Bu makale, büyük dil modellerini sorgulama ve prompt verme sürecini sadeleştirmek için tasarlanmış 26 temel ilkeyi tanıtıyor. Amaçlarımız; farklı ölçeklerdeki büyük dil modelleri için soru formüle etmenin, bunların yeteneklerini incelemenin ve farklı prompt’larla beslendiklerinde farklı ölçeklerdeki büyük dil modellerinin davranışlarına ilişkin kullanıcı anlayışını artırmanın temel kavramlarını basitleştirmektir. Önerilen ilkelerin talimat ve prompt tasarımındaki etkinliğini doğrulamak için LLaMA-1/2 (7B, 13B, 70B) ve GPT-3.5/4 üzerinde kapsamlı deneyler yürüttük. Bu çalışmanın, büyük dil modelleri için prompt araştırmaları yapan araştırmacılara daha iyi bir rehber sunmasını umuyoruz. Proje sayfasına https://github.com/VILA-Lab/ATLAS adresinden ulaşılabilir.
> This paper introduces 26 guiding principles designed to streamline the process of querying and prompting large language models. Our goal is to simplify the underlying concepts of formulating questions for various scales of large language models, examining their abilities, and enhancing user comprehension on the behaviors of different scales of large language models when feeding into different prompts. Extensive experiments are conducted on LLaMA-1/2 (7B, 13B and 70B), GPT-3.5/4 to verify the effectiveness of the proposed principles on instructions and prompts design. We hope that this work provides a better guide for researchers working on the prompting of large language models. Project page is available at https://github.com/VILA-Lab/ATLAS.
Makale bağlantısı
https://arxiv.org/abs/2312.16171v1
Daha fazlasını okuyun
https://x.com/_akhaliq/status/1739857456161759455
Foundation Model’lerle Akıl Yürütmeye Dair Bir Anket / A Survey of Reasoning with Foundation Models
Makale tanıtımı
- Akıl yürütme için temel foundation model’lere dair kapsamlı bir araştırma sunuyor; çeşitli akıl yürütme görevleri, yöntemler, benchmark’lar ve olası gelecek yönlere ilişkin en güncel gelişmeleri öne çıkarıyor. Ayrıca çok modlu öğrenme, otonom ajanlar ve super alignment gibi diğer gelişmelerin akıl yürütme araştırmalarını nasıl hızlandırıp genişlettiğini de tartışıyor.
> Provides a comprehensive survey of seminal foundational models for reasoning, highlighting the latest advancements in various reasoning tasks, methods, benchmarks, and potential future directions; also discusses how other developments like multimodal learning, autonomous agents, and super alignment accelerate and extend reasoning research.
Makale özeti(Abstract)
- Karmaşık problem çözme için kritik bir yetenek olan akıl yürütme; müzakere, tıbbi teşhis ve suç soruşturması gibi çeşitli gerçek dünya ortamlarında merkezi bir rol oynar. Yapay genel zeka (AGI) alanında temel bir metodoloji olarak kullanılır. Foundation model'lerin sürekli geliştirilmesiyle birlikte, bu modellerin akıl yürütme görevlerindeki yeteneklerini incelemeye yönelik ilgi artmaktadır. Bu makale, akıl yürütme için önerilmiş veya uyarlanabilir önemli foundation model'leri tanıtıyor ve çeşitli akıl yürütme görevleri, yöntemleri ve benchmark'lardaki en son gelişmeleri öne çıkarıyor. Ardından, foundation model'lerde akıl yürütme yeteneklerinin ortaya çıkışının arkasındaki olası gelecek yönelimlerini ele alıyor. Ayrıca akıl yürütme bağlamında multimodal öğrenme, otonom ajanlar ve super alignment kavramlarının ilişkisini de tartışıyor. Bu gelecekteki araştırma yönlerinin tartışılmasıyla, araştırmacılara bu alanı keşfetmeleri için ilham verilmesi, foundation model'lerle akıl yürütmede daha fazla ilerlemenin teşvik edilmesi ve AGI'nin gelişimine katkı sağlanması umuluyor.
> Reasoning, a crucial ability for complex problem-solving, plays a pivotal role in various real-world settings such as negotiation, medical diagnosis, and criminal investigation. It serves as a fundamental methodology in the field of Artificial General Intelligence (AGI). With the ongoing development of foundation models, there is a growing interest in exploring their abilities in reasoning tasks. In this paper, we introduce seminal foundation models proposed or adaptable for reasoning, highlighting the latest advancements in various reasoning tasks, methods, and benchmarks. We then delve into the potential future directions behind the emergence of reasoning abilities within foundation models. We also discuss the relevance of multimodal learning, autonomous agents, and super alignment in the context of reasoning. By discussing these future research directions, we hope to inspire researchers in their exploration of this field, stimulate further advancements in reasoning with foundation models, and contribute to the development of AGI.
Makale bağlantısı
https://arxiv.org/abs/2312.11562v4
Daha fazlasını okuyun
https://x.com/omarsar0/status/1740729489661874632
Yoğun arama için daha iyi bir temel oluşturan büyük dil modelleri geliştirmek / Making Large Language Models A Better Foundation For Dense Retrieval
Makale tanıtımı
- Yoğun arama için LLM'i uyarlayan LLaRA öneriliyor. Bu yöntem, iki ön görevden oluşuyor: EBAE (embedding tabanlı auto-encoding) ve EBAR (embedding tabanlı auto-regression). Bunlar sırasıyla, LLM'in metin embedding'lerini kullanarak giriş cümlesinin token'larını yeniden oluşturmak ve sonraki cümlenin token'larını tahmin etmek için kullanılıyor; ayrıca llama-2-7b, MSMARCO ve BEIR gibi benchmark'larda iyileştirildi.
> Proposes llara which adapts an llm for dense retrieval; it consists of two pretext tasks: ebae (embedding-based auto-encoding) and ebar (embedding-based auto-regression), where the text embeddings from llm are used to reconstruct the tokens for the input sentence and predict the tokens for the next sentence, respectively; a llama-2-7b was improved on benchmarks like msmarco and beir.
Makale özeti (Abstract)
- Yoğun arama, sorgu ile belge arasındaki anlamsal ilişkiyi temsil etmek için ayırt edici metin embedding'leri öğrenmeyi gerektirir. Anlamsal anlama konusundaki güçlü yetenekleri nedeniyle büyük dil modellerinin (LLM) kullanımı bundan fayda sağlayabilir. Ancak LLM'ler, metinleri embedding olarak temsil etmekten çalışma biçimi tamamen farklı olan metin üretim görevleriyle önceden eğitilir. Bu nedenle, yoğun arama için omurga kodlayıcı olarak etkili biçimde başlatılabilmeleri amacıyla LLM'lerin nasıl uygun şekilde uyarlanacağını incelemek kritik önem taşır. Bu makalede, yoğun arama uygulamaları için LLM'in sonradan uyarlanmasına yönelik yeni bir yaklaşım olan LLaRA (LLM adapted for dense RetrievAl) öneriliyor. LLaRA iki ön görevden oluşur: LLM'in metin embedding'lerini kullanarak giriş cümlesinin token'larını yeniden oluşturan EBAE (Embedding-Based Auto-Encoding) ve sonraki cümlenin token'larını tahmin eden EBAR (Embedding-Based Auto-Regression). LLaRA'nın basit, hafif ve son derece etkili olduğu gösteriliyor. Yöntem, Vikipedi külliyatı üzerinde LLaMA-2-7B (base) modelini uyarlamak için uygulanmış ve MSMARCO ile BEIR gibi çeşitli yoğun arama benchmark'larında modelin ince ayar sonrası performansını önemli ölçüde artırmıştır. Model ve kod, BGE deposunda herkese açık olarak sunulacaktır.
> Dense retrieval needs to learn discriminative text embeddings to represent the semantic relationship between query and document. It may benefit from the using of large language models (LLMs), given LLMs' strong capability on semantic understanding. However, the LLMs are pre-trained by text generation tasks, whose working pattern is completely different from representing texts as embeddings. As a result, it is imperative to study how to adapt LLMs properly so that they can be effectively initialized as the backbone encoder for dense retrieval. In this paper, we propose a novel approach, called LLaRA (LLM adapted for dense RetrievAl), which works as a post-hoc adaptation of LLM for the dense retrieval application. LLaRA consists of two pretext tasks: EBAE (Embedding-Based Auto-Encoding) and EBAR (Embedding-Based Auto-Regression), where the text embeddings from LLM are used to reconstruct the tokens for the input sentence and predict the tokens for the next sentence, respectively. LLaRA turns out to be simple, lightweight, and highly effective. It is applied to adapt LLaMA-2-7B (base) on the Wikipedia corpus, where it substantially improves the model's fine-tuned performances on a variety of dense retrieval benchmarks, like MSMARCO and BEIR. Our model and code will be made publicly available at BGE repository.
Makale bağlantısı
https://arxiv.org/abs/2312.15503v1
Gemini ve GPT-4V: Nitel vakalar üzerinden görsel-dil modellerinin ön karşılaştırması ve birleşimi / Gemini vs GPT-4V: A Preliminary Comparison and Combination of Vision-Language Models Through Qualitative Cases
Makale tanıtımı
- Gemini ve GPT-4v gibi görsel-dil modelleri, birkaç nitel vaka üzerinden kapsamlı biçimde ön karşılaştırma ve birlikte değerlendirmeye tabi tutuldu; sonuçta GPT-4v'nin doğru ve öz yanıtlar vermede öne çıktığı, Gemini'nin ise ilgili görseller ve bağlantılar eşliğinde ayrıntılı ve kapsamlı yanıtlar sunmada üstün olduğu görüldü.
> Provides a comprehensive preliminary comparison and combination of vision-language models like gemini and gpt-4v through several qualitative cases; finds that gpt-4v is precise and succinct in responses, while gemini excels in providing detailed, expansive answers accompanied by relevant imagery and links.
Makale özeti (Abstract)
- Hızla gelişen çok modlu büyük dil modelleri (MLLMs) alanı, yapay zekada dilsel ve görsel işlemeyi bütünleştirmenin ön saflarında yer alıyor. Bu makale, iki öncü modelin derinlemesine karşılaştırmalı incelemesini sunuyor: Google'ın Gemini'si ve OpenAI'ın GPT-4V(ision)'ı. Çalışma, her iki modeli de Görsel-Dil Yeteneği, İnsanlarla Etkileşim, Zamansal Anlama ve hem Zekâ hem de Duygusal Zekâ değerlendirmeleri gibi temel boyutlar boyunca çok yönlü biçimde değerlendiriyor. Analizin odağı, her modelin farklı görsel kavrama yeteneklerini incelemeye dayanıyor. Çeşitli endüstriyel uygulama senaryolarındaki performanslarını değerlendirmek için bir dizi yapılandırılmış deney yürütülerek pratik faydalarına dair kapsamlı bir bakış sunuldu. Yalnızca doğrudan performans karşılaştırmaları yapılmakla kalınmadı, dengeli ve adil bir analiz sağlamak için prompt'larda ve senaryolarda da ayarlamalara gidildi. Bulgularımız, her iki modelin benzersiz güçlü yönlerini ve nişlerini ortaya koyuyor. GPT-4V, yanıtlarındaki doğruluk ve özlükle ayrışırken, Gemini ilgili görseller ve bağlantılarla desteklenen ayrıntılı ve kapsamlı yanıtlar sunmada öne çıkıyor. Bu içgörüler yalnızca Gemini ve GPT-4V'nin karşılaştırmalı üstünlüklerine ışık tutmakla kalmıyor, aynı zamanda çok modlu temel modellerin gelişen manzarasını da vurgulayarak bu alandaki gelecekteki ilerlemelerin önünü açıyor. Karşılaştırmanın ardından, daha iyi sonuçlar elde etmek için iki modeli birleştirmeyi denedik. Son olarak, bu alana öncü katkılar sunan GPT-4V ve Gemini ekiplerine derin teşekkürlerimizi sunuyoruz. Ayrıca, analizimiz için temel oluşturan geniş görsel örneği, prompt ve GPT-4V ile ilgili sonuç koleksiyonunu içeren Yang ve arkadaşlarının 'Dawn' adlı çalışmasında sunulan kapsamlı nitel analiz için de teşekkür ediyoruz.
> The rapidly evolving sector of Multi-modal Large Language Models (MLLMs) is at the forefront of integrating linguistic and visual processing in artificial intelligence. This paper presents an in-depth comparative study of two pioneering models: Google's Gemini and OpenAI's GPT-4V(ision). Our study involves a multi-faceted evaluation of both models across key dimensions such as Vision-Language Capability, Interaction with Humans, Temporal Understanding, and assessments in both Intelligence and Emotional Quotients. The core of our analysis delves into the distinct visual comprehension abilities of each model. We conducted a series of structured experiments to evaluate their performance in various industrial application scenarios, offering a comprehensive perspective on their practical utility. We not only involve direct performance comparisons but also include adjustments in prompts and scenarios to ensure a balanced and fair analysis. Our findings illuminate the unique strengths and niches of both models. GPT-4V distinguishes itself with its precision and succinctness in responses, while Gemini excels in providing detailed, expansive answers accompanied by relevant imagery and links. These understandings not only shed light on the comparative merits of Gemini and GPT-4V but also underscore the evolving landscape of multimodal foundation models, paving the way for future advancements in this area. After the comparison, we attempted to achieve better results by combining the two models. Finally, We would like to express our profound gratitude to the teams behind GPT-4V and Gemini for their pioneering contributions to the field. Our acknowledgments are also extended to the comprehensive qualitative analysis presented in 'Dawn' by Yang et al. This work, with its extensive collection of image samples, prompts, and GPT-4V-related results, provided a foundational basis for our analysis.
Makale bağlantısı
https://arxiv.org/abs/2312.15011v1
Daha fazla oku
https://x.com/omarsar0/status/1741177994377330895
Orijinal metin
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-1d3
Henüz yorum yok.