[2025/01/13 ~ 01/19] Bu Haftanın Öne Çıkan ML Makaleleri (Top ML Papers of the Week)
(discuss.pytorch.kr)-
DAIR.AI tarafından her hafta yayımlanan ML makaleleri hakkındaki yazıyı otomatik olarak çevirdik.
-
Bu hafta seçilen makalelerde öne çıkan eğilim, büyük dil modelleri (LLM, Large Language Models) ve çok modlu yapay zeka üzerine araştırmaların yoğun olmasıdır. Örneğin, "Self-Adaptive LLMs", "Foundations of LLMs", "Enhancing RAG", "VideoRAG" gibi makaleler LLM ve çok modlu öğrenmeyle ilgili konuları ele alıyor. Ayrıca "Imagine while Reasoning in Space", "OmniThink" gibi makaleler de farklı veri türlerini kullanarak karmaşık problem çözümünü hedefleyen çok modlu yaklaşımları inceliyor.
-
Bu eğilim, güncel yapay zeka araştırma topluluğunda dil modellerinin öneminin arttığını ve farklı veri türlerini birleştirerek daha kapsamlı bir anlayışa ulaşma çabasının güçlendiğini gösteriyor. LLM'ler doğal dil işleme (NLP) alanında en ileri düzeyi sürüklüyor ve bu teknolojileri daha da geliştirmek için çok modlu verileri kullanan bütünleşik yaklaşımlara ihtiyaç olduğu yönündeki farkındalık yaygınlaşıyor gibi görünüyor. Özellikle çok modlu yapay zeka, görüntü üzerinden anlama ile doğal dil üzerinden anlamayı birleştirerek daha karmaşık sorunların çözümünde önemli bir rol oynuyor.
-
Sonuç olarak, bu haftanın makaleleri yapay zeka araştırmalarının odağının büyük dil modelleri ve çok modlu öğrenme üzerinde yoğunlaştığını gösteriyor. Bu da yapay zekanın yalnızca metin işlemeyle sınırlı kalmayıp, görsel bilgiyle birleşerek daha akıllı ve daha karmaşık problem çözümünü mümkün kılacak bir yöne ilerlediğine işaret ediyor. Bu nedenle bu araştırmaların, önümüzdeki dönemde yapay zeka teknolojilerinin gelişimi üzerinde büyük etki yaratması bekleniyor.
$\text{Transformer}^2$: Kendini uyarlayan LLM / $\text{Transformer}^2$: Self-adaptive LLMs
Makale tanıtımı
Ağırlık matrislerinin tekil bileşenlerini seçici olarak ayarlayarak LLM'leri daha önce görülmemiş görevlere gerçek zamanlı uyarlayan yeni bir öz uyarlama çerçevesi olan $\text{Transformer}^2$ tanıtılıyor. Sistem iki temel aşamadan oluşuyor: 1) gelen görevin özelliklerini analiz edip tanımlayan bir yönlendirme sistemi, 2) pekiştirmeli öğrenmeyle eğitilmiş "uzman" vektörlerini birleştirerek göreve özgü davranışlar üreten bir adım. Makale, bu yaklaşımın daha az parametreyle LoRA'dan daha verimli olduğunu ve farklı LLM mimarilerinde çalışabildiğini öne sürüyor.
Introduces $\text{Transformer}^2$, a novel self-adaptation framework that adapts LLMs for unseen tasks in real-time by selectively adjusting singular components of their weight matrices; it’s built with two key phases: 1) a dispatch system that analyzes and identifies the properties of the incoming task, and 2) a step that combines "expert" vectors (trained via reinforcement learning) to create task-specific behaviors; claims to be more efficient than LoRA with fewer parameters and can works across different LLM architectures.
Makale özeti (Abstract)
Kendini uyarlayan büyük dil modelleri (LLM'ler), çok çeşitli görevleri ele almada hesaplama maliyeti yüksek olan ve esneklikten yoksun kalan geleneksel ince ayar yöntemlerinin yarattığı sorunları çözmeyi amaçlar. Burada, ağırlık matrislerinin yalnızca tekil bileşenlerini seçici biçimde ayarlayarak LLM'leri daha önce görülmemiş görevlere gerçek zamanlı uyarlayan yeni bir öz uyarlama çerçevesi olan $\text{Transformer}^2$ tanıtılıyor. Çıkarım sırasında $\text{Transformer}^2$, iki geçişli bir mekanizma kullanır. İlk olarak bir yönlendirme sistemi görevin özelliklerini belirler, ardından pekiştirmeli öğrenmeyle eğitilmiş göreve özgü "uzman" vektörleri dinamik olarak karıştırılarak gelen istem için hedeflenen davranış elde edilir. Bu yöntem, daha az parametre ve daha yüksek verimlilikle LoRA gibi yaygın yaklaşımlardan daha iyi performans gösterir. $\text{Transformer}^2$, görsel-dil görevleri dahil olmak üzere farklı LLM mimarileri ve kipleri boyunca çok yönlülük sergiler. $\text{Transformer}^2$, LLM'lerin uyarlanabilirliğini ve göreve özgü performansını artırmak için ölçeklenebilir ve verimli bir çözüm sunarak, gerçekten dinamik ve kendini organize eden yapay zeka sistemlerinin önünü açan önemli bir sıçramayı temsil eder.
Self-adaptive large language models (LLMs) aim to solve the challenges posed by traditional fine-tuning methods, which are often computationally intensive and static in their ability to handle diverse tasks. We introduce $\text{Transformer}^2$, a novel self-adaptation framework that adapts LLMs for unseen tasks in real-time by selectively adjusting only the singular components of their weight matrices. During inference, $\text{Transformer}^2$ employs a two-pass mechanism: first, a dispatch system identifies the task properties, and then task-specific "expert" vectors, trained using reinforcement learning, are dynamically mixed to obtain targeted behavior for the incoming prompt. Our method outperforms ubiquitous approaches such as LoRA, with fewer parameters and greater efficiency. $\text{Transformer}^2$ demonstrates versatility across different LLM architectures and modalities, including vision-language tasks. $\text{Transformer}^2$ represents a significant leap forward, offering a scalable, efficient solution for enhancing the adaptability and task-specific performance of LLMs, paving the way for truly dynamic, self-organizing AI systems.
Makale bağlantısı
https://arxiv.org/abs/2501.06252
Daha fazlası
https://discuss.pytorch.kr/t/…
https://x.com/hardmaru/status/1879331049383334187
MiniMax-01: Yıldırım Hızıyla Dikkat kullanan temel modelleri ölçeklendirme / MiniMax-01: Scaling Foundation Models with Lightning Attention
Makale tanıtımı
Uzmanlar Karışımı’nı entegre eden yeni bir model serisi tanıtılıyor; 32 uzmana ve 456 milyar parametreye sahip bir model sunuluyor ve her token için 45,9 milyar parametre etkinleştiriliyor; performansının GPT-4o ve Claude-3.5-Sonnet gibi son teknoloji modellerle eşleştiği iddia ediliyor. Ayrıca 20-32 kat daha uzun bir bağlam penceresi sunarken 4 milyona kadar token işleyebiliyor; doğrusal dikkat ile optimize edilmiş donanım kullanımını entegre ederek LLM’lerin verimliliğini ve ölçeklenebilirliğini artırıyor; ayrıca 512 milyar görsel-dil token’ıyla sürekli eğitim yoluyla oluşturulmuş MiniMax-VL-01 adlı bir görsel model de bulunuyor.
Mixture-of-Experts’ü entegre eden yeni bir model serisini tanıtıyor; 32 uzmana ve 456B parametreye sahip bir model sunuyor ve her token için 45,9B etkinleştiriliyor; 20-32 kat daha uzun bir bağlam penceresi sunarken GPT-4o ve Claude-3.5-Sonnet gibi son teknoloji modellerin performansıyla eşleştiğini iddia ediyor; 4 milyon token’a kadar bağlam pencerelerini işleyebiliyor; doğrusal dikkati optimize edilmiş donanım kullanımıyla entegre ederek LLM’nin verimliliğini ve ölçeklenebilirliğini artırıyor; ayrıca 512 milyar görsel-dil token’ıyla sürekli eğitim yoluyla oluşturulmuş MiniMax-VL-01 adlı bir görsel model de var.
Makale Özeti (Abstract)
Daha uzun bağlamları işlemede üstün yetenekler sunarken üst düzey modellerle karşılaştırılabilir olan MiniMax-Text-01 ve MiniMax-VL-01’i içeren MiniMax-01 serisini tanıtıyoruz. Temelde lightning attention ve bunun verimli biçimde ölçeklenmesi yer alıyor. Hesaplama kapasitesini en üst düzeye çıkarmak için bunu Mixture of Experts (MoE) ile entegre ederek 32 uzmandan ve toplam 456 milyar parametreden oluşan bir model oluşturuyoruz; bunların 45,9 milyarı her token için etkinleştiriliyor. MoE ve lightning attention için optimize edilmiş bir paralel strateji ve son derece verimli hesaplama-iletişim örtüşme teknikleri geliştiriyoruz. Bu yaklaşım, milyonlarca token’a yayılan bağlamlar boyunca yüz milyarlarca parametreye sahip modeller üzerinde verimli eğitim ve çıkarım yapmamızı sağlıyor. MiniMax-Text-01’in bağlam penceresi eğitim sırasında 1 milyon token’a kadar ulaşabiliyor ve çıkarım sırasında uygun maliyetle 4 milyon token’a kadar genelleştirilebiliyor. Görsel-dil modelimiz MiniMax-VL-01, 512 milyar görsel-dil token’ıyla sürdürülen eğitim yoluyla oluşturuldu. Hem standart hem de kurum içi benchmark’larda yapılan deneyler, modellerimizin GPT-4o ve Claude-3.5-Sonnet gibi son teknoloji modellerin performansıyla eşleşirken 20-32 kat daha uzun bağlam penceresi sunduğunu gösteriyor. MiniMax-01’i herkese açık olarak https://github.com/MiniMax-AI adresinde yayımlıyoruz.
MiniMax-Text-01 ve MiniMax-VL-01’i içeren MiniMax-01 serisini tanıtıyoruz; bu seri, daha uzun bağlamları işlemede üstün yetenekler sunarken üst düzey modellerle karşılaştırılabilir. Temelde lightning attention ve bunun verimli ölçeklenmesi yer alıyor. Hesaplama kapasitesini en üst düzeye çıkarmak için bunu Mixture of Experts (MoE) ile entegre ederek 32 uzmana ve toplam 456 milyar parametreye sahip bir model oluşturuyoruz; bunların 45,9 milyarı her token için etkinleştiriliyor. MoE ve lightning attention için optimize edilmiş bir paralel strateji ve son derece verimli hesaplama-iletişim örtüşme teknikleri geliştiriyoruz. Bu yaklaşım, milyonlarca token’a yayılan bağlamlar boyunca yüz milyarlarca parametreye sahip modeller üzerinde verimli eğitim ve çıkarım yapmamızı sağlıyor. MiniMax-Text-01’in bağlam penceresi eğitim sırasında 1 milyon token’a kadar ulaşabiliyor ve çıkarım sırasında uygun maliyetle 4 milyon token’a kadar genişletilebiliyor. Görsel-dil modelimiz MiniMax-VL-01, 512 milyar görsel-dil token’ıyla sürdürülen eğitim yoluyla oluşturulmuştur. Hem standart hem de kurum içi benchmark’larda yapılan deneyler, modellerimizin GPT-4o ve Claude-3.5-Sonnet gibi son teknoloji modellerin performansıyla eşleşirken 20-32 kat daha uzun bağlam penceresi sunduğunu gösteriyor. MiniMax-01’i herkese açık olarak https://github.com/MiniMax-AI adresinde yayımlıyoruz.
Makale Bağlantısı
https://arxiv.org/abs/2501.08313
Daha fazlası için
https://x.com/omarsar0/status/1879572512075587872
VideoRAG: Video Korpusu Üzerinden Arama ile Zenginleştirilmiş Üretim / VideoRAG: Retrieval-Augmented Generation over Video Corpus
Makale Tanıtımı
Video içeriğini harici bir bilgi kaynağı olarak kullanarak RAG’i geliştiren bir çerçeve; esas olarak metin veya görsellere odaklanan mevcut RAG yaklaşımlarının aksine VideoRAG, sorgulara göre ilgili videoları dinamik olarak getirir ve hem görsel hem de metinsel öğelerini üretim sürecine dahil eder; çerçeve, video içeriğini doğrudan işlemek için Large Video Language Models (LVLMs) kullanarak statik modalitelerin çoğu zaman aktaramadığı zamansal dinamikleri, mekânsal ayrıntıları ve çok modlu ipuçlarını daha etkili biçimde yakalayabilir; metinsel açıklaması olmayan videolar için ise otomatik konuşma tanıma kullanılarak transkript üretilmesini önerir ve böylece hem görsel hem de metinsel modalitelerin kullanılabilmesini sağlar.
Video içeriğini harici bir bilgi kaynağı olarak kullanarak RAG’i geliştiren bir çerçeve; esas olarak metin veya görsellere odaklanan mevcut RAG yaklaşımlarının aksine VideoRAG, sorgulara göre ilgili videoları dinamik olarak getirir ve hem görsel hem de metinsel öğelerini üretim sürecine dahil eder; çerçeve, video içeriğini doğrudan işlemek için Large Video Language Models (LVLMs) kullanır ve bu sayede statik modalitelerin çoğu zaman aktaramadığı zamansal dinamikleri, mekânsal ayrıntıları ve çok modlu ipuçlarını daha etkili biçimde yakalayabilir; metinsel açıklaması olmayan videolar için otomatik konuşma tanıma kullanarak transkript üretmeyi önerir ve böylece hem görsel hem de metinsel modalitelerin kullanılabilmesini sağlar.
Makale Özeti (Abstract)
Arama ile zenginleştirilmiş üretim (RAG), sorgularla ilgili dış bilgiyi getirip bunu üretim sürecine entegre ederek temel modellerde olgusal olarak hatalı çıktı üretme sorununu ele almak için güçlü bir stratejidir. Ancak mevcut RAG yaklaşımları ağırlıklı olarak metinsel bilgiye odaklanmıştır; son dönemde görselleri dikkate almaya başlayan bazı gelişmiş yaklaşımlar ise olayları, süreçleri ve bağlamsal ayrıntıları diğer herhangi bir yöntemden daha etkili biçimde ifade edebilen zengin bir çok modlu bilgi kaynağı olan videoları çoğu zaman göz ardı etmektedir. Son zamanlarda bazı çalışmalar yanıt üretim sürecine videoları entegre etmenin yollarını araştırsa da, bunlar ya sorguya göre arama yapmadan sorguyla ilişkili videoları önceden tanımlar ya da videoların zengin çok modluluğundan yararlanmadan onları metinsel açıklamalara dönüştürür. Bu sorunları ele almak için, sorgularla ilgisine göre ilgili videoları dinamik olarak getirmekle kalmayıp çıktı üretimi sırasında videoların hem görsel hem de metinsel bilgisini kullanan yeni bir çerçeve olan VideoRAG’i tanıtıyoruz. Ayrıca bunu işler hale getirmek için yöntemimizi, video içeriğini doğrudan işleyerek arama için temsil etmeyi ve getirilen videoları sorgularla birlikte sorunsuz biçimde entegre etmeyi mümkün kılan son dönem Büyük Video Dil Modelleri (LVLM) etrafında gerçekleştirdik. Deneysel olarak VideoRAG’in etkinliğini doğrulayarak ilgili temel yöntemlerden daha üstün olduğunu gösteriyoruz.
Retrieval-Augmented Generation (RAG) is a powerful strategy to address the issue of generating factually incorrect outputs in foundation models by retrieving external knowledge relevant to queries and incorporating it into their generation process. However, existing RAG approaches have primarily focused on textual information, with some recent advancements beginning to consider images, and they largely overlook videos, a rich source of multimodal knowledge capable of representing events, processes, and contextual details more effectively than any other modality. While a few recent studies explore the integration of videos in the response generation process, they either predefine query-associated videos without retrieving them according to queries, or convert videos into the textual descriptions without harnessing their multimodal richness. To tackle these, we introduce VideoRAG, a novel framework that not only dynamically retrieves relevant videos based on their relevance with queries but also utilizes both visual and textual information of videos in the output generation. Further, to operationalize this, our method revolves around the recent advance of Large Video Language Models (LVLMs), which enable the direct processing of video content to represent it for retrieval and seamless integration of the retrieved videos jointly with queries. We experimentally validate the effectiveness of VideoRAG, showcasing that it is superior to relevant baselines.
Makale bağlantısı
https://arxiv.org/abs/2501.05874
Daha fazlası
https://x.com/omarsar0/status/1878827350315659421
Titans: Test Zamanında Ezberlemeyi Öğrenmek / Titans: Learning to Memorize at Test Time
Makale tanıtımı
Geçmiş bağlamı hatırlamak ve uzun geçmiş bilgileri kullanırken dikkati mevcut bağlama yöneltmeye yardımcı olmak için bir sinirsel uzun süreli bellek modülü tanıtılıyor; bu sinirsel bellek modülü, yalnızca dikkat mekanizmasını kullanmaya kıyasla (daha kısa süreli kabul edilen) uzun vadeli ve daha kalıcı bir bellek işlevi görüyor; sinirsel belleğe dayanan Titan ise dil modelleme, sağduyu çıkarımı, genomik ve zaman serisi görevlerinde iyi sonuçlar gösteriyor.
Introduces a neural long-term memory module to memorize historical context and help attention to attend to the current context while utilizing long past information; the neural memory module acts as a long-term, more persistent memory than just using attention alone (considered more short-term); Titan, which is based on neural memory, shows good results in language modeling, common-sense reasoning, genomics, and time series tasks.
Makale özeti (Abstract)
10 yılı aşkın süredir yinelenen modellerin ve attention’ın nasıl etkili biçimde kullanılacağı üzerine kapsamlı araştırmalar yürütülüyor. Yinelenen modeller veriyi sabit boyutlu bir belleğe (gizli durum olarak adlandırılır) sıkıştırmayı amaçlarken, attention tüm bağlam penceresine odaklanarak tüm token’ların doğrudan bağımlılıklarını yakalayabiliyor. Ancak bağımlılıkların bu daha doğru modellenmesi, karesel bir maliyet getiriyor ve modeli sabit uzunluklu bir bağlamla sınırlıyor. Biz, geçmiş bağlamı ezberlemeyi öğrenen ve uzun geçmiş bilgileri kullanırken attention’ın mevcut bağlama odaklanmasına yardımcı olan yeni bir sinirsel uzun süreli bellek modülü sunuyoruz. Bu sinirsel belleğin, hızlı çıkarımı korurken hızlı paralelleştirilebilir eğitim avantajına sahip olduğunu gösteriyoruz. Bellek perspektifinden bakıldığında, sınırlı bağlamı ama doğru bağımlılık modellemesi nedeniyle attention’ın kısa süreli bellek gibi çalıştığını; veriyi ezberleme yeteneği sayesinde sinirsel belleğin ise daha uzun vadeli ve daha kalıcı bir bellek işlevi gördüğünü savunuyoruz. Bu iki modüle dayanarak Titans adlı yeni bir mimari ailesi tanıtıyor ve belleğin bu mimariye etkili biçimde nasıl entegre edilebileceğini ele alan üç varyant sunuyoruz. Dil modelleme, sağduyu yürütme, genomik ve zaman serisi görevlerindeki deneysel sonuçlarımız, Titans’ın Transformer’lardan ve yakın dönem modern lineer yinelenen modellerden daha etkili olduğunu gösteriyor. Ayrıca, temel modellere kıyasla needle-in-haystack görevlerinde daha yüksek doğrulukla 2M’den büyük bağlam pencerelerine etkili şekilde ölçeklenebiliyor.
Over more than a decade there has been an extensive research effort on how to effectively utilize recurrent models and attention. While recurrent models aim to compress the data into a fixed-size memory (called hidden state), attention allows attending to the entire context window, capturing the direct dependencies of all tokens. This more accurate modeling of dependencies, however, comes with a quadratic cost, limiting the model to a fixed-length context. We present a new neural long-term memory module that learns to memorize historical context and helps attention to attend to the current context while utilizing long past information. We show that this neural memory has the advantage of fast parallelizable training while maintaining a fast inference. From a memory perspective, we argue that attention due to its limited context but accurate dependency modeling performs as a short-term memory, while neural memory due to its ability to memorize the data, acts as a long-term, more persistent, memory. Based on these two modules, we introduce a new family of architectures, called Titans, and present three variants to address how one can effectively incorporate memory into this architecture. Our experimental results on language modeling, common-sense reasoning, genomics, and time series tasks show that Titans are more effective than Transformers and recent modern linear recurrent models. They further can effectively scale to larger than 2M context window size with higher accuracy in needle-in-haystack tasks compared to baselines.
Makale bağlantısı
https://arxiv.org/abs/2501.00663
Daha fazlası
https://x.com/omarsar0/status/1879896681010921742
Büyük Dil Modellerinin Temelleri / Foundations of Large Language Models
Makale tanıtımı
Ön eğitim, prompt ve hizalama yöntemleri gibi alanları kapsayan, LLM’lerin temellerine dair yeni bir derleme.
New survey on the foundations of LLMs covering areas such as pre-training, prompting, and alignment methods.
Makale özeti(Abstract)
Bu, büyük dil modelleri hakkında bir kitap. Başlığın da gösterdiği gibi, tüm son teknoloji yaklaşımları kapsamlı biçimde ele almaktan ziyade öncelikle temel kavramlara odaklanıyor. Kitap, her biri kilit bir alanı inceleyen dört ana bölümden oluşuyor: ön eğitim, üretici modeller, prompt teknikleri ve hizalama yöntemleri. Doğal dil işleme ve ilgili alanlardaki üniversite öğrencileri, profesyoneller ve uygulayıcılar için tasarlanmış olup, büyük dil modelleriyle ilgilenen herkes için bir başvuru kaynağı olabilir.
This is a book about large language models. As indicated by the title, it primarily focuses on foundational concepts rather than comprehensive coverage of all cutting-edge technologies. The book is structured into four main chapters, each exploring a key area: pre-training, generative models, prompting techniques, and alignment methods. It is intended for college students, professionals, and practitioners in natural language processing and related fields, and can serve as a reference for anyone interested in large language models.
Makale bağlantısı
https://arxiv.org/abs/2501.09223
Daha fazlası
https://discuss.pytorch.kr/t/pdf-231p-feat-arxiv/5895
https://x.com/omarsar0/status/1880284477445767586
OmniThink: Düşünme Yoluyla Makine Yazımında Bilgi Sınırlarını Genişletme / OmniThink: Expanding Knowledge Boundaries in Machine Writing through Thinking
Makale tanıtımı
İnsan benzeri yinelemeli genişleme ve düşünüm sürecini taklit eden yeni bir çerçeve; öğrenenlerin bilgilerini derinleştirirken sergiledikleri bilişsel davranışı simüle etmek için tasarlandı. RAG ve rol yapmaya kıyasla OmniThink, sürekli düşünüm ve keşif yoluyla bilgi sınırlarını genişletebildiği için uzun biçimli üretim gerektiren kullanım senaryoları için ideal.
A new framework that emulates a human-like process of iterative expansion and reflection; it's built to simulate the cognitive behavior of learners as they deepen their knowledge; compared to RAG and role-playing, OmniThink can expand knowledge boundaries through continuous reflection and exploration; this makes it ideal for use cases that require long-form generation.
Makale özeti(Abstract)
Büyük dil modelleriyle makine yazımı çoğu zaman retrieval-augmented generation'a dayanır. Ancak bu yaklaşımlar, modelin önceden tanımlanmış kapsamının sınırları içinde kaldığı için bilgi açısından zengin içerik üretimini sınırlar. Özellikle standart biçimde getirilen bilgiler genellikle derinlik ve fayda bakımından yetersizdir ve tekrar içerir; bu da üretilen makalelerin kalitesini olumsuz etkileyerek yüzeysel, tekrarlı ve özgün olmayan çıktılara yol açar. Bu sorunları çözmek için, insan benzeri yinelemeli genişletme ve düşünme sürecini taklit eden bir makine yazımı çerçevesi olan OmniThink öneriliyor. OmniThink'in temel fikri, öğrenenlerin bir konu hakkındaki bilgilerini kademeli olarak derinleştirirken sergiledikleri bilişsel davranışı simüle etmektir. Deney sonuçları, OmniThink'in tutarlılık ve derinlik gibi metriklerden ödün vermeden üretilen belgelerin bilgi yoğunluğunu artırdığını gösteriyor. İnsan değerlendirmeleri ve uzman geri bildirimleri de, uzun biçimli makale üretiminde gerçek dünya sorunlarını ele alma konusunda OmniThink'in potansiyelini ayrıca vurguluyor.
Machine writing with large language models often relies on retrieval-augmented generation. However, these approaches remain confined within the boundaries of the model's predefined scope, limiting the generation of content with rich information. Specifically, vanilla-retrieved information tends to lack depth, utility, and suffers from redundancy, which negatively impacts the quality of generated articles, leading to shallow, repetitive, and unoriginal outputs. To address these issues, we propose OmniThink, a machine writing framework that emulates the human-like process of iterative expansion and reflection. The core idea behind OmniThink is to simulate the cognitive behavior of learners as they progressively deepen their knowledge of the topics. Experimental results demonstrate that OmniThink improves the knowledge density of generated articles without compromising metrics such as coherence and depth. Human evaluations and expert feedback further highlight the potential of OmniThink to address real-world challenges in the generation of long-form articles.
Makale bağlantısı
https://arxiv.org/abs/2501.09751
Daha fazlasını okuyun
https://x.com/omarsar0/status/1880275861401923619
Retrieval-Augmented Generation'ı İyileştirme: En İyi Uygulamalar Üzerine Bir Çalışma / Enhancing Retrieval-Augmented Generation: A Study of Best Practices
Makale tanıtımı
Arama stratejileri, sorgu genişletme, karşıtsal bağlam içi öğrenme, prompt tasarımı ve chunking gibi RAG sistemlerini iyileştiren unsurlar ve yöntemler sistematik olarak inceleniyor.
Systematically explores the factors and methods that improve RAG systems such as retrieval strategies, query expansion, contrastive in-context learning, prompt design, and chunking.
Makale özeti(Abstract)
Retrieval-Augmented Generation (RAG) sistemleri, son dönemde arama mekanizmalarını dil modellerine entegre ederek daha doğru ve bağlama daha uygun yanıtlar üretme yeteneklerini geliştirmesi sayesinde kayda değer ilerlemeler gösteriyor. Ancak RAG sistemleri içindeki çeşitli bileşenlerin ve yapılandırmaların etkisi hâlâ yeterince incelenmiş değil. Bu unsurların kapsamlı biçimde anlaşılması, RAG sistemlerini karmaşık arama görevlerine uyarlamak ve farklı uygulamalarda en iyi performansı sağlamak için kritik önem taşıyor. Bu makalede, sorgu genişletmeyi, çeşitli yeni arama stratejilerini ve yeni bir Contrastive In-Context Learning RAG yaklaşımını bir araya getiren birkaç gelişmiş RAG sistemi tasarımı geliştiriliyor. Çalışma; dil modeli boyutu, prompt tasarımı, belge parça boyutu, bilgi tabanı boyutu, arama adımı, sorgu genişletme teknikleri, Contrastive In-Context Learning bilgi tabanları, çok dilli bilgi tabanları ve ilgili bağlamı cümle düzeyinde getiren Focus Mode gibi temel faktörleri sistematik olarak inceliyor. Kapsamlı deneyler aracılığıyla bu faktörlerin yanıt kalitesini nasıl etkilediğine dair ayrıntılı bir analiz sunuluyor. Bulgular, RAG sistemlerinin geliştirilmesine yönelik uygulanabilir içgörüler sunuyor; bağlamsal zenginlik ile retrieval-generation verimliliği arasında denge kurarak farklı gerçek dünya senaryolarında daha uyarlanabilir ve daha yüksek performanslı RAG çerçevelerinin önünü açıyor. Kod ve uygulama ayrıntıları herkese açık olarak paylaşılmıştır.
Retrieval-Augmented Generation (RAG) systems have recently shown remarkable advancements by integrating retrieval mechanisms into language models, enhancing their ability to produce more accurate and contextually relevant responses. However, the influence of various components and configurations within RAG systems remains underexplored. A comprehensive understanding of these elements is essential for tailoring RAG systems to complex retrieval tasks and ensuring optimal performance across diverse applications. In this paper, we develop several advanced RAG system designs that incorporate query expansion, various novel retrieval strategies, and a novel Contrastive In-Context Learning RAG. Our study systematically investigates key factors, including language model size, prompt design, document chunk size, knowledge base size, retrieval stride, query expansion techniques, Contrastive In-Context Learning knowledge bases, multilingual knowledge bases, and Focus Mode retrieving relevant context at sentence-level. Through extensive experimentation, we provide a detailed analysis of how these factors influence response quality. Our findings offer actionable insights for developing RAG systems, striking a balance between contextual richness and retrieval-generation efficiency, thereby paving the way for more adaptable and high-performing RAG frameworks in diverse real-world scenarios. Our code and implementation details are publicly available.
Makale bağlantısı
https://arxiv.org/abs/2501.07391
Daha fazlasını okuyun
https://x.com/omarsar0/status/1879178916021318029
AutoCBT: Psikolojik danışmanlıkta Bilişsel Davranışçı Terapi için otonom çok ajanlı bir çerçeve / AutoCBT: An Autonomous Multi-agent Framework for Cognitive Behavioral Therapy in Psychological Counseling
Makale tanıtımı
Bilişsel davranışçı terapi için çok ajanlı bir çerçeve olan AutoCBT öneriliyor. Bu çalışma, tek turlu psikolojik danışmanlık senaryoları için yüksek kaliteli yanıtlar üreten genel bir çok ajanlı çerçeve öneriyor; dinamik yönlendirme, bellek ve denetim mekanizmalarının birleşimini kullanarak her ajanın otonom yeteneğini geliştiriyor; deney sonuçları AutoCBT'nin yüksek kaliteli otomatik psikolojik danışmanlık hizmetleri sunabildiğini gösteriyor; AutoCBT, yalnızca prompt tabanlı diğer danışmanlık çerçevelerine kıyasla diyalog kalitesini iyileştiriyor.
Proposes a multi-agent framework, AutoCBT, for Cognitive Behavioral Therapy; the work proposes a general multi-agent framework that generates high-quality responses for single-turn psychological consultation scenarios; it uses a combination of dynamic routing, memory, and supervisory mechanisms to enhance the autonomous ability of each agent; experimental results show that AutoCBT can provide higher-quality automated psychological counseling services; AutoCBT improves dialogue quality compared to other purely prompt-based counseling frameworks.
Makale özeti (Abstract)
Geleneksel yüz yüze psikolojik danışmanlık, çoğunlukla psikolojik sorunları olan bireylerin tercih ettiği niş bir alan olarak kalırken, çevrimiçi otomatik danışmanlık, utanç duygusu nedeniyle yardım aramaktan çekinen kişiler için potansiyel bir çözüm sunuyor. Bilişsel Davranışçı Terapi (CBT), psikolojik danışmanlıkta temel ve yaygın kullanılan bir yaklaşımdır. Büyük dil modelleri (LLM'ler) ve ajan teknolojisinin ortaya çıkışı, otomatik CBT teşhis ve tedavisini mümkün kılmıştır. Ancak mevcut LLM tabanlı CBT sistemleri, sabit yapılı ajanlar kullandığı için öz-optimizasyon yetenekleri sınırlı kalıyor ya da yinelenen yanıt kalıpları nedeniyle içi boş ve faydasız öneriler sunuyor. Bu çalışmada, tek turlu psikolojik danışmanlık senaryoları için yüksek kaliteli yanıtlar üreten genel bir ajan çerçevesi oluşturmak amacıyla Quora benzeri ve YiXinLi tek turlu danışmanlık modellerinden yararlanıyoruz. Her çerçeve tarafından üretilen tek yanıtlı danışmanlıkların kalitesini değerlendirmek için iki dilli bir veri kümesi kullanıyoruz. Ardından, gerçek psikolojik danışmanlıktan ilham alan dinamik yönlendirme ve denetim mekanizmalarını entegre ederek, genel uygulanabilirliğini gösteren CBT odaklı otonom çok ajanlı bir danışmanlık çerçevesi kuruyoruz. Deneysel sonuçlar, AutoCBT'nin daha yüksek kaliteli otomatik psikolojik danışmanlık hizmetleri sunabildiğini gösteriyor.
Traditional in-person psychological counseling remains primarily niche, often chosen by individuals with psychological issues, while online automated counseling offers a potential solution for those hesitant to seek help due to feelings of shame. Cognitive Behavioral Therapy (CBT) is an essential and widely used approach in psychological counseling. The advent of large language models (LLMs) and agent technology enables automatic CBT diagnosis and treatment. However, current LLM-based CBT systems use agents with a fixed structure, limiting their self-optimization capabilities, or providing hollow, unhelpful suggestions due to redundant response patterns. In this work, we utilize Quora-like and YiXinLi single-round consultation models to build a general agent framework that generates high-quality responses for single-turn psychological consultation scenarios. We use a bilingual dataset to evaluate the quality of single-response consultations generated by each framework. Then, we incorporate dynamic routing and supervisory mechanisms inspired by real psychological counseling to construct a CBT-oriented autonomous multi-agent framework, demonstrating its general applicability. Experimental results indicate that AutoCBT can provide higher-quality automated psychological counseling services.
Makale bağlantısı
https://arxiv.org/abs/2501.09426
Daha fazlası
https://x.com/omarsar0/status/1880283025595867631
Uzamda akıl yürütürken hayal edin: Düşüncenin görselleştirilmesi: Çok modlu görselleştirme / Imagine while Reasoning in Space: Multimodal Visualization-of-Thought
Makale tanıtımı
Yapay zeka modellerinin hem metin hem de görseller üzerinde "düşünebilmesini" sağlayan yeni bir akıl yürütme çerçevesi olan MVoT'yi (Çok Modlu Görselleştirilmiş Düşünce) tanıtıyor ve modelin metin açıklamalarıyla birlikte akıl yürütme adımlarının görsel temsillerini üretmesine olanak tanıyarak geleneksel Chain-of-Thought prompting yaklaşımını geliştiriyor; bu çerçeve, çok modlu bir dil modeli olan Chameleon-7B üzerinde uygulanıyor ve üretilen görselleştirmelerin kalitesini artırmak için "token discrepancy loss" kavramını tanıtıyor; özellikle karmaşık senaryolarda geleneksel yaklaşımlardan belirgin biçimde daha iyi performans gösteriyor; MVoT, labirent ve yazıcı kurulumu görevlerinde %90'ın üzerinde doğruluk elde ediyor.
Introduces MVoT (Multimodal Visualization-of-Thought), a new reasoning framework that enables AI models to "think" in both text and images; MVoT enhances the traditional Chain-of-Thought prompting by allowing models to generate visual representations of their reasoning steps alongside text explanations; the framework is implemented in Chameleon-7B, a multimodal language model, and introduces a "token discrepancy loss" to improve the quality of generated visualizations; MVoT significantly outperforms traditional approaches, especially in complex scenarios; MVoT achieves over 90% accuracy on maze and printer installation tasks.
Makale özeti (Abstract)
Chain-of-Thought (CoT) istemleri, Büyük Dil Modelleri (LLM'ler) ve Çok Modlu Büyük Dil Modelleri'nde (MLLM'ler) karmaşık akıl yürütmeyi geliştirmede son derece etkili olduğunu kanıtladı. Ancak karmaşık mekânsal akıl yürütme görevlerinde zorlanır. Buna karşın insan bilişi yalnızca dille sınırlı değildir; hem kelimeler hem de görüntüler üzerinden düşünme gibi dikkat çekici bir yetenek sunar. Bu mekanizmadan ilhamla, yeni bir akıl yürütme paradigması olan Multimodal Visualization-of-Thought (MVoT) önerilmektedir. Bu yaklaşım, akıl yürütme izlerini görüntü görselleştirmeleri olarak üreterek MLLM'lerde görsel düşünmeyi mümkün kılar. Yüksek kaliteli görselleştirme sağlamak için, otoregresif MLLM'lere token discrepancy loss eklenmiştir. Bu yenilik, hem görsel tutarlılığı hem de doğruluğu önemli ölçüde artırır. Bu yaklaşım, çeşitli dinamik mekânsal akıl yürütme görevleri üzerinden doğrulanmıştır. Deney sonuçları, MVoT'nin farklı görevlerde rekabetçi performans sergilediğini göstermektedir. Ayrıca, CoT'nin başarısız olduğu en zorlu senaryolarda bile güçlü ve istikrarlı iyileşmeler gösterir. Sonuç olarak MVoT, görsel düşünmenin sözel akıl yürütmeyi etkili biçimde tamamlayabildiği karmaşık akıl yürütme görevleri için yeni olanaklar ortaya koyar.
Chain-of-Thought (CoT) prompting has proven highly effective for enhancing complex reasoning in Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs). Yet, it struggles in complex spatial reasoning tasks. Nonetheless, human cognition extends beyond language alone, enabling the remarkable capability to think in both words and images. Inspired by this mechanism, we propose a new reasoning paradigm, Multimodal Visualization-of-Thought (MVoT). It enables visual thinking in MLLMs by generating image visualizations of their reasoning traces. To ensure high-quality visualization, we introduce token discrepancy loss into autoregressive MLLMs. This innovation significantly improves both visual coherence and fidelity. We validate this approach through several dynamic spatial reasoning tasks. Experimental results reveal that MVoT demonstrates competitive performance across tasks. Moreover, it exhibits robust and reliable improvements in the most challenging scenarios where CoT fails. Ultimately, MVoT establishes new possibilities for complex reasoning tasks where visual thinking can effectively complement verbal reasoning.
Makale bağlantısı
https://arxiv.org/abs/2501.07542
Daha fazlasını okuyun
https://x.com/omarsar0/status/1879181711982129420
ChemAgent: Büyük Dil Modellerinde kendini güncelleyen kütüphane kimyasal akıl yürütmeyi geliştiriyor / ChemAgent: Self-updating Library in Large Language Models Improves Chemical Reasoning
Makale tanıtımı
Dinamik olarak kendini güncelleyen bir kütüphane aracılığıyla LLM'lerin kimyasal akıl yürütmedeki performansını iyileştirmek üzere tasarlanmış yeni bir çerçeve sunulmaktadır. Kütüphane, kimyasal görevleri alt görevlere ayırıp bunları gelecekteki sorgular için başvurulabilecek yapılandırılmış bir koleksiyonda derleyerek oluşturulur; sisteme yeni bir problem verildiğinde, daha etkili görev ayrıştırmasını mümkün kılmak için kütüphanedeki ilgili bilgiler yeniden denenir ve iyileştirilir; yeni alt görevler ve çözümler ortaya çıkıp doğrulandıkça kütüphane dinamik olarak güncellenir; SciBench üzerindeki deneylere göre ChemAgent, mevcut yöntemleri açık ara geride bırakarak %46'ya (GPT-4) varan performans artışı elde etmiştir.
Presents a new framework designed to improve the performance of LLMs on chemical reasoning through a dynamic, self-updating library; the library is developed by decomposing chemical tasks into sub-tasks and compiling them into a structured collection that can be referenced for future queries; when the system is given a new problem, it retries and refines relevant information from the library to enable more effective task decomposition; the library is dynamically updated with new sub-tasks and solutions as they are encountered and validated; experiments on SciBench demonstrate that ChemAgent achieves performance gains of up to 46% (GPT-4), significantly outperforming existing methods.
Makale özeti (Abstract)
Kimyasal akıl yürütme genellikle hassas hesaplamalar gerektiren karmaşık, çok aşamalı süreçler içerir ve küçük hatalar bile zincirleme başarısızlıklara yol açabilir. Ayrıca büyük dil modelleri (LLM'ler), kimyasal akıl yürütme görevlerini ele alırken alana özgü formülleri işleme, akıl yürütme adımlarını doğru şekilde yürütme ve kodu etkili biçimde entegre etme konusunda zorluk yaşar. Unity, bu sorunları çözmek için kendi kendini güncelleyen dinamik bir kütüphane aracılığıyla LLM performansını iyileştirmek üzere tasarlanmış yeni bir çerçeve olan ChemAgent'i tanıtıyor. Bu kütüphane, kimyasal görevleri alt görevlere ayırıp bu alt görevleri gelecekteki sorgularda başvurulabilecek yapılandırılmış bir koleksiyonda derleyerek oluşturuluyor. Ardından yeni bir problem sunulduğunda ChemAgent, bellek adını verdiği bu kütüphaneden ilgili bilgileri getirip rafine ederek etkili görev ayrıştırmasını ve çözüm üretimini kolaylaştırıyor. Bu yöntem, üç tür bellek ve kütüphane ile güçlendirilmiş bir akıl yürütme bileşeni tasarlayarak LLM'lerin deneyim yoluyla zaman içinde gelişmesini sağlıyor. SciBench'teki dört kimyasal akıl yürütme veri kümesi üzerinde yapılan deney sonuçlarına göre ChemAgent, mevcut yöntemleri belirgin biçimde geride bırakarak %46'ya kadar (GPT-4) performans artışı elde ediyor. Bu bulgular, ilaç keşfi ve malzeme bilimi gibi görevler de dahil olmak üzere gelecekteki uygulamalar için önemli bir potansiyele işaret ediyor. Daha fazla bilgi için https://github.com/gersteinlab/chemagent adresine bakabilirsiniz
Kimyasal akıl yürütme genellikle hassas hesaplamalar gerektiren karmaşık, çok aşamalı süreçler içerir; küçük hatalar bile zincirleme başarısızlıklara yol açabilir. Ayrıca büyük dil modelleri (LLM'ler), kimyasal akıl yürütme görevlerini üstlenirken alana özgü formülleri ele alma, akıl yürütme adımlarını doğru biçimde yürütme ve kodu etkili şekilde entegre etme konusunda güçlüklerle karşılaşır. Bu zorlukları gidermek için, LLM'lerin performansını dinamik ve kendi kendini güncelleyen bir kütüphane aracılığıyla iyileştirmek üzere tasarlanmış yeni bir çerçeve olan ChemAgent'i sunuyoruz. Bu kütüphane, kimyasal görevleri alt görevlere ayırıp bu alt görevleri gelecekteki sorgular için başvurulabilecek yapılandırılmış bir koleksiyonda derleyerek oluşturulur. Ardından yeni bir problemle karşılaşıldığında ChemAgent, bellek adını verdiğimiz bu kütüphaneden ilgili bilgileri getirir ve rafine eder; böylece etkili görev ayrıştırmasını ve çözüm üretimini kolaylaştırır. Yöntemimiz, üç tür bellek ve kütüphane ile güçlendirilmiş bir akıl yürütme bileşeni tasarlayarak LLM'lerin deneyim yoluyla zaman içinde gelişmesini sağlar. SciBench'ten dört kimyasal akıl yürütme veri kümesi üzerindeki deneysel sonuçlar, ChemAgent'in %46'ya kadar (GPT-4) performans artışı elde ettiğini ve mevcut yöntemleri anlamlı biçimde geride bıraktığını göstermektedir. Bulgularımız, ilaç keşfi ve malzeme bilimi gibi görevler dahil olmak üzere gelecekteki uygulamalar için kayda değer bir potansiyele işaret etmektedir. Kodumuza https://github.com/gersteinlab/chemagent adresinden ulaşabilirsiniz
Makale bağlantısı
https://arxiv.org/abs/2501.06590
Daha fazla bilgi
https://github.com/gersteinlab/chemagent
https://x.com/omarsar0/status/1879188983705747754
Orijinal metin
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-adb
- Bu yazı GPT modeliyle derlenmiştir; bu nedenle bazı kısımlar hatalı olabilir. Lütfen sayfanın altındaki orijinal metne de başvurun! Okurken kulağa tuhaf gelen veya yanlış olduğunu düşündüğünüz bir bölüm fark ederseniz, lütfen yorumlarda bize bildirin.* 🤗
⚠️Reklam⚠️: 🔥PyTorch Türkiye kullanıcı topluluğu🇹🇷 tarafından derlenen bu yazıyı faydalı buldunuz mu? Üye olursanız, önemli yazıları size e-posta💌 ile göndeririz! (Varsayılan ayar Weekly'dir, ancak Daily olarak da değiştirebilirsiniz.)
Henüz yorum yok.