[2023/10/02 ~ 10/08] Bu Haftanın Öne Çıkan ML Makaleleri (Top ML Papers of the Week)
(discuss.pytorch.kr)Genel Bakış
-
DAIR.AI tarafından her hafta yayımlanan ML makalelerine dair yazıyı otomatik olarak çevirdik.
-
Bu hafta sunulan makalelere baktığımızda, uzun bağlamı (Long Context) ele alan dil modelleri (Language Models, LLM) üzerine çok sayıda çalışma olduğunu gördük. Özellikle 'LLMs Represent Space and Time', 'Retrieval meets Long Context LLMs', 'StreamingLLM', 'The Dawn of LLMs', 'Training LLMs with Pause Tokens' gibi makaleler, LLM'lerin farklı yönlerini aydınlatıyor.
-
Bu eğilim, makine öğrenimi ve derin öğrenmede dil modellerinin öneminin artmaya devam ettiğini gösteren tipik bir örnektir. LLM'ler, büyük miktarda dil verisi üzerinde eğitim alarak cümle üretimi, makine çevirisi, yazım düzeltme gibi çeşitli dil anlama görevlerinde genel performans artışı sağlayan bir teknolojidir. Ancak uzun süreli bağlamı işleme konusunda hâlâ birçok zorluk bulunmaktadır. Bunları çözmek için çeşitli yaklaşımların önerildiği görülüyor.
-
Ayrıca 'Neural Developmental Programs', 'Recursively Self-Improving Code Generation', 'Retrieval-Augmented Dual Instruction Tuning' gibi makalelerde, yapay zekanın kendi kendine öğrenmesi, kod üretimi ve komut ayarı gibi konular inceleniyor. Bu da yapay zekada yeni metodolojilerin ortaya çıktığını gösteriyor ve bu çalışmaların, yapay zeka teknolojilerinin öz-öğrenme yeteneğini ve uyarlanabilirliğini geliştirmede çok önemli bir rol oynayacağı öngörülüyor.
-
Dolayısıyla bu haftaki makalelerin eğilimi, dil modellerinde uzun bağlam işleme ile yapay zekanın kendi kendine öğrenmesi ve kod üretimi alanlarında yeni araştırma yönelimlerini gösteriyor denebilir.
Mekân ve zamanı temsil eden dil modelleri / Language Models Represent Space and Time
Makale tanıtımı
- Dil modellerinin birden çok ölçekte mekân ve zamanın doğrusal temsillerini öğrendiği, bu temsillerin istem varyasyonlarına karşı güçlü olduğu ve farklı varlık türleri arasında birleşik olduğu bulunuyor; buradan hareketle dil modellerinin yüzeysel istatistikler değil, gerçek anlamda dünya modelleri öğrendiği savunulurken, mekân ve zaman gibi temel yapılandırılmış bilgileri edindikleri gösteriliyor. #llm #llama2
> Discovers that llms learn linear representations of space and time across multiple scales; the representations are robust to prompt variations and unified across different entity types; demonstrate that llms acquire fundamental structured knowledge such as space and time, claiming that language models learn beyond superficial statistics, but literal world models.
Makale özeti
- Büyük dil modellerinin (LLM) yetenekleri, bu sistemlerin yalnızca çok büyük bir yüzeysel istatistikler koleksiyonunu mu öğrendiği, yoksa veri üretim sürecinin tutarlı bir modelini yani bir dünya modelini mi öğrendiği konusunda tartışma başlattı. Biz, Llama-2 model ailesinde üç mekânsal veri kümesinin (dünya, ABD, New York City'deki yerler) ve üç zamansal veri kümesinin (tarihî kişilikler, sanat eserleri, haber başlıkları) öğrenilmiş temsillerini analiz ederek ikinci görüş lehine kanıt bulduk. Sonuç olarak, LLM'lerin birden çok ölçekte mekân ve zamanın doğrusal temsillerini öğrendiğini keşfettik. Bu temsiller, istem varyasyonlarına karşı dayanıklıdır ve farklı varlık türleri (ör. şehirler ve simge yapılar) arasında birleşiktir. Ayrıca, mekânsal ve zamansal koordinatları güvenilir biçimde kodlayan tekil "mekân nöronları" ve "zaman nöronları" tanımlıyoruz. Analizimiz, modern LLM'lerin mekân ve zaman gibi temel boyutlara ilişkin yapılandırılmış bilgi edindiğini ve yalnızca yüzeysel istatistikler değil, gerçek anlamda dünya modelleri öğrendikleri görüşünü desteklediğini gösteriyor.
> The capabilities of large language models (LLMs) have sparked debate over whether such systems just learn an enormous collection of superficial statistics or a coherent model of the data generating process -- a world model. We find evidence for the latter by analyzing the learned representations of three spatial datasets (world, US, NYC places) and three temporal datasets (historical figures, artworks, news headlines) in the Llama-2 family of models. We discover that LLMs learn linear representations of space and time across multiple scales. These representations are robust to prompting variations and unified across different entity types (e.g. cities and landmarks). In addition, we identify individualspace neurons'' andtime neurons'' that reliably encode spatial and temporal coordinates. Our analysis demonstrates that modern LLMs acquire structured knowledge about fundamental dimensions such as space and time, supporting the view that they learn not merely superficial statistics, but literal world models.
Makale bağlantısı
https://arxiv.org/abs/2310.02207
Daha fazla okuyun
https://x.com/wesg52/status/1709551516577902782
Arama ile uzun bağlamlı büyük dil modellerinin buluşması / Retrieval meets Long Context Large Language Models
Makale tanıtımı
- Aşağı akış görevleri için retrieval augmentation ile uzun bağlam pencerelerini karşılaştırarak, iki yöntemin birleştirilip birleştirilemeyeceğini ve böylece her iki yaklaşımın da avantajlarının elde edilip edilemeyeceğini inceliyor. Basit RAG kullanan 4K bağlam pencereli bir llm, 16K bağlama sahip ince ayarlı bir llm ile benzer performans elde edebilir; retrieval, genişletilmiş bağlam penceresi boyutundan bağımsız olarak llm performansını önemli ölçüde artırabilir; ayrıca 32K bağlam penceresine sahip retrieval-augmented llama2-70b, soru yanıtlama ve sorgu tabanlı özetleme dahil 7 uzun bağlam görevinde gpt-3.5-turbo-16k'den daha iyi performans gösterir. #llama #llama2-7b-32k-context #llama2-long #100k-context-window #streamingllm
> Compares retrieval augmentation and long-context windows for downstream tasks to investigate if the methods can be combined to get the best of both worlds; an llm with a 4k context window using simple rag can achieve comparable performance to a fine-tuned llm with 16k context; retrieval can significantly improve the performance of llms regardless of their extended context window sizes; a retrieval-augmented llama2-70b with a 32k context window outperforms gpt-3.5-turbo-16k on seven long context tasks including question answering and query-based summarization.
Makale özeti
- Büyük dil modellerinin (LLM) bağlam penceresini genişletmek son dönemde popülerleşirken, arama ile LLM’leri güçlendiren çözümler yıllardır mevcut. Doğal sorular şunlar: i) aşağı akış görevlerde arama destekli yaklaşım ile uzun bağlam penceresi arasında hangisi daha iyi? ii) Her iki yöntem birleştirilerek ikisinin de avantajları elde edilebilir mi? Bu çalışma, en güncel iki önceden eğitilmiş LLM’yi, yani özel bir 43B GPT ile LLaMA2-70B’yi kullanarak bu sorulara yanıt veriyor. Şaşırtıcı biçimde, üretim sırasında basit arama desteği kullanan 4K bağlam pencereli bir LLM’nin, uzun bağlam görevlerinde konumsal enterpolasyon yoluyla 16K bağlam penceresine sahip ince ayarlanmış bir LLM ile benzer performans elde edebildiği, üstelik çok daha az hesaplama gerektirdiği bulunuyor. Daha da önemlisi, aramanın genişletilmiş bağlam penceresi boyutundan bağımsız olarak LLM performansını anlamlı ölçüde artırabildiği gösteriliyor. 32K bağlam penceresi kullanan arama destekli LLaMA2-70B, soru yanıtlama ve sorgu tabanlı özetleme dahil 7 uzun bağlam görevinde ortalama puan açısından GPT-3.5-turbo-16k ve Davinci003’ü geride bırakıyor. Ayrıca arama kullanmayan LLaMA2-70B-32k temel modelinden de belirgin farkla daha iyi performans gösterirken üretimde çok daha hızlı. Bu çalışma, uygulayıcıların LLM’lerde arama desteği ile uzun bağlam genişletmesi arasında seçim yapmasına yardımcı olacak genel içgörüler sunuyor.
> Büyük dil modellerinin (LLM) bağlam penceresini genişletmek son dönemde popülerleşirken, arama ile LLM’leri güçlendiren çözümler yıllardır mevcut. Doğal sorular şunlar: i) aşağı akış görevlerde arama destekli yaklaşım ile uzun bağlam penceresi arasında hangisi daha iyi? ii) Her iki yöntem birleştirilerek ikisinin de avantajları elde edilebilir mi? Bu çalışmada, en güncel iki önceden eğitilmiş LLM’yi, yani özel bir 43B GPT ile LLaMA2-70B’yi kullanarak bu sorulara yanıtlıyoruz. Şaşırtıcı biçimde, üretim sırasında basit arama desteği kullanan 4K bağlam pencereli bir LLM’nin, uzun bağlam görevlerinde konumsal enterpolasyon yoluyla 16K bağlam penceresine sahip ince ayarlanmış bir LLM ile benzer performans elde edebildiğini ve bunun çok daha az hesaplama gerektirdiğini görüyoruz. Daha da önemlisi, aramanın genişletilmiş bağlam penceresi boyutundan bağımsız olarak LLM performansını anlamlı ölçüde artırabildiğini gösteriyoruz. En iyi modelimiz olan 32K bağlam pencereli arama destekli LLaMA2-70B, soru yanıtlama ve sorgu tabanlı özetleme dahil yedi uzun bağlam görevinde ortalama puan açısından GPT-3.5-turbo-16k ve Davinci003’ü geride bırakıyor. Ayrıca arama kullanmayan LLaMA2-70B-32k temel modelinden de belirgin farkla daha iyi performans gösterirken üretimde çok daha hızlı. Çalışmamız, uygulayıcıların LLM’lerde arama desteği ile uzun bağlam genişletmesi arasında seçim yapmasına yardımcı olacak genel içgörüler sunuyor.
Makale bağlantısı
https://arxiv.org/abs/2310.03025
Daha fazlasını okuyun
https://x.com/omarsar0/status/1709749178199318545
Dikkat bataklarıyla verimli akış dil modelleri / Efficient Streaming Language Models with Attention Sinks
Makale tanıtımı
- Başlangıç tokenlarının kv durumlarının pencere dikkatinin performansını büyük ölçüde geri kazandırdığı bir olgu olan dikkat bataklarına sahip verimli streaming LLM’leri mümkün kılan bir çerçeve; dikkat bataklarının ortaya çıkışı, başlangıç tokenlarına yönelik güçlü dikkat skorlarından kaynaklanır; bu yaklaşım sayesinde sonlu uzunlukta dikkat pencereleriyle eğitilmiş LLM’ler, ek bir ince ayar olmadan sonsuz dizi uzunluğuna genelleme yapabilir. #streamingllm
> Başlangıç tokenlarının kv durumlarının pencere dikkatinin performansını büyük ölçüde geri kazandırdığı bir olgu olan dikkat bataklarına sahip verimli streaming LLM’leri mümkün kılan bir çerçeve; dikkat bataklarının ortaya çıkışı, başlangıç tokenlarına yönelik güçlü dikkat skorlarından kaynaklanır; bu yaklaşım, sonlu uzunlukta dikkat pencereleriyle eğitilmiş LLM’lerin ek bir ince ayar olmadan sonsuz dizi uzunluğuna genelleme yapmasını sağlar.
Makale özeti
- Uzun etkileşimlerin beklendiği çok turlu diyaloglar gibi streaming uygulamalarda büyük dil modellerini (LLM) devreye almak acil bir ihtiyaçtır, ancak bunun iki büyük zorluğu vardır. Birincisi, çözümleme aşamasında önceki token’ların Key ve Value durumlarını (KV) önbelleğe almak büyük miktarda bellek tüketir. İkincisi, yaygın olarak kullanılan LLM’ler eğitimde kullanılan dizi uzunluğundan daha uzun metinlere genelleme yapamaz. Yalnızca en güncel KV’leri önbelleğe alan pencere dikkat mekanizması doğal bir yaklaşımdır, ancak metin uzunluğu önbellek boyutunu aştığında bunun başarısız olduğu gösterilmiştir. İlk token’ların KV’sini korumanın pencere dikkatinin performansını büyük ölçüde geri kazandırdığı ilginç bir olgu, yani attention sink, gözlemlenmiştir. Bu makalede önce, attention sink’in ortaya çıkışının, anlamsal olarak önemli olmasalar bile başlangıç token’larına birer "sink" olarak yüksek dikkat puanı verilmesinden kaynaklandığını gösteriyoruz. Bu analiz temelinde, sonlu uzunlukta dikkat penceresiyle eğitilmiş LLM’lerin herhangi bir ince ayar olmadan sonsuz dizi uzunluklarına genelleme yapmasını sağlayan verimli bir çerçeve olan StreamingLLM’i tanıtıyoruz. StreamingLLM ile Llama-2, MPT, Falcon ve Pythia’nın 4 milyondan fazla token’a kadar kararlı ve verimli dil modelleme yapabildiğini gösteriyoruz. Ayrıca ön eğitim sırasında özel bir attention sink olarak bir placeholder token eklemenin streaming dağıtımını daha da iyileştirebileceğini de ortaya koyuyoruz. Streaming ayarlarında StreamingLLM, kayan pencere yeniden hesaplama temel yöntemine göre 22,2 kata kadar daha hızlı performans gösteriyor. Kod ve veri kümelerine https://github.com/mit-han-lab/streaming-llm adresinden ulaşılabilir.
> Deploying Large Language Models (LLMs) in streaming applications such as multi-round dialogue, where long interactions are expected, is urgently needed but poses two major challenges. Firstly, during the decoding stage, caching previous tokens' Key and Value states (KV) consumes extensive memory. Secondly, popular LLMs cannot generalize to longer texts than the training sequence length. Window attention, where only the most recent KVs are cached, is a natural approach -- but we show that it fails when the text length surpasses the cache size. We observe an interesting phenomenon, namely attention sink, that keeping the KV of initial tokens will largely recover the performance of window attention. In this paper, we first demonstrate that the emergence of attention sink is due to the strong attention scores towards initial tokens as a ``sink'' even if they are not semantically important. Based on the above analysis, we introduce StreamingLLM, an efficient framework that enables LLMs trained with a finite length attention window to generalize to infinite sequence lengths without any fine-tuning. We show that StreamingLLM can enable Llama-2, MPT, Falcon, and Pythia to perform stable and efficient language modeling with up to 4 million tokens and more. In addition, we discover that adding a placeholder token as a dedicated attention sink during pre-training can further improve streaming deployment. In streaming settings, StreamingLLM outperforms the sliding window recomputation baseline by up to 22.2x speedup. Code and datasets are provided at https://github.com/mit-han-lab/streaming-llm.
Makale bağlantısı
https://arxiv.org/abs/2309.17453
Daha fazlası
https://x.com/Guangxuan_Xiao/status/1708943505731801325
https://discuss.pytorch.kr/t/…
Sinirsel gelişim programları aracılığıyla kendi kendine bir araya gelen yapay sinir ağlarına doğru / Towards Self-Assembling Artificial Neural Networks through Neural Developmental Programs
Makale tanıtımı
- Biyolojik organizmalardaki embriyonik gelişimin özelliklerini yansıtan bir gelişim süreci (sinirsel gelişim programları olarak adlandırılıyor) yoluyla kendi kendine bir araya gelen sinir ağlarının kullanılmasını öneriyor; bu yaklaşımın sürekli kontrol problemleri ve büyüyen topolojilerde uygulanabilirliğini gösteriyor.
> Proposes to use neural networks that self-assemble through a developmental process that mirrors properties of embryonic development in biological organisms (referred to as neural developmental programs); shows the feasibility of the approach in continuous control problems and growing topologies.
Makale özeti
- Biyolojik sinir sistemleri, günümüz yapay sinir ağlarından temelde farklı bir şekilde oluşturulur. Derin öğrenme, çeşitli alanlarda etkileyici sonuçlar ortaya koysa da yüksek performanslı sinir mimarileri tasarlamak çoğu zaman ciddi mühendislik çabası gerektirir. Buna karşılık biyolojik sinir sistemleri, dinamik bir öz-örgütlenme süreciyle büyür. Bu makalede, biyolojik organizmalardaki embriyonik gelişimin temel özelliklerini yansıtan bir gelişim süreciyle büyüyen sinir ağlarına doğru ilk adımlar atılıyor. Büyüme süreci, Sinirsel Gelişim Programı (NDP) adını verdikleri başka bir sinir ağı tarafından yönlendirilir ve bu ağ yalnızca yerel iletişimle çalışır. Farklı makine öğrenimi benchmark'larında ve çeşitli optimizasyon yöntemlerinde (evrimsel eğitim, çevrimiçi RL, çevrimdışı RL ve denetimli öğrenme) sinirsel büyümenin rolü inceleniyor. Ayrıca, sinir ağlarının büyümesini yönlendiren öz-örgütlenmenin mümkün kıldığı gelecekteki araştırma yönleri ve fırsatlar da ele alınıyor.
> Biological nervous systems are created in a fundamentally different way than current artificial neural networks. Despite its impressive results in a variety of different domains, deep learning often requires considerable engineering effort to design high-performing neural architectures. By contrast, biological nervous systems are grown through a dynamic self-organizing process. In this paper, we take initial steps toward neural networks that grow through a developmental process that mirrors key properties of embryonic development in biological organisms. The growth process is guided by another neural network, which we call a Neural Developmental Program (NDP) and which operates through local communication alone. We investigate the role of neural growth on different machine learning benchmarks and different optimization methods (evolutionary training, online RL, offline RL, and supervised learning). Additionally, we highlight future research directions and opportunities enabled by having self-organization driving the growth of neural networks.
Makale bağlantısı
https://arxiv.org/abs/2307.08197
Daha fazlasını okuyun
https://x.com/risi1979/status/1708888992224362742
LMM'lerin Şafağı: GPT-4V(ision) ile Ön Keşifler / The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)
Makale tanıtımı
- Büyük multimodal modelleri (LMM) daha iyi anlamak için gpt-4v kapsamlı biçimde analiz ediliyor; odak noktası, çeşitli uygulama senaryolarında gpt-4v'yi yoklamak ve görselle birlikte kod yeteneklerinden retrieval-augmented LMM'lere kadar uzanan çeşitli örnekler sunmak. #multimodal #gpt-4v
> A comprehensive analysis of gpt-4v to deepen the understanding of large multimodal models (lmms); it focuses on probing gpt-4v across various application scenarios; provides examples ranging from code capabilities with vision to retrieval-augmented lmms.
Makale özeti
- Büyük multimodal modeller (LMM'ler), görsel anlama gibi çoklu duyusal becerilerle büyük dil modellerini (LLM'ler) genişleterek daha güçlü genel zekaya ulaşmayı amaçlar. Bu makalede, LMM'lere dair anlayışı derinleştirmek için en yeni model olan GPT-4V(ision) analiz ediliyor. Analiz, GPT-4V'nin gerçekleştirebildiği dikkat çekici görevlere odaklanıyor ve GPT-4V'nin yeteneklerinin kalitesini ve genelliğini, desteklenen girdileri ve çalışma modlarını, ayrıca modeli etkili biçimde yönlendirmenin yollarını incelemek için test örnekleri içeriyor. GPT-4V'yi keşfetmeye yönelik yaklaşımda, farklı alanlara ve görevlere yayılan, özenle tasarlanmış nitel örneklerden oluşan bir koleksiyon derlenip düzenleniyor. Bu örneklerden elde edilen gözlemler, GPT-4V'nin rastgele iç içe geçmiş multimodal girdileri işleme konusundaki benzeri görülmemiş yeteneğinin ve kabiliyetlerinin genelliğinin birleşerek onu güçlü bir multimodal genelci sisteme dönüştürdüğünü gösteriyor. Ayrıca, GPT-4V'nin giriş görselleri üzerine çizilmiş görsel işaretleri anlama konusundaki benzersiz yeteneği, görsel referanslı istemler gibi yeni insan-bilgisayar etkileşimi yöntemlerinin ortaya çıkmasını sağlayabilir. Rapor, ortaya çıkan uygulama senaryoları ve GPT-4V tabanlı sistemler için gelecekteki araştırma yönlerine dair derinlemesine tartışmalarla sona eriyor. Bu ön keşfin; yeni nesil multimodal görev formülasyonları, gerçek dünya problemlerini çözmek için LMM'lerden yararlanma ve onları geliştirme yolları ile multimodal temel modellere dair daha iyi bir anlayış üzerine yapılacak gelecekteki araştırmalara ilham vermesi umuluyor.
> Large multimodal models (LMMs) extend large language models (LLMs) with multi-sensory skills, such as visual understanding, to achieve stronger generic intelligence. In this paper, we analyze the latest model, GPT-4V(ision), to deepen the understanding of LMMs. The analysis focuses on the intriguing tasks that GPT-4V can perform, containing test samples to probe the quality and genericity of GPT-4V's capabilities, its supported inputs and working modes, and the effective ways to prompt the model. In our approach to exploring GPT-4V, we curate and organize a collection of carefully designed qualitative samples spanning a variety of domains and tasks. Observations from these samples demonstrate that GPT-4V's unprecedented ability in processing arbitrarily interleaved multimodal inputs and the genericity of its capabilities together make GPT-4V a powerful multimodal generalist system. Furthermore, GPT-4V's unique capability of understanding visual markers drawn on input images can give rise to new human-computer interaction methods such as visual referring prompting. We conclude the report with in-depth discussions on the emerging application scenarios and the future research directions for GPT-4V-based systems. We hope that this preliminary exploration will inspire future research on the next-generation multimodal task formulation, new ways to exploit and enhance LMMs to solve real-world problems, and gaining better understanding of multimodal foundation models.
Makale bağlantısı
https://arxiv.org/abs/2309.17421
Daha fazlasını okuyun
https://x.com/omarsar0/status/1708860551110041871
https://discuss.pytorch.kr/t/gn-chatgpt/2543
Konuşmadan önce düşünün: duraklama token’larıyla dil modeli eğitimi / Think before you speak: Training Language Models With Pause Tokens
Makale tanıtımı
- Öğrenilebilir
<pause>token’ı ile LLM’lerde eğitim ve çıkarım yaparak modelin yanıt üretimini geciktirmeye yardımcı olur ve sağduyuya dayalı soru-cevap ile matematik sözel problem çözme gibi genel anlama görevlerinde performans artışı sağlar. Deney sonuçları, bu yaklaşımın yalnızca hem ilgili ön eğitimde hem de aşağı akış ince ayarında gecikme getirildiğinde faydalı olduğunu gösteriyor. #pause-for-thoughtPerforms training and inference on llms with a learnable
<pause>token which helps to delay the model's answer generation and attain performance gains on general understanding tasks of commonsense qa and math word problem-solving; experiments show that this is only beneficial provided that the delay is introduced in both pertaining and downstream fine-tuning.
Makale özeti
- Dil modelleri, art arda bir dizi token üreterek yanıt oluşturur. $(K+1)^{th}$ token, katman başına $K$ gizli vektörün, yani önceki her token için bir vektörün işlenmesinin sonucudur. Peki modelin $(K+1)^{th}$ token’ı üretmeden önce örneğin $K+10$ gizli vektörü işlemesine izin versek ne olur? Bu fikri, giriş önekine eklenen bir dizi (öğrenilebilir) $\textit{pause}$ token’ı ile dil modellerinde eğitim ve çıkarım yaparak hayata geçiriyoruz. Ardından modelin çıktısını, son duraklama token’ı görülene kadar geciktirerek modelin bir cevaba bağlanmadan önce ek hesaplama yapmasına izin veriyoruz. C4 üzerinde nedensel ön eğitim almış 1B ve 130M parametreli yalnızca decoder mimarili modellerde ve akıl yürütme, soru-cevap, genel anlama ve olgu hatırlamayı kapsayan aşağı akış görevlerinde $\textit{pause-training}$ yaklaşımını ampirik olarak değerlendiriyoruz. Temel bulgumuz, çıkarım zamanı gecikmelerinin ancak model hem ön eğitimde hem de ince ayarda gecikmeyle eğitildiğinde kazanç sağladığıdır. 1B model için 9 görevin 8’inde iyileşme gözlemliyoruz; en belirgin olarak SQuAD’ın QA görevinde $EM\ skorunda\ %18$, CommonSenseQA’da $%8$ ve GSM8k’nin akıl yürütme görevinde doğrulukta $%1$ artış elde ediliyor. Çalışmamız, gecikmeli sonraki-token tahminini geniş ölçekte uygulanabilir yeni bir paradigma haline getirmeye yönelik çeşitli kavramsal ve pratik gelecek araştırma soruları ortaya koyuyor.
Language models generate responses by producing a series of tokens in immediate succession: the $(K+1)^{th}$ token is an outcome of manipulating $K$ hidden vectors per layer, one vector per preceding token. What if instead we were to let the model manipulate say, $K+10$ hidden vectors, before it outputs the $(K+1)^{th}$ token? We operationalize this idea by performing training and inference on language models with a (learnable) $\textit{pause}$ token, a sequence of which is appended to the input prefix. We then delay extracting the model's outputs until the last pause token is seen, thereby allowing the model to process extra computation before committing to an answer. We empirically evaluate $\textit{pause-training}$ on decoder-only models of 1B and 130M parameters with causal pretraining on C4, and on downstream tasks covering reasoning, question-answering, general understanding and fact recall. Our main finding is that inference-time delays show gains when the model is both pre-trained and finetuned with delays. For the 1B model, we witness gains on 8 of 9 tasks, most prominently, a gain of $18%$ EM score on the QA task of SQuAD, $8%$ on CommonSenseQA and $1%$ accuracy on the reasoning task of GSM8k. Our work raises a range of conceptual and practical future research questions on making delayed next-token prediction a widely applicable new paradigm.
Makale bağlantısı
https://arxiv.org/abs/2310.02226
Daha fazlasını okuyun
https://x.com/omarsar0/status/1709573238123122959
Kendi Kendini Eğiten Optimize Edici (STOP): Özyinelemeli olarak kendini geliştiren kod üretimi / Self-Taught Optimizer (STOP): Recursively Self-Improving Code Generation
Makale tanıtımı
- Dil modelinin enjekte edildiği bir iskele program kullanarak özyinelemeli biçimde kendini geliştirmesini önerir; başlangıç iyileştiricisi önce en iyi çözümü döndüren bir giriş programını iyileştirir, ardından buna ek görevler verilerek kendini daha da geliştirmesi sağlanır; GPT-4 modelinin kendini geliştirmek için kendisini çağırabilen kod yazabildiğini gösterir. #self-training-survey-paper
Proposes the use of a language model-infused scaffolding program to recursively improve itself; a seed improver first improves an input program that returns the best solution which is then further tasked to improve itself; shows that the gpt-4 models can write code that can call itself to improve itself.
Makale özeti
- Yapay zeka sistemlerindeki son bazı gelişmeler (ör. Tree-of-Thoughts ve Program-Aided Language Models), dil modellerine yapılan birden çok çağrıyı yapılandırarak daha iyi çıktılar üreten bir "iskele" programı sağlayarak problemleri çözüyor. İskele programı Python gibi bir programlama dilinde yazılır. Bu çalışmada, kendini geliştirmek için dil modeliyle zenginleştirilmiş bir iskele programı kullanılıyor. Bir yardımcı işlevine göre girdideki programı, dil modelini birkaç kez sorgulayıp en iyi çözümü döndürerek iyileştiren başlangıç "iyileştirici" ile başlanıyor. Ardından bu başlangıç iyileştirici, kendini iyileştirmesi için çalıştırılıyor. Küçük bir aşağı akış görev kümesi boyunca, ortaya çıkan geliştirilmiş iyileştirici, başlangıç iyileştiriciye kıyasla anlamlı ölçüde daha iyi performansa sahip programlar üretiyor. Sonrasında ışın araması, genetik algoritmalar ve simüle tavlama dahil olmak üzere dil modelinin önerdiği çeşitli öz-iyileştirme stratejileri analiz ediliyor. Dil modellerinin kendisi değiştirilmediği için bu, tam anlamıyla özyinelemeli öz-iyileştirme değildir. Yine de, kavram kanıtlama deneylerinde modern bir dil modeli olan GPT-4'ün, kendini geliştirmek için kendini çağırabilen kod yazabildiğini gösteriyor. Öz-iyileştiren teknolojilerin geliştirilmesine ilişkin kaygılar eleştirel biçimde değerlendiriliyor ve üretilen kodun bir sandbox'ı ne sıklıkla aştığı ölçülüyor.
> Several recent advances in AI systems (e.g., Tree-of-Thoughts and Program-Aided Language Models) solve problems by providing a "scaffolding" program that structures multiple calls to language models to generate better outputs. A scaffolding program is written in a programming language such as Python. In this work, we use a language-model-infused scaffolding program to improve itself. We start with a seed "improver" that improves an input program according to a given utility function by querying a language model several times and returning the best solution. We then run this seed improver to improve itself. Across a small set of downstream tasks, the resulting improved improver generates programs with significantly better performance than its seed improver. Afterward, we analyze the variety of self-improvement strategies proposed by the language model, including beam search, genetic algorithms, and simulated annealing. Since the language models themselves are not altered, this is not full recursive self-improvement. Nonetheless, it demonstrates that a modern language model, GPT-4 in our proof-of-concept experiments, is capable of writing code that can call itself to improve itself. We critically consider concerns around the development of self-improving technologies and evaluate the frequency with which the generated code bypasses a sandbox.
Makale bağlantısı
https://arxiv.org/abs/2310.02304
Daha fazlasını okuyun
https://x.com/ericzelikman/status/1709721771937587541
RA-DIT: Arama Destekli Çift Talimat Ayarı / RA-DIT: Retrieval-Augmented Dual Instruction Tuning
Makale tanıtımı
- Arama yetenekleriyle donatılmış yapay sinir ağları için hafif bir ince ayar yöntemi öneriyor. Bu yöntem, 1) önceden eğitilmiş yapay sinir ağını alınan bilgiyi daha iyi kullanacak şekilde güncelleyen ve 2) arayıcıyı, daha ilgili sonuçlar döndürecek şekilde güncelleyen iki aşamalı bir yaklaşım içeriyor. Sonuçlar, hem bilgi kullanımını hem de bağlamsal farkındalığı gerektiren görevler üzerinde yapılan ince ayarın, her aşamada ek kazanımlar sağladığını gösteriyor. 65b model, çeşitli bilgi yoğun zero-shot ve few-shot öğrenme benchmark'larında son teknoloji sonuçlara ulaşıyor ve mevcut arama destekli dil yaklaşımlarından zero-shot'ta +8,9%'a ve 5-shot'ta +1,4%'e kadar daha iyi performans gösteriyor. #rag #instruct-tuning
> Proposes a lightweight fine-tuning method to retrofit llms with retrieval capabilities; it involves a 2-step approach: 1) updates a pretrained lm to better use the retrieved information 2) updates the retriever to return more relevant results, as preferred by the lm results show that fine-tuning over tasks that require both knowledge utilization and contextual awareness, each stage leads to additional gains; a 65b model achieves state-of-the-art results on a range of knowledge-intensive zero- and few-shot learning benchmarks; it outperforms existing retrieval-augmented language approaches by up to +8.9% in zero-shot and +1.4% in 5-shot.
Makale özeti
- Arama ile zenginleştirilmiş dil modelleri (RALM'ler), harici veri depolarındaki uzun kuyruklu ve güncel bilgiye erişerek performansı artırır, ancak kurulmaları zordur. Mevcut yaklaşımlar ya LM ön eğitiminde pahalı arama odaklı değişiklikler gerektirir ya da veri deposunun sonradan entegrasyonunu kullanır; bu da en iyi olmayan bir performansa yol açar. Biz, arama yetenekleriyle herhangi bir LLM'yi sonradan donatarak üçüncü bir seçenek sunan hafif bir ince ayar metodolojisi olan Retrieval-Augmented Dual Instruction Tuning (RA-DIT)'i tanıtıyoruz. Yaklaşım, iki ayrı ince ayar adımıyla çalışır: (1) biri, önceden eğitilmiş bir LM'yi getirilen bilgiyi daha iyi kullanacak şekilde günceller; (2) diğeri ise getiriciyi, LM'nin tercih ettiği şekilde daha alakalı sonuçlar döndürecek şekilde günceller. Hem bilgi kullanımını hem de bağlamsal farkındalığı gerektiren görevler üzerinde yapılan ince ayarla, her aşamanın anlamlı performans artışları sağladığını ve ikisinin birlikte kullanılmasının ek kazanımlar getirdiğini gösterdik. En iyi modelimiz RA-DIT 65B, bilgi yoğun sıfır atış ve az örnekli öğrenme kıyaslamalarının geniş bir yelpazesinde son teknoloji performans elde ederek, mevcut in-context RALM yaklaşımlarını ortalama olarak 0-shot ayarında +8.9%'a, 5-shot ayarında ise +1.4%'e kadar belirgin biçimde geride bırakıyor.
> Retrieval-augmented language models (RALMs) improve performance by accessing long-tail and up-to-date knowledge from external data stores, but are challenging to build. Existing approaches require either expensive retrieval-specific modifications to LM pre-training or use post-hoc integration of the data store that leads to suboptimal performance. We introduce Retrieval-Augmented Dual Instruction Tuning (RA-DIT), a lightweight fine-tuning methodology that provides a third option by retrofitting any LLM with retrieval capabilities. Our approach operates in two distinct fine-tuning steps: (1) one updates a pre-trained LM to better use retrieved information, while (2) the other updates the retriever to return more relevant results, as preferred by the LM. By fine-tuning over tasks that require both knowledge utilization and contextual awareness, we demonstrate that each stage yields significant performance improvements, and using both leads to additional gains. Our best model, RA-DIT 65B, achieves state-of-the-art performance across a range of knowledge-intensive zero- and few-shot learning benchmarks, significantly outperforming existing in-context RALM approaches by up to +8.9% in 0-shot setting and +1.4% in 5-shot setting on average.
Makale bağlantısı
https://arxiv.org/abs/2310.01352
Daha fazlasını okuyun
https://x.com/omarsar0/status/1709204756013490494
Kosmos-G: Çok modlu büyük dil modelleriyle bağlam içinde görsel üretimi / Kosmos-G: Generating Images in Context with Multimodal Large Language Models
Makale tanıtımı
- Birden fazla görsele yayılan genelleştirilmiş görsel-dil girdisinden yüksek doğrulukta sıfır atış görsel üretimi gerçekleştirebilen, sıfır atış özne odaklı görsel üretimini çoklu varlık senaryolarına genişleten ve CLIP'in yerine geçerek ControlNet, LoRA gibi diğer U-Net teknikleriyle yeni uygulamaların önünü açabilen bir modeldir. #multimodal
> A model that performs high-fidelity zero-shot image generation from generalized vision-language input that spans multiple images; extends zero-shot subject-driven image generation to multi-entity scenarios; allows the replacement of clip, unlocking new applications with other u-net techniques such as controlnet and lora.
Makale özeti
- Son dönemde metinden görsele (T2I) ve görsel-dilden görsele (VL2I) üretim teknolojilerinde önemli ilerlemeler kaydedildi. Ancak özellikle birden fazla görsel içeren genelleştirilmiş görsel-dil girdilerinden üretim konusu hâlâ yeterince araştırılmış değil. Bu makalede, söz konusu zorluğu aşmak için Multimodal Large Language Models (MLLM'ler)'in gelişmiş algılama yeteneklerinden yararlanan bir model olan Kosmos-G'yi sunuyoruz. Yaklaşımımız, metinsel modaliteyi bir dayanak olarak kullanarak MLLM'nin çıktı uzayını CLIP ile hizalıyor ve özenle seçilmiş veriler üzerinde bileşimsel instruction tuning gerçekleştiriyor. Kosmos-G, sıfır atış çoklu varlık özne odaklı üretimde benzersiz bir yetenek sergiliyor. Dikkat çekici biçimde, score distillation instruction tuning, görsel kod çözücüde hiçbir değişiklik gerektirmiyor. Bu da CLIP'in sorunsuz biçimde yerine geçmesini ve ince taneli kontrollerden kişiselleştirilmiş görsel kod çözücü varyantlarına kadar sayısız U-Net tekniğiyle zahmetsizce entegre olmasını sağlıyor. Kosmos-G'yi, "görsel üretiminde yabancı dil olarak görsel" hedefine yönelik ilk girişimlerden biri olarak konumlandırıyoruz.
> Recent advancements in text-to-image (T2I) and vision-language-to-image (VL2I) generation have made significant strides. However, the generation from generalized vision-language inputs, especially involving multiple images, remains under-explored. This paper presents Kosmos-G, a model that leverages the advanced perception capabilities of Multimodal Large Language Models (MLLMs) to tackle the aforementioned challenge. Our approach aligns the output space of MLLM with CLIP using the textual modality as an anchor and performs compositional instruction tuning on curated data. Kosmos-G demonstrates a unique capability of zero-shot multi-entity subject-driven generation. Notably, the score distillation instruction tuning requires no modifications to the image decoder. This allows for a seamless substitution of CLIP and effortless integration with a myriad of U-Net techniques ranging from fine-grained controls to personalized image decoder variants. We posit Kosmos-G as an initial attempt towards the goal of "image as a foreign language in image generation."
Makale bağlantısı
https://arxiv.org/abs/2310.02992
Daha fazlasını okuyun
https://x.com/omarsar0/status/1709934741158510625
Büyük dil modelleri analojik akıl yürütücüler olarak / Large Language Models as Analogical Reasoners
Makale tanıtımı
- Bu yaklaşım, çıkarım sürecine ilişkin etiketlenmiş örnekler gerektirmemesi bakımından chain-of-thought'tan ayrılır ve analojik akıl yürütmeden ilham alan, bağlam içinde ilgili örnekleri veya bilgiyi kendisinin üretmesini teşvik eden yeni bir prompt yaklaşımıdır. #llm-reasoning #chain-of-thought
> LLM'lerin akıl yürütme sürecini otomatik olarak yönlendirmeye yönelik yeni bir prompting yaklaşımı; bu yaklaşım, akıl yürütme sürecinin etiketlenmiş örneklerini gerektirmemesi açısından chain-of-thought'tan farklıdır; analojik akıl yürütmeden ilham alır ve LM'leri bağlam içinde ilgili örnekleri veya bilgiyi kendi kendine üretmeye yönlendirir.
Makale özeti
- Dil modelleri için chain-of-thought (CoT) prompting, akıl yürütme görevleri genelinde etkileyici performans gösterse de genellikle akıl yürütme sürecine ait etiketlenmiş örnekler gerektirir. Bu çalışmada, büyük dil modellerinin akıl yürütme sürecini otomatik olarak yönlendirmek için tasarlanmış yeni bir prompting yaklaşımı olan Analogical Prompting'i tanıtıyoruz. İnsanların yeni problemleri çözmek için ilgili geçmiş deneyimlerden yararlandığı bilişsel bir süreç olan analojik akıl yürütmeden ilham alan bu yaklaşım, dil modellerini verilen problemi çözmeye geçmeden önce bağlam içinde ilgili örnekleri veya bilgiyi kendi kendine üretmeye teşvik eder. Bu yöntem birkaç avantaj sunar: örnekleri etiketleme veya getirme ihtiyacını ortadan kaldırarak genellik ve kullanım kolaylığı sağlar; ayrıca üretilen örnekleri ve bilgiyi her probleme göre uyarlayarak esneklik sunar. Deneysel sonuçlar, bu yaklaşımın GSM8K ve MATH'ta matematik problemi çözme, Codeforces'ta kod üretimi ve BIG-Bench'teki diğer akıl yürütme görevleri dahil olmak üzere çeşitli akıl yürütme görevlerinde 0-shot CoT ve manuel few-shot CoT'den daha iyi performans gösterdiğini ortaya koymaktadır.
> Chain-of-thought (CoT) prompting for language models demonstrates impressive performance across reasoning tasks, but typically needs labeled exemplars of the reasoning process. In this work, we introduce a new prompting approach, Analogical Prompting, designed to automatically guide the reasoning process of large language models. Inspired by analogical reasoning, a cognitive process in which humans draw from relevant past experiences to tackle new problems, our approach prompts language models to self-generate relevant exemplars or knowledge in the context, before proceeding to solve the given problem. This method presents several advantages: it obviates the need for labeling or retrieving exemplars, offering generality and convenience; it can also tailor the generated exemplars and knowledge to each problem, offering adaptability. Experimental results show that our approach outperforms 0-shot CoT and manual few-shot CoT in a variety of reasoning tasks, including math problem solving in GSM8K and MATH, code generation in Codeforces, and other reasoning tasks in BIG-Bench.
Makale bağlantısı
https://arxiv.org/abs/2310.01714
Daha fazlası için
https://x.com/michiyasunaga/status/1709582150025240854
Orijinal metin
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-9d9
Henüz yorum yok.