[2023/09/04 ~ 09/10] Bu Haftanın Öne Çıkan ML Makaleleri (Top ML Papers of the Week)
(discuss.pytorch.kr)Genel Bakış
DAIR.AI'nin her hafta yayımladığı ML makalelerine dair yazıyı otomatik olarak çevirdik.
Bu haftaki makalelerde ağırlıklı olarak Transformer ve Reinforcement Learning odaklı yapay zeka teknolojileri öne çıkıyor.
Destek Vektör Makineleri Olarak Transformer'lar / Transformers as Support Vector Machines
Makale Tanıtımı
- Transformer'larda self-attention'ın optimizasyon geometrisinin hard-margin SVM problemleriyle bağlantılı olduğu bulunuyor; ayrıca erken durdurma olmadan uygulanan gradient descent'in self-attention'da örtük düzenlileştirme ve yakınsamaya yol açtığı gösteriliyor. Bu çalışma, dil modellerinin anlaşılmasını derinleştirme potansiyeline sahip.
Finds that the optimization geometry of self-attention in transformers exhibits a connection to hard-margin svm problems; also finds that gradient descent applied without early-stopping leads to implicit regularization and convergence of self-attention; this work has the potential to deepen the understanding of language models.
Makale Özeti
- "Attention Is All You Need" ile ortaya çıkışından bu yana transformer mimarisi, NLP'de devrim niteliğinde ilerlemelere öncülük etti. Transformer içindeki attention katmanı, bir girdi token dizisi $X$ alır ve $(K,Q)$ öğrenilebilir key-query parametreleri olmak üzere, softmax $(XQK^\top X^\top)$ ile hesaplanan ikili benzerlikler üzerinden bu token'ların etkileşime girmesini sağlar. Bu çalışmada, self-attention'ın optimizasyon geometrisi ile token çiftlerinin dış çarpımları üzerindeki doğrusal kısıtları kullanarak optimal girdi token'larını optimal olmayanlardan ayıran bir hard-margin SVM problemi arasında biçimsel bir eşdeğerlik kuruluyor. Bu biçimsellik, gradient descent ile optimize edilen 1 katmanlı transformer'ların örtük yanlılığını karakterize etmeyi mümkün kılıyor: (1) Attention katmanını $(K,Q)$ ile parametreleyip sönümlenen düzenlileştirme altında optimize etmek, birleşik parametre $W=KQ^\top$ için nükleer normu en aza indiren bir SVM çözümüne yönsel olarak yakınsıyor. Buna karşılık, doğrudan $W$ ile parametreleme yapmak Frobenius normu hedefini minimize ediyor. Bu yakınsamayı karakterize ediyor ve bunun küresel olarak optimal yönler yerine yerel olarak optimal yönlere doğru gerçekleşebileceğini vurguluyoruz. (2) Bunu tamamlayacak şekilde, uygun geometrik koşullar altında gradient descent'in yerel/küresel yönsel yakınsamasını kanıtlıyoruz. Önemli olarak, aşırı parametreleştirmenin SVM probleminin uygulanabilirliğini güvence altına alarak ve durağan noktaları olmayan elverişli bir optimizasyon manzarası sağlayarak küresel yakınsamayı hızlandırdığını gösteriyoruz. (3) Teorimiz öncelikle doğrusal tahmin head'lerine uygulansa da, doğrusal olmayan head'lerle örtük yanlılığı öngören daha genel bir SVM eşdeğerliği öneriyoruz. Bulgularımız rastgele veri kümelerine uygulanabilir ve geçerlilikleri deneylerle doğrulanmıştır. Ayrıca çeşitli açık problemler ve araştırma yönleri sunuyoruz. Bu sonuçların, transformer'ları optimal token'ları ayıran ve seçen bir SVM hiyerarşisi olarak yorumlamaya ilham verdiğine inanıyoruz.
Since its inception in "Attention Is All You Need", transformer architecture has led to revolutionary advancements in NLP. The attention layer within the transformer admits a sequence of input tokens $X$ and makes them interact through pairwise similarities computed as softmax $(XQK^\top X^\top)$ , where $(K,Q)$ are the trainable key-query parameters. In this work, we establish a formal equivalence between the optimization geometry of self-attention and a hard-margin SVM problem that separates optimal input tokens from non-optimal tokens using linear constraints on the outer-products of token pairs. This formalism allows us to characterize the implicit bias of 1-layer transformers optimized with gradient descent: (1) Optimizing the attention layer with vanishing regularization, parameterized by $(K,Q)$, converges in direction to an SVM solution minimizing the nuclear norm of the combined parameter $W=KQ^\top$. Instead, directly parameterizing by $W$ minimizes a Frobenius norm objective. We characterize this convergence, highlighting that it can occur toward locally-optimal directions rather than global ones. (2) Complementing this, we prove the local/global directional convergence of gradient descent under suitable geometric conditions. Importantly, we show that over-parameterization catalyzes global convergence by ensuring the feasibility of the SVM problem and by guaranteeing a benign optimization landscape devoid of stationary points. (3) While our theory applies primarily to linear prediction heads, we propose a more general SVM equivalence that predicts the implicit bias with nonlinear heads. Our findings are applicable to arbitrary datasets and their validity is verified via experiments. We also introduce several open problems and research directions. We believe these findings inspire the interpretation of transformers as a hierarchy of SVMs that separates and selects optimal tokens.
Makale Bağlantısı
https://arxiv.org/abs/2308.16898
RLAIF: İnsan Geri Bildirimiyle Pekiştirmeli Öğrenmeyi Yapay Zeka Geri Bildirimiyle Ölçeklendirmek / RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback
Makale Tanıtımı
- RLAIF'in RLHF için uygun bir alternatif olup olmadığını test etmek amacıyla insan ve yapay zeka geri bildiriminin etkinliğini karşılaştırıyor; yapay zeka etiketleri üretmek için farklı teknikler kullanıyor ve hizalanmış tercih üretimi için en iyi ayarları raporlamak üzere ölçeklendirme çalışmaları yürütüyor. Temel bulgu, özetleme görevinde insan değerlendiricilerin yaklaşık %70 durumda hem RLAIF hem de RLHF üretimlerini temel SFT modeline tercih etmesi. #rlhf
Tests whether rlaif is a suitable alternative to rlhf by comparing the efficacy of human vs. ai feedback; uses different techniques to generate ai labels and conduct scaling studies to report optimal settings for generating aligned preferences; the main finding is that on the task of summarization, human evaluators prefer generations from both rlaif and rlhf over a baseline sft model in ∼70% of cases.
Makale Özeti
- İnsan geri bildiriminden pekiştirmeli öğrenme (RLHF), büyük dil modellerini (LLM) insan tercihlerine hizalamada etkilidir; ancak yüksek kaliteli insan tercih etiketlerini toplamak temel darboğazlardan biridir. İnsanlar yerine hazır bir LLM’in tercih etiketlediği bir teknik olan RLHF ile RLAIF’i (RL from AI Feedback) doğrudan karşılaştırdığımızda, iki tekniğin de benzer iyileşmeler sağladığını gördük. Özetleme görevinde insan değerlendiriciler, vakaların yaklaşık %70’inde hem RLAIF hem de RLHF tarafından üretilen çıktıları, temel denetimli ince ayar modeline tercih etti. Ayrıca RLAIF ve RLHF özetlerini değerlendirmeleri istendiğinde, insanlar ikisini de eşit oranlarda tercih etti. Bu sonuçlar, RLAIF’in insan düzeyinde performans sağlayabileceğini ve RLHF’nin ölçeklenebilirlik sınırlamalarına potansiyel bir çözüm sunabileceğini gösteriyor.
> Reinforcement learning from human feedback (RLHF) is effective at aligning large language models (LLMs) to human preferences, but gathering high quality human preference labels is a key bottleneck. We conduct a head-to-head comparison of RLHF vs. RL from AI Feedback (RLAIF) - a technique where preferences are labeled by an off-the-shelf LLM in lieu of humans, and we find that they result in similar improvements. On the task of summarization, human evaluators prefer generations from both RLAIF and RLHF over a baseline supervised fine-tuned model in ~70% of cases. Furthermore, when asked to rate RLAIF vs. RLHF summaries, humans prefer both at equal rates. These results suggest that RLAIF can yield human-level performance, offering a potential solution to the scalability limitations of RLHF.
Makale bağlantısı
https://arxiv.org/abs/2309.00267
Daha fazlasını okuyun
https://twitter.com/omarsar0/status/1699102486928265530
Hesap makinesi olmadan matematik problemlerini çözebilen GPT / GPT Can Solve Mathematical Problems Without a Calculator
Makale tanıtımı
- Yeterli eğitim verisi olduğunda, 2b bir dil modeli veri sızıntısı olmadan çok basamaklı aritmetik işlemleri %100 doğrulukla gerçekleştirebilir; ayrıca ek çok adımlı aritmetik işlemler ve ayrıntılı matematik problemleri içeren bir veri kümesiyle GLM-10b’den ince ayar yapıldığında, 5 bin örnekten oluşan Çince matematik problemi test setinde GPT-4 ile rekabetçi performans gösterebildiğini ortaya koyuyor. #mathematical-reasoning #wizardmath
> Shows that with sufficient training data, a 2b language model can perform multi-digit arithmetic operations with 100% accuracy and without data leakage; it’s also competitive with gpt-4 on 5k samples chinese math problem test set when fine-tuned from glm-10b on a dataset containing additional multi-step arithmetic operations and detailed math problems.
Makale özeti
- Önceki araştırmalar, büyük dil modellerinin genel olarak hesap makinesi araçlarını kullanmadan aritmetik işlemleri, özellikle de 8 basamaktan büyük çarpma işlemlerini ve ondalık sayılar ile kesirler içeren işlemleri doğru biçimde yapamadığını varsaymıştır. Bu makale, bu yanlış kanıya meydan okumayı amaçlıyor. Yeterli eğitim verisiyle, 2 milyar parametreli bir dil modeli veri sızıntısı olmadan çok basamaklı aritmetik işlemleri neredeyse %100 doğrulukla doğru şekilde gerçekleştirebilir; bu da çok basamaklı çarpma doğruluğu yalnızca %4,3 olan GPT-4’ü açık ara geride bırakır. Ayrıca, ek çok adımlı aritmetik işlemler ve metinle açıklanan matematik problemleri içeren bir veri kümesinde GLM-10B’den ince ayar yapılan MathGLM’in, 5.000 örnekten oluşan Çince matematik problemi test setinde GPT-4’e benzer performans elde ettiğini de gösteriyor.
> Previous studies have typically assumed that large language models are unable to accurately perform arithmetic operations, particularly multiplication of >8 digits, and operations involving decimals and fractions, without the use of calculator tools. This paper aims to challenge this misconception. With sufficient training data, a 2 billion-parameter language model can accurately perform multi-digit arithmetic operations with almost 100% accuracy without data leakage, significantly surpassing GPT-4 (whose multi-digit multiplication accuracy is only 4.3%). We also demonstrate that our MathGLM, fine-tuned from GLM-10B on a dataset with additional multi-step arithmetic operations and math problems described in text, achieves similar performance to GPT-4 on a 5,000-samples Chinese math problem test set.
Makale bağlantısı
https://arxiv.org/abs/2309.03241
Daha fazlasını okuyun
https://twitter.com/_akhaliq/status/1699951105927512399
Bir optimizer olarak büyük dil modelleri / Large Language Models as Optimizers
Makale tanıtımı
- Optimizasyon probleminin doğal dille tanımlandığı; ardından bir LLM’in, tanımlanan problem ve daha önce bulunan çözümlere dayanarak yinelemeli biçimde yeni çözümler üretmesi için yönlendirildiği; her optimizasyon adımında daha önce üretilmiş prompt’ların izlediği yola dayanarak test doğruluğunu artıran yeni prompt’lar üretmenin hedeflendiği; optimize edilmiş prompt’ların GSM8K ve Big-Bench Hard üzerinde insan tasarımı prompt’lardan bazen %50’den fazla daha iyi performans gösterdiği bir yaklaşım #optimizing
> An approach where the optimization problem is described in natural language; an llm is then instructed to iteratively generate new solutions based on the defined problem and previously found solutions; at each optimization step, the goal is to generate new prompts that increase test accuracy based on the trajectory of previously generated prompts; the optimized prompts outperform human-designed prompts on gsm8k and big-bench hard, sometimes by over 50%
Makale özeti
- Optimizasyon her yerde karşımıza çıkar. Türev tabanlı algoritmalar çeşitli problemler için güçlü araçlar olsa da, gradyanın yokluğu birçok gerçek dünya uygulamasında zorluk yaratır. Bu çalışmada, optimizasyon görevini doğal dilde tanımlayarak büyük dil modellerini (LLM) birer optimize edici olarak kullanmaya yönelik basit ve etkili bir yaklaşım olan OPRO'yu (Optimization by PROmpting) öneriyoruz. Her optimizasyon adımında LLM, daha önce üretilmiş çözümleri ve bunların değerlerini içeren prompt'tan yeni çözümler üretir; ardından bu yeni çözümler değerlendirilir ve bir sonraki optimizasyon adımı için prompt'a eklenir. Önce OPRO'yu doğrusal regresyon ve gezgin satıcı problemi üzerinde gösteriyor, ardından amacın görev doğruluğunu en üst düzeye çıkaran talimatları bulmak olduğu prompt optimizasyonuna geçiyoruz. Çeşitli LLM'lerle, OPRO tarafından optimize edilen en iyi prompt'ların insan tarafından tasarlanmış prompt'lardan GSM8K'de %8'e kadar, Big-Bench Hard görevlerinde ise %50'ye kadar daha iyi performans gösterdiğini ortaya koyuyoruz.
> Optimization is ubiquitous. While derivative-based algorithms have been powerful tools for various problems, the absence of gradient imposes challenges on many real-world applications. In this work, we propose Optimization by PROmpting (OPRO), a simple and effective approach to leverage large language models (LLMs) as optimizers, where the optimization task is described in natural language. In each optimization step, the LLM generates new solutions from the prompt that contains previously generated solutions with their values, then the new solutions are evaluated and added to the prompt for the next optimization step. We first showcase OPRO on linear regression and traveling salesman problems, then move on to prompt optimization where the goal is to find instructions that maximize the task accuracy. With a variety of LLMs, we demonstrate that the best prompts optimized by OPRO outperform human-designed prompts by up to 8% on GSM8K, and by up to 50% on Big-Bench Hard tasks.
Makale bağlantısı
https://arxiv.org/abs/2309.03409
Daha fazlasını oku
https://twitter.com/omarsar0/status/1700249035456598391
ImageBind-LLM: Çoklu modalite instruction tuning / ImageBind-LLM: Multi-modality Instruction Tuning
Makale tanıtımı
- ImageBind üzerinden llm'nin çok modlu instruction tuning yöntemi olan imagebind-llm sunuluyor. Bu model; yüksek kaliteli dil üretimi de dahil olmak üzere ses, 3D point cloud ve video gibi çeşitli modalitelerdeki talimatlara yanıt verebilir; bu da ImageBind'in görsel encoder'ının, öğrenilebilir bir bind network aracılığıyla bir llm ile hizalanması sayesinde mümkün olur. #imagebind
> Presents imagebind-llm, a multimodality instruction tuning method of llms via imagebind; this model can respond to instructions of diverse modalities such as audio, 3d point clouds, and video, including high language generation quality; this is achieved by aligning imagebind’s visual encoder with an llm via learnable bind network.
Makale özeti
- ImageBind aracılığıyla büyük dil modellerinin (LLM) çok modluluklu instruction tuning yöntemi olan ImageBind-LLM tanıtılıyor. Mevcut çalışmalar çoğunlukla dil ve görüntü instruction tuning üzerine odaklanırken, ImageBind-LLM yalnızca görüntü-metin hizalama eğitimiyle ses, 3D nokta bulutları, video ve embedding uzayı işlemleri gibi çok modluluklu koşullara yanıt verebiliyor. Eğitim sürecinde, LLaMA ile ImageBind'in görüntü kodlayıcısı arasındaki embedding uzayını hizalamak için öğrenilebilir bir bind ağı kullanılıyor. Ardından, bind ağı tarafından dönüştürülen görüntü özellikleri LLaMA'nın tüm katmanlarındaki kelime token'larına ekleniyor ve dikkat gerektirmeyen, sıfırdan başlatılmış bir gating mekanizmasıyla görsel yönergeler kademeli olarak enjekte ediliyor. ImageBind'in ortak embedding yapısı sayesinde, basit görüntü-metin eğitimi modelin üstün çok modluluklu komut izleme yetenekleri sergilemesini sağlıyor. Çıkarım sırasında çok modluluklu girdiler ilgili ImageBind kodlayıcılarına veriliyor ve ek çapraz modal embedding iyileştirmesi için önerilen görsel cache modeli tarafından işleniyor. Eğitim gerektirmeyen cache modeli, ImageBind'den çıkarılan 3 milyon görüntü özelliği arasından arama yaparak eğitim-çıkarım modalite uyumsuzluğunu etkili biçimde azaltıyor. Özellikle bu yaklaşım sayesinde ImageBind-LLM, farklı modalitelerdeki komutlara yanıt verebiliyor ve kayda değer dil üretim kalitesi gösterebiliyor. Kod https://github.com/OpenGVLab/LLaMA-Adapter adresinde yayımlanmıştır.
> We present ImageBind-LLM, a multi-modality instruction tuning method of large language models (LLMs) via ImageBind. Existing works mainly focus on language and image instruction tuning, different from which, our ImageBind-LLM can respond to multi-modality conditions, including audio, 3D point clouds, video, and their embedding-space arithmetic by only image-text alignment training. During training, we adopt a learnable bind network to align the embedding space between LLaMA and ImageBind's image encoder. Then, the image features transformed by the bind network are added to word tokens of all layers in LLaMA, which progressively injects visual instructions via an attention-free and zero-initialized gating mechanism. Aided by the joint embedding of ImageBind, the simple image-text training enables our model to exhibit superior multi-modality instruction-following capabilities. During inference, the multi-modality inputs are fed into the corresponding ImageBind encoders, and processed by a proposed visual cache model for further cross-modal embedding enhancement. The training-free cache model retrieves from three million image features extracted by ImageBind, which effectively mitigates the training-inference modality discrepancy. Notably, with our approach, ImageBind-LLM can respond to instructions of diverse modalities and demonstrate significant language generation quality. Code is released at https://github.com/OpenGVLab/LLaMA-Adapter.
Makale bağlantısı
https://arxiv.org/abs/2309.03905
Daha fazla bilgi
https://twitter.com/arankomatsuzaki/status/1699947731333345750
Devre verimliliği yoluyla grokking'i açıklamak / Explaining grokking through circuit efficiency
Makale tanıtımı
- Sinir ağlarındaki grokking davranışını açıklamayı hedefliyor; özellikle iki yeni davranışı öngörüp gösteriyor. Birincisi, kritik eşikten daha küçük bir veri kümesi üzerinde eğitim sürdürüldüğünde modelin kusursuz genellemeden ezberlemeye geçtiği ungrokking; ikincisi ise, kritik veri kümesi boyutunda rastgele başlatılmış bir ağ eğitilirken ağın grokking benzeri bir geçiş sergilediği semi-grokking. #grokking
> Aims to explain grokking behavior in neural networks; specifically, it predicts and shows two novel behaviors: the first is ungrokking where a model goes from perfect generalization to memorization when trained further on a smaller dataset than the critical threshold; the second is semi-grokking where a network demonstrates grokking-like transition when training a randomly initialized network on the critical dataset size.
Makale özeti
- Sinir ağlarının genellemesindeki en şaşırtıcı bilmecelerden biri
grokkingolgusudur: eğitim doğruluğu kusursuz ama genelleme yeteneği zayıf olan bir ağ, ek eğitimle kusursuz genellemeye geçer. Biz, grokking’in görev hem bir genelleme çözümüne hem de bir ezberleme çözümüne izin verdiğinde ortaya çıktığını öne sürüyoruz; burada genelleme çözümü öğrenmesi daha yavaş olsa da daha verimlidir ve aynı parametre normuyla daha büyük logitler üretir. Ezberleme devrelerinin eğitim veri kümesi büyüdükçe daha verimsiz hale geldiğini, ancak genelleme devrelerinin böyle olmadığını varsayıyoruz; bu da ezberleme ile genellemenin eşit derecede verimli olduğu kritik bir veri kümesi boyutu bulunduğunu düşündürüyor. Grokking hakkında dört yeni öngörü ortaya koyup bunları doğrulayarak açıklamamız lehine önemli kanıtlar sunduk. En çarpıcı olarak, bir ağın kusursuz test doğruluğundan düşük test doğruluğuna gerilediğiungrokkingve ağın kusursuz test doğruluğu yerine kısmi test doğruluğuna gecikmeli genelleme gösterdiğisemi-grokkingolmak üzere iki yeni ve şaşırtıcı davranış gösterdik.
> One of the most surprising puzzles in neural network generalisation is grokking: a network with perfect training accuracy but poor generalisation will, upon further training, transition to perfect generalisation. We propose that grokking occurs when the task admits a generalising solution and a memorising solution, where the generalising solution is slower to learn but more efficient, producing larger logits with the same parameter norm. We hypothesise that memorising circuits become more inefficient with larger training datasets while generalising circuits do not, suggesting there is a critical dataset size at which memorisation and generalisation are equally efficient. We make and confirm four novel predictions about grokking, providing significant evidence in favour of our explanation. Most strikingly, we demonstrate two novel and surprising behaviours: ungrokking, in which a network regresses from perfect to low test accuracy, and semi-grokking, in which a network shows delayed generalisation to partial rather than perfect test accuracy.
Makale bağlantısı
https://arxiv.org/abs/2309.02390
Daha fazlasını okuyun
https://twitter.com/VikrantVarma_/status/1699823229307699305
AI Aldatması: Örnekler, Riskler ve Olası Çözümler Üzerine Bir Araştırma / AI Deception: A Survey of Examples, Risks, and Potential Solutions
Makale tanıtımı
- Yapay zeka aldatmasının ampirik örneklerine dair bir araştırma sunuyor. #survey makalesi
> Provides a survey of empirical examples of ai deception.
Makale özeti
- Bu makale, güncel çeşitli yapay zeka sistemlerinin insanları nasıl aldatacağını öğrendiğini savunuyor. Aldatmayı, doğruluk dışındaki bir sonuca ulaşmak için yanlış inançların sistematik biçimde oluşturulması olarak tanımlıyoruz. Öncelikle AI aldatmasının ampirik örneklerini inceliyor; belirli rekabetçi durumlar için oluşturulmuş özel amaçlı AI sistemlerini (Meta'nın CICERO'su dahil) ve genel amaçlı AI sistemlerini (büyük dil modelleri gibi) ele alıyoruz. Ardından dolandırıcılık, seçimlere müdahale ve AI sistemleri üzerindeki kontrolün kaybedilmesi gibi AI aldatmasından kaynaklanan çeşitli riskleri ayrıntılandırıyoruz. Son olarak, AI aldatmasının doğurduğu sorunlara yönelik bazı olası çözümleri ana hatlarıyla açıklıyoruz. Birincisi, düzenleyici çerçeveler aldatma kapasitesine sahip AI sistemlerini güçlü risk değerlendirme gerekliliklerine tabi tutmalıdır; ikincisi, politika yapıcılar bot-or-not yasalarını uygulamaya koymalıdır; son olarak da politika yapıcılar, AI aldatmasını tespit etmeye ve AI sistemlerini daha az aldatıcı hale getirmeye yönelik araçlar dahil ilgili araştırmaların finansmanına öncelik vermelidir. Politika yapıcılar, araştırmacılar ve daha geniş kamuoyu, AI aldatmasının toplumumuzun ortak temellerini istikrarsızlaştırmasını önlemek için proaktif biçimde çalışmalıdır.
> This paper argues that a range of current AI systems have learned how to deceive humans. We define deception as the systematic inducement of false beliefs in the pursuit of some outcome other than the truth. We first survey empirical examples of AI deception, discussing both special-use AI systems (including Meta's CICERO) built for specific competitive situations, and general-purpose AI systems (such as large language models). Next, we detail several risks from AI deception, such as fraud, election tampering, and losing control of AI systems. Finally, we outline several potential solutions to the problems posed by AI deception: first, regulatory frameworks should subject AI systems that are capable of deception to robust risk-assessment requirements; second, policymakers should implement bot-or-not laws; and finally, policymakers should prioritize the funding of relevant research, including tools to detect AI deception and to make AI systems less deceptive. Policymakers, researchers, and the broader public should work proactively to prevent AI deception from destabilizing the shared foundations of our society.
Makale bağlantısı
https://arxiv.org/abs/2308.14752
Daha fazlasını okuyun
https://twitter.com/DanHendrycks/status/1699437800301752332
FLM-101B: Açık Bir LLM ve 100 Bin Dolarlık Bütçeyle Nasıl Eğitilir / FLM-101B: An Open LLM and How to Train It with $100K Budget
Makale tanıtımı
- 101 milyar parametreye ve 0,31 TB tokena sahip, 100 bin dolarlık bütçeyle eğitilebilen yeni açık LLM FLM-101B için yazarlar çeşitli büyüme stratejilerini analiz ediyor ve parametre sayısını küçük boyuttan büyük boyuta artırarak nihayetinde maliyeti %50’den fazla azaltan agresif bir strateji kullanıyor. Yani 3 model ardışık olarak eğitiliyor ve her model daha küçük önceki modelin (16b -> 51b -> 101b) bilgisini devralırken rekabetçi performans elde ediyor.
> A new open llm called flm-101b with 101b parameters and 0.31tb tokens which can be trained on a $100k budget; the authors analyze different growth strategies, growing the number of parameters from smaller sizes to large ones. they ultimately employ an aggressive strategy that reduces costs by >50%. in other words, three models are trained sequentially with each model inheriting knowledge from its smaller predecessor (16b -> 51b -> 101b) while achieving competitive performance.
Makale özeti
- Büyük dil modelleri (LLM'ler) doğal dil işleme ve çok modlu görevlerde dikkat çekici başarılar elde etti. Ancak bu başarılara rağmen, büyük dil modellerinin geliştirilmesi iki temel zorlukla karşı karşıya: (i) yüksek hesaplama maliyeti ve (ii) adil ve nesnel değerlendirme yapmanın zorluğu. LLM'ler aşırı derecede pahalı olduğundan, eğitimlerini yalnızca az sayıda büyük oyuncu üstlenebiliyor; bu da hem araştırma hem de uygulama fırsatlarını kısıtlıyor. Bu durum, maliyet etkin LLM eğitiminin önemini ortaya koyuyor. Bu makalede, LLM eğitim maliyetini önemli ölçüde azaltmak için bir büyüme stratejisi kullanılıyor. 101 milyar parametreye ve 0,31 TB tokena sahip bir LLM'nin 100 bin dolarlık bütçeyle eğitilebildiği gösteriliyor. Ayrıca, daha çok bilgi odaklı yeteneklere yoğunlaşan mevcut değerlendirmeleri tamamlamak amacıyla, LLM'lerin IQ değerlendirmesi için sistematik bir değerlendirme paradigması benimseniyor. Sembolik eşleme, kural anlama, örüntü madenciliği ve müdahaleye dayanıklılık gibi zekânın önemli yönlerini değerlendiren bir benchmark sunuluyor. Bu tür değerlendirmeler ezberin olası etkisini en aza indiriyor. Deney sonuçları, 100 bin dolarlık bütçeyle eğitilen FLM-101B modelinin özellikle eğitim verisinde görülmemiş bağlamlar içeren IQ benchmark değerlendirmelerinde GPT-3 ve GLM-130B gibi güçlü ve iyi bilinen modellerle kıyaslanabilir performans sergilediğini gösteriyor. FLM-101B'nin checkpoint'i açık kaynak olarak https://huggingface.co/CofeAI/FLM-101B adresinde yayımlanacak.
> Large language models (LLMs) have achieved remarkable success in NLP and multimodal tasks. Despite these successes, their development faces two main challenges: (i) high computational cost; and (ii) difficulty in conducting fair and objective evaluations. LLMs are prohibitively expensive, making it feasible for only a few major players to undertake their training, thereby constraining both research and application opportunities. This underscores the importance of cost-effective LLM training. In this paper, we utilize a growth strategy to significantly reduce LLM training cost. We demonstrate that an LLM with 101B parameters and 0.31TB tokens can be trained on a $100K budget. We also adopt a systematic evaluation paradigm for the IQ evaluation of LLMs, in complement to existing evaluations that focus more on knowledge-oriented abilities. We introduce our benchmark including evaluations on important aspects of intelligence including symbolic mapping, itrule understanding, pattern mining, and anti-interference. Such evaluations minimize the potential impact of memorization. Experimental results show that our model FLM-101B, trained with a budget of $100K, achieves comparable performance to powerful and well-known models, eg GPT-3 and GLM-130B, especially in the IQ benchmark evaluations with contexts unseen in training data. The checkpoint of FLM-101B will be open-sourced at https://huggingface.co/CofeAI/FLM-101B.
Makale bağlantısı
https://arxiv.org/abs/2309.03852
Daha fazla bilgi
https://twitter.com/omarsar0/status/1700156132700963053
Dil ajanları için bilişsel mimariler / Cognitive Architectures for Language Agents
Makale tanıtımı
- Üretim sistemleri ve bilişsel mimarilerdeki benzerliklerden hareketle, tam teşekküllü dil ajanlarını anlamak ve inşa etmek için sistematik bir çerçeve öneriyor; bu çerçeve içinde dil tabanlı akıl yürütme, temellendirme, öğrenme ve karar verme için çeşitli yöntemleri, dil ajanlarının örnekleri olarak sistematik hale getiriyor.
> Proposes a systematic framework for understanding and building fully-fledged language agents drawing parallels from production systems and cognitive architectures; it systematizes diverse methods for llm-based reasoning, grounding, learning, and decision making as instantiations of language agents in the framework.
Makale özeti
- Son dönemdeki çalışmalar, dayanak veya akıl yürütme gerektiren görevler için büyük dil modellerini (LLM) harici kaynaklarla (ör. internet) ya da dahili kontrol akışlarıyla (ör. prompt chaining) birleştirmeye odaklanıyor. Ancak bu girişimlerin çoğu parçalı kaldı ve tam teşekküllü bir dil ajanı kurmak için sistematik bir çerçeveden yoksundu. Bu sorunu ele almak için, sembolik yapay zekada ajan tasarımının zengin geçmişinden yararlanarak yeni bir bilişsel dil ajanları dalgası için bir plan geliştiriyoruz. Öncelikle, LLM'lerin production system'larla birçok ortak özelliğe sahip olduğunu ve bunların dayanak ya da akıl yürütmesini geliştirmeye yönelik son çalışmaların, production system'lar etrafında inşa edilen bilişsel mimarilerin gelişimini yansıttığını gösteriyoruz. Ardından, dil ajanları için Bilişsel Mimariler'i (Cognitive Architectures for Language Agents, CoALA) öneriyoruz; bu, LLM tabanlı akıl yürütme, dayanaklandırma, öğrenme ve karar verme için farklı yöntemleri çerçeve içindeki dil ajanı örnekleri olarak sistematikleştiren kavramsal bir çerçevedir. Son olarak, CoALA çerçevesini kullanarak eksikleri vurguluyor ve gelecekte daha yetenekli dil ajanlarına yönelik uygulanabilir yönler öneriyoruz.
> Recent efforts have incorporated large language models (LLMs) with external resources (e.g., the Internet) or internal control flows (e.g., prompt chaining) for tasks requiring grounding or reasoning. However, these efforts have largely been piecemeal, lacking a systematic framework for constructing a fully-fledged language agent. To address this challenge, we draw on the rich history of agent design in symbolic artificial intelligence to develop a blueprint for a new wave of cognitive language agents. We first show that LLMs have many of the same properties as production systems, and recent efforts to improve their grounding or reasoning mirror the development of cognitive architectures built around production systems. We then propose Cognitive Architectures for Language Agents (CoALA), a conceptual framework to systematize diverse methods for LLM-based reasoning, grounding, learning, and decision making as instantiations of language agents in the framework. Finally, we use the CoALA framework to highlight gaps and propose actionable directions toward more capable language agents in the future.
Makale bağlantısı
https://arxiv.org/abs/2309.02427
Daha fazlasını okuyun
https://twitter.com/ShunyuYao12/status/1699396834983362690
Q-Transformer
Makale tanıtımı
- İnsan demoları ve otonom olarak toplanan verilerden yararlanarak büyük ölçekli offline veri kümeleri üzerinde çok görevli politikalar eğiten ölçeklenebilir bir RL yöntemi; geniş ve çeşitli gerçek dünya robotik manipülasyon görevleri paketinde iyi performans gösteriyor.
> A scalable rl method for training multi-task policies from large offline datasets leveraging human demonstrations and autonomously collected data; shows good performance on a large diverse real-world robotic manipulation task suite.
Makale bağlantısı
https://q-transformer.github.io/
Daha fazlasını okuyun
https://twitter.com/YevgenChebotar/status/1699909244743815677
Orijinal metin
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-b88
- *Bu yazı, GPT modeliyle otomatik olarak özetlenmiş bir açıklamadır; hatalı bilgiler içerebileceğinden lütfen orijinal metne başvurun! *
- Okurken garip ya da hatalı bir ifade fark ederseniz, lütfen yorumlarda bize bildirin! ♂️
Henüz yorum yok.