[2023/09/25 ~ 10/01] Haftanın Öne Çıkan ML Makaleleri (Top ML Papers of the Week)
(discuss.pytorch.kr)Genel Bakış
- DAIR.AI tarafından her hafta yayımlanan ML makalelerine dair yazıyı otomatik olarak çevirdim.
- Bu haftaki makalelerin çoğu LLM'lere (Large Language Models) odaklanıyor gibi görünüyor. Özellikle farklı ortamlarda LLM süreç verimliliği algoritmalarının iyileştirilmesi, LLM'lerin Graph Neural Prompting yaklaşımı, mantıksal düşünme sürecinin uygulanması gibi çeşitli konular ele alınıyor.
- Bu hafta seçilen makaleler arasında, 'Boolformer' ve 'Vision Transformers Need Registers' gibi çalışmaların diğer yapay zeka alanlarıyla birleşerek ilerleyen araştırma eğilimini de görmek mümkün.
- Bu da yapay zeka teknolojilerinin gelişiminde yalnızca her alanı ayrı ayrı keşfetmenin değil, farklı alanları birleştirerek yeni yaklaşımlar ve çözümler aramanın da önemli bir parça olduğunu gösteriyor.
Tersine Çevirme Laneti / The Reversal Curse
Makale Tanıtımı
- 'a, b'dir' biçimindeki cümleler üzerinde eğitilen yapay sinir ağlarının, bunun ters yönü olan 'b, a'dır' ifadesine otomatik olarak genelleme yapmadığını, yani tersine çevirme lanetini ortaya koyuyor; kurgusal ifadeler üzerinde LLM'leri fine-tuning yaparak ve etkinin model boyutları ile model aileleri genelinde sağlamlığını göstererek bunu kanıtlıyor. #llm-reasoning
> Finds that llms trained on sentences of the form “a is b” will not automatically generalize to the reverse direction “b is a”, i.e., the reversal curse; shows the effect through finetuning llms on fictitious statements and demonstrating its robustness across model sizes and model families.
Makale Bağlantısı
https://owainevans.github.io/reversal_curse.pdf
Daha Fazlası
https://x.com/OwainEvans_UK/status/1705285631520407821
Foundation Modellerinde Etkili Uzun Bağlam Ölçekleme / Effective Long-Context Scaling of Foundation Models
Makale Tanıtımı
- Uzun bağlam görevleri paketinde şimdiden
gpt-3.5-turbo-16k'nin genel performansını aşabilen bir70bvaryantı öneriyor. Buna, insan tarafından anotasyonlanmış uzun komut verisi gerektirmeyen, maliyet etkin bir instruction tuning süreci de dahil. #1b-context-window #100k-context-window
> Propose a 70b variant that can already surpass gpt-3.5-turbo-16k’s overall performance on a suite of long-context tasks. this involves a cost-effective instruction tuning procedure that does not require human-annotated long instruction data.
Makale Özeti
- En fazla 32.768 token'lık etkili bağlam pencerelerini destekleyen bir uzun bağlamlı LLM serisi sunuyoruz. Model serimiz, daha uzun eğitim dizileri kullanılarak ve uzun metinlerin upsample edildiği bir veri kümesi üzerinde Llama 2'den continual pretraining ile oluşturulmuştur. Dil modelleme, sentetik bağlam probing görevleri ve geniş bir araştırma benchmark yelpazesi üzerinde kapsamlı değerlendirmeler gerçekleştiriyoruz. Araştırma benchmark'larında modellerimiz, çoğu normal görevde tutarlı iyileşmeler ve uzun bağlam görevlerinde Llama 2'ye kıyasla önemli gelişmeler sağlıyor. Özellikle, insan anotasyonlu uzun komut verisi gerektirmeyen maliyet etkin bir instruction tuning süreciyle, 70B varyantı uzun bağlam görevleri paketinde
gpt-3.5-turbo-16k'nin genel performansını şimdiden aşabiliyor. Bu sonuçlarla birlikte, yöntemimizin tek tek bileşenlerine dair derinlemesine bir analiz de sunuyoruz. Llama'nın konum kodlamalarını ayrıntılı olarak inceliyor ve uzun bağımlılıkları modellemedeki sınırlamalarını tartışıyoruz. Ayrıca, ön eğitim sürecindeki çeşitli tasarım tercihlerinin etkisini de inceliyoruz; buna veri karışımı ve dizi uzunluklarına yönelik eğitim müfredatı dahildir -- ablation deneylerimiz, ön eğitim veri kümesinde bol miktarda uzun metin bulunmasının güçlü performans elde etmenin anahtarı olmadığını gösteriyor ve uzun dizilerle sıfırdan ön eğitim yapmaya kıyasla uzun bağlam continual pretraining yaklaşımının daha verimli ve benzer ölçüde etkili olduğunu ampirik olarak doğruluyoruz.
> We present a series of long-context LLMs that support effective context windows of up to 32,768 tokens. Our model series are built through continual pretraining from Llama 2 with longer training sequences and on a dataset where long texts are upsampled. We perform extensive evaluation on language modeling, synthetic context probing tasks, and a wide range of research benchmarks. On research benchmarks, our models achieve consistent improvements on most regular tasks and significant improvements on long-context tasks over Llama 2. Notably, with a cost-effective instruction tuning procedure that does not require human-annotated long instruction data, the 70B variant can already surpass gpt-3.5-turbo-16k's overall performance on a suite of long-context tasks. Alongside these results, we provide an in-depth analysis on the individual components of our method. We delve into Llama's position encodings and discuss its limitation in modeling long dependencies. We also examine the impact of various design choices in the pretraining process, including the data mix and the training curriculum of sequence lengths -- our ablation experiments suggest that having abundant long texts in the pretrain dataset is not the key to achieving strong performance, and we empirically verify that long context continual pretraining is more efficient and similarly effective compared to pretraining from scratch with long sequences.
Makale Bağlantısı
https://arxiv.org/abs/2309.16039
Daha Fazlası
https://x.com/omarsar0/status/1707780482178400261
Büyük Dil Modelleri ile Grafik Sinir Ağı Prompting / Graph Neural Prompting with Large Language Models
Makale Tanıtımı
- Önceden eğitilmiş LLM'lerin bilgi grafikleri (Knowledge Graph, KG) içinden faydalı bilgi öğrenmesine yardımcı olmak için plug-and-play bir yöntem öneriyor; buna standart bir grafik sinir ağı kodlayıcısı, çapraz modalite pooling modülü, alan projektörü ve öz denetimli bağlantı tahmini hedefi gibi çeşitli tasarımlar dahil. #knowledge-graph
> Proposes a plug-and-play method to assist pre-trained llms in learning beneficial knowledge from knowledge graphs (kgs); includes various designs, including a standard graph neural network encoder, a cross-modality pooling module, a domain projector, and a self-supervised link prediction objective.
Makale Özeti
- Büyük dil modelleri (LLM'ler), çeşitli dil modelleme görevlerinde olağanüstü performanslarıyla dikkat çekici bir genelleme yeteneği gösterdi. Ancak, temellendirilmiş bilgiyi doğru biçimde yakalayıp geri döndürme konusunda hâlâ yapısal sınırlamalar sergiliyorlar. Mevcut çalışmalar, ortak öğrenme ve özelleştirilmiş model mimarileri aracılığıyla dil modellemeyi geliştirmek için bilgi grafiklerinden yararlanmayı araştırdı; ancak bunu LLM'lere uygulamak, çok sayıda parametre ve yüksek hesaplama maliyeti nedeniyle zorludur. Ayrıca, önceden eğitilmiş LLM'lerden nasıl yararlanılacağı ve sıfırdan özelleştirilmiş bir model eğitmekten nasıl kaçınılacağı da hâlâ açık bir sorudur. Bu çalışmada, önceden eğitilmiş LLM'lerin KG'lerden faydalı bilgi öğrenmesine yardımcı olan yeni bir tak-çalıştır yöntemi olan Graph Neural Prompting (GNP) önerilmektedir. GNP; standart bir grafik sinir ağı kodlayıcısı, çapraz modalite havuzlama modülü, alan projektörü ve öz denetimli bağlantı tahmini hedefi dahil olmak üzere çeşitli tasarımlar içerir. Birden fazla veri kümesi üzerinde yapılan kapsamlı deneyler, farklı LLM boyutları ve ayarları genelinde hem sağduyu hem de biyomedikal akıl yürütme görevlerinde GNP'nin üstünlüğünü göstermektedir.
> Large Language Models (LLMs) have shown remarkable generalization capability with exceptional performance in various language modeling tasks. However, they still exhibit inherent limitations in precisely capturing and returning grounded knowledge. While existing work has explored utilizing knowledge graphs to enhance language modeling via joint training and customized model architectures, applying this to LLMs is problematic owing to their large number of parameters and high computational cost. In addition, how to leverage the pre-trained LLMs and avoid training a customized model from scratch remains an open question. In this work, we propose Graph Neural Prompting (GNP), a novel plug-and-play method to assist pre-trained LLMs in learning beneficial knowledge from KGs. GNP encompasses various designs, including a standard graph neural network encoder, a cross-modality pooling module, a domain projector, and a self-supervised link prediction objective. Extensive experiments on multiple datasets demonstrate the superiority of GNP on both commonsense and biomedical reasoning tasks across different LLM sizes and settings.
Makale bağlantısı
https://arxiv.org/abs/2309.15427
Daha fazla okuyun
https://x.com/omarsar0/status/1707211751354212382
Vision Transformers Need Registers / Vision Transformers Need Registers
Makale tanıtımı
- İç hesaplamalar için yeniden kullanılan vision transformer ağlarının özellik haritalarındaki artifaktları tanımlıyor ve bu rolü doldurmak için giriş dizisine ek token'lar sağlama çözümü öneriyor. Bu çözüm sorunu gideriyor, özellik ve attention haritalarını daha pürüzsüz hâle getiriyor ve yoğun görsel tahmin görevlerinde yeni state-of-the-art sonuçlar elde ediyor. #vision-transformer #transformer
> Identifies artifacts in feature maps of vision transformer networks that are repurposed for internal computations; this work proposes a solution to provide additional tokens to the input sequence to fill that role; the solution fixes the problem, leads to smoother feature and attention maps, and sets new state-of-the-art results on dense visual prediction tasks.
Makale özeti
- Transformer'lar son dönemde görsel temsiller öğrenmek için güçlü bir araç olarak öne çıktı. Bu makale, hem denetimli hem de öz denetimli ViT ağlarının özellik haritalarındaki artifaktları tanımlıyor ve özelliklerini analiz ediyor. Bu artifaktlar, esas olarak görüntülerin düşük bilgi içeren arka plan bölgelerinde çıkarım sırasında ortaya çıkan ve iç hesaplamalar için yeniden kullanılan yüksek normlu token'lara karşılık geliyor. Bu rolü üstlenmeleri için Vision Transformer'ın giriş dizisine ek token'lar sağlamaya dayanan basit ama etkili bir çözüm öneriyoruz. Bu çözümün, hem denetimli hem de öz denetimli modellerde bu sorunu tamamen giderdiğini, yoğun görsel tahmin görevlerinde öz denetimli görsel modeller için yeni bir state-of-the-art belirlediğini, daha büyük modellerle nesne keşfi yöntemlerini mümkün kıldığını ve en önemlisi aşağı akış görsel işleme için daha pürüzsüz özellik haritaları ve attention haritaları sağladığını gösteriyoruz.
> Transformers have recently emerged as a powerful tool for learning visual representations. In this paper, we identify and characterize artifacts in feature maps of both supervised and self-supervised ViT networks. The artifacts correspond to high-norm tokens appearing during inference primarily in low-informative background areas of images, that are repurposed for internal computations. We propose a simple yet effective solution based on providing additional tokens to the input sequence of the Vision Transformer to fill that role. We show that this solution fixes that problem entirely for both supervised and self-supervised models, sets a new state of the art for self-supervised visual models on dense visual prediction tasks, enables object discovery methods with larger models, and most importantly leads to smoother feature maps and attention maps for downstream visual processing.
Makale bağlantısı
https://arxiv.org/abs/2309.16588
Daha fazla okuyun
https://x.com/TimDarcet/status/1707769575981424866
Boolformer: Transformer'larla Mantık Fonksiyonlarının Sembolik Regresyonu / Boolformer: Symbolic Regression of Logic Functions with Transformers
Makale tanıtımı
- Boolean fonksiyonların uçtan uca sembolik regresyonunu gerçekleştirmek üzere eğitilmiş ilk transformer mimarisini sunuyor; karmaşık fonksiyonlar için kompakt formüller tahmin edebiliyor ve gen düzenleyici ağların dinamiklerinin modellenmesine uygulanabiliyor. #transformer
> Presents the first transformer architecture trained to perform end-to-end symbolic regression of boolean functions; it can predict compact formulas for complex functions and be applied to modeling the dynamics of gene regulatory networks.
Makale özeti
- Bu çalışma, Boole fonksiyonlarının uçtan uca sembolik regresyonunu gerçekleştirmek üzere eğitilmiş ilk Transformer mimarisi olan Boolformer'ı tanıtıyor. Önce, temiz bir doğruluk tablosu verildiğinde eğitim sırasında görülmemiş karmaşık fonksiyonlar için kompakt formüller tahmin edebildiğini gösteriyor. Ardından, eksik ve gürültülü gözlemler verildiğinde yaklaşık ifadeler bulma yeteneğini ortaya koyuyor. Boolformer'ı geniş bir gerçek dünya ikili sınıflandırma veri kümesi yelpazesinde değerlendirerek, klasik makine öğrenimi yöntemlerine yorumlanabilir bir alternatif olma potansiyelini gösteriyor. Son olarak, gen düzenleyici ağların dinamiklerini modelleme gibi yaygın bir göreve uyguluyor. Yakın tarihli bir benchmark kullanılarak Boolformer'ın, birkaç mertebe hız artışıyla son teknoloji genetik algoritmalarla rekabet edebildiği gösteriliyor. Kod ve modeller herkese açık olarak kullanılabiliyor.
> In this work, we introduce Boolformer, the first Transformer architecture trained to perform end-to-end symbolic regression of Boolean functions. First, we show that it can predict compact formulas for complex functions which were not seen during training, when provided a clean truth table. Then, we demonstrate its ability to find approximate expressions when provided incomplete and noisy observations. We evaluate the Boolformer on a broad set of real-world binary classification datasets, demonstrating its potential as an interpretable alternative to classic machine learning methods. Finally, we apply it to the widespread task of modelling the dynamics of gene regulatory networks. Using a recent benchmark, we show that Boolformer is competitive with state-of-the art genetic algorithms with a speedup of several orders of magnitude. Our code and models are available publicly.
Makale bağlantısı
https://arxiv.org/abs/2309.12207
Daha fazlasını oku
https://x.com/stephanedascoli/status/1706235856778834015
Büyük multimodal modelleri olgusal olarak güçlendirilmiş RLHF ile hizalama / Aligning Large Multimodal Models with Factually Augmented RLHF
Makale tanıtımı
- Büyük multimodal modelleri hizalamak için olgusal olarak güçlendirilmiş RLHF uygulanıyor. Bu yaklaşım, RLHF'deki reward hacking sorununu hafifletiyor ve LLaVA-Bench veri kümesindeki performansı yalnızca metin odaklı GPT-4'ün %94 performans seviyesine çıkarıyor. #llm-alignment #multimodal #rlhf
> Adapts factually augmented rlhf to aligning large multimodal models; this approach alleviates the reward hacking in rlhf and improves performance on the llava-bench dataset with the 94% performance level of the text-only gpt-4.
Makale özeti
- Büyük Multimodal Modeller (LMM), birden fazla modaliteye yayılmış şekilde inşa edilir ve iki modalite arasındaki hizasızlık, bağlamdaki multimodal bilgiye dayanmayan metin çıktıları üreten "halüsinasyon"lara yol açabilir. Multimodal hizasızlık sorununu çözmek için, metin alanındaki İnsan Geri Bildiriminden Pekiştirmeli Öğrenme'yi (RLHF) görsel-dil hizalama görevine uyarlıyoruz; burada insan anotatörlerden iki yanıtı karşılaştırmaları ve daha fazla halüsinasyon içeren olanı belirlemeleri istenir ve görsel-dil modeli simüle edilmiş insan ödüllerini maksimize edecek şekilde eğitilir. RLHF'nin reward hacking olgusunu hafifleten ve performansı daha da artıran, görüntü açıklamaları ve gerçek çoktan seçmeli seçenekler gibi ek olgusal bilgilerle ödül modelini güçlendiren Factually Augmented RLHF adlı yeni bir hizalama algoritması öneriyoruz. Ayrıca, modelimizin genel yeteneklerini iyileştirmek için GPT-4 tarafından üretilen eğitim verisini (görsel komut ince ayarı için), daha önce mevcut olan insan yazımı görüntü-metin çiftleriyle zenginleştirdik. Önerilen yaklaşımı gerçek dünya senaryolarında değerlendirmek için, halüsinasyonları cezalandırmaya özel olarak odaklanan yeni bir değerlendirme benchmark'ı olan MMHAL-BENCH'i geliştirdik. RLHF ile eğitilen ilk LMM olarak yaklaşımımız, LLaVA-Bench veri kümesinde yalnızca metin odaklı GPT-4'ün %94 performans seviyesine ulaşarak dikkate değer bir iyileşme sağladı (önceki en iyi yöntemler yalnızca %87 seviyesine ulaşabiliyordu) ve MMHAL-BENCH'te diğer baseline'lara göre %60 iyileşme gösterdi. Kod, model ve veri https://llava-rlhf.github.io adresinde açık kaynak olarak sunuluyor.
> Large Multimodal Models (LMM) are built across modalities and the misalignment between two modalities can result in "hallucination", generating textual outputs that are not grounded by the multimodal information in context. To address the multimodal misalignment issue, we adapt the Reinforcement Learning from Human Feedback (RLHF) from the text domain to the task of vision-language alignment, where human annotators are asked to compare two responses and pinpoint the more hallucinated one, and the vision-language model is trained to maximize the simulated human rewards. We propose a new alignment algorithm called Factually Augmented RLHF that augments the reward model with additional factual information such as image captions and ground-truth multi-choice options, which alleviates the reward hacking phenomenon in RLHF and further improves the performance. We also enhance the GPT-4-generated training data (for vision instruction tuning) with previously available human-written image-text pairs to improve the general capabilities of our model. To evaluate the proposed approach in real-world scenarios, we develop a new evaluation benchmark MMHAL-BENCH with a special focus on penalizing hallucinations. As the first LMM trained with RLHF, our approach achieves remarkable improvement on the LLaVA-Bench dataset with the 94% performance level of the text-only GPT-4 (while previous best methods can only achieve the 87% level), and an improvement by 60% on MMHAL-BENCH over other baselines. We opensource our code, model, data at https://llava-rlhf.github.io.
Makale bağlantısı
https://arxiv.org/abs/2309.14525
Daha fazlasını oku
https://x.com/arankomatsuzaki/status/1706839311306621182
Büyük Dil Modeli Hizalama: Bir Araştırma / Large Language Model Alignment: A Survey
Makale tanıtımı
- Dışsal hizalama, içsel hizalama, mekanistik yorumlanabilirlik, hizalanmış LLM'lere yönelik saldırılar, hizalama değerlendirmesi, gelecekteki yönelimler ve tartışmalar konularını kapsayan, LLM hizalaması üzerine kapsamlı bir araştırma makalesi. #survey-paper #llm-alignment
> LLM hizalaması üzerine kapsamlı bir araştırma makalesi; konular arasında dışsal hizalama, içsel hizalama, mekanistik yorumlanabilirlik, hizalanmış LLM'lere saldırılar, hizalama değerlendirmesi, gelecekteki yönelimler ve tartışmalar yer alır.
Makale özeti
- Son yıllarda büyük dil modelleri (LLM'ler) dikkat çekici ilerlemeler kaydetti. Bu ilerlemeler büyük ilgi görürken aynı zamanda çeşitli endişeleri de beraberinde getirdi. Bu modellerin potansiyeli tartışmasız biçimde çok geniştir; ancak hatalı, yanıltıcı hatta zararlı metinler de üretebilirler. Bu nedenle, bu modellerin insan değerleriyle uyumlu davranışlar sergilemesini sağlamak için hizalama tekniklerinin kullanılması son derece önemlidir. Bu araştırma, bu alandaki mevcut yetenek araştırmalarıyla birlikte LLM'ler için tasarlanmış hizalama yöntemlerine ilişkin kapsamlı bir inceleme sunmayı amaçlamaktadır. Yapay zeka hizalaması perspektifini benimseyerek, LLM'lerin hizalanmasına yönelik yaygın yöntemleri ve yeni önerileri dışsal hizalama ve içsel hizalama olarak sınıflandırıyoruz. Ayrıca modellerin yorumlanabilirliği ve adversarial saldırılara karşı potansiyel kırılganlıkları gibi önemli meseleleri de inceliyoruz. LLM hizalamasını değerlendirmek için çok çeşitli benchmark'lar ve değerlendirme metodolojileri sunuyoruz. LLM'ler için hizalama araştırmalarının mevcut durumunu tartıştıktan sonra, son olarak geleceğe yönelik bir vizyon ortaya koyuyor ve önümüzde uzanan umut verici araştırma alanlarını ele alıyoruz. Bu araştırmayla hedefimiz yalnızca bu alana yönelik araştırma ilgisini artırmanın ötesine geçmektedir. Aynı zamanda, hem yetkin hem de güvenli LLM'ler için yapay zeka hizalama araştırma topluluğu ile LLM'lerin yetenek keşfine odaklanan araştırmacılar arasındaki boşluğu kapatmayı amaçlıyoruz.
> Son yıllar, büyük dil modellerinde (LLM'ler) kayda değer ilerlemelere sahne oldu. Bu gelişmeler önemli ölçüde ilgi toplarken, eşzamanlı olarak çeşitli kaygıları da beraberinde getirdi. Bu modellerin potansiyeli kuşkusuz çok büyüktür; ancak yanlış, yanıltıcı hatta zararlı metinler üretebilirler. Dolayısıyla, bu modellerin insan değerleriyle tutarlı davranışlar sergilemesini sağlamak için hizalama tekniklerinin kullanılması kritik hale gelmektedir. Bu araştırma, bu alandaki mevcut yetenek araştırmalarıyla birlikte LLM'ler için tasarlanmış hizalama metodolojilerine dair kapsamlı bir inceleme sunmayı amaçlamaktadır. Yapay zeka hizalaması merceğini benimseyerek, LLM hizalamasına yönelik mevcut yöntemleri ve yeni ortaya çıkan önerileri dışsal ve içsel hizalama olarak sınıflandırıyoruz. Ayrıca modellerin yorumlanabilirliği ve adversarial saldırılara yönelik potansiyel zayıflıkları dahil olmak üzere önemli meseleleri de inceliyoruz. LLM hizalamasını değerlendirmek için çok çeşitli benchmark'lar ve değerlendirme metodolojileri sunuyoruz. LLM'lere yönelik hizalama araştırmalarının durumunu tartıştıktan sonra, son olarak geleceğe dönük bir vizyon ortaya koyuyor ve ileride uzanan umut verici araştırma yollarını değerlendiriyoruz. Bu araştırmaya yönelik hedefimiz yalnızca bu alana ilişkin araştırma ilgisini teşvik etmekle sınırlı değildir. Aynı zamanda, hem yetkin hem de güvenli LLM'ler için yapay zeka hizalama araştırma topluluğu ile LLM'lerin yetenek keşfine yoğunlaşan araştırmacılar arasındaki boşluğu kapatmayı da amaçlıyoruz.
Makale bağlantısı
https://arxiv.org/abs/2309.15025
Daha fazla bilgi
https://x.com/omarsar0/status/1706845285064818905
Qwen Teknik Raporu / Qwen Technical Report
Makale tanıtımı
- Dil ajanları oluşturmak için araç kullanımı ve planlama yetenekleri içeren görevlerde RLHF'nin gücünü gösteren bir dizi LLM öneriyor. #qwen-vl #rlhf
> Dil ajanları oluşturmak amacıyla araç kullanımı ve planlama yeteneklerini içeren görevlerde RLHF'nin gücünü ortaya koyan bir dizi LLM öneriyor.
Makale özeti
- Büyük dil modelleri (LLM), yapay zeka alanında devrim yaratarak daha önce yalnızca insanlara özgü olduğu düşünülen doğal dil işleme görevlerini mümkün kıldı. Bu yazıda, büyük dil modeli serimizin ilk ürünü olan Qwen'i tanıtıyoruz. Qwen, farklı parametre sayılarına sahip çeşitli modelleri kapsayan kapsamlı bir dil modeli serisidir. Buna, önceden eğitilmiş temel dil modeli Qwen ile insan hizalama teknikleriyle ince ayar yapılmış sohbet modeli Qwen-Chat dahildir. Temel dil modeli, çeşitli aşağı akış görevlerinde sürekli olarak üstün performans gösterirken, özellikle insan geri bildirimiyle pekiştirmeli öğrenme (RLHF) kullanılarak eğitilen sohbet modeli son derece rekabetçidir. Sohbet modeli, ajan uygulamaları oluşturmak için gelişmiş araç kullanımı ve planlama yeteneklerine sahiptir; kod yorumlayıcı kullanımı gibi karmaşık görevlerde daha büyük modellerle karşılaştırıldığında bile etkileyici performans sergiler. Ayrıca, temel dil modeli üzerine inşa edilen kodlama odaklı modeller Code-Qwen ve Code-Qwen-Chat ile matematik odaklı model Math-Qwen-Chat de geliştirildi. Bu modeller, açık kaynak modellere kıyasla belirgin biçimde daha iyi performans gösterirken, özel modellere göre ise biraz geride kalıyor.
> Large language models (LLMs) have revolutionized the field of artificial intelligence, enabling natural language processing tasks that were previously thought to be exclusive to humans. In this work, we introduce Qwen, the first installment of our large language model series. Qwen is a comprehensive language model series that encompasses distinct models with varying parameter counts. It includes Qwen, the base pretrained language models, and Qwen-Chat, the chat models finetuned with human alignment techniques. The base language models consistently demonstrate superior performance across a multitude of downstream tasks, and the chat models, particularly those trained using Reinforcement Learning from Human Feedback (RLHF), are highly competitive. The chat models possess advanced tool-use and planning capabilities for creating agent applications, showcasing impressive performance even when compared to bigger models on complex tasks like utilizing a code interpreter. Furthermore, we have developed coding-specialized models, Code-Qwen and Code-Qwen-Chat, as well as mathematics-focused models, Math-Qwen-Chat, which are built upon base language models. These models demonstrate significantly improved performance in comparison with open-source models, and slightly fall behind the proprietary models.
Makale bağlantısı
https://arxiv.org/abs/2309.16609
Daha fazlasını okuyun
https://x.com/omarsar0/status/1707776749042364729
MentalLLaMA: Büyük dil modelleri kullanılarak sosyal medyada yorumlanabilir ruh sağlığı analizi / MentalLLaMA: Interpretable Mental Health Analysis on Social Media with Large Language Models
Makale tanıtımı
- Talimat izleme yeteneğine sahip, yorumlanabilir ruh sağlığı analizi için açık kaynak bir llm serisi; ayrıca sosyal medyada 105 bin veri örneği içeren çok görevli ve çok kaynaklı, yorumlanabilir bir ruh sağlığı talimat veri kümesi öneriyor. #medical #llm-for-clinical-task #llama
> An open-source llm series for interpretable mental health analysis with instruction-following capability; it also proposes a multi-task and multi-source interpretable mental health instruction dataset on social media with 105k data samples.
Makale özeti
- Web teknolojilerinin gelişmesiyle birlikte sosyal medya metinleri, otomatik ruh sağlığı analizi için zengin bir kaynak haline geliyor. Mevcut ayırt edici yöntemlerin düşük yorumlanabilirlik sorunu taşıması nedeniyle, son dönemde sosyal medyada yorumlanabilir ruh sağlığı analizi için tahminlerle birlikte ayrıntılı açıklamalar sunmayı amaçlayan büyük dil modelleri araştırılıyor. Sonuçlar, ChatGPT'nin doğru sınıflandırmalar için insana yakın açıklamalar üretebildiğini gösterdi. Ancak LLM'ler, zero-shot/few-shot yaklaşımında hâlâ tatmin edici olmayan bir sınıflandırma performansı sergiliyor. Alana özgü ince ayar etkili bir çözüm olsa da iki sorunla karşı karşıya: 1) yüksek kaliteli eğitim verisi eksikliği. 2) ince ayar maliyetini düşürebilecek, yorumlanabilir ruh sağlığı analizi için açık kaynaklı bir LLM henüz yayımlanmadı. Facebook, bu sorunları hafifletmek için sosyal medya üzerinde 105 bin veri örneğinden oluşan ilk çok görevli ve çok kaynaklı yorumlanabilir ruh sağlığı talimatı (IMHI) veri setini oluşturdu. Ham sosyal medya verileri, 8 ruh sağlığı analizi görevini kapsayan mevcut 10 kaynaktan toplanıyor. Uzmanlar tarafından yazılmış few-shot prompt'lar ve toplanan etiketler kullanılarak ChatGPT'ye istem veriliyor ve yanıtlarından açıklamalar elde ediliyor. Açıklamaların güvenilirliğini sağlamak için, üretilen verilerin doğruluğu, tutarlılığı ve kalitesi üzerinde sıkı otomatik ve insan değerlendirmeleri yapılıyor. IMHI veri seti ve LLaMA2 foundation model temel alınarak, talimat takip yeteneğine sahip yorumlanabilir ruh sağlığı analizi için ilk açık kaynaklı LLM serisi olan MentalLLaMA eğitiliyor. Ayrıca MentalLLaMA'nın performansı, tahmin doğruluğu ve açıklama kalitesinin incelendiği 10 test kümesinden oluşan IMHI değerlendirme benchmark'ı üzerinde ölçülüyor. Sonuç olarak MentalLLaMA'nın, en gelişmiş ayırt edici yöntemlere yakın doğruluk sağladığı ve yüksek kaliteli açıklamalar ürettiği görüldü.
> With the development of web technology, social media texts are becoming a rich source for automatic mental health analysis. As traditional discriminative methods bear the problem of low interpretability, the recent large language models have been explored for interpretable mental health analysis on social media, which aims to provide detailed explanations along with predictions. The results show that ChatGPT can generate approaching-human explanations for its correct classifications. However, LLMs still achieve unsatisfactory classification performance in a zero-shot/few-shot manner. Domain-specific finetuning is an effective solution, but faces 2 challenges: 1) lack of high-quality training data. 2) no open-source LLMs for interpretable mental health analysis were released to lower the finetuning cost. To alleviate these problems, we build the first multi-task and multi-source interpretable mental health instruction (IMHI) dataset on social media, with 105K data samples. The raw social media data are collected from 10 existing sources covering 8 mental health analysis tasks. We use expert-written few-shot prompts and collected labels to prompt ChatGPT and obtain explanations from its responses. To ensure the reliability of the explanations, we perform strict automatic and human evaluations on the correctness, consistency, and quality of generated data. Based on the IMHI dataset and LLaMA2 foundation models, we train MentalLLaMA, the first open-source LLM series for interpretable mental health analysis with instruction-following capability. We also evaluate the performance of MentalLLaMA on the IMHI evaluation benchmark with 10 test sets, where their correctness for making predictions and the quality of explanations are examined. The results show that MentalLLaMA approaches state-of-the-art discriminative methods in correctness and generates high-quality explanations.
Makale bağlantısı
https://arxiv.org/abs/2309.13567
Daha fazlasını okuyun
https://x.com/SAnaniadou/status/1707668936634794442
Mantık aracılığıyla büyük dil modellerinde zero-shot chain-of-thought akıl yürütmesini güçlendirmek / Enhancing Zero-Shot Chain-of-Thought Reasoning in Large Language Models through Logic
Makale tanıtımı
- LLM'lerin zero-shot chain-of-thought akıl yürütmesini geliştirmek için yeni bir nöro-sembolik çerçeve; simgesel mantık ilkelerinden yararlanarak akıl yürütme süreçlerini doğrular ve revize eder, böylece LLM'lerin akıl yürütme yeteneklerini geliştirir. #chain-of-thought
> A new neurosymbolic framework to improve zero-shot chain-of-thought reasoning in llms; leverages principles from symbolic logic to verify and revise reasoning processes to improve the reasoning capabilities of llms.
Makale özeti
- Büyük dil modellerindeki son gelişmeler, çeşitli alanlarda dikkat çekici genelleme yetenekleri sergiledi. Ancak akıl yürütme yeteneklerinde, özellikle çok adımlı akıl yürütme gerektiren senaryolarla karşılaşıldığında, hâlâ önemli bir gelişim alanı bulunuyor. Büyük dil modelleri geniş kapsamlı bilgiye sahip olsa da, özellikle akıl yürütme açısından bu bilgiyi tutarlı bir düşünme paradigması kurmak için etkili biçimde kullanmakta çoğu zaman başarısız oluyor. Üretken dil modelleri, akıl yürütme süreçleri mantıksal ilkelerle sınırlandırılmadığı için zaman zaman halüsinasyon da gösterebiliyor. Büyük dil modellerinin zero-shot düşünce zinciri akıl yürütme yeteneğini geliştirmeyi amaçlayarak, akıl yürütme süreçlerini doğrulamak ve buna göre revize etmek için sembolik mantık ilkelerinden yararlanan nöro-sembolik bir çerçeve olan Logical Chain-of-Thought (LogiCoT) öneriyoruz. Aritmetik, sağduyu, sembolik akıl yürütme, nedensel çıkarım ve toplumsal problemler dahil çeşitli alanlardaki dil görevleri üzerinde yapılan deneysel değerlendirmeler, mantıkla güçlendirilmiş bu akıl yürütme paradigmasının etkili olduğunu göstermektedir.
> Büyük dil modellerindeki son gelişmeler, çeşitli alanlarda dikkat çekici genelleme yetenekleri sergilemiştir. Ancak akıl yürütme yeteneklerinde, özellikle çok adımlı akıl yürütme gerektiren senaryolarla karşılaşıldığında, hâlâ önemli bir gelişim alanı vardır. Büyük dil modelleri geniş kapsamlı bilgiye sahip olsa da, özellikle akıl yürütme açısından bu bilgiyi tutarlı bir düşünme paradigması oluşturmak için etkili biçimde kullanmakta çoğu zaman başarısız olur. Üretken dil modelleri, akıl yürütme süreçleri mantıksal ilkelerle sınırlandırılmadığı için bazen halüsinasyon gösterir. Büyük dil modellerinin zero-shot düşünce zinciri akıl yürütme yeteneğini geliştirmeyi amaçlayarak, akıl yürütme süreçlerini doğrulamak ve buna göre revize etmek için sembolik mantık ilkelerinden yararlanan nöro-sembolik bir çerçeve olan Logical Chain-of-Thought (LogiCoT) öneriyoruz. Aritmetik, sağduyu, sembolik akıl yürütme, nedensel çıkarım ve toplumsal problemler dahil çeşitli alanlardaki dil görevleri üzerinde yapılan deneysel değerlendirmeler, mantıkla güçlendirilmiş akıl yürütme paradigmasının etkililiğini göstermektedir.
Makale bağlantısı
https://arxiv.org/abs/2309.13339
Daha fazlasını okuyun
https://x.com/omarsar0/status/1706711389803287019
Orijinal metin
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-c24
2 yorum
Vay be.. özenle hazırlanmış yazıyı keyifle okudum.
Teşekkürler ^^;