[2023/11/06 ~ 11/12] Bu Haftanın Öne Çıkan ML Makaleleri (Top ML Papers of the Week)
(discuss.pytorch.kr)Genel Bakış
-
DAIR.AI tarafından her hafta yayımlanan ML makalelerine dair yazıyı otomatik olarak çevirdik.
-
Bu hafta seçilen makalelere bakıldığında, Transformer modelleri ve büyük dil modelleri (Large Language Models, LLM) üzerine çok sayıda araştırma olduğu görülüyor.
-
'Simplifying Transformer Blocks', 'Understanding In-Context Learning Abilities in Transformers', 'S-LoRA' gibi başlıklar, Transformer modellerinin yapısını ve öğrenme mekanizmalarını daha derinlemesine anlamaya odaklanıyor gibi görünüyor.
-
'Hallucination in LLMs', 'On the Road with GPT-4V(ision)', 'GPT4All' ise GPT gibi büyük dil modellerinin performansını ve uygulama örneklerini ele alarak, büyük dil modellerinin gelişimi ve kullanım alanlarına güçlü bir odak olduğunu gösteriyor.
Büyük Dil Modellerinde Halüsinasyona Dair Bir Araştırma: İlkeler, Taksonomi, Zorluklar ve Açık Sorular / A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions
Makale Tanıtımı
- LLM'lerde halüsinasyon üzerine kapsamlı bir derleme makalesi (50+ sayfa); LLM'lerdeki halüsinasyon sorununa ilişkin ilkeler, taksonomi, zorluklar ve açık sorular hakkında bilgi sunuyor. #survey-paper #hallucination
> LLM'lerde halüsinasyon üzerine kapsamlı bir araştırma (50+ sayfa); LLM'lerdeki halüsinasyon sorununa ilişkin ilkeler, taksonomi, zorluklar ve açık sorular hakkında bilgi sunar.
Makale Özeti
- Büyük dil modellerinin (LLM) ortaya çıkışı, doğal dil işleme (NLP) alanında önemli bir dönüm noktası olmuş; metni anlama ve üretmede kayda değer ilerlemeler sağlamıştır. Bununla birlikte, bu ilerlemelerin yanında LLM'ler, gerçek dünya olguları veya kullanıcı girdileriyle tutarsız içerikler üreten halüsinasyonlar oluşturma yönünde kritik bir eğilim sergilemektedir. Bu olgu, pratikte kullanıma alınmalarında ciddi zorluklar yaratmakta ve gerçek dünya senaryolarında LLM'lerin güvenilirliği konusunda endişelere yol açmaktadır; bu da söz konusu halüsinasyonları tespit etmeye ve azaltmaya yönelik ilginin artmasına neden olmaktadır. Bu derlemede, LLM halüsinasyonları alanındaki son gelişmelere dair kapsamlı ve derinlemesine bir genel bakış sunmayı amaçlıyoruz. Önce LLM halüsinasyonları için yenilikçi bir taksonomiyle başlıyor, ardından halüsinasyonlara katkıda bulunan etkenleri ayrıntılı olarak inceliyoruz. Sonrasında, halüsinasyon tespit yöntemleri ve benchmark'lara dair kapsamlı bir genel bakış sunuyoruz. Ayrıca, halüsinasyonları azaltmak için tasarlanmış temsilî yaklaşımları da buna uygun şekilde tanıtıyoruz. Son olarak, mevcut sınırlamaları ortaya koyan zorlukları analiz ediyor ve açık soruları formüle ederek, LLM'lerde halüsinasyonlara ilişkin gelecekteki araştırmalar için olası yolları ortaya koymayı amaçlıyoruz.
> Büyük dil modellerinin (LLM) ortaya çıkışı, doğal dil işleme (NLP) alanında önemli bir dönüm noktası olmuş; metni anlama ve üretmede kayda değer ilerlemeler sağlamıştır. Bununla birlikte, bu ilerlemelerin yanında LLM'ler, gerçek dünya olguları veya kullanıcı girdileriyle tutarsız içerikler üreten halüsinasyonlar oluşturma yönünde kritik bir eğilim sergilemektedir. Bu olgu, pratikte kullanıma alınmalarında ciddi zorluklar yaratmakta ve gerçek dünya senaryolarında LLM'lerin güvenilirliği konusunda endişelere yol açmaktadır; bu da söz konusu halüsinasyonları tespit etmeye ve azaltmaya yönelik ilginin artmasına neden olmaktadır. Bu derlemede, LLM halüsinasyonları alanındaki son gelişmelere dair kapsamlı ve derinlemesine bir genel bakış sunmayı amaçlıyoruz. Önce LLM halüsinasyonları için yenilikçi bir taksonomiyle başlıyor, ardından halüsinasyonlara katkıda bulunan etkenleri ayrıntılı olarak inceliyoruz. Sonrasında, halüsinasyon tespit yöntemleri ve benchmark'lara dair kapsamlı bir genel bakış sunuyoruz. Ayrıca, halüsinasyonları azaltmak için tasarlanmış temsilî yaklaşımları da buna uygun şekilde tanıtıyoruz. Son olarak, mevcut sınırlamaları ortaya koyan zorlukları analiz ediyor ve açık soruları formüle ederek, LLM'lerde halüsinasyonlara ilişkin gelecekteki araştırmalar için olası yolları ortaya koymayı amaçlıyoruz.
Makale Bağlantısı
https://arxiv.org/abs/2311.05232
Daha Fazla Okuma
https://x.com/omarsar0/status/1722985251129966705
Transformer Bloklarını Basitleştirmek / Simplifying Transformer Blocks
Makale Tanıtımı
- Transformer bloğunu basitleştirmeyi inceliyor ve birçok blok bileşeninin eğitim hızında kayıp olmadan çıkarılabileceğini ortaya koyuyor; autoregressive decoder-only ve BERT encoder-only modelleri gibi farklı mimariler kullanılarak, basitleştirilmiş blokların standart Transformer'ların güncelleme başına eğitim hızını ve performansını taklit ettiği, hatta daha az parametreyle (%15) %15 daha hızlı eğitim throughput'u sağlayabildiği gösteriliyor.
> Transformer bloğunu basitleştirmeyi inceler ve birçok blok bileşeninin eğitim hızında kayıp olmadan çıkarılabileceğini bulur; autoregressive decoder-only ve BERT encoder-only modelleri gibi farklı mimariler kullanarak, basitleştirilmiş bloklar standart Transformer'ların güncelleme başına eğitim hızını ve performansını taklit eder, hatta daha az parametreyle (%15) %15 daha hızlı eğitim throughput'u elde eder.
Makale Özeti
- Derin Transformer'lar için basit bir tasarım reçetesi, aynı yapı taşlarını birleştirmektir. Ancak standart Transformer blokları basit olmaktan uzaktır; attention ve MLP alt bloklarını skip connection'lar ve normalizasyon katmanlarıyla hassas düzenler içinde iç içe geçirir. Bu karmaşıklık, görünüşte küçük değişikliklerin eğitim hızını ciddi ölçüde düşürebildiği ya da modelleri eğitilemez hale getirebildiği kırılgan mimarilere yol açar. Bu çalışma, standart Transformer bloğunun ne ölçüde sadeleştirilebileceğini soruyor. Sinyal yayılımı teorisi ile ampirik gözlemleri birleştirerek, skip connection'lar, projection veya value parametreleri, sıralı alt bloklar ve normalizasyon katmanları dahil birçok blok bileşeninin eğitim hızında kayıp olmadan kaldırılabilmesini sağlayan değişiklikleri gerekçelendiriyor. Otoregresif yalnızca decoder ve BERT yalnızca encoder modelleri üzerindeki deneylerde sadeleştirilmiş Transformer'lar, standart Transformer'ların güncelleme başına eğitim hızını ve performansını taklit ederken, %15 daha hızlı eğitim throughput'u ve %15 daha az parametre kullanmıştır.
> A simple design recipe for deep Transformers is to compose identical building blocks. But standard transformer blocks are far from simple, interweaving attention and MLP sub-blocks with skip connections & normalisation layers in precise arrangements. This complexity leads to brittle architectures, where seemingly minor changes can significantly reduce training speed, or render models untrainable. In this work, we ask to what extent the standard transformer block can be simplified? Combining signal propagation theory and empirical observations, we motivate modifications that allow many block components to be removed with no loss of training speed, including skip connections, projection or value parameters, sequential sub-blocks and normalisation layers. In experiments on both autoregressive decoder-only and BERT encoder-only models, our simplified transformers emulate the per-update training speed and performance of standard transformers, while enjoying 15% faster training throughput, and using 15% fewer parameters.
Makale bağlantısı
https://arxiv.org/abs/2311.01906
Daha fazlasını okuyun
https://x.com/maksym_andr/status/1722235666724192688
Ön eğitim veri karışımları, Transformer modellerinde dar model seçimi yeteneklerini mümkün kılıyor / Pretraining Data Mixtures Enable Narrow Model Selection Capabilities in Transformer Models
Makale tanıtımı
- Transformer'ların, ön eğitim veri karışımları arasında köprü kurarak hem ön eğitim dağılımı içindeki hem de dışındaki yeni görevleri bağlam içinde tanımlayıp öğrenmede ne kadar etkili olduğunu inceler. İncelenen rejimlerde, modellerin bağlam içi öğrenme davranışının ön eğitim verilerinin ötesine genellenebildiğine dair kanıt sınırlıdır.
> Investigates how effectively transformers can bridge between pretraining data mixture to identify and learn new tasks in-context which are both inside and outside the pretraining distribution; in the regimes studied, there is limited evidence that the models’ in-context learning behavior is capable of generalizing beyond their pretraining data.
Makale özeti
- Transformer modelleri, özellikle büyük dil modelleri (LLM'ler), açık bir model eğitimi olmadan, daha önce görülmemiş giriş-çıkış örnekleri verildiğinde yeni görevleri yerine getirebilen bağlam içi öğrenme (ICL) yeteneğine sahiptir. Bu çalışma, birden fazla farklı görev ailesinden oluşan ön eğitim veri karışımları arasında Transformer'ların ne kadar etkili biçimde köprü kurabildiğini; ön eğitim dağılımının hem içinde hem de dışında yer alan yeni görevleri bağlam içinde tanımlayıp öğrenebildiğini inceliyor. Önceki çalışmaları temel alarak bu soru, doğal dil yerine $(x, f(x))$ çiftlerinden oluşan diziler üzerinde eğitilmiş Transformer modellerinin incelendiği kontrollü bir ortamda araştırılıyor. Ampirik sonuçlar, görev aileleri ön eğitim verisinde iyi temsil edildiğinde Transformer'ların önce farklı görev ailelerini bağlam içinde tanımlama, ardından bunların içinde bağlam içi öğrenme gerçekleştirme konusunda neredeyse optimal gözetimsiz model seçimi yetenekleri sergilediğini gösteriyor. Ancak ön eğitim verilerinin alanı dışında kalan görevler veya fonksiyonlarla karşılaşıldığında, Transformer'ların çeşitli başarısızlık modları sergilediği ve basit ekstrapolasyon görevlerinde bile genelleme performansının düştüğü gösteriliyor. Bu sonuçlar birlikte değerlendirildiğinde, yüksek kapasiteli dizi modellerinin etkileyici ICL yeteneklerinin, temel genelleme kabiliyetleri oluşturan tümevarımsal önyargılardan ziyade, ön eğitim veri karışımlarının kapsama alanıyla daha yakından ilişkili olabileceğine işaret ediyor.
> Transformer models, notably large language models (LLMs), have the remarkable ability to perform in-context learning (ICL) -- to perform new tasks when prompted with unseen input-output examples without any explicit model training. In this work, we study how effectively transformers can bridge between their pretraining data mixture, comprised of multiple distinct task families, to identify and learn new tasks in-context which are both inside and outside the pretraining distribution. Building on previous work, we investigate this question in a controlled setting, where we study transformer models trained on sequences of $(x, f(x))$ pairs rather than natural language. Our empirical results show transformers demonstrate near-optimal unsupervised model selection capabilities, in their ability to first in-context identify different task families and in-context learn within them when the task families are well-represented in their pretraining data. However when presented with tasks or functions which are out-of-domain of their pretraining data, we demonstrate various failure modes of transformers and degradation of their generalization for even simple extrapolation tasks. Together our results highlight that the impressive ICL abilities of high-capacity sequence models may be more closely tied to the coverage of their pretraining data mixtures than inductive biases that create fundamental generalization capabilities.
Makale bağlantısı
https://arxiv.org/abs/2311.00871
Daha fazlasını okuyun
https://x.com/abacaj/status/1721223737729581437
Basit ve Kontrol Edilebilir Müzik Üretimi / Simple and Controllable Music Generation
Makale tanıtımı
- Sıkıştırılmış ayrık müzik temsillerinin birden çok akışı üzerinde çalışan, transformer tabanlı tek aşamalı bir llm olarak; metin açıklamalarına veya melodi özelliklerine göre koşullandırma yaparken yüksek kaliteli örnekler (mono ve stereo) üretebilir.
> Sıkıştırılmış ayrık müzik temsillerinin birden çok akışı üzerinde çalışan transformer tabanlı tek aşamalı bir llm; metin açıklaması veya melodi özelliklerine göre koşullandırılırken yüksek kaliteli örnekler (mono ve stereo) üretebilir.
Makale özeti
- Koşullu müzik üretimi görevini ele alıyor. Sıkıştırılmış ayrık müzik temsillerinin, yani token'ların birden çok akışı üzerinde çalışan tek bir Language Model (LM) olan MusicGen'i tanıtıyor. Önceki çalışmalardan farklı olarak MusicGen, verimli token interleaving düzenleriyle birlikte tek aşamalı bir transformer LM'den oluşur; bu da hiyerarşik yapılar veya upsampling gibi birden çok modeli art arda kullanma gereksinimini ortadan kaldırır. Bu yaklaşım doğrultusunda MusicGen'in, metin açıklamaları veya melodi özellikleriyle koşullandırılırken hem mono hem de stereo yüksek kaliteli örnekler üretebildiğini ve aynı zamanda üretilen çıktı üzerinde daha iyi kontrol sağladığını gösteriyor. Hem otomatik hem de insan değerlendirmelerini kapsayan kapsamlı deneysel değerlendirmeler gerçekleştirerek, önerilen yaklaşımın standart bir text-to-music benchmark'ında değerlendirilen baseline'lara üstün geldiğini gösteriyor. Ablation çalışmaları aracılığıyla, MusicGen'i oluşturan her bir bileşenin önemini ortaya koyuyor. Müzik örnekleri, kod ve modeller https://github.com/facebookresearch/audiocraft adresinde bulunabilir
> Koşullu müzik üretimi görevini ele alıyoruz. Sıkıştırılmış ayrık müzik temsillerinin, yani token'ların birden çok akışı üzerinde çalışan tek bir Language Model (LM) olan MusicGen'i tanıtıyoruz. Önceki çalışmalardan farklı olarak MusicGen, verimli token interleaving düzenleriyle birlikte tek aşamalı bir transformer LM'den oluşur; bu da örneğin hiyerarşik olarak veya upsampling ile birden çok modeli art arda kullanma gereksinimini ortadan kaldırır. Bu yaklaşımı izleyerek, MusicGen'in metin açıklamaları veya melodi özelliklerine göre koşullandırılırken hem mono hem de stereo yüksek kaliteli örnekler üretebildiğini ve üretilen çıktı üzerinde daha iyi kontrol sağladığını gösteriyoruz. Hem otomatik hem de insan çalışmalarını dikkate alan kapsamlı deneysel değerlendirmeler yaparak, önerilen yaklaşımın standart bir text-to-music benchmark'ında değerlendirilen baseline'lardan daha üstün olduğunu gösteriyoruz. Ablation çalışmalarıyla, MusicGen'i oluşturan bileşenlerin her birinin önemini ortaya koyuyoruz. Müzik örnekleri, kod ve modeller https://github.com/facebookresearch/audiocraft adresinde mevcuttur
Makale bağlantısı
https://arxiv.org/abs/2306.05284
Daha fazlası
https://x.com/AIatMeta/status/1723043913638810025
Verimli Transformer Modelleri için Dönüşümlü Güncellemeler / Alternating Updates for Efficient Transformers
Makale tanıtımı
- Hesaplama maliyetini artırmadan transformer modellerindeki ölçek ve kapasite artışından yararlanmayı mümkün kılan bir yöntemdir; her katmanda genişletilmiş temsilin bir alt bloğu üzerinde çalışıp, tahmin et ve düzelt mekanizmasıyla devre dışı bırakılan blokları güncelleyerek öğrenilen temsili genişletir ve gecikmede yalnızca ihmal edilebilir bir artışa neden olur.
> Transformer modellerinde artan ölçek ve kapasiteden, hesaplama maliyetini artırmadan yararlanmayı mümkün kılan bir yöntem; her katmanda genişletilmiş temsilin bir alt bloğu üzerinde çalışıp, tahmin et ve düzelt mekanizması kullanarak etkin olmayan blokları günceller; öğrenilen temsili genişletirken gecikmede yalnızca ihmal edilebilir bir artış yaratır.
Makale özeti
- Derin transformer ağlarının ölçeği büyüdükçe kalite ve performansın arttığı artık iyi bilinen bir gerçek. Ancak bu ölçek artışı çoğu zaman hesaplama maliyeti ve çıkarım gecikmesinde aşırı artışları da beraberinde getirir. Pure Storage, hesaplama yükü olmadan model kapasitesini artırabilen, uygulaması basit bir yöntem olan Alternating Updates (AltUp)'ı tanıtıyor. AltUp, öğrenilmiş temsili, yani token embedding'ini genişletmeyi sağlarken gecikmeyi yalnızca ihmal edilebilir düzeyde artırır. AltUp bunu, her katmanda genişletilmiş temsilin bir alt bloğu üzerinde çalışarak ve devre dışı bırakılmış blokları güncellemek için bir tahmin-et-ve-düzelt mekanizması kullanarak başarır. Araştırmacılar, dizi boyutuna uygulanabilirliği gibi AltUp uzantılarını sunuyor ve AltUp'ın Sparse Mixture-of-Experts modelleri gibi mevcut yaklaşımlarla nasıl sinerjik biçimde birleştirilebileceğini göstererek daha da yüksek kapasiteli verimli modeller elde ediyor. Kıyaslama transformer modelleri ve dil görevleri üzerinde yapılan deneyler, AltUp'ın çeşitli senaryolarda tutarlı etkinliğini gösteriyor. Özellikle SuperGLUE ve SQuAD kıyaslamalarında AltUp, aynı doğrulukta yoğun baseline'lara kıyasla $87%$'ye kadar hızlanma sağlıyor.
> Derin transformer ağlarında ölçeği artırmanın kalite ve performans iyileşmesine yol açtığı uzun zamandır iyi bilinmektedir. Ancak bu ölçek artışı çoğu zaman hesaplama maliyeti ve çıkarım gecikmesinde kabul edilemez artışlarla birlikte gelir. Biz, hesaplama yükü olmadan bir modelin kapasitesini artırmak için uygulaması kolay bir yöntem olan Alternating Updates (AltUp)'ı tanıtıyoruz. AltUp, öğrenilmiş temsilin, yani token embedding'inin genişletilmesini sağlarken gecikmede yalnızca ihmal edilebilir bir artışa neden olur. AltUp bunu, her katmanda genişletilmiş temsilin bir alt bloğu üzerinde çalışarak ve devre dışı bırakılan blokları güncellemek için bir tahmin-et-ve-düzelt mekanizması kullanarak gerçekleştirir. AltUp'ın dizi boyutuna uygulanabilirliği gibi uzantılarını sunuyor ve Sparse Mixture-of-Experts modelleri gibi mevcut yaklaşımlarla AltUp'ın sinerjik biçimde nasıl birleştirilebileceğini göstererek daha da yüksek kapasiteli verimli modeller elde ediyoruz. Kıyaslama transformer modelleri ve dil görevleri üzerindeki deneylerimiz, AltUp'ın farklı senaryolarda tutarlı etkinliğini ortaya koyuyor. Özellikle SuperGLUE ve SQuAD kıyaslamalarında AltUp, aynı doğruluk düzeyinde yoğun baseline'lara göre $87%$'ye kadar hızlanma sağlıyor.
Makale bağlantısı
https://arxiv.org/abs/2301.13310
Daha fazlasını okuyun
https://x.com/GoogleAI/status/1722004366201418132
Yeniden ifade et ve yanıtla: Büyük dil modelleri kendileri için daha iyi sorular sorsun / Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves
Makale tanıtımı
- İnsanların sorduğu soruları yeniden ifade etmek ve genişletmek için LLM'leri kullanan etkili bir prompt yöntemi; genel performansı artırır, çok çeşitli görevlerde farklı modellerin performansını iyileştirebilir ve bu yaklaşım chain-of-thought ile birleştirilerek performans daha da artırılabilir.
> İnsanlar tarafından yöneltilen soruları yeniden ifade etmek ve genişletmek için llm'leri kullanan etkili bir prompting yöntemi; genel performansı iyileştirmek için kullanılabilir; çok çeşitli görevlerde farklı modellerin performansını artırabilir; yaklaşım, performansı daha da yükseltmek için chain-of-thought ile birleştirilebilir.
Makale özeti
- Yanlış anlamalar yalnızca kişiler arası iletişimde değil, insanlar ile büyük dil modelleri (LLM) arasında da ortaya çıkar. Bu tür uyumsuzluklar, LLM'lerin görünüşte net olan soruları beklenmedik şekillerde yorumlamasına ve yanlış yanıtlar üretmesine yol açabilir. Soru gibi bir prompt'un kalitesinin, LLM'lerin verdiği yanıtın kalitesini önemli ölçüde etkilediği yaygın olarak kabul edilse de, LLM'lerin daha iyi anlayabileceği sorular üretmeye yönelik sistematik yöntemler hâlâ yeterince gelişmiş değildir. Bu makale, insanlar tarafından sorulan soruları yeniden ifade edip genişleterek tek bir prompt içinde yanıt üretebilen
Rephrase and Respond(RaR) adlı bir yöntem sunuyor. Bu yaklaşım, performansı artırmak için basit ama etkili bir prompting yöntemi olarak öne çıkıyor. Ayrıca RaR'ın iki aşamalı bir varyantı da tanıtılıyor: önce yeniden ifade etme görevindeki bir LLM soruyu yeniden yazar, ardından orijinal soru ile yeniden yazılmış soru birlikte farklı bir yanıtlayıcı LLM'e iletilir. Bu sayede, bir LLM tarafından üretilen yeniden ifade edilmiş soruların başka bir LLM ile etkili biçimde kullanılması mümkün olur. Deneyler, bu yöntemin çok çeşitli görevlerde farklı modellerin performansını anlamlı ölçüde artırdığını gösteriyor. Çalışma ayrıca RaR ile yaygın kullanılan Chain-of-Thought (CoT) yöntemi arasında hem kuramsal hem de deneysel açıdan kapsamlı bir karşılaştırma sunuyor. Sonuçlar, RaR'ın CoT'yi tamamlayıcı nitelikte olduğunu ve CoT ile birleştirildiğinde daha da iyi performans sağlayabildiğini gösteriyor. Bu çalışma yalnızca LLM performansını verimli ve etkili biçimde artırmaya katkı sunmakla kalmıyor, aynı zamanda LLM yeteneklerinin adil değerlendirilmesine de ışık tutuyor. Veri ve kodlara https://github.com/uclaml/Rephrase-and-Respond adresinden ulaşılabilir.
> Misunderstandings arise not only in interpersonal communication but also between humans and Large Language Models (LLMs). Such discrepancies can make LLMs interpret seemingly unambiguous questions in unexpected ways, yielding incorrect responses. While it is widely acknowledged that the quality of a prompt, such as a question, significantly impacts the quality of the response provided by LLMs, a systematic method for crafting questions that LLMs can better comprehend is still underdeveloped. In this paper, we present a method named `Rephrase and Respond' (RaR), which allows LLMs to rephrase and expand questions posed by humans and provide responses in a single prompt. This approach serves as a simple yet effective prompting method for improving performance. We also introduce a two-step variant of RaR, where a rephrasing LLM first rephrases the question and then passes the original and rephrased questions together to a different responding LLM. This facilitates the effective utilization of rephrased questions generated by one LLM with another. Our experiments demonstrate that our methods significantly improve the performance of different models across a wide range to tasks. We further provide a comprehensive comparison between RaR and the popular Chain-of-Thought (CoT) methods, both theoretically and empirically. We show that RaR is complementary to CoT and can be combined with CoT to achieve even better performance. Our work not only contributes to enhancing LLM performance efficiently and effectively but also sheds light on a fair evaluation of LLM capabilities. Data and codes are available at https://github.com/uclaml/Rephrase-and-Respond.
Makale bağlantısı
https://arxiv.org/abs/2311.04205
Daha fazlasını okuyun
https://x.com/QuanquanGu/status/1722364144379396513
GPT-4V(ision) ile yolda: otonom sürüşte görsel-dil modeline yönelik ilk incelemeler / On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving
Makale tanıtımı
- En yeni görsel-dil modeli GPT-4V(ision) ve bunun otonom sürüşe uygulanışı kapsamlı biçimde değerlendiriliyor; model, mevcut otonom sürüş sistemleriyle karşılaştırıldığında sahne anlama ve nedensel akıl yürütmede üstün performans gösteriyor.
> Provides an exhaustive evaluation of the latest state-of-the-art visual language model, gpt-4v(ision), and its application in autonomous driving; the model demonstrates superior performance in scene understanding and causal reasoning compared to existing autonomous systems.
Makale özeti
- Otonom sürüş teknolojisinin hayata geçirilmesi; algı, karar verme ve kontrol sistemlerinin gelişmiş biçimde entegre edilmesine bağlıdır. Veri odaklı ve kural tabanlı geleneksel yaklaşımlar, karmaşık sürüş ortamlarının inceliklerini ve diğer yol kullanıcılarının niyetlerini kavrayamama sınırlamasına sahipti. Bu durum, özellikle güvenli ve güvenilir otonom sürüş için gerekli olan sağduyulu akıl yürütme ve incelikli sahne anlayışının geliştirilmesinde büyük bir darboğaz oluşturdu. Görsel dil modellerinin (VLM) ortaya çıkışı, tam otonom sürüşü gerçekleştirmede yeni bir ufuk açtı. Bu rapor, en yeni son teknoloji VLM'lerin ve bunların otonom sürüş senaryolarındaki uygulamalarının kapsamlı bir değerlendirmesini sunuyor. Sürüş sahnelerini anlayıp bunlar üzerinde akıl yürüterek karar veren ve nihayetinde bir sürücü gibi davranabilen model yetenekleri inceleniyor. Temel sahne tanımadan karmaşık nedensel akıl yürütmeye ve farklı koşullar altında gerçek zamanlı karar vermeye kadar uzanan kapsamlı testler gerçekleştirildi. Test sonuçlarına göre 'model adı', mevcut otonom sürüş sistemlerine kıyasla sahne anlayışı ve nedensel akıl yürütmede üstün performans gösterdi. Bu, gerçek sürüş bağlamlarında dağılım dışı senaryoları ele alma, niyetleri tanıma ve bilgiye dayalı kararlar verme potansiyelini ortaya koyuyor. Ancak yön tespiti, trafik ışığı tanıma, görsel grounding ve mekânsal akıl yürütme gibi görevlerde hâlâ zorluklar bulunuyor. Bu sınırlamalar, daha fazla araştırma ve geliştirme ihtiyacını vurguluyor. İlgilenenlerin erişip kullanabilmesi için proje artık GitHub'da mevcut: URL{https://github.com/PJLab-ADG/GPT4V-AD-Exploration}
> Otonom sürüş teknolojisinin peşindeki çaba, algı, karar verme ve kontrol sistemlerinin sofistike entegrasyonuna dayanır. Hem veri odaklı hem de kural tabanlı geleneksel yaklaşımlar, karmaşık sürüş ortamlarının nüanslarını ve diğer yol kullanıcılarının niyetlerini kavrayamamaları nedeniyle engellenmiştir. Bu durum, özellikle güvenli ve güvenilir otonom sürüş için gerekli olan sağduyulu akıl yürütme ve incelikli sahne anlayışının geliştirilmesinde önemli bir darboğaz olmuştur. Visual Language Models (VLM), tam otonom araç sürüşünü gerçekleştirmede yeni bir sınırı temsil etmektedir. Bu rapor, en güncel son teknoloji VLM olan \modelnamefull ve onun otonom sürüş senaryolarındaki uygulamasına ilişkin kapsamlı bir değerlendirme sunmaktadır. Modelin sürüş sahnelerini anlama ve bunlar üzerinde akıl yürütme, karar verme ve nihayetinde sürücü rolünde hareket etme becerilerini inceliyoruz. Kapsamlı testlerimiz, temel sahne tanımadan karmaşık nedensel akıl yürütmeye ve değişen koşullar altında gerçek zamanlı karar vermeye kadar uzanmaktadır. Bulgularımız, \modelname'in mevcut otonom sistemlere kıyasla sahne anlayışı ve nedensel akıl yürütmede üstün performans gösterdiğini ortaya koymaktadır. Model, gerçek sürüş bağlamlarında dağılım dışı senaryoları ele alma, niyetleri tanıma ve bilinçli kararlar verme potansiyelini göstermektedir. Ancak özellikle yön ayırt etme, trafik ışığı tanıma, vision grounding ve mekânsal akıl yürütme görevlerinde zorluklar sürmektedir. Bu sınırlamalar, daha fazla araştırma ve geliştirme ihtiyacının altını çizmektedir. İlgilenenlerin erişip kullanabilmesi için proje artık GitHub'da mevcut: \url{https://github.com/PJLab-ADG/GPT4V-AD-Exploration}
Makale bağlantısı
https://arxiv.org/abs/2311.05332
Daha fazlası
https://x.com/arankomatsuzaki/status/1722795897359139057
GPT4All: Açık kaynak sıkıştırılmış dil modeli ekosistemi / GPT4All: An Ecosystem of Open Source Compressed Language Models
Makale tanıtımı
- LLM erişiminin demokratikleştirilmesini amaçlayan açık kaynak deposuyla birlikte GPT4All model ailesinin teknik ayrıntılarını kısaca özetler.
> gpt4all model ailesinin teknik ayrıntılarını ve LLM'lere erişimi demokratikleştirmeyi amaçlayan açık kaynak depoyu ana hatlarıyla açıklar.
Makale özeti
- Son dönemde büyük dil modelleri (LLM), çeşitli profesyonel ve akademik benchmark'larda insan seviyesinde performansa ulaştı. Bu modellerin erişilebilirliği ise performanslarının gerisinde kaldı. En gelişmiş LLM'ler pahalı altyapı gerektiriyor; yalnızca hız sınırına sahip, coğrafi olarak kısıtlanmış ve sansürlü web arayüzleri üzerinden erişilebiliyor; ayrıca kamuya açık kod ve teknik raporlardan yoksun. Bu makalede, LLM'lere erişimi demokratikleştirmeyi amaçlayan popüler açık kaynak deposu GPT4All'un hikâyesi anlatılıyor. Ayrıca orijinal GPT4All model ailesinin teknik ayrıntıları ile GPT4All projesinin tek bir modelden tam teşekküllü bir açık kaynak ekosistemine dönüşümü kısaca açıklanıyor. Bu makalenin, hem orijinal GPT4All modellerine dair teknik bir genel bakış hem de GPT4All açık kaynak ekosisteminin sonraki büyümesine ilişkin bir vaka çalışması olarak işlev görmesi umuluyor.
> Büyük dil modelleri (LLM'ler) son dönemde çeşitli profesyonel ve akademik benchmark'larda insan seviyesinde performans elde etti. Bu modellerin erişilebilirliği, performanslarının gerisinde kaldı. En gelişmiş LLM'ler maliyetli altyapı gerektirir; yalnızca oran sınırlı, coğrafi olarak kilitli ve sansürlü web arayüzleri üzerinden erişilebilir; ayrıca kamuya açık kod ve teknik raporlara sahip değildir. Bu makalede, LLM'lere erişimi demokratikleştirmeyi amaçlayan popüler açık kaynak deposu GPT4All'un hikâyesini anlatıyoruz. Orijinal GPT4All model ailesinin teknik ayrıntılarını ve GPT4All projesinin tek bir modelden tam teşekküllü bir açık kaynak ekosistemine evrimini ana hatlarıyla aktarıyoruz. Umudumuz, bu makalenin hem orijinal GPT4All modellerine dair teknik bir genel bakış hem de GPT4All açık kaynak ekosisteminin sonraki büyümesine ilişkin bir vaka çalışması işlevi görmesidir.
Makale bağlantısı
https://arxiv.org/abs/2311.04931
Daha fazlası
https://x.com/_akhaliq/status/1722833378590793915
S-LoRA: Binlerce eşzamanlı LoRA adaptörüne hizmet sunma / S-LoRA: Serving Thousands of Concurrent LoRA Adapters
Makale tanıtımı
- Tüm adaptörleri ana bellekte depolayan, o anda çalışan sorguların adaptörlerini GPU belleğine getiren ve LoRA hesaplamasının heterojen toplu işlenmesi için yeni bir tensör paralelliği stratejisi ile son derece optimize edilmiş özel CUDA kernel'ları kullanan; diğer çözümlerle karşılaştırıldığında iş hacmini 4 kat artıran ve sunulan adaptör sayısını birkaç büyüklük mertebesi yükselten, çok sayıda LoRA adaptörünün ölçeklenebilir şekilde sunulmasını mümkün kılan bir yaklaşımdır.
> Çok sayıda lora adaptörünün ölçeklenebilir şekilde sunulmasını mümkün kılan bir yaklaşım; tüm adaptörleri ana bellekte depolar ve o anda çalışan sorguların adaptörlerini gpu belleğine getirir; lora hesaplamasının heterojen toplu işlenmesi için yeni bir tensör paralelliği stratejisi ve son derece optimize edilmiş özel cuda kernel'ları kullanır; diğer çözümlerle karşılaştırıldığında iş hacmini 4 kat artırır ve sunulan adaptör sayısını birkaç büyüklük mertebesi yükseltir.
Makale özeti
- Büyük dil modellerinin dağıtımında genellikle "önceden eğit, sonra ince ayar yap" paradigması benimsenir. Parametre açısından verimli bir ince ayar yöntemi olan Low-Rank Adaptation (LoRA), temel bir modeli çok sayıda göreve uyarlamak için sıkça kullanılır ve bunun sonucunda tek bir temel modelden türetilmiş büyük bir LoRA adaptörü koleksiyonu ortaya çıkar. Bu paradigmanın, servis sırasında toplu çıkarım için önemli fırsatlar sunduğunu gözlemliyoruz. Bu fırsatlardan yararlanmak için, çok sayıda LoRA adaptörünün ölçeklenebilir şekilde sunulması için tasarlanmış bir sistem olan S-LoRA'yı sunuyoruz. S-LoRA tüm adaptörleri ana bellekte depolar ve o anda çalışan sorgular tarafından kullanılan adaptörleri GPU belleğine getirir. GPU belleğini verimli kullanmak ve parçalanmayı azaltmak için S-LoRA, Unified Paging'i önerir. Unified Paging, farklı rank'lere sahip dinamik adaptör ağırlıklarını ve farklı dizi uzunluklarına sahip KV cache tensörlerini yönetmek için birleşik bir bellek havuzu kullanır. Ayrıca S-LoRA, LoRA hesaplamasının heterojen toplu işlenmesini desteklemek için yeni bir tensör paralelliği stratejisi ve son derece optimize edilmiş özel CUDA kernel'ları kullanır. Bu özelliklerin tamamı birlikte, S-LoRA'nın düşük ek yükle tek bir GPU üzerinde veya birden fazla GPU'ya yayılarak binlerce LoRA adaptörüne hizmet verebilmesini sağlar. HuggingFace PEFT ve vLLM gibi güncel kütüphanelerle (LoRA sunumuna naif destek veren) karşılaştırıldığında, S-LoRA iş hacmini 4 kata kadar artırabilir ve sunulan adaptör sayısını birkaç büyüklük mertebesi yükseltebilir. Sonuç olarak S-LoRA, göreve özel ince ayar yapılmış çok sayıda modelin ölçeklenebilir şekilde sunulmasını mümkün kılar ve büyük ölçekli özelleştirilmiş ince ayar hizmetleri için potansiyel sunar. Koda https://github.com/S-LoRA/S-LoRA adresinden ulaşılabilir.
> "Önceden eğit, sonra ince ayar yap" paradigması, büyük dil modellerinin dağıtımında yaygın olarak benimsenir. Parametre açısından verimli bir ince ayar yöntemi olan Low-Rank Adaptation (LoRA), bir temel modeli çok sayıda göreve uyarlamak için sıklıkla kullanılır ve bunun sonucunda tek bir temel modelden türetilmiş kayda değer bir LoRA adaptörü koleksiyonu oluşur. Bu paradigmanın, servis sırasında toplu çıkarım için önemli fırsatlar sunduğunu gözlemliyoruz. Bu fırsatlardan yararlanmak için, çok sayıda LoRA adaptörünün ölçeklenebilir şekilde sunulması için tasarlanmış bir sistem olan S-LoRA'yı sunuyoruz. S-LoRA, tüm adaptörleri ana bellekte depolar ve o anda çalışan sorgular tarafından kullanılan adaptörleri GPU belleğine getirir. GPU belleğini verimli kullanmak ve parçalanmayı azaltmak için S-LoRA, Unified Paging'i önerir. Unified Paging, farklı rank'lere sahip dinamik adaptör ağırlıklarını ve değişen dizi uzunluklarına sahip KV cache tensörlerini yönetmek için birleşik bir bellek havuzu kullanır. Ayrıca S-LoRA, LoRA hesaplamasının heterojen toplu işlenmesi için yeni bir tensör paralelliği stratejisi ve son derece optimize edilmiş özel CUDA kernel'ları kullanır. Bu özellikler birlikte, S-LoRA'nın düşük bir ek yükle tek bir GPU üzerinde veya birden fazla GPU'ya yayılarak binlerce LoRA adaptörüne hizmet verebilmesini sağlar. HuggingFace PEFT ve vLLM gibi son teknoloji kütüphanelerle (LoRA sunumuna naif destekle) karşılaştırıldığında, S-LoRA iş hacmini 4 kata kadar artırabilir ve sunulan adaptör sayısını birkaç büyüklük mertebesi yükseltebilir. Sonuç olarak S-LoRA, göreve özel ince ayar yapılmış çok sayıda modelin ölçeklenebilir şekilde sunulmasını mümkün kılar ve büyük ölçekli özelleştirilmiş ince ayar hizmetleri için potansiyel sunar. Kod https://github.com/S-LoRA/S-LoRA adresinde mevcuttur.
Makale bağlantısı
https://arxiv.org/abs/2311.03285v2
Daha fazlası
https://x.com/ai_database/status/1722190708797592013
FreshLLM: Arama motoru desteğiyle büyük dil modellerini güncelleme / FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation
Makale tanıtımı
- LLM tarafından üretilen metinlerin olgusallığını test etmek için dinamik bir QA benchmark'ı olan FreshQA'yı öneriyor; arama motorundan getirilen ilgili ve güncel bilgileri prompt'a entegre ederek FreshQA üzerinde bir LLM'in performansını önemli ölçüde artıran basit bir few-shot prompting yöntemi olan FreshPrompt'u sunuyor; ayrıca LLM'e kısa ve doğrudan yanıtlar üretmesi talimatı verilmesinin, daha uzun ve ayrıntılı yanıtları teşvik etmeye kıyasla halüsinasyonu azaltmaya yardımcı olduğunu ortaya koyuyor.
> LLM tarafından üretilen metinlerin olgusallığını test etmek için dinamik bir qa benchmark'ı (freshqa) önerir; arama motorundan getirilen ilgili ve güncel bilgileri prompt'a dahil ederek freshqa üzerinde bir llm'in performansını kayda değer ölçüde artıran basit bir few-shot prompting yöntemi olan freshprompt'u önerir; llm'e kısa ve doğrudan yanıtlar üretmesi talimatı vermenin, daha ayrıntılı yanıtları teşvik etmeye kıyasla halüsinasyonu azaltmaya yardımcı olduğunu bulur.
Makale özeti
- Büyük dil modellerinin (LLM) çoğu yalnızca bir kez eğitiliyor ve güncellenmiyor; bu nedenle sürekli değişen dünyaya dinamik olarak uyum sağlama yetenekleri sınırlı kalıyor. Bu çalışma, güncel dünya bilgisini sınayan sorulara yanıt verme bağlamında, LLM tarafından üretilen metinlerin olgusallığını ayrıntılı biçimde inceliyor. Özellikle, hızlı değişen dünya bilgisi gerektiren soruların yanı sıra çürütülmesi gereken yanlış öncüller içeren soruları da kapsayan, yeni bir dinamik soru-cevap kıyaslama seti olan FreshQA tanıtılıyor. Hem doğruluğu hem de halüsinasyon oranını ölçmeye imkân veren iki modlu bir değerlendirme prosedürü altında, çeşitli kapalı ve açık kaynaklı LLM’ler kıyaslanıyor. 50 binden fazla yargıyı içeren insan değerlendirmeleriyle, bu modellerin sınırlamaları ortaya konuyor ve önemli ölçüde geliştirme alanı bulunduğu gösteriliyor. Örneğin, model boyutundan bağımsız olarak tüm modellerin hızlı değişen bilgi ve yanlış öncül içeren sorularda zorlandığı görülüyor. Bu sonuçlardan hareketle, arama motorundan getirilen ilgili ve güncel bilgileri prompt’a entegre ederek FreshQA üzerinde LLM performansını belirgin biçimde artıran basit bir few-shot prompting yöntemi olan FreshPrompt sunuluyor. Deneyler, FreshPrompt’un Self-Ask (Press et al., 2022) gibi rakip arama motoru destekli prompting yöntemlerinin yanı sıra Perplexity.AI gibi ticari sistemlerden de daha iyi performans gösterdiğini ortaya koyuyor. FreshPrompt’a ilişkin ek analizler, getirilen kanıtların hem sayısının hem de sıralamasının LLM tarafından üretilen yanıtların doğruluğunu etkilemede kritik rol oynadığını gösteriyor. Ayrıca, LLM’e kısa ve doğrudan yanıtlar üretmesi talimatını vermenin, daha uzun yanıtları teşvik etmeye kıyasla halüsinasyonu azaltmaya yardımcı olduğu görülüyor. Gelecekteki çalışmaları kolaylaştırmak için FreshQA, github.com/freshllms/freshqa adresinde yayımlanıyor ve düzenli aralıklarla güncelleneceği taahhüt ediliyor.
> Most large language models (LLMs) are trained once and never updated; thus, they lack the ability to dynamically adapt to our ever-changing world. In this work, we perform a detailed study of the factuality of LLM-generated text in the context of answering questions that test current world knowledge. Specifically, we introduce FreshQA, a novel dynamic QA benchmark encompassing a diverse range of question and answer types, including questions that require fast-changing world knowledge as well as questions with false premises that need to be debunked. We benchmark a diverse array of both closed and open-source LLMs under a two-mode evaluation procedure that allows us to measure both correctness and hallucination. Through human evaluations involving more than 50K judgments, we shed light on limitations of these models and demonstrate significant room for improvement: for instance, all models (regardless of model size) struggle on questions that involve fast-changing knowledge and false premises. Motivated by these results, we present FreshPrompt, a simple few-shot prompting method that substantially boosts the performance of an LLM on FreshQA by incorporating relevant and up-to-date information retrieved from a search engine into the prompt. Our experiments show that FreshPrompt outperforms both competing search engine-augmented prompting methods such as Self-Ask (Press et al., 2022) as well as commercial systems such as Perplexity.AI. Further analysis of FreshPrompt reveals that both the number of retrieved evidences and their order play a key role in influencing the correctness of LLM-generated answers. Additionally, instructing the LLM to generate concise and direct answers helps reduce hallucination compared to encouraging more verbose answers. To facilitate future work, we release FreshQA at github.com/freshllms/freshqa and commit to updating it at regular intervals.
Makale bağlantısı
https://arxiv.org/abs/2310.03214
Daha fazlasını okuyun
https://x.com/_akhaliq/status/1710108355157487635
Orijinal metin
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-fc8
Henüz yorum yok.