[2023/11/20 ~ 11/26] Bu Haftanın Öne Çıkan ML Makaleleri (Top ML Papers of the Week)
(discuss.pytorch.kr)Genel Bakış
-
DAIR.AI tarafından her hafta yayımlanan ML makalelerine dair yazıyı otomatik olarak çevirdik.
-
Bu hafta seçilen makaleler ağırlıklı olarak 'Large Language Models(LLMs)', 'AI System içindeki Reasoning and Attention' ve 'Medical Domain içinde Artificial Intelligence' ile ilgili eğilimler taşıyor.
-
Özellikle, 'AI System içindeki Reasoning and Attention' konusu belirgin biçimde öne çıkıyor. Bu da yapay zekanın yalnızca örüntü tanımanın ötesine geçip, insana benzer akıl yürütme ve problem çözme becerileri kazanmaya yönelik çabaları yansıtıyor.
-
Tıp alanında yapay zekanın kullanımına ilişkin araştırmalar da dikkat çekici. 'LLMs as Collaborators for Medical Reasoning', bu alanın önemli bir örneği olarak, tıbbi verileri ele almada LLM'lerin (büyük dil modelleri) uygulama potansiyelini inceliyor.
-
Özetle, bu hafta seçilen makaleler; karmaşık akıl yürütme yetenekleri ile insana benzer attention odaklama mekanizmalarının geliştirilmesine ve tıp alanında yapay zeka uygulamalarına odaklanan çok sayıda araştırma olduğunu gösteriyor. Bu da yapay zeka teknolojilerinin gelişim yönünü gösteren önemli bir gösterge olarak yorumlanabilir.
(Sizin de ihtiyaç duyabileceğiniz) Sistem 2 Attention / System 2 Attention (is something you might need too)
Makale Tanıtımı
- LLM'nin akıl yürütme ve komut izleme yeteneklerinden yararlanarak neye dikkat edilmesi gerektiğini belirler; girdi bağlamını yalnızca ilgili bölümleri içerecek şekilde yeniden oluşturur ve modelden nihai yanıtı almak için yeniden oluşturulan bağlama attention uygular; olgusallığı artırır ve soru-cevap ile matematik sözel problemleri gibi görevlerde standart attention tabanlı LLM'lerden daha iyi performans gösterir.
Leverages the reasoning and instruction following capabilities of llms to decide what to attend to; it regenerates input context to only include relevant portions before attending to the regenerated context to elicit the final response from the model; increases factuality and outperforms standard attention-based llms on tasks such as qa and math world problems.
Makale Özeti
- Transformer tabanlı büyük dil modellerinde (LLM) soft attention, bağlamdaki ilgisiz bilgileri gizil temsillere dahil etmeye yatkındır ve bu durum bir sonraki token üretimini olumsuz etkiler. Bu sorunları gidermeye yardımcı olmak için, LLM'lerin doğal dilde akıl yürütme ve talimatları izleme yeteneğinden yararlanarak neye attention uygulanacağına karar veren System 2 Attention'ı (S2A) sunuyoruz. S2A, girdi bağlamını yalnızca ilgili kısımları içerecek şekilde yeniden oluşturur; ardından nihai yanıtı elde etmek için bu yeniden oluşturulan bağlama attention uygular. Deneylerde S2A, görüş veya ilgisiz bilgi içeren üç görevde — QA, matematik sözel problemleri ve uzun biçimli üretim — standart attention tabanlı LLM'lerden daha iyi performans göstermiş; olgusallığı ve nesnelliği artırırken yaranmacılığı azaltmıştır.
Soft attention in Transformer-based Large Language Models (LLMs) is susceptible to incorporating irrelevant information from the context into its latent representations, which adversely affects next token generations. To help rectify these issues, we introduce System 2 Attention (S2A), which leverages the ability of LLMs to reason in natural language and follow instructions in order to decide what to attend to. S2A regenerates the input context to only include the relevant portions, before attending to the regenerated context to elicit the final response. In experiments, S2A outperforms standard attention-based LLMs on three tasks containing opinion or irrelevant information, QA, math word problems and longform generation, where S2A increases factuality and objectivity, and decreases sycophancy.
Makale Bağlantısı
https://arxiv.org/abs/2311.11829
Daha Fazla Oku
https://x.com/jaseweston/status/1726784511357157618
Uzun Bağlamlı Büyük Dil Modellerinde Transformer Mimarisini Geliştirmek: Kapsamlı Bir Araştırma / Advancing Transformer Architecture in Long-Context Large Language Models: A Comprehensive Survey
Makale Tanıtımı
- Ön eğitimden çıkarıma kadar tüm aşamalarda uzun bağlam yeteneklerini optimize eden transformer mimarisi modüllerini geliştirme metodolojilerine genel bir bakış.
An overview of the methodologies for enhancing transformer architecture modules that optimize long-context capabilities across all stages from pre-training to inference.
Makale Özeti
- ChatGPT'nin fitilini ateşlediği Transformer tabanlı büyük dil modelleri (LLM'ler), yapay genel zekaya (AGI) giden yolda devrim niteliğinde bir yol açtı ve bilgi tabanları, insan arayüzleri ve dinamik ajanlar gibi çeşitli alanlarda kullanılmaya başlandı. Ancak yaygın bir sınırlama var: kaynak kısıtları altındaki güncel LLM'lerin çoğu ağırlıklı olarak daha kısa metinler üzerinde ön eğitim aldığı için, gerçek dünyada sıkça karşılaşılan uzun bağlamlı istemlerde daha az etkili kalıyor. Bu makale, ön eğitimden çıkarıma kadar tüm aşamalarda uzun bağlam yeteneklerini optimize etmek amacıyla Transformer tabanlı LLM'lerde model mimarisinin gelişimine odaklanan kapsamlı bir derleme sunuyor. İlk olarak, mevcut Transformer tabanlı modellerin uzun bağlamlı girdi ve çıktıları işlerken yaşadığı sorunlar tanımlanıp analiz ediliyor. Ardından, bu sorunları çözmek için mimari düzeydeki Transformer yükseltmelerinin genel görünümünü yönlendiren bütüncül bir sınıflandırma sunuluyor. Sonrasında, veri kümeleri, metrikler ve temel modeller dahil olmak üzere uzun bağlamlı LLM'lere özel olarak yaygın kullanılan değerlendirme bileşenleri inceleniyor; ayrıca kütüphaneler, sistemler ve derleyiciler gibi, farklı aşamalarda LLM'lerin verimliliğini ve etkinliğini artıran dikkat çekici optimizasyon araç takımları tanıtılıyor. Son olarak, bu alandaki başlıca zorluklar ve gelecekteki araştırmalar için potansiyel yönler tartışılıyor. Ayrıca, ilgili literatürü gerçek zamanlı güncellemelerle derlediğimiz bir depo da oluşturduk: https://github.com/Strivin0311/long-llms-learning.
ChatGPT'nin fitilini ateşlemesiyle birlikte, Transformer tabanlı Büyük Dil Modelleri (LLM'ler), Yapay Genel Zekaya (AGI) doğru devrim niteliğinde bir yol açtı ve bilgi tabanları, insan arayüzleri ve dinamik ajanlar olarak farklı alanlarda uygulanmaya başladı. Ancak yaygın bir sınırlama mevcut: kaynak kısıtları nedeniyle günümüzdeki birçok LLM, esas olarak daha kısa metinler üzerinde ön eğitim alıyor; bu da onları gerçek dünyada sıkça karşılaşılan daha uzun bağlamlı istemlerde daha az etkili hale getiriyor. Bu makalede, ön eğitimden çıkarıma kadar tüm aşamalarda uzun bağlam yeteneklerini optimize etmek amacıyla Transformer tabanlı LLM'lerde model mimarisinin ilerlemesine odaklanan kapsamlı bir derleme sunuyoruz. İlk olarak, mevcut Transformer tabanlı modellerle uzun bağlamlı girdi ve çıktıları ele almanın sorunlarını tanımlayıp analiz ediyoruz. Ardından, bu sorunları çözmek için mimari düzeydeki Transformer geliştirmelerinin genel manzarasında yol göstermeyi amaçlayan bütüncül bir sınıflandırma sunuyoruz. Sonrasında, veri kümeleri, metrikler ve temel modeller dahil olmak üzere uzun bağlamlı LLM'lere uyarlanmış, yaygın kullanılan değerlendirme gerekliliklerine ilişkin bir inceleme sunuyoruz; ayrıca farklı aşamalarda LLM'lerin verimliliğini ve etkinliğini artırmak için kütüphaneler, sistemler ve derleyiciler gibi dikkat çekici optimizasyon araç takımlarına da yer veriyoruz. Son olarak, bu alandaki baskın zorlukları ve gelecekteki araştırmalar için olası yolları tartışıyoruz. Ek olarak, ilgili literatürü gerçek zamanlı güncellemelerle derlediğimiz bir depo oluşturduk: https://github.com/Strivin0311/long-llms-learning.
Makale bağlantısı
https://arxiv.org/abs/2311.12351
Daha fazlası
https://x.com/omarsar0/status/1727358484360945750
PaSS: Paralel Spekülatif Örnekleme / PaSS: Parallel Speculative Sampling
Makale tanıtımı
- Spekülatif örnekleme ve paralel çözümlemenin bir varyantına dayanan, LLM'lerin çıkarım süresini kısaltmaya yönelik bir yaklaşım; yalnızca $O(d_{emb})$ kadar ek parametre öğrenerek kayda değer hızlanmalar (maksimum %30) elde ediyor.
Spekülatif örnekleme ve paralel çözümlemenin bir varyantına dayanan, llm'lerin çıkarım süresini azaltmaya yönelik bir yaklaşım; yalnızca o(d_emb) kadar ek parametre öğrenerek önemli hızlanmalar (maksimum %30) sağlıyor.
Makale özeti
- Dil modellerinin boyutunu onlarca milyar parametreye ölçeklendirmek, çok çeşitli görevlerde etkileyici performanslar elde edilmesini sağladı. Üretim sırasında bu modeller otoregresif olarak kullanılır; bu da üretilen her token için bir forward pass gerektiği ve dolayısıyla tüm parametre kümesinin bellekte okunması anlamına gelir. Bu bellek erişimi, üretimde temel darboğazı oluşturur ve model boyutu büyüdükçe daha da kötüleşir. Ayrıca birden fazla token için forward pass işlemini paralel yürütmek, çoğu zaman tek bir token için yapılan forward pass ile neredeyse aynı süreyi alır. Bu iki gözlem, birkaç token taslağını hazırlamak için ikinci, daha küçük bir modelin kullanıldığı ve ardından bunların büyük modelin tek bir forward pass’i ile doğrulandığı ya da reddedildiği spekülatif örnekleme yaklaşımının geliştirilmesine yol açtı. Ne yazık ki bu yöntem, aynı tokenizer’ı paylaşan iki model gerektirdiğinden benimsenmesini sınırlar. Buna alternatif olarak, ek hesaplama maliyeti olmadan ve ikinci bir modele ihtiyaç duymadan, tek bir modelden birden fazla token taslağı oluşturmanın yolu olarak paralel decoding kullanılmasını öneriyoruz. Bu yaklaşım yalnızca, aynı anda üretilecek kelimeleri işaretleyen ek bir giriş token’ı gerektirir. Yalnızca $O(d_{emb})$ kadar ek parametre gerektirirken, en fazla $30%$ hız artışıyla umut verici performans gösteriyoruz.
Scaling the size of language models to tens of billions of parameters has led to impressive performance on a wide range of tasks. At generation, these models are used auto-regressively, requiring a forward pass for each generated token, and thus reading the full set of parameters from memory. This memory access forms the primary bottleneck for generation and it worsens as the model size increases. Moreover, executing a forward pass for multiple tokens in parallel often takes nearly the same time as it does for just one token. These two observations lead to the development of speculative sampling, where a second smaller model is used to draft a few tokens, that are then validated or rejected using a single forward pass of the large model. Unfortunately, this method requires two models that share the same tokenizer and thus limits its adoption. As an alternative, we propose to use parallel decoding as a way to draft multiple tokens from a single model with no computational cost, nor the need for a second model. Our approach only requires an additional input token that marks the words that will be generated simultaneously. We show promising performance (up to $30%$ speed-up) while requiring only as few as $O(d_{emb})$ additional parameters.
Makale bağlantısı
https://arxiv.org/abs/2311.13581
Daha fazlasını okuyun
https://x.com/omarsar0/status/1728066181796418009
Mirasol3B: Zamana hizalı ve bağlamsal modaliteler için çok modlu otoregresif model / Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities
Makale tanıtımı
- Ses, video ve metin genelinde öğrenme için geliştirilmiş bir multimodal modeldir; multimodal modellemeyi ayrı ve odaklı otoregresif modellere ayırır, girdiler modaliteye göre işlenir, diğer modellere kıyasla daha uzun videoları işleyebilir ve video QA, uzun video QA ve ses-video-metin benchmark’larında son teknoloji yaklaşımlardan daha iyi performans gösterir.
A multimodal model for learning across audio, video, and text which decouples the multimodal modeling into separate, focused autoregressive models; the inputs are processed according to the modalities; this approach can handle longer videos compared to other models and it outperforms state-of-the-art approach on video qa, long video qa, and audio-video-text benchmark.
Makale özeti
- Multimodal öğrenmenin temel zorluklarından biri, heterojen modalitelerin (örn. video, ses, metin) birleştirilmesi gerekliliğidir. Örneğin video ve ses, metne kıyasla çok daha yüksek hızlarda elde edilir ve zaman açısından kabaca hizalıdır. Bunlar çoğu zaman başlık veya açıklama gibi küresel bağlam olarak sunulan metinle senkronize değildir. Ayrıca video ve ses girdileri çok daha büyük hacimlere sahiptir ve video uzunluğu arttıkça büyür; bu da doğal olarak bu modalitelere daha fazla işlem gücü ayrılmasını gerektirir ve uzun menzilli bağımlılıkların modellenmesini zorlaştırır. Burada multimodal modellemeyi ayrıştırarak, girdileri her modalitenin özelliklerine göre işleyen ayrı ve odaklı otomatik regresif modellere bölüyoruz. Zaman açısından senkronize modaliteler (ses ve video) için bir otomatik regresif bileşen ile zaman açısından zorunlu olarak hizalı olmayan ancak yine de sıralı olan bağlam modaliteleri için bir otomatik regresif bileşenden oluşan Mirasol3B adlı bir multimodal model öneriyoruz. Video-ses girdilerinin uzun dizilerini ele almak için, video ve ses dizilerini art arda gelen parçalara ayırmayı ve bunların temsillerini otomatik regresif olarak işlemeyi öneriyoruz. Bu amaçla, bir zaman aralığı içinde ses-video bilgisini ortaklaşa modelleyen bir Combiner mekanizması öneriyoruz. Combiner, ham uzamsal-zamansal sinyallerden ses ve video özellikleri çıkarmayı, ardından bu özellikleri birleştirerek parça başına kompakt ama ifade gücü yüksek temsiller üretmeyi öğrenir. Bu yaklaşım, iyi yerleşmiş multimodal benchmark'larda çok daha büyük modelleri geride bırakarak son teknoloji performans elde eder. Ayrıca kompakt temsiller öğrenerek, ses-video özellik temsillerinin dizi uzunluğunu kontrol ederek ve zamansal bağımlılıklarını modelleyerek medya girdilerinin yüksek hesaplama talebini etkili biçimde karşılar.
One of the main challenges of multimodal learning is the need to combine heterogeneous modalities (e.g., video, audio, text). For example, video and audio are obtained at much higher rates than text and are roughly aligned in time. They are often not synchronized with text, which comes as a global context, e.g., a title, or a description. Furthermore, video and audio inputs are of much larger volumes, and grow as the video length increases, which naturally requires more compute dedicated to these modalities and makes modeling of long-range dependencies harder. We here decouple the multimodal modeling, dividing it into separate, focused autoregressive models, processing the inputs according to the characteristics of the modalities. We propose a multimodal model, called Mirasol3B, consisting of an autoregressive component for the time-synchronized modalities (audio and video), and an autoregressive component for the context modalities which are not necessarily aligned in time but are still sequential. To address the long-sequences of the video-audio inputs, we propose to further partition the video and audio sequences in consecutive snippets and autoregressively process their representations. To that end, we propose a Combiner mechanism, which models the audio-video information jointly within a timeframe. The Combiner learns to extract audio and video features from raw spatio-temporal signals, and then learns to fuse these features producing compact but expressive representations per snippet. Our approach achieves the state-of-the-art on well established multimodal benchmarks, outperforming much larger models. It effectively addresses the high computational demand of media inputs by both learning compact representations, controlling the sequence length of the audio-video feature representations, and modeling their dependencies in time.
Makale bağlantısı
https://arxiv.org/abs/2311.05698
Daha fazlasını okuyun
https://x.com/GoogleAI/status/1724553024088191211
Orca 2: Küçük dil modellerine akıl yürütmeyi öğretmek / Orca 2: Teaching Small Language Models How to Reason
Makale tanıtımı
- Daha küçük dil modellerine akıl yürütmeyi öğretmeye yönelik bir yaklaşım öneriliyor. Spesifik olarak modelin adım adım işleme, hatırla-sonra-üret, hatırla-akıl yürüt-üret, çıkar-üret ve doğrudan yanıt verme gibi akıl yürütme tekniklerini kullandığı düşünülüyor; bu yaklaşım, zero-shot ayarlarında ileri düzey akıl yürütme yeteneklerini test eden karmaşık görevlerde değerlendirildiğinde benzer boyuttaki modelleri geride bırakıyor ve 5-10 kat daha büyük modellerle benzer veya daha iyi performans düzeylerine ulaşıyor.
Proposes an approach to teach smaller language models to reason; specifically, the lm is thought to use reasoning techniques, such as step-by-step processing, recall-then-generate, recall-reason-generate, extract-generate, and direct-answer methods; outperforms models of similar size and attains performance levels similar or better to those of models 5-10x larger, as assessed on complex tasks that test advanced reasoning abilities in zero-shot settings.
Makale özeti
- Orca 1, açıklama izleri gibi zengin sinyallerden öğrenerek BigBench Hard ve AGIEval gibi benchmark'larda geleneksel instruction-tuning modellerinden daha iyi performans gösterir. Orca 2'de, geliştirilmiş eğitim sinyallerinin daha küçük LM'lerin akıl yürütme yeteneklerini nasıl artırabileceğini araştırmayı sürdürüyoruz. Küçük LM'leri eğitmeye yönelik araştırmalar, daha yetenekli modellerin çıktılarını kopyalamak için çoğu zaman taklit öğrenmesine dayanıyordu. Ancak taklit öğrenmesine aşırı vurgu yapmanın küçük modellerin potansiyelini sınırlayabileceğini savunuyoruz. Küçük LM'lere, farklı görevler için, büyük modelin kullandığından farklı olabilecek farklı çözüm stratejileri kullanmayı öğretmeyi amaçlıyoruz. Örneğin büyük modeller karmaşık bir görev için doğrudan yanıt verebilirken, küçük modeller aynı kapasiteye sahip olmayabilir. Orca 2'de modele çeşitli akıl yürütme teknikleri öğretiliyor (adım adım, önce hatırla sonra üret, hatırla-akıl yürüt-üret, doğrudan yanıt vb.). Daha da önemlisi, modelin her görev için en etkili çözüm stratejisini nasıl belirleyeceğini öğrenmesine yardımcı olmayı hedefliyoruz. Orca 2'yi, 15 farklı benchmark'tan oluşan kapsamlı bir set kullanarak değerlendiriyoruz (yaklaşık 100 göreve ve 36.000'den fazla benzersiz prompt'a karşılık geliyor). Orca 2, zero-shot ortamında ileri düzey akıl yürütme becerilerini test eden karmaşık görevlerde, benzer boyuttaki modelleri açık ara geride bıraktı ve kendisinden 5-10 kat daha büyük modellerle benzer ya da daha iyi performans seviyelerine ulaştı. Daha küçük LM'lerin geliştirilmesi, değerlendirilmesi ve hizalanmasına yönelik araştırmaları desteklemek için Orca 2 ağırlıklarını aka.ms/orca-lm adresinde herkese açık olarak sunuyoruz.
Orca 1, explanation traces gibi zengin sinyallerden öğrenerek BigBench Hard ve AGIEval gibi benchmark'larda geleneksel instruction-tuned modellerden daha iyi performans gösterir. Orca 2'de, geliştirilmiş eğitim sinyallerinin daha küçük LM'lerin akıl yürütme yeteneklerini nasıl artırabileceğini araştırmayı sürdürüyoruz. Küçük LM'leri eğitmeye yönelik araştırmalar, daha yetenekli modellerin çıktılarını kopyalamak için çoğu zaman imitation learning'e dayanıyordu. Ancak taklit öğrenmesine aşırı vurgu yapmanın küçük modellerin potansiyelini sınırlayabileceğini savunuyoruz. Küçük LM'lere, farklı görevler için, büyük modelin kullandığından farklı olabilecek farklı çözüm stratejileri kullanmayı öğretmeyi amaçlıyoruz. Örneğin büyük modeller karmaşık bir görev için doğrudan yanıt verebilirken, küçük modeller aynı kapasiteye sahip olmayabilir. Orca 2'de modele çeşitli akıl yürütme teknikleri öğretiliyor (adım adım, önce hatırla sonra üret, hatırla-akıl yürüt-üret, doğrudan yanıt vb.). Daha da önemlisi, modelin her görev için en etkili çözüm stratejisini nasıl belirleyeceğini öğrenmesine yardımcı olmayı hedefliyoruz. Orca 2'yi, 15 farklı benchmark'tan oluşan kapsamlı bir set kullanarak değerlendiriyoruz (yaklaşık 100 göreve ve 36.000'den fazla benzersiz prompt'a karşılık geliyor). Orca 2, zero-shot ortamında ileri düzey akıl yürütme becerilerini test eden karmaşık görevlerde, benzer boyuttaki modelleri açık ara geride bıraktı ve kendisinden 5-10 kat daha büyük modellerle benzer ya da daha iyi performans seviyelerine ulaştı. Daha küçük LM'lerin geliştirilmesi, değerlendirilmesi ve hizalanmasına yönelik araştırmaları desteklemek için Orca 2 ağırlıklarını aka.ms/orca-lm adresinde herkese açık olarak sunuyoruz.
Makale bağlantısı
https://arxiv.org/abs/2311.11045
Daha fazla okuyun
https://x.com/omarsar0/status/1726990087399915995
GPQA: Lisansüstü Düzeyde Google'a Dayanıklı Soru-Cevap Benchmark'ı / GPQA: A Graduate-Level Google-Proof Q&A Benchmark
Makale tanıtımı
- Biyoloji, fizik ve kimya alanlarında uzman kişiler tarafından yazılmış 448 çoktan seçmeli sorudan oluşan, lisansüstü düzeyde Google'a dayanıklı bir soru-cevap benchmark'ı öneriliyor. En güçlü GPT-4 tabanlı temel model %39 doğruluk elde ediyor; bu benchmark, insan yeteneklerini aşan modern yapay zeka sistemlerinden güvenilir ve doğru bilgi elde etmeye yardımcı olabilecek ölçeklenebilir gözetim deneyleri sunuyor.
Biyoloji, fizik ve kimya alanlarında uzman kişiler tarafından yazılmış 448 çoktan seçmeli sorudan oluşan, lisansüstü düzeyde Google'a dayanıklı bir soru-cevap benchmark'ı öneriliyor; en güçlü GPT-4 tabanlı temel model %39 doğruluk elde ediyor; bu benchmark, insan yeteneklerini aşan modern yapay zeka sistemlerinden güvenilir ve doğru bilgi elde etmeye yardımcı olabilecek ölçeklenebilir gözetim deneyleri sunuyor.
Makale özeti
- Biyoloji, fizik ve kimya alanlarındaki uzmanlar tarafından hazırlanmış 448 çoktan seçmeli sorudan oluşan, yüksek zorluk seviyesine sahip GPQA veri kümesi sunuluyor. İlgili alanlarda doktora derecesini almış veya almakta olan uzmanların doğruluk oranı %65’e ulaşırken (uzmanların sonradan fark ettiği bariz hatalar hariç tutulduğunda %74), yüksek becerili uzman olmayan doğrulayıcılar internete sınırsız erişimle ortalama 30 dakikadan fazla zaman harcamalarına rağmen yalnızca %34 doğruluk oranına ulaştı (yani sorular "Google-proof"). En güçlü GPT-4 tabanlı temel modelin bile %39 doğruluğa ulaşabilmesi, bunun son teknoloji yapay zeka sistemleri için de zor bir problem olduğunu gösteriyor. Örneğin yeni bilimsel bilgi geliştirirken olduğu gibi çok zor soruları yanıtlamak için gelecekteki yapay zeka sistemlerini kullanacaksak, insanların bu sistemlerin çıktıları üzerinde denetim kurmasını sağlayacak ölçeklenebilir gözetim yöntemleri geliştirmemiz gerekiyor; bu, gözetmenler yetkin ve bilgili olsa bile zor olabilir. GPQA’nın hem yetkin uzman olmayan kişiler hem de frontier yapay zeka sistemleri için zorlu olması, gerçekçi ölçeklenebilir gözetim deneylerini mümkün kılabilir; bunun da insan uzmanların, insan kapasitesini aşan yapay zeka sistemlerinden güvenilir biçimde doğru bilgi elde etmenin yollarını geliştirmesine yardımcı olması umuluyor.
We present GPQA, a challenging dataset of 448 multiple-choice questions written by domain experts in biology, physics, and chemistry. We ensure that the questions are high-quality and extremely difficult: experts who have or are pursuing PhDs in the corresponding domains reach 65% accuracy (74% when discounting clear mistakes the experts identified in retrospect), while highly skilled non-expert validators only reach 34% accuracy, despite spending on average over 30 minutes with unrestricted access to the web (i.e., the questions are "Google-proof"). The questions are also difficult for state-of-the-art AI systems, with our strongest GPT-4 based baseline achieving 39% accuracy. If we are to use future AI systems to help us answer very hard questions, for example, when developing new scientific knowledge, we need to develop scalable oversight methods that enable humans to supervise their outputs, which may be difficult even if the supervisors are themselves skilled and knowledgeable. The difficulty of GPQA both for skilled non-experts and frontier AI systems should enable realistic scalable oversight experiments, which we hope can help devise ways for human experts to reliably get truthful information from AI systems that surpass human capabilities.
Makale bağlantısı
https://arxiv.org/abs/2311.12022
Daha fazlası için
https://x.com/idavidrein/status/1727033002234909060
Dil zekasını ateşlemek: Zincirleme düşünmeden (CoT) dil ajanlarına otostopçunun rehberi / Igniting Language Intelligence: The Hitchhiker's Guide From Chain-of-Thought Reasoning to Language Agents
Makale tanıtımı
- CoT (Chain-of-Thought) akıl yürütmesinin, CoT tekniklerini destekleyen temel mekanizmaların ve bunların dil ajanı çerçevelerine uygulanışının özeti.
Summary of cot reasoning, foundational mechanics underpinning cot techniques, and their application to language agent frameworks.
Makale özeti
- Büyük dil modelleri (LLM'ler), çeşitli karmaşık akıl yürütme görevlerindeki güçlü ampirik performanslarıyla da gösterildiği üzere, dil zekası alanını dramatik biçimde ileri taşıdı. Ayrıca teorik kanıtlar, ortaya çıkan akıl yürütme yeteneklerini açığa çıkararak dilsel bağlamlarda gelişmiş bilişsel yeteneklerinin güçlü bir göstergesini sundu. Karmaşık akıl yürütme görevlerini ele almada gösterdikleri dikkat çekici etkinlikte kritik rol oynayan LLM'ler, yanıta ulaşma sürecinde ara adımları formüle etmelerini gerektiren ilgi çekici chain-of-thought (CoT) akıl yürütme tekniklerinden yararlanır. CoT akıl yürütme yaklaşımı yalnızca akıl yürütme performansını artırmakla kalmamış, aynı zamanda yorumlanabilirlik, denetlenebilirlik ve esnekliği geliştirmede de başarılı olduğunu göstermiştir. Bu avantajlar doğrultusunda son dönemdeki araştırmalar, farklı ortamlarda dil talimatlarına ustalıkla uyan ve eylemleri yerine getiren otonom dil ajanlarının gelişimini desteklemek için CoT akıl yürütme metodolojilerini genişletti. Bu derleme makale, önemli araştırma boyutlarını kapsayan kapsamlı bir tartışma sunuyor: (i) CoT tekniklerinin temel mekanizmaları; etkinliğinin hangi koşullarda ve neden ortaya çıktığını açıklamaya odaklanarak, (ii) CoT'deki paradigma değişimi ve (iii) CoT yaklaşımlarıyla güçlendirilmiş dil ajanlarının hızla büyüyen alanı. Gelecekteki araştırma yönleri; genelleme, verimlilik, özelleştirme, ölçeklendirme ve güvenlik alanlarındaki incelemeleri kapsıyor. Bu makale, CoT akıl yürütmesi ve dil ajanları hakkında kapsamlı bilgi edinmek isteyen yeni başlayanlardan, temel mekanizmalara ilgi duyan ve bu konulardaki en güncel tartışmalara katılan deneyimli araştırmacılara kadar geniş bir okur kitlesine hitap ediyor. İlgili makalelerin deposuna https://github.com/Zoeyyao27/CoT-Igniting-Agent adresinden ulaşılabilir.
Large language models (LLMs) have dramatically enhanced the field of language intelligence, as demonstrably evidenced by their formidable empirical performance across a spectrum of complex reasoning tasks. Additionally, theoretical proofs have illuminated their emergent reasoning capabilities, providing a compelling showcase of their advanced cognitive abilities in linguistic contexts. Critical to their remarkable efficacy in handling complex reasoning tasks, LLMs leverage the intriguing chain-of-thought (CoT) reasoning techniques, obliging them to formulate intermediate steps en route to deriving an answer. The CoT reasoning approach has not only exhibited proficiency in amplifying reasoning performance but also in enhancing interpretability, controllability, and flexibility. In light of these merits, recent research endeavors have extended CoT reasoning methodologies to nurture the development of autonomous language agents, which adeptly adhere to language instructions and execute actions within varied environments. This survey paper orchestrates a thorough discourse, penetrating vital research dimensions, encompassing: (i) the foundational mechanics of CoT techniques, with a focus on elucidating the circumstances and justification behind its efficacy; (ii) the paradigm shift in CoT; and (iii) the burgeoning of language agents fortified by CoT approaches. Prospective research avenues envelop explorations into generalization, efficiency, customization, scaling, and safety. This paper caters to a wide audience, including beginners seeking comprehensive knowledge of CoT reasoning and language agents, as well as experienced researchers interested in foundational mechanics and engaging in cutting-edge discussions on these topics. A repository for the related papers is available at https://github.com/Zoeyyao27/CoT-Igniting-Agent.
Makale bağlantısı
https://arxiv.org/abs/2311.11797
Daha fazla okuyun
https://x.com/omarsar0/status/1726803725220487277
GAIA: Genel yapay zeka asistanları için bir benchmark / GAIA: a benchmark for General AI Assistants
Makale tanıtımı
- Akıl yürütme, multimodal işleme, web'de gezinme ve genel araç kullanımı yeterliliği gibi bir dizi temel beceri gerektiren gerçek dünya sorularından oluşan genel yapay zeka asistanları benchmark'ına göre, insan katılımcılar %92, eklentilerle donatılmış GPT-4 ise %15 puan aldı.
A benchmark for general ai assistants consisting of real-world questions that require a set of fundamental abilities such as reasoning, multimodal handling, web browsing, and generally tool-use proficiency; shows that human respondents obtain 92% vs. 15% for gpt-4 equipped with plugins.
Makale özeti
- Çözülebilirse yapay zeka araştırmaları için bir dönüm noktası olacak Genel AI Asistanları kıyaslaması GAIA tanıtılıyor. GAIA; akıl yürütme, çok modlu işleme, web’de gezinme ve genel olarak araç kullanma becerisi gibi bir dizi temel yetkinlik gerektiren gerçek dünya soruları önerir. GAIA soruları kavramsal olarak insanlar için basit, ancak çoğu gelişmiş yapay zeka için zordur. İnsan katılımcılar %92, eklentilerle donatılmış GPT-4 ise %15 doğruluk elde etti. Bu dikkat çekici performans farkı, hukuk veya kimya gibi profesyonel beceri gerektiren görevlerde insanların gerisinde kalmayan LLM’lerin son dönemdeki eğilimiyle tezat oluşturuyor. GAIA’nın felsefesi, insanlar için giderek daha zor görevleri hedefleyen mevcut yapay zeka kıyaslama trendinden ayrılıyor. Biz, Yapay Genel Zeka’nın (AGI) ortaya çıkışının, bu tür sorularda ortalama bir insanla benzer sağlamlık gösterebilen sistemlerin yeteneğine bağlı olduğunu varsayıyoruz. GAIA metodolojisini kullanarak 466 soru ve bunların yanıtlarını tasarladık. Soruları yayımlıyor, bunların 300’ünün yanıtını ise https://huggingface.co/gaia-benchmark adresindeki liderlik tablosunu desteklemek üzere saklı tutuyoruz.
We introduce GAIA, a benchmark for General AI Assistants that, if solved, would represent a milestone in AI research. GAIA proposes real-world questions that require a set of fundamental abilities such as reasoning, multi-modality handling, web browsing, and generally tool-use proficiency. GAIA questions are conceptually simple for humans yet challenging for most advanced AIs: we show that human respondents obtain 92% vs. 15% for GPT-4 equipped with plugins. This notable performance disparity contrasts with the recent trend of LLMs outperforming humans on tasks requiring professional skills in e.g. law or chemistry. GAIA's philosophy departs from the current trend in AI benchmarks suggesting to target tasks that are ever more difficult for humans. We posit that the advent of Artificial General Intelligence (AGI) hinges on a system's capability to exhibit similar robustness as the average human does on such questions. Using GAIA's methodology, we devise 466 questions and their answer. We release our questions while retaining answers to 300 of them to power a leader-board available at https://huggingface.co/gaia-benchmark.
Makale bağlantısı
https://arxiv.org/abs/2311.12983
Daha fazlası
https://x.com/ThomasScialom/status/1727683993045201339
MedAgents: Sıfır atış tıbbi akıl yürütme için işbirlikçi olarak büyük dil modelleri / MedAgents: Large Language Models as Collaborators for Zero-shot Medical Reasoning
Makale tanıtımı
- Rol yapma temelli LLM ajanlarını kullanarak LLM yetkinliğini ve akıl yürütme kabiliyetlerini geliştiren, tıp alanına yönelik işbirlikçi çok turlu bir çerçeve öneriyor.
Proposes a collaborative multi-round framework for the medical domain that leverages role-playing llm-based agents to enhance llm proficiency and reasoning capabilities.
Makale özeti
- Büyük Dil Modelleri (LLM’ler), çeşitli genel alanlarda kayda değer ilerleme göstermelerine rağmen tıp ve sağlık hizmetlerinde önemli engellerle karşılaşıyor. Bu alan; alana özgü terminoloji ve uzmanlık bilgisi üzerinde akıl yürütme gibi benzersiz zorluklar barındırıyor. Bu inatçı sorunları ele almak için Unity, tıp alanına yönelik yeni bir Çok Disiplinli İşbirliği (MC) çerçevesi öneriyor. Bu çerçeve, işbirlikçi çok turlu tartışmalara katılan rol yapma temelli LLM ajanlarından yararlanarak LLM yetkinliğini ve akıl yürütme kabiliyetlerini geliştiriyor. Eğitim gerektirmeyen ve yorumlanabilir bu çerçeve; alan uzmanlarını bir araya getirme, bireysel analizler önerme, bu analizleri bir raporda özetleme, uzlaşıya varılana kadar tartışmaları yineleme ve nihayetinde karar verme olmak üzere beş kritik adımı kapsıyor. Çalışmamız özellikle sıfır atış senaryosuna odaklanıyor; dokuz veri kümesi (MedQA, MedMCQA, PubMedQA ve MMLU’dan altı alt görev) üzerindeki sonuçlarımız, önerdiğimiz MC çerçevesinin LLM’lerdeki tıbbi uzmanlığı ortaya çıkarma ve kullanma ile akıl yürütme yeteneklerini genişletmede üstün olduğunu gösteriyor. Bu sonuçlara dayanarak, yöntemimizdeki yaygın hataları belirlemek ve sınıflandırmak için insan değerlendirmesi ve çeşitli faktörlerin genel performans üzerindeki etkisini anlamaya yönelik ablasyon çalışmaları da yürüttük. Kodumuzun ayrıntılarına \url{https://github.com/gersteinlab/MedAgents} adresinden ulaşılabilir.
Large Language Models (LLMs), despite their remarkable progress across various general domains, encounter significant barriers in medicine and healthcare. This field faces unique challenges such as domain-specific terminologies and the reasoning over specialized knowledge. To address these obstinate issues, we propose a novel Multi-disciplinary Collaboration (MC) framework for the medical domain that leverages role-playing LLM-based agents who participate in a collaborative multi-round discussion, thereby enhancing LLM proficiency and reasoning capabilities. This training-free and interpretable framework encompasses five critical steps: gathering domain experts, proposing individual analyses, summarising these analyses into a report, iterating over discussions until a consensus is reached, and ultimately making a decision. Our work particularly focuses on the zero-shot scenario, our results on nine data sets (MedQA, MedMCQA, PubMedQA, and six subtasks from MMLU) establish that our proposed MC framework excels at mining and harnessing the medical expertise in LLMs, as well as extending its reasoning abilities. Based on these outcomes, we further conduct a human evaluation to pinpoint and categorize common errors within our method, as well as ablation studies aimed at understanding the impact of various factors on overall performance. Our code can be found at \url{https://github.com/gersteinlab/MedAgents}.
Makale bağlantısı
https://arxiv.org/abs/2311.10537
Daha fazlasını okuyun
https://x.com/omarsar0/status/1726627951582511135
Değişen İklimde Develer: Tulu 2 ile LM Uyumluluğunu Geliştirme / Camels in a Changing Climate: Enhancing LM Adaptation with Tulu 2
Makale tanıtımı
- Önceden eğitilmiş dil modellerinin aşağı akış görevlerine ve kullanıcı tercihlerine uyarlanmasına ilişkin anlayışı ve en iyi uygulamaları geliştirmek için iyileştirilmiş bir Tülu model ailesi sunuluyor; Tülu 2 ailesi, açık modeller arasında son teknoloji performansa ulaşıyor ve çeşitli benchmark'larda GPT-3.5-Turbo-0301'in performansına erişiyor veya onu aşıyor.
Presents a suite of improved tülu models for advancing the understanding and best practices of adapting pretrained language models to downstream tasks and user preferences; tülu 2 suite achieves state-of-the-art performance among open models and matches or exceeds the performance of gpt-3.5-turbo-0301 on several benchmarks.
Makale özeti
- Tülu'nun yayımlanmasından bu yana [Wang et al., 2023b], instruction tuning için açık kaynaklar; daha iyi temel modellerden yeni ince ayar tekniklerine kadar hızla gelişti. Yazarlar bu gelişmelerin bir kısmını test edip Tülu'ya entegre ederek, önceden eğitilmiş dil modellerinin aşağı akış görevlerine ve kullanıcı tercihlerine uyarlanmasına yönelik anlayışı ve en iyi uygulamaları ilerletmek için geliştirilmiş Tülu model koleksiyonu olan Tülu 2'yi oluşturdu. Somut olarak şu yayınlanıyor: (1) yüksek kaliteli komut veri kümelerinden oluşan geliştirilmiş bir koleksiyon olan Tülu-V2-mix, (2) V2 karışımı üzerinde ince ayar yapılmış LLAMA-2 modelleri olan Tülu 2, (3) bugüne kadarki en büyük DPO ile eğitilmiş modeli (Tülu 2+DPO 70B) de içeren, direct preference optimization (DPO) ile eğitilmiş Tülu 2 modelleri olan Tülu 2+DPO; (4) V2 karışımı üzerinde ince ayar yapılmış CODE LLAMA modelleri olan ve CODE LLAMA ile onun instruction-tuned varyantı CODE LLAMA-Instruct'tan daha iyi performans gösteren CODE Tülu 2. Çoklu perspektiflerden yapılan değerlendirme, Tülu 2 ailesinin açık modeller arasında son teknoloji performansa ulaştığını ve çeşitli benchmark'larda GPT-3.5-turbo-0301'in performansına eriştiğini veya onu aştığını gösteriyor. Yazarlar, büyük dil modellerinin uyarlanmasına yönelik gelecekteki açık çalışmaları kolaylaştırmak için tüm checkpoint'leri, verileri, eğitim ve değerlendirme kodunu yayımlıyor.
Since the release of Tülu [Wang et al., 2023b], open resources for instruction tuning have developed quickly, from better base models to new finetuning techniques. We test and incorporate a number of these advances into Tülu , resulting in Tülu 2, a suite of improved Tülu models for advancing the understanding and best practices of adapting pretrained language models to downstream tasks and user preferences. Concretely, we release: (1) Tülu-V2-mix, an improved collection of high-quality instruction datasets; (2) Tülu 2, LLAMA-2 models finetuned on the V2 mixture; (3) Tülu 2+DPO, Tülu 2 models trained with direct preference optimization (DPO), including the largest DPO-trained model to date (Tülu 2+DPO 70B); (4) CODE Tülu 2, CODE LLAMA models finetuned on our V2 mix that outperform CODE LLAMA and its instruction-tuned variant, CODE LLAMA-Instruct. Our evaluation from multiple perspectives shows that the Tülu 2 suite achieves state-of-the-art performance among open models and matches or exceeds the performance of GPT-3.5-turbo-0301 on several benchmarks. We release all the checkpoints, data, training and evaluation code to facilitate future open efforts on adapting large language models.
Makale bağlantısı
https://arxiv.org/abs/2311.10702
Daha fazlasını okuyun
https://x.com/natolambert/status/1727350301131518454
Orijinal metin
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-a05
Henüz yorum yok.