8 puan yazan ninebow 2023-09-18 | Henüz yorum yok. | WhatsApp'ta paylaş

Genel Bakış

  • DAIR.AI tarafından her hafta yayımlanan ML makalelerine dair yazıyı otomatik olarak çevirdik.
  • Bu hafta seçilen makalelerin çoğu LLM (Large Language Model) konusuna odaklanıyor. Özellikle, LLM’leri ele alış biçimlerinin çeşitliliği dikkat çekiyor. Bu makaleler; dil modellerinin öğrenme yöntemi, ajan tabanlı LLM’lerin gelişim potansiyeli, LLM’lerin rafine edilmesi ve kendi kendine öğrenme becerisi ile LLM’lere ilişkin bir dizi araştırma gibi farklı açılardan LLM’leri inceliyor.
  • Bu eğilim, yapay zeka ve makine öğrenimi alanlarında dil modeli öğrenme yöntemlerinin önemli görüldüğünü ve özellikle LLM’lerin öne çıktığını gösteriyor. Ayrıca, LLM’leri ele alma biçimlerinin çeşitliliği, bu teknolojinin ne kadar geniş bir uygulama alanına sahip olabileceğine işaret ediyor ve potansiyelini ortaya koyuyor.

İhtiyacınız Olan Tek Şey Ders Kitapları II: PHI-1.5 teknik raporu / Textbooks Are All You Need II: phi-1.5 technical report

Makale tanıtımı

  • 30 milyar token ile eğitilmiş yeni 1,3 milyar parametreli model, "ders kitabı kalitesinde" sentetik olarak üretilmiş verilerden oluşan veri kümesi ve akıl yürütme görevlerinde diğer daha büyük modellerle rekabet eden ya da onları geride bırakan phi-1.5, veri kalitesinin daha önce düşünülenden daha önemli bir rol oynadığını gösteriyor. #llm #llm-alignment

    30 milyar token ile eğitilmiş yeni 1,3 milyar parametreli bir model; veri kümesi "ders kitabı kalitesinde" sentetik olarak üretilmiş verilerden oluşuyor; phi-1.5, akıl yürütme görevlerinde diğer daha büyük modellerle rekabet ediyor veya onları geride bırakıyor; bu da veri kalitesinin daha önce düşünüldüğünden daha önemli bir rol oynadığını gösteriyor.

Makale özeti

  • Tutarlı İngilizce üretebilen 10 milyon parametreli bir model olan $TinyStories$ ile, Python kodlama performansı son teknolojiye yakın olan 1,3 milyar parametreli model $phi-1$ üzerine yapılan devam çalışmasından yola çıkarak, daha küçük Transformer tabanlı dil modellerinin gücünü araştırmayı sürdürüyoruz. İkinci çalışma, geleneksel web verilerine kıyasla öğrenme sürecini iyileştirmenin bir yolu olarak, mevcut büyük dil modellerinin (LLM) kullanılarak "ders kitabı kalitesinde" veri üretilmesini önermişti. Bu kez doğal dilde sağduyuya dayalı akıl yürütmeye odaklanan "İhtiyacınız Olan Tek Şey Ders Kitapları" yaklaşımını izliyor ve doğal dil görevlerinde 5 kat daha büyük modellerle karşılaştırılabilir performans gösteren, ilkokul düzeyi matematik ve temel kodlama gibi daha karmaşık akıl yürütme görevlerinde ise frontier olmayan LLM’lerin çoğunu geride bırakan \textbf{phi-1.5} adlı yeni 1,3 milyar parametreli bir model oluşturuyoruz. Daha genel olarak, $phi-1.5$, çok daha büyük LLM’lerin pek çok özelliğini sergiliyor; bunların iyi olanları arasında "adım adım düşünebilme" ya da ilkel düzeyde context içi öğrenme yapabilme yeteneği bulunurken, kötü olanları arasında halüsinasyonlar ile toksik ve önyargılı üretim potansiyeli yer alıyor. Ancak cesaret verici olan şu ki, web verisinin yokluğu sayesinde bu alanlarda iyileşme görüyoruz. Bu acil konulardaki ek araştırmaları teşvik etmek için $phi-1.5$ modelini açık kaynak olarak yayımladık.

    Tutarlı İngilizce üretebilen 10 milyon parametreli bir model olan \textbf{TinyStories} ile başlayan ve Python kodlama performansı son teknolojiye yakın 1,3 milyar parametreli bir model olan \textbf{phi-1} üzerine yapılan devam çalışmasıyla süren daha küçük Transformer tabanlı dil modellerinin gücüne dair araştırmayı sürdürüyoruz. İkinci çalışma, geleneksel web verilerine kıyasla öğrenme sürecini geliştirmek için mevcut Large Language Models (LLM)’leri kullanarak ders kitabı kalitesinde" veri üretmeyi önermişti. Biz de bu kez doğal dilde sağduyu temelli akıl yürütmeye odaklanarak Textbooks Are All You Need" yaklaşımını izliyor ve doğal dil görevlerinde 5 kat daha büyük modellerle karşılaştırılabilir performans gösteren, ilkokul düzeyi matematik ve temel kodlama gibi daha karmaşık akıl yürütme görevlerinde ise frontier olmayan LLM’lerin çoğunu geride bırakan \textbf{phi-1.5} adlı yeni 1,3 milyar parametreli bir model oluşturuyoruz. Daha genel olarak, \textbf{phi-1.5}, çok daha büyük LLM’lerin pek çok özelliğini sergiliyor; hem iyi olanlar -- örneğin ``adım adım düşünebilme" ya da sınırlı düzeyde context içi öğrenme yapabilme -- hem de kötü olanlar -- halüsinasyonlar ve toksik ya da önyargılı üretim potansiyeli dahil. Ancak sevindirici biçimde, web verisinin yokluğu sayesinde bu cephede iyileşme görüyoruz. Bu acil başlıklarda daha fazla araştırmayı teşvik etmek için \textbf{phi-1.5} modelini açık kaynak hâline getiriyoruz.

Makale bağlantısı

https://arxiv.org/abs/2309.05463

Daha fazlası için

https://x.com/omarsar0/status/1701590130270601422

Büyük Dil Modeli Tabanlı Ajanların Yükselişi ve Potansiyeli: Bir Derleme / The Rise and Potential of Large Language Model Based Agents: A Survey

Makale tanıtımı

  • LLM tabanlı ajanlara dair kapsamlı bir genel bakış; bu ajanların nasıl oluşturulacağından onları faydalı amaçlar için nasıl kullanabileceğimize kadar uzanıyor. #survey-paper

    LLM tabanlı ajanlara dair kapsamlı bir genel bakış; bu ajanların nasıl oluşturulacağından onları yararlı amaçlarla nasıl kullanabileceğimize kadar uzanıyor.

Makale özeti

  • İnsanlık uzun zamandır insan seviyesine eşit ya da onu aşan yapay zekayı (AI) hedefliyor ve AI ajanları da bu hedefe ulaşmak için umut verici bir araç olarak görülüyor. AI ajanları, çevrelerini algılayan, karar veren ve eyleme geçen yapay varlıklardır. 20. yüzyılın ortalarından bu yana akıllı AI ajanları geliştirmek için pek çok çaba gösterildi. Ancak bu çabalar çoğunlukla belirli yetenekleri ya da belirli görevlerdeki performansı artırmaya yönelik algoritma ve eğitim stratejilerindeki ilerlemelere odaklandı. Aslında topluluğun eksikliği, çeşitli senaryolara uyum sağlayabilen AI ajanları tasarlamak için başlangıç noktası olabilecek kadar genel ve güçlü bir modeldir. Büyük dil modelleri (LLM), sergiledikleri çok yönlü ve dikkat çekici yetenekler nedeniyle Yapay Genel Zeka'nın (AGI) potansiyel kıvılcımları olarak görülüyor ve genel AI ajanları inşa etmek için umut veriyor. Pek çok araştırma çalışması, AI ajanları oluşturmanın temeli olarak LLM'lerden yararlandı ve önemli ilerlemeler kaydetti. Çalışma önce, ajan kavramını felsefi kökenlerinden AI içindeki gelişimine kadar izliyor ve LLM'lerin neden AI ajanları için uygun bir temel olduğunu açıklıyor. Bunun üzerine, beyin, algı ve eylem olmak üzere üç ana bileşenden oluşan LLM tabanlı ajanlar için kavramsal bir çerçeve sunuyor; bu çerçeve farklı uygulamalara uyarlanabiliyor. Ardından, LLM tabanlı ajanların geniş uygulama alanları üç açıdan inceleniyor: tek ajanlı senaryolar, çok ajanlı senaryolar ve insan-ajans iş birliği. Sonrasında ajan toplumlarına daha yakından bakılarak, LLM tabanlı ajanların davranışları ve kişilikleri, toplum oluşturduklarında ortaya çıkan sosyal olgular ve insan toplumu için sundukları içgörüler ele alınıyor. Son olarak, bu alandaki çeşitli temel başlıklar ve açık problemler tartışılıyor.

    For a long time, humanity has pursued artificial intelligence (AI) equivalent to or surpassing the human level, with AI agents considered a promising vehicle for this pursuit. AI agents are artificial entities that sense their environment, make decisions, and take actions. Many efforts have been made to develop intelligent AI agents since the mid-20th century. However, these efforts have mainly focused on advancement in algorithms or training strategies to enhance specific capabilities or performance on particular tasks. Actually, what the community lacks is a sufficiently general and powerful model to serve as a starting point for designing AI agents that can adapt to diverse scenarios. Due to the versatile and remarkable capabilities they demonstrate, large language models (LLMs) are regarded as potential sparks for Artificial General Intelligence (AGI), offering hope for building general AI agents. Many research efforts have leveraged LLMs as the foundation to build AI agents and have achieved significant progress. We start by tracing the concept of agents from its philosophical origins to its development in AI, and explain why LLMs are suitable foundations for AI agents. Building upon this, we present a conceptual framework for LLM-based agents, comprising three main components: brain, perception, and action, and the framework can be tailored to suit different applications. Subsequently, we explore the extensive applications of LLM-based agents in three aspects: single-agent scenarios, multi-agent scenarios, and human-agent cooperation. Following this, we delve into agent societies, exploring the behavior and personality of LLM-based agents, the social phenomena that emerge when they form societies, and the insights they offer for human society. Finally, we discuss a range of key topics and open problems within the field.

Makale bağlantısı

https://arxiv.org/abs/2309.07864

Daha fazlası

https://x.com/omarsar0/status/1702736490067890239

EvoDiff

Makale tanıtımı

  • Evrim ölçekli verileri difüzyon modelleriyle birleştirerek dizi uzayında kontrol edilebilir protein üretimi sağlıyor; yapı tabanlı modellerin erişemediği proteinleri üretebiliyor. #diffusion

    Combines evolutionary-scale data with diffusion models for controllable protein generation in sequence space; it can generate proteins inaccessible to structure-based models.

Makale bağlantısı

https://www.biorxiv.org/content/10.1101/2023.09.11.556673v1

Daha fazlası

https://x.com/KevinKaichuang/status/1701953715312136302

RAIN: Dil modelleri ince ayar yapılmadan kendilerini hizalayabilir / RAIN: Your Language Models Can Align Themselves without Finetuning

Makale tanıtımı

  • Öz değerlendirme ve geri sarma mekanizmalarını entegre ederek, hizalanmamış llms'lerin kendi kendini güçlendirme yoluyla insan tercihleriyle uyumlu yanıtları doğrudan üretebildiğini ortaya koyuyor.

    Discovers that by integrating self-evaluation and rewind mechanisms, unaligned llms can directly produce responses consistent with human preferences via self-boosting.

Makale özeti

  • Büyük dil modelleri (LLM'ler) çoğu zaman insan tercihleriyle tutarsızlık gösterebilir. Önceki çalışmalar, insan tercih verilerini toplayıp ardından önceden eğitilmiş modelleri pekiştirmeli öğrenme veya instruction tuning (sözde ince ayar aşaması) kullanarak hizaladı. Buna karşılık, ek veri olmadan dondurulmuş LLM'leri hizalamak daha caziptir. Bu çalışma, ikinci yaklaşımın potansiyelini inceliyor. Araştırmacılar, öz değerlendirme ve geri sarma mekanizmalarını birleştirerek hizalanmamış LLM'lerin self-boosting yoluyla insan tercihleriyle uyumlu yanıtları doğrudan üretebildiğini ortaya koydu. Çalışma, önceden eğitilmiş LLM'lerin kendi üretimlerini değerlendirmesine ve bu değerlendirme sonuçlarını yapay zeka güvenliği için geriye doğru geri sarma ve ileri doğru üretimi yönlendirmede kullanmasına olanak tanıyan yeni bir çıkarım yöntemi olan Rewindable Auto-regressive INference (RAIN)'i tanıtıyor. Özellikle RAIN, model hizalaması için ek veriye ihtiyaç duymadan çalışır ve herhangi bir eğitim, gradyan hesaplaması veya parametre güncellemesi gerektirmez; öz değerlendirme aşamasında model, sabit şablonlu bir istem üzerinden hangi insan tercihiyle hizalanacağına dair yönlendirme aldığı için başlangıç istemini değiştirmeye gerek kalmaz. GPT-4 ve insanlar tarafından değerlendirilen deney sonuçları, RAIN'in etkisini gösteriyor. HH veri kümesinde RAIN, vanilla inference'a kıyasla LLaMA 30B'nin zararsızlık oranını %82'den %97'ye çıkarırken faydalılık oranını koruyor. Vicuna 33B'ye yönelik önde gelen adversarial attack olan llm-attacks altında ise RAIN, saldırı başarı oranını %94'ten %19'a düşürerek yeni bir savunma temel çizgisi oluşturuyor.

    Large language models (LLMs) often demonstrate inconsistencies with human preferences. Previous research gathered human preference data and then aligned the pre-trained models using reinforcement learning or instruction tuning, the so-called finetuning step. In contrast, aligning frozen LLMs without any extra data is more appealing. This work explores the potential of the latter setting. We discover that by integrating self-evaluation and rewind mechanisms, unaligned LLMs can directly produce responses consistent with human preferences via self-boosting. We introduce a novel inference method, Rewindable Auto-regressive INference (RAIN), that allows pre-trained LLMs to evaluate their own generation and use the evaluation results to guide backward rewind and forward generation for AI safety. Notably, RAIN operates without the need of extra data for model alignment and abstains from any training, gradient computation, or parameter updates; during the self-evaluation phase, the model receives guidance on which human preference to align with through a fixed-template prompt, eliminating the need to modify the initial prompt. Experimental results evaluated by GPT-4 and humans demonstrate the effectiveness of RAIN: on the HH dataset, RAIN improves the harmlessness rate of LLaMA 30B over vanilla inference from 82% to 97%, while maintaining the helpfulness rate. Under the leading adversarial attack llm-attacks on Vicuna 33B, RAIN establishes a new defense baseline by reducing the attack success rate from 94% to 19%.

Makale bağlantısı

https://arxiv.org/abs/2309.07124

Daha fazlasını okuyun

https://x.com/omarsar0/status/1702131444041011395

Robot parkur öğrenimi / Robot Parkour Learning

Makale tanıtımı

  • Ekosantrik derinlik kamerasını kullanan dört ayaklı bir robota aktarılabilen uçtan uca, görme tabanlı bir parkur politikası öğrenme sistemi sunuluyor; düşük maliyetli robotların gerçek dünya ortamında parkur becerilerini otomatik olarak seçip uygulayabildiği gösteriliyor.

    Presents a system for learning end-to-end vision-based parkour policy which is transferred to a quadrupedal robot using its ecocentric depth camera; shows that low-cost robots can automatically select and execute parkour skills in a real-world environment.

Makale özeti

  • Parkur, robotların karmaşık ortamlarda çeşitli engelleri hızla aşmasını gerektiren, bacaklı hareket kabiliyeti için büyük bir meydan okumadır. Mevcut yöntemler, hayvan referans verileri veya karmaşık ödüller kullanarak ya çeşitli ama kör hareket becerileri ya da görsel tabanlı ancak özelleşmiş beceriler üretebilir. Ancak otonom parkur için robotların, farklı senaryoları algılayıp tepki verebilmek adına hem görsel tabanlı hem de çeşitlilik içeren, genellenebilir beceriler öğrenmesi gerekir. Bu çalışma, herhangi bir referans hareket verisi olmadan basit bir ödül kullanarak çeşitli parkur becerilerini kapsayan tek bir uçtan uca görsel tabanlı parkur politikası öğrenen bir sistem öneriyor. Yüksek engellere tırmanma, geniş boşlukların üzerinden atlama, alçak bariyerlerin altından sürünme, dar aralıklardan geçme ve koşma gibi parkur becerileri üretmek için direct collocation'dan ilham alan bir pekiştirmeli öğrenme yöntemi geliştiriyoruz. Bu becerileri tek bir görsel tabanlı parkur politikasında damıtıyor ve robotun egosantrik derinlik kamerasını kullanarak bunu dört ayaklı bir robota aktarıyoruz. Sistemimizin, düşük maliyetli iki farklı robotun uygun parkur becerilerini otonom olarak seçip uygulayarak zorlu gerçek dünya ortamlarını aşabildiğini gösteriyoruz.

    Parkour is a grand challenge for legged locomotion that requires robots to overcome various obstacles rapidly in complex environments. Existing methods can generate either diverse but blind locomotion skills or vision-based but specialized skills by using reference animal data or complex rewards. However, autonomous parkour requires robots to learn generalizable skills that are both vision-based and diverse to perceive and react to various scenarios. In this work, we propose a system for learning a single end-to-end vision-based parkour policy of diverse parkour skills using a simple reward without any reference motion data. We develop a reinforcement learning method inspired by direct collocation to generate parkour skills, including climbing over high obstacles, leaping over large gaps, crawling beneath low barriers, squeezing through thin slits, and running. We distill these skills into a single vision-based parkour policy and transfer it to a quadrupedal robot using its egocentric depth camera. We demonstrate that our system can empower two different low-cost robots to autonomously select and execute appropriate parkour skills to traverse challenging real-world environments.

Makale bağlantısı

https://arxiv.org/abs/2309.05665

Daha fazla bilgi

https://x.com/zipengfu/status/1701316023612219445

Büyük Foundation Modellerinde Halüsinasyon Üzerine Bir Araştırma / A Survey of Hallucination in Large Foundation Models

Makale tanıtımı

  • Farklı halüsinasyon türlerini sınıflandırır ve halüsinasyonu değerlendirmek için ölçütler ile azaltma stratejileri sunar. #survey-paper #foundation-model

    Classifies different types of hallucination phenomena and provides evaluation criteria for assessing hallucination along with mitigation strategies.

Makale özeti

  • Foundation modelde (FM) halüsinasyon, olgusal gerçeklikten sapan veya uydurulmuş bilgi içeren içerik üretimini ifade eder. Bu derleme makalesi, özellikle "Büyük" Foundation Modellerine (LFM'ler) odaklanarak, halüsinasyon sorununu tanımlamayı, açıklığa kavuşturmayı ve ele almayı amaçlayan son dönem çalışmalara geniş kapsamlı bir genel bakış sunuyor. Makale, LFM'lere özgü çeşitli halüsinasyon olgusu türlerini sınıflandırıyor ve halüsinasyonun derecesini değerlendirmek için ölçütler ortaya koyuyor. Ayrıca LFM'lerde halüsinasyonu azaltmaya yönelik mevcut stratejileri inceliyor ve bu alandaki gelecekteki araştırma yönlerini tartışıyor. Özünde bu makale, LFM'lerde halüsinasyonla ilgili zorluklar ve çözümler üzerine kapsamlı bir inceleme sunuyor.

    Hallucination in a foundation model (FM) refers to the generation of content that strays from factual reality or includes fabricated information. This survey paper provides an extensive overview of recent efforts that aim to identify, elucidate, and tackle the problem of hallucination, with a particular focus on ``Large'' Foundation Models (LFMs). The paper classifies various types of hallucination phenomena that are specific to LFMs and establishes evaluation criteria for assessing the extent of hallucination. It also examines existing strategies for mitigating hallucination in LFMs and discusses potential directions for future research in this area. Essentially, the paper offers a comprehensive examination of the challenges and solutions related to hallucination in LFMs.

Makale bağlantısı

https://arxiv.org/abs/2309.05922

Daha fazla bilgi

https://x.com/omarsar0/status/1701970034711539839

Agents: Otonom Dil Ajanları için Açık Kaynaklı Bir Çerçeve / Agents: An Open-source Framework for Autonomous Language Agents

Makale tanıtımı

  • Planlama, bellek, araç kullanımı, çoklu ajan iletişimi gibi özellikleri destekleyen otonom dil ajanları oluşturmak için açık kaynaklı bir kütüphanedir.

    An open-source library for building autonomous language agents including support for features like planning, memory, tool usage, multi-agent communication, and more.

Makale özeti

  • Büyük dil modellerindeki (LLM) son gelişmeler, araştırmacıların ve geliştiricilerin doğal dil arayüzlerini kullanarak çeşitli görevleri otomatik olarak çözebilen ve ortamlar, insanlar ve diğer ajanlarla etkileşime girebilen otonom dil ajanları geliştirmesini mümkün kılıyor. Biz, dil ajanlarını yapay genel zekaya giden yolda umut verici bir yön olarak görüyor ve bu gelişmeleri daha geniş bir uzman olmayan kitleye açmak amacıyla açık kaynaklı bir kütüphane olan Agents'ı yayımlıyoruz. Agents; planlama, bellek, araç kullanımı, çoklu ajan iletişimi ve ince taneli sembolik kontrol gibi önemli özellikleri destekleyecek şekilde özenle tasarlandı. Agents kullanıcı dostudur; çünkü uzman olmayan kişilerin çok fazla kod yazmadan son teknoloji otonom dil ajanları geliştirmesine, özelleştirmesine, test etmesine, ince ayar yapmasına ve dağıtmasına olanak tanır. Kütüphane ayrıca modüler tasarımı sayesinde araştırmacılar için kolayca genişletilebilir olduğundan araştırma dostudur. Agents'a https://github.com/aiwaves-cn/agents adresinden erişilebilir.

    Recent advances on large language models (LLMs) enable researchers and developers to build autonomous language agents that can automatically solve various tasks and interact with environments, humans, and other agents using natural language interfaces. We consider language agents as a promising direction towards artificial general intelligence and release Agents, an open-source library with the goal of opening up these advances to a wider non-specialist audience. Agents is carefully engineered to support important features including planning, memory, tool usage, multi-agent communication, and fine-grained symbolic control. Agents is user-friendly as it enables non-specialists to build, customize, test, tune, and deploy state-of-the-art autonomous language agents without much coding. The library is also research-friendly as its modularized design makes it easily extensible for researchers. Agents is available at https://github.com/aiwaves-cn/agents.

Makale bağlantısı

https://arxiv.org/abs/2309.07870

Daha fazlasını okuyun

https://x.com/arankomatsuzaki/status/1702497897395396960

Radiology-Llama2: Radyoloji için sınıfının en iyisi büyük dil modeli / Radiology-Llama2: Best-in-Class Large Language Model for Radiology

Makale tanıtımı

  • Radyolojiye uyarlanmış, Llama 2 tabanlı bir LLM sunuyor; büyük bir radyoloji raporu veri kümesi üzerinde ince ayar yapılarak radyoloji bulgularından tutarlı ve klinik açıdan faydalı izlenimler üretmesi sağlanıyor.

    Presents an llm based on llama 2 tailored for radiology; it's tuned on a large dataset of radiology reports to generate coherent and clinically useful impressions from radiology findings.

Makale özeti

  • Bu makale, instruction tuning olarak bilinen bir süreçle radyolojiye özel hale getirilmiş büyük bir dil modeli olan Radiology-Llama2'yi tanıtıyor. Radiology-Llama2, Llama2 mimarisi temel alınarak geliştirildi ve radyolojik bulgulardan tutarlı ve klinik olarak faydalı izlenimler üretmek için büyük bir radyoloji raporu veri kümesi üzerinde ek eğitim aldı. MIMIC-CXR ve OpenI veri kümelerinde ROUGE metrikleri kullanılarak yapılan nicel değerlendirmeler, Radiology-Llama2'nin diğer üretici dil modellerine kıyasla son teknoloji performans elde ettiğini gösterdi; model, MIMIC-CXR'de 0.4834 ve OpenI'da 0.4185 Rouge-1 puanı aldı. Radyoloji uzmanları tarafından yapılan ek değerlendirmeler, modelin anlaşılabilirlik, tutarlılık, ilişkililik, özlük ve klinik fayda açısından güçlü yönlerini vurguladı. Bu çalışma, radyoloji gibi uzmanlık gerektiren alanlar için tasarlanıp ince ayar yapılan yerelleştirilmiş dil modellerinin potansiyelini gösteriyor. Uygun şekilde değerlendirilip devreye alındığında bu tür modeller, rutin işleri otomatikleştirerek ve insan uzmanlığını güçlendirerek radyoloji gibi alanları dönüştürebilir.

    This paper introduces Radiology-Llama2, a large language model specialized for radiology through a process known as instruction tuning. Radiology-Llama2 is based on the Llama2 architecture and further trained on a large dataset of radiology reports to generate coherent and clinically useful impressions from radiological findings. Quantitative evaluations using ROUGE metrics on the MIMIC-CXR and OpenI datasets demonstrate that Radiology-Llama2 achieves state-of-the-art performance compared to other generative language models, with a Rouge-1 score of 0.4834 on MIMIC-CXR and 0.4185 on OpenI. Additional assessments by radiology experts highlight the model's strengths in understandability, coherence, relevance, conciseness, and clinical utility. The work illustrates the potential of localized language models designed and tuned for specialized domains like radiology. When properly evaluated and deployed, such models can transform fields like radiology by automating rote tasks and enhancing human expertise.

Makale bağlantısı

https://arxiv.org/abs/2309.06419

Daha fazlasını okuyun

https://x.com/omarsar0/status/1701774444052557965

Yazılım geliştirme için iletişimsel ajanlar / Communicative Agents for Software Development

Makale tanıtımı

  • Şelale modelini yansıtan, sanal sohbet tabanlı bir yazılım geliştirme şirketi olan chatdev'i tanıtıyor; tüm yazılım geliştirme sürecini 1 doların altında bir maliyetle 7 dakikadan kısa sürede tamamlayabilmesi dahil, yazılım üretiminde ajanların etkinliğini gösteriyor.

    Presents chatdev, a virtual chat-powered software development company mirroring the waterfall model; shows the efficacy of the agent in software generation, even completing the entire software development process in less than seven minutes for less than one dollar.

Makale özeti

  • Yazılım mühendisliği, çoğu zaman incelikli sezgilere ve istişareye dayanan karmaşık karar alma süreçleriyle karakterize edilen bir alandır. Derin öğrenmedeki son gelişmeler, yazılım geliştirmenin çeşitli aşamalarında uygulanan ayrıntılı tasarımlar aracılığıyla yazılım mühendisliği pratiklerinde devrim yaratmaya başladı. Bu makale, doğal dil iletişimi yoluyla temel süreçleri sadeleştirip birleştirerek yazılım geliştirme sürecinin tamamında büyük dil modellerinden (LLM) yararlanan ve böylece her aşamada uzmanlaşmış modellere duyulan ihtiyacı ortadan kaldıran yenilikçi bir paradigma sunuyor. Bu paradigmanın merkezinde, yerleşik şelale modelini yansıtan ve geliştirme sürecini tasarım, kodlama, test ve dokümantasyon olmak üzere kronolojik olarak dört farklı aşamaya titizlikle ayıran, sohbet tabanlı sanal bir yazılım geliştirme şirketi olan ChatDev yer alıyor. Her aşamada programcılar, kod gözden geçirenler ve test mühendisleri gibi bir ajan ekibi görev alarak iş birliğine dayalı diyaloğu teşvik ediyor ve kesintisiz bir iş akışını mümkün kılıyor. Chat chain, her aşamayı atomik alt görevlere bölerek kolaylaştırıcı bir rol üstleniyor. Bu sayede bağlama duyarlı iletişim yoluyla çözümler önerme ve doğrulama şeklinde ikili bir işlev yerine getirilerek belirli alt görevlerin verimli biçimde çözülmesi sağlanıyor. ChatDev'in araçsal analizi, yazılım üretimindeki dikkat çekici etkinliğini ortaya koyuyor; tüm yazılım geliştirme sürecinin 1 doların altında bir maliyetle 7 dakikadan kısa sürede tamamlanmasını mümkün kılıyor. Ayrıca, potansiyel güvenlik açıklarını belirleyip azaltmanın yanı sıra olası halüsinasyonları da düzeltiyor ve bunu yaparken kayda değer verimlilik ile maliyet etkinliğini koruyor. ChatDev'in potansiyeli, LLM'lerin yazılım geliştirme alanına entegre edilmesi için yeni olasılıkların önünü açıyor.

    Software engineering is a domain characterized by intricate decision-making processes, often relying on nuanced intuition and consultation. Recent advancements in deep learning have started to revolutionize software engineering practices through elaborate designs implemented at various stages of software development. In this paper, we present an innovative paradigm that leverages large language models (LLMs) throughout the entire software development process, streamlining and unifying key processes through natural language communication, thereby eliminating the need for specialized models at each phase. At the core of this paradigm lies ChatDev, a virtual chat-powered software development company that mirrors the established waterfall model, meticulously dividing the development process into four distinct chronological stages: designing, coding, testing, and documenting. Each stage engages a team of agents, such as programmers, code reviewers, and test engineers, fostering collaborative dialogue and facilitating a seamless workflow. The chat chain acts as a facilitator, breaking down each stage into atomic subtasks. This enables dual roles, allowing for proposing and validating solutions through context-aware communication, leading to efficient resolution of specific subtasks. The instrumental analysis of ChatDev highlights its remarkable efficacy in software generation, enabling the completion of the entire software development process in under seven minutes at a cost of less than one dollar. It not only identifies and alleviates potential vulnerabilities but also rectifies potential hallucinations while maintaining commendable efficiency and cost-effectiveness. The potential of ChatDev unveils fresh possibilities for integrating LLMs into the realm of software development.

Makale bağlantısı

https://arxiv.org/abs/2307.07924v3

Daha fazla bilgi

https://x.com/KevinAFischer/status/1702355125418045860

MAmmoTH: Hibrit instruction tuning ile matematik generalist modelleri oluşturma / MAmmoTH: Building Math Generalist Models through Hybrid Instruction Tuning

Makale tanıtımı

  • Genel matematik problemi çözümüne uyarlanmış bir dizi açık kaynaklı makine öğrenimi modeli; modeller, özenle seçilmiş bir instruction tuning veri kümesiyle eğitiliyor ve çeşitli matematiksel akıl yürütme veri kümelerinde mevcut açık kaynak modellerden daha iyi performans gösteriyor. #mathglm

    A series of open-source llms tailored for general math problem-solving; the models are trained on a curated instruction tuning dataset and outperform existing open-source models on several mathematical reasoning datasets.

Makale özeti

  • Genel matematik problemi çözümü için özel olarak uyarlanmış açık kaynaklı büyük dil modeli (LLM) serisi MAmmoTH tanıtılıyor. MAmmoTH modelleri, titizlikle derlenmiş komut ince ayar veri kümesi MathInstruct üzerinde eğitiliyor. MathInstruct, 13 matematik veri kümesinden orta düzey akıl yürütme açıklamalarıyla derlenmiştir; bunların 6'sı ekip tarafından yeni kürasyonlu akıl yürütmeler içerir. Bu çözüm, chain-of-thought (CoT) ve program-of-thought (PoT) gerekçelendirmelerinin benzersiz bir hibritini sunarken matematiğin farklı alanlarını da geniş kapsamlı biçimde kapsar. CoT ve PoT karışımı, yalnızca araç kullanımının potansiyelini ortaya çıkarmakla kalmaz, aynı zamanda farklı matematik problemleri için farklı düşünme süreçlerine de olanak tanır. Sonuç olarak MAmmoTH serisi, tüm ölçeklerde 9 matematiksel akıl yürütme veri kümesinde ortalama %13 ila %29 doğruluk artışıyla mevcut açık kaynak modelleri açık ara geride bırakıyor. Dikkat çekici biçimde, yarışma düzeyindeki veri kümesi MATH'ta MAmmoTH-7B modeli %35'e ulaşarak en iyi açık kaynak 7B modeli olan WizardMath'i %25 oranında aşıyor; MAmmoTH-34B modeli ise MATH'ta %46 doğruluk elde ederek GPT-4'ün CoT sonucunu bile geride bırakıyor. Bu çalışma, üstün matematik genelci modeller geliştirmede çeşitli problem kapsamı ile hibrit gerekçelendirme kullanımının önemini vurguluyor.

    Genel matematik problemi çözümü için özel olarak uyarlanmış açık kaynaklı büyük dil modelleri (LLM'ler) serisi MAmmoTH'u tanıtıyoruz. MAmmoTH modelleri, titizlikle kürasyonu yapılmış komut ince ayar veri kümemiz MathInstruct üzerinde eğitilmiştir. MathInstruct, 13 matematik veri kümesinden orta düzey gerekçelendirmelerle derlenmiştir; bunların 6'sının gerekçelendirmeleri tarafımızca yeni kürasyonu yapılmıştır. Bu veri kümesi, chain-of-thought (CoT) ve program-of-thought (PoT) gerekçelendirmelerinin benzersiz bir hibritini sunar ve ayrıca matematiğin farklı alanlarında geniş kapsama sağlar. CoT ve PoT hibriti, yalnızca araç kullanımının potansiyelini açığa çıkarmakla kalmaz, aynı zamanda farklı matematik problemleri için farklı düşünme süreçlerine de izin verir. Sonuç olarak MAmmoTH serisi, tüm ölçeklerde dokuz matematiksel akıl yürütme veri kümesinde ortalama %13 ile %29 arasında doğruluk artışıyla mevcut açık kaynak modelleri önemli ölçüde geride bırakmaktadır. Dikkat çekici biçimde, MAmmoTH-7B modelimiz MATH'ta (yarışma düzeyinde bir veri kümesi) %35'e ulaşarak en iyi açık kaynak 7B modelini (WizardMath) %25 oranında aşmakta, MAmmoTH-34B modeli ise MATH'ta %46 doğruluk elde ederek GPT-4'ün CoT sonucunu bile geçmektedir. Çalışmamız, daha üstün matematik genelci modeller geliştirmede çeşitli problem kapsamının ve hibrit gerekçelendirme kullanımının önemini vurgulamaktadır.

Makale bağlantısı

https://arxiv.org/abs/2309.05653

Daha fazlasını okuyun

https://x.com/xiangyue96/status/1701710215442309323

Orijinal metin

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-461

Henüz yorum yok.

Henüz yorum yok.