[2023/10/30 ~ 11/07] Bu Haftanın Öne Çıkan ML Makaleleri (Top ML Papers of the Week)
(discuss.pytorch.kr)Genel Bakış
-
DAIR.AI tarafından her hafta yayımlanan ML makalelerine dair yazıyı otomatik olarak çevirdik.
-
Bu hafta sunulan makaleler, büyük dil modelleri (Large Language Models, LLMs) ve bunların performans değerlendirmelerine odaklanıyor. Özellikle "Evaluating LLMs", "LLMs for Chip Design", "Efficient Context Window Extension of LLMs", "Enhancing LLMs by Emotion Stimuli" gibi makalelerde LLM'lerin farklı uygulama ve optimizasyon yöntemlerinin ele alındığını görmek mümkündü.
-
Bu eğilim, son birkaç yılda yapay zeka alanında LLM'lerin öneminin hızla arttığını yansıtıyor. Özellikle OpenAI'nin GPT serisi gibi öncü modellerin çeşitli doğal dil işleme (NLP) görevlerinde etkileyici sonuçlar göstermesiyle, araştırmacılar bu modelleri daha da geliştirmeye veya yeni problemlere uygulamaya yönelik çalışmalara yoğunlaşıyor. Bununla birlikte, model verimliliğini artırma ve duygu ya da durumsal bağlam gibi unsurları kullanarak modelin girdi ve çıktısını daha da zenginleştirme yöntemlerine olan ilgi de artıyor.
-
Ayrıca, "Next Generation AlphaFold" gibi makalelerde LLM dışındaki bağlamlarda da, yapısal biyoloji gibi uzmanlık alanlarına makine öğrenimi yöntemlerinin uygulanmasıyla yenilikçi yaklaşımların araştırıldığı görülüyor. Bu araştırma eğilimi, makine öğrenimi ve derin öğrenme teknolojilerinin yalnızca kuramsal ilerlemeyle sınırlı kalmayıp; sanayi, bilim, tıp ve daha birçok alanda somut uygulamalara dönüştüğünü gösteriyor.
Seyrek Gözlemlerden Günlük Hava Tahmini için Derin Öğrenme / Deep Learning for Day Forecasts from Sparse Observations
Makale Tanıtımı
- Gözlem tabanlı bir modelin başarılı biçimde tahmin yapabildiği hem önceden tahmin süresi aralığını hem de değişkenleri genişleten, son teknoloji bir sinirsel hava durumu modeli; yoğun ve seyrek veri sensörlerinin her ikisinden de öğrenerek yağış, rüzgar, sıcaklık ve çiğ noktası için 24 saate kadar ileriye dönük tahmin üretir.
> A state-of-the-art neural weather model that extends both the lead time range and the variables that an observation-based model can predict well; learns from both dense and sparse data sensors and makes predictions up to 24 hours ahead for precipitation, wind, temperature, and dew point.
Makale Özeti
- Derin sinir ağları, hava koşullarını modellemek için alternatif bir paradigma sunar. Veriler hazır olduğunda bir saniyeden kısa sürede tahmin üretebilmesi, bunu çok yüksek zamansal ve mekânsal çözünürlükle yapabilmesi ve doğrudan atmosferik gözlemlerden öğrenebilmesi, bu modellerin kendine özgü avantajlarından yalnızca birkaçıdır. Atmosferik gözlemler kullanılarak eğitilen sinirsel modeller — yani en yüksek doğruluklu ve en düşük gecikmeli verilerle çalışan modeller — şimdiye kadar, son teknoloji olasılıksal Sayısal Hava Tahmini modelleriyle karşılaştırıldığında, yalnızca yağış değişkeninde ve en fazla on iki saatlik önceden tahmin süresinde iyi performans gösterebilmişti. Bu makalede, gözlem tabanlı bir sinirsel modelin başarılı biçimde tahmin edebildiği hem değişkenleri hem de önceden tahmin süresi aralığını önemli ölçüde genişleten MetNet-3 sunuluyor. MetNet-3, hem yoğun hem de seyrek veri sensörlerinden öğrenerek yağış, rüzgar, sıcaklık ve çiğ noktası için 24 saate kadar ileriye dönük tahmin yapar. MetNet-3, ağın son derece seyrek hedefler üzerinde eğitilmesine rağmen veri asimilasyonunu örtük olarak yakalayan ve mekânsal olarak yoğun tahminler üreten temel bir yoğunlaştırma tekniği sunar. MetNet-3, sırasıyla 2 dakikaya ve 1 km'ye kadar yüksek zamansal ve mekânsal çözünürlük ile düşük operasyonel gecikme sağlar. MetNet-3'ün, CONUS bölgesinde 24 saate kadar ileri tahmin ayarında HRRR ve ENS gibi en iyi tek üyeli ve çok üyeli NWP sistemlerini geride bırakarak gözlem tabanlı sinirsel modeller için yeni bir performans kilometre taşı belirlediği görülmüştür. MetNet-3 hâlihazırda operasyoneldir ve tahminleri diğer modellerle birlikte Google Search içinde sunulmaktadır.
> Deep neural networks offer an alternative paradigm for modeling weather conditions. The ability of neural models to make a prediction in less than a second once the data is available and to do so with very high temporal and spatial resolution, and the ability to learn directly from atmospheric observations, are just some of these models' unique advantages. Neural models trained using atmospheric observations, the highest fidelity and lowest latency data, have to date achieved good performance only up to twelve hours of lead time when compared with state-of-the-art probabilistic Numerical Weather Prediction models and only for the sole variable of precipitation. In this paper, we present MetNet-3 that extends significantly both the lead time range and the variables that an observation based neural model can predict well. MetNet-3 learns from both dense and sparse data sensors and makes predictions up to 24 hours ahead for precipitation, wind, temperature and dew point. MetNet-3 introduces a key densification technique that implicitly captures data assimilation and produces spatially dense forecasts in spite of the network training on extremely sparse targets. MetNet-3 has a high temporal and spatial resolution of, respectively, up to 2 minutes and 1 km as well as a low operational latency. We find that MetNet-3 is able to outperform the best single- and multi-member NWPs such as HRRR and ENS over the CONUS region for up to 24 hours ahead setting a new performance milestone for observation based neural models. MetNet-3 is operational and its forecasts are served in Google Search in conjunction with other models.
Makale Bağlantısı
https://arxiv.org/abs/2306.06079
Daha Fazla Okuma
https://x.com/GoogleAI/status/1719774923294687636
Büyük Dil Modellerini Değerlendirmek: Kapsamlı Bir Derleme / Evaluating Large Language Models: A Comprehensive Survey
Makale Tanıtımı
- Farklı değerlendirme türleri, veri kümeleri, teknikler ve daha fazlasına ilişkin tartışmaları içeren, LLM değerlendirmesine dair kapsamlı bir derleme (100+ sayfa) sunuyor. #llm-survey #llm-evaluation
> A comprehensive survey (100+ pages) on evaluating llms, including discussions about the different types of evaluations, datasets, techniques, and more.
Makale Özeti
- Büyük dil modelleri (LLM'ler), geniş bir görev yelpazesinde dikkat çekici yetenekler sergiledi. Büyük ilgi gördüler ve çok sayıda aşağı akış uygulamasında kullanıma alındılar. Ancak iki ucu keskin bir kılıç gibi, LLM'ler potansiyel riskler de barındırıyor. Özel verilerin sızmasına yol açabilir veya uygunsuz, zararlı ya da yanıltıcı içerikler üretebilirler. Ayrıca LLM'lerin hızlı ilerleyişi, yeterli güvenlik önlemleri olmadan süper zekalı sistemlerin ortaya çıkma ihtimaline dair endişeleri de artırıyor. LLM yeteneklerinden etkili biçimde yararlanmak ve güvenli, faydalı gelişimlerini sağlamak için LLM'lerin titiz ve kapsamlı şekilde değerlendirilmesi kritik önem taşıyor. Bu derleme, LLM değerlendirmesine panoramik bir bakış sunmayı amaçlıyor. LLM değerlendirmesini üç ana gruba ayırıyor: bilgi ve yetenek değerlendirmesi, hizalama değerlendirmesi ve güvenlik değerlendirmesi. Bu üç alandaki değerlendirme metodolojileri ve benchmark'lara dair kapsamlı bir incelemeye ek olarak, LLM'lerin uzmanlık gerektiren alanlardaki performansına ilişkin değerlendirmeleri bir araya getiriyor ve yetenek, hizalama, güvenlik ve uygulanabilirliği kapsayan kapsamlı değerlendirme platformlarının inşasını tartışıyor. Bu kapsamlı genel bakışın, LLM değerlendirmesine yönelik daha fazla araştırma ilgisini teşvik etmesini; nihai olarak da değerlendirmenin, LLM'lerin sorumlu biçimde geliştirilmesini yönlendiren bir köşe taşı haline gelmesini umuyoruz. Bunun, potansiyel riskleri en aza indirirken toplumsal faydayı en üst düzeye çıkaracak bir evrime yön vermesini öngörüyoruz. İlgili makalelerden özenle seçilmiş bir listeye https://github.com/tjunlp-lab/Awesome-LLMs-Evaluation-Papers adresinden erişilebilir.
> Large language models (LLMs) have demonstrated remarkable capabilities across a broad spectrum of tasks. They have attracted significant attention and been deployed in numerous downstream applications. Nevertheless, akin to a double-edged sword, LLMs also present potential risks. They could suffer from private data leaks or yield inappropriate, harmful, or misleading content. Additionally, the rapid progress of LLMs raises concerns about the potential emergence of superintelligent systems without adequate safeguards. To effectively capitalize on LLM capacities as well as ensure their safe and beneficial development, it is critical to conduct a rigorous and comprehensive evaluation of LLMs. This survey endeavors to offer a panoramic perspective on the evaluation of LLMs. We categorize the evaluation of LLMs into three major groups: knowledge and capability evaluation, alignment evaluation and safety evaluation. In addition to the comprehensive review on the evaluation methodologies and benchmarks on these three aspects, we collate a compendium of evaluations pertaining to LLMs' performance in specialized domains, and discuss the construction of comprehensive evaluation platforms that cover LLM evaluations on capabilities, alignment, safety, and applicability. We hope that this comprehensive overview will stimulate further research interests in the evaluation of LLMs, with the ultimate goal of making evaluation serve as a cornerstone in guiding the responsible development of LLMs. We envision that this will channel their evolution into a direction that maximizes societal benefit while minimizing potential risks. A curated list of related papers has been publicly available at https://github.com/tjunlp-lab/Awesome-LLMs-Evaluation-Papers.
Makale bağlantısı
https://arxiv.org/abs/2310.19736
Daha fazlasını oku
https://x.com/omarsar0/status/1719351676828602502
Omurgaların Savaşı: Bilgisayarlı Görü görevleri genelinde önceden eğitilmiş modellerin büyük ölçekli karşılaştırması / Battle of the Backbones: A Large-Scale Comparison of Pretrained Models across Computer Vision Tasks
Makale tanıtımı
- Çeşitli bilgisayarlı görü görevleri için büyük ölçekli bir benchmark çerçevesi; vision transformer'lar (ViT) ve öz denetimli öğrenme (SSL) giderek daha popüler hale gelse de, büyük eğitim kümeleri üzerinde denetimli biçimde önceden eğitilmiş konvolüsyonel sinir ağlarının çoğu görevde en iyi performansı gösterdiğini ortaya koyuyor. #self-supervised #vision-transformer
> A large benchmarking framework for a diverse suite of computer vision tasks; find that while vision transformers (vits) and self-supervised learning (ssl) are increasingly popular, convolutional neural networks pretrained in a supervised fashion on large training sets perform best on most tasks.
Makale özeti
- Sinir ağı tabanlı bilgisayarlı görü sistemleri genellikle, önceden eğitilmiş veya rastgele başlatılmış bir özellik çıkarıcı olan bir backbone üzerine kurulur. Birkaç yıl öncesine kadar varsayılan seçenek, ImageNet ile eğitilmiş bir evrişimsel sinir ağıydı. Ancak son dönemde, çeşitli algoritmalar ve veri kümeleri kullanılarak önceden eğitilmiş sayısız backbone ortaya çıktı. Bu geniş seçenek yelpazesi çeşitli sistemlerin performansını artırmış olsa da, uygulayıcıların hangi backbone’u seçecekleri konusunda bilinçli bir karar vermesi kolay değil. Battle of the Backbones (BoB), sınıflandırmadan nesne tespitine, OOD genellemesine ve ötesine uzanan çeşitli bilgisayarlı görü görevlerinde; vision-language modelleri, self-supervised learning ile eğitilmiş modeller ve Stable Diffusion backbone’u dahil olmak üzere farklı önceden eğitilmiş model gruplarını kıyaslayarak bu seçimi kolaylaştırmayı amaçlıyor. Ayrıca BoB, 1.500’den fazla eğitim çalışması üzerinde yürütülen kapsamlı analizle mevcut yaklaşımların güçlü ve zayıf yönlerini aydınlatarak, araştırma topluluğuna bilgisayarlı görü alanını ileri taşıyabilecek umut verici yönler de gösteriyor. Vision Transformer (ViT) ve self-supervised learning (SSL) giderek daha popüler hale gelse de, büyük eğitim kümeleri üzerinde denetimli biçimde önceden eğitilmiş evrişimsel sinir ağlarının, ele alınan modeller arasında hâlâ çoğu görevde en iyi performansı verdiğini buldular. Ayrıca, aynı mimariler ve benzer büyüklükteki ön eğitim veri kümeleri üzerinde yapılan adil karşılaştırmalarda SSL backbone’larının son derece rekabetçi olduğunu da ortaya koydular; bu da gelecekteki çalışmaların daha gelişmiş mimariler ve daha büyük ön eğitim veri kümeleriyle SSL ön eğitimi yapması gerektiğine işaret ediyor. Araştırmacıların kendi backbone’larını da test edebilmesi için deneylerin ham sonuçları ve ilgili kod burada yayımlandı: https://github.com/hsouri/Battle-of-the-Backbones
> Neural network based computer vision systems are typically built on a backbone, a pretrained or randomly initialized feature extractor. Several years ago, the default option was an ImageNet-trained convolutional neural network. However, the recent past has seen the emergence of countless backbones pretrained using various algorithms and datasets. While this abundance of choice has led to performance increases for a range of systems, it is difficult for practitioners to make informed decisions about which backbone to choose. Battle of the Backbones (BoB) makes this choice easier by benchmarking a diverse suite of pretrained models, including vision-language models, those trained via self-supervised learning, and the Stable Diffusion backbone, across a diverse set of computer vision tasks ranging from classification to object detection to OOD generalization and more. Furthermore, BoB sheds light on promising directions for the research community to advance computer vision by illuminating strengths and weakness of existing approaches through a comprehensive analysis conducted on more than 1500 training runs. While vision transformers (ViTs) and self-supervised learning (SSL) are increasingly popular, we find that convolutional neural networks pretrained in a supervised fashion on large training sets still perform best on most tasks among the models we consider. Moreover, in apples-to-apples comparisons on the same architectures and similarly sized pretraining datasets, we find that SSL backbones are highly competitive, indicating that future works should perform SSL pretraining with advanced architectures and larger pretraining datasets. We release the raw results of our experiments along with code that allows researchers to put their own backbones through the gauntlet here: https://github.com/hsouri/Battle-of-the-Backbones
Makale bağlantısı
https://arxiv.org/abs/2310.19909
Daha fazlası
https://x.com/micahgoldblum/status/1719719308882801045
ChipNeMo: Çip Tasarımı için Alan Uyarlamalı LLM’ler / ChipNeMo: Domain-Adapted LLMs for Chip Design
Makale tanıtımı
- Alan uyarlama tekniklerinden yararlanarak endüstriyel çip tasarımında LLM kullanımını öneriyor; asistan chatbot, elektronik tasarım otomasyonu ve hata özetleme gibi çip tasarımına yönelik farklı uygulamaları değerlendiriyor; alan uyarlaması, çeşitli tasarım görevlerinde genel amaçlı modellere kıyasla performansı önemli ölçüde artırıyor; RAG’de alan uyarlamalı bir LLM kullanmak yanıt kalitesini daha da iyileştiriyor.
> Proposes using llms for industrial chip design by leveraging domain adaptation techniques; evaluates different applications for chip design such as assistant chatbot, electronic design automation, and bug summarization; domain adaptation significantly improves performance over general-purpose models on a variety of design tasks; using a domain-adapted llm for rag further improves answer quality.
Makale özeti
- ChipNeMo, endüstriyel çip tasarımı için büyük dil modellerinin (LLM) uygulama alanlarını keşfetmeyi amaçlıyor. Hazır ticari veya açık kaynaklı LLM'leri doğrudan devreye almak yerine; özel tokenizasyon, alan uyarlamalı sürekli ön eğitim, alana özgü talimatlarla denetimli ince ayar (SFT) ve alan uyarlamalı retrieval modelleri gibi alan uyarlama tekniklerini benimsiyor. Bu yöntemler, çip tasarımı için seçilen üç LLM uygulamasında değerlendiriliyor: mühendislik asistanı sohbet botu, EDA betik üretimi ve hata özetleme ile analizi. Sonuçlar, bu alan uyarlama tekniklerinin değerlendirilen üç uygulamada da genel amaçlı temel modellere kıyasla LLM performansını önemli ölçüde iyileştirdiğini ve çeşitli tasarım görevlerinde benzer veya daha iyi performansla model boyutunun 5 kata kadar küçültülebilmesini sağladığını gösteriyor. Bulgular ayrıca mevcut sonuçlarla ideal sonuçlar arasında hâlâ iyileştirme payı bulunduğunu da ortaya koyuyor. Unity, gelecekte alana uygun LLM yaklaşımlarına yönelik ek araştırmaların bu farkı kapatmaya yardımcı olmasını bekliyor.
> ChipNeMo aims to explore the applications of large language models (LLMs) for industrial chip design. Instead of directly deploying off-the-shelf commercial or open-source LLMs, we instead adopt the following domain adaptation techniques: custom tokenizers, domain-adaptive continued pretraining, supervised fine-tuning (SFT) with domain-specific instructions, and domain-adapted retrieval models. We evaluate these methods on three selected LLM applications for chip design: an engineering assistant chatbot, EDA script generation, and bug summarization and analysis. Our results show that these domain adaptation techniques enable significant LLM performance improvements over general-purpose base models across the three evaluated applications, enabling up to 5x model size reduction with similar or better performance on a range of design tasks. Our findings also indicate that there's still room for improvement between our current results and ideal outcomes. We believe that further investigation of domain-adapted LLM approaches will help close this gap in the future.
Makale bağlantısı
https://arxiv.org/abs/2311.00176
Daha fazla bilgi
https://x.com/omarsar0/status/1720066328961159387
YaRN: Büyük dil modellerinin bağlam penceresinin verimli şekilde genişletilmesi / YaRN: Efficient Context Window Extension of Large Language Models
Makale tanıtımı
- Önceden eğitildiği bağlam penceresinin ötesinde LLM'lerin bağlam penceresini verimli biçimde genişletmek için hesaplama açısından verimli bir yöntem öneriyor; ince ayar veri kümesinin sınırlı bağlamının ötesine ekstrapolasyon yapıyor ve modeller 128k'ya kadar bağlam uzunluğunda yeniden üretildi. #yarn
> Proposes a compute-efficient method for efficiently extending the context window of llms beyond what it was pretrained on; extrapolates beyond the limited context of a fine-tuning dataset and models have been reproduced up to 128k context length.
Makale özeti
- Döner konumsal gömmeler (RoPE), transformer tabanlı dil modellerinde konumsal bilgiyi etkili biçimde kodladığını göstermiştir. Ancak bu modeller, eğitildikleri dizi uzunluğunun ötesinde genelleme yapamaz. Bu tür modellerin bağlam penceresini genişletmek için hesaplama açısından verimli bir yöntem olan YaRN'ı (Yet another RoPE extensioN method) tanıtıyoruz; bu yöntem önceki yaklaşımlara göre 10 kat daha az token ve 2,5 kat daha az eğitim adımı gerektiriyor. YaRN kullanılarak, LLaMA modellerinin özgün ön eğitimlerinin izin verdiğinden çok daha uzun bağlam uzunluklarını etkili biçimde kullanabildiğini ve bu uzunluklara ekstrapolasyon yapabildiğini; ayrıca bağlam penceresi genişletmede önceki son teknoloji yöntemleri de aştığını gösteriyoruz. Buna ek olarak, YaRN'ın ince ayar veri kümesinin sınırlı bağlamının ötesine ekstrapolasyon yapabilme yeteneğini de sergilediğini ortaya koyuyoruz. YaRN ile ince ayar yapılan modeller, https://github.com/jquesnelle/yarn adresinde çevrimiçi olarak 128k'ya kadar bağlam uzunluğunda kullanıma sunuldu ve yeniden üretildi.
> Rotary Position Embeddings (RoPE) have been shown to effectively encode positional information in transformer-based language models. However, these models fail to generalize past the sequence length they were trained on. We present YaRN (Yet another RoPE extensioN method), a compute-efficient method to extend the context window of such models, requiring 10x less tokens and 2.5x less training steps than previous methods. Using YaRN, we show that LLaMA models can effectively utilize and extrapolate to context lengths much longer than their original pre-training would allow, while also surpassing previous the state-of-the-art at context window extension. In addition, we demonstrate that YaRN exhibits the capability to extrapolate beyond the limited context of a fine-tuning dataset. The models fine-tuned using YaRN has been made available and reproduced online up to 128k context length at https://github.com/jquesnelle/yarn
Makale bağlantısı
https://arxiv.org/abs/2309.00071
Daha fazla bilgi
https://x.com/theemozilla/status/1720107186850877662
https://discuss.pytorch.kr/t/yarn-rope-llm-10-2-5-context-window-128k/…
Doğrudan hava yakalamada sorbent keşfi için Open DAC 2023 veri kümesi ve zorlukları / The Open DAC 2023 Dataset and Challenges for Sorbent Discovery in Direct Air Capture
Makale tanıtımı
- Adsorbe edilmiş karbondioksit ve/veya su içeren 8.800'den fazla MOF malzemesi üzerinde 38 milyondan fazla yoğunluk fonksiyonel teorisi (DFT) hesaplamasından oluşan bir veri seti tanıtılıyor. Veri seti içinden DAC için özellikler doğrudan belirleniyor ve veri setiyle DFT düzeyindeki hesaplamaları yaklaşıklandırmak için son teknoloji ML modelleri eğitiliyor; bu da gelecekte DAC dahil geniş bir uygulama yelpazesi için MOF'ları belirleme çalışmalarında önemli bir başlangıç ölçütü olabilir.
> Introduces a dataset consisting of more than 38m density functional theory (dft) calculations on more than 8,800 mof materials containing adsorbed co2 and/or h2o; properties for dac are identified directly in the dataset; also trains state-of-the-art ml models with the dataset to approximate calculations at the dft level; can lead to important baseline for future efforts to identify mofs for a wide range of applications, including dac.
Makale özeti
- Dünya iklim değişikliğiyle mücadele etmek için karbondioksiti ortadan kaldırmaya yönelik yeni yöntemlere acilen ihtiyaç vardır. Doğrudan hava yakalama (DAC), karbondioksiti doğrudan ortam havasından yakalamaya yönelik gelişmekte olan bir teknolojidir. Metal-organik kafesler (MOF'lar), DAC için potansiyel olarak özelleştirilebilir adsorbanlar olarak yaygın biçimde incelenmiştir. Ancak keşfedilecek kimyasal uzayın çok geniş olması ve malzemelerin nem ile sıcaklığa bağlı olarak anlaşılması gerekliliği nedeniyle DAC için umut vadeden MOF adsorbanlarını keşfetmek zordur. Araştırmacılar, makine öğrenimindeki (ML) son yeniliklerden yararlanan hesaplamalı bir yaklaşımı inceliyor ve adsorbe edilmiş CO2 ve/veya H2O içeren 8.800'den fazla MOF malzemesi üzerinde 38 milyondan fazla yoğunluk fonksiyonel teorisi (DFT) hesaplamasından oluşan Open DAC 2023 (ODAC23) adlı bir veri seti sunuyor. ODAC23, şu anda mevcut DFT doğruluk düzeyindeki MOF adsorpsiyon hesaplama verileri arasında açık ara en büyük veri setidir. Bu veri seti, adsorbe edilmiş moleküllerin özelliklerini incelemenin yanı sıra MOF'ların yapısal gevşemesi hakkında da zengin bilgiler sağlar; bu bilgiler DAC'e özgü uygulamaların ötesinde birçok bağlamda yararlı olabilir. DAC için umut vadeden özelliklere sahip çok sayıda MOF, doğrudan ODAC23 içinde belirlenmiştir. Ayrıca bu veri seti üzerinde son teknoloji makine öğrenimi modelleri eğitilerek DFT düzeyindeki hesaplamalar yaklaşıklandırılmıştır. Bu açık kaynak veri seti ve başlangıç ML modelleri, gelecekte DAC dahil geniş bir uygulama yelpazesi için MOF'ları belirleme çabalarına önemli bir başlangıç ölçütü sağlayacaktır.
> New methods for carbon dioxide removal are urgently needed to combat global climate change. Direct air capture (DAC) is an emerging technology to capture carbon dioxide directly from ambient air. Metal-organic frameworks (MOFs) have been widely studied as potentially customizable adsorbents for DAC. However, discovering promising MOF sorbents for DAC is challenging because of the vast chemical space to explore and the need to understand materials as functions of humidity and temperature. We explore a computational approach benefiting from recent innovations in machine learning (ML) and present a dataset named Open DAC 2023 (ODAC23) consisting of more than 38M density functional theory (DFT) calculations on more than 8,800 MOF materials containing adsorbed CO2 and/or H2O. ODAC23 is by far the largest dataset of MOF adsorption calculations at the DFT level of accuracy currently available. In addition to probing properties of adsorbed molecules, the dataset is a rich source of information on structural relaxation of MOFs, which will be useful in many contexts beyond specific applications for DAC. A large number of MOFs with promising properties for DAC are identified directly in ODAC23. We also trained state-of-the-art ML models on this dataset to approximate calculations at the DFT level. This open-source dataset and our initial ML models will provide an important baseline for future efforts to identify MOFs for a wide range of applications, including DAC.
Makale bağlantısı
https://arxiv.org/abs/2311.00341
Daha fazlasını okuyun
https://x.com/AIatMeta/status/1720143486505341128
Makine öğreniminde simetriyi uygulamak, keşfetmek ve teşvik etmek için birleşik bir çerçeve / A Unified Framework to Enforce, Discover, and Promote Symmetry in Machine Learning
Makale tanıtımı
- Makine öğreniminde simetriyi uygulamak, keşfetmek ve teşvik etmek için birleşik ve metodolojik bir çerçeve sunuluyor; ayrıca bu fikirlerin çok katmanlı algılayıcılar ve temel fonksiyon regresyonu gibi ML modellerine nasıl uygulanabileceği de tartışılıyor.
> Presents a unified and methodological framework to enforce, discover, and promote symmetry in machine learning; also discusses how these ideas can be applied to ml models such as multilayer perceptions and basis function regression.
Makale özeti
- Simetri doğanın her yerinde bulunur ve fizik ile makine öğreniminde giderek daha merkezi bir rol oynamaktadır. Poincar'{e} değişmezliği gibi temel simetriler, Dünya’daki laboratuvarlarda keşfedilen fizik yasalarının evrenin en uzak köşelerine kadar ekstrapole edilmesini sağlar. Makine öğrenimi uygulamalarında bu ekstrapolasyon gücüne ulaşmak için simetri zorunludur. Örneğin, görüntü sınıflandırmada öteleme değişmezliği kullanmak, evrişimli sinir ağları gibi daha az parametreli modellerin daha küçük veri kümeleri üzerinde eğitilmesine ve en ileri düzey performansa ulaşmasına olanak tanır. Bu makalede, makine öğrenimi modellerine simetriyi üç yolla dahil etmek için birleştirici bir kuramsal ve metodolojik çerçeve sunulmaktadır: 1. model eğitilirken bilinen simetriyi dayatmak, 2. belirli bir modelin veya veri kümesinin bilinmeyen simetrilerini keşfetmek, 3. veride yeterli kanıt olduğunda kullanıcı tarafından belirtilen aday grup içinde simetriyi bozan bir modeli öğrenerek eğitim sırasında simetriyi teşvik etmek. Bu üç yöntem, makine öğrenimi modelleri eğitilirken simetrinin güçlendirilmesini mümkün kılar. Bu tür görevlerin, vektör demetleri üzerindeki fiber-lineer Lie grup etkileriyle ilişkili Lie türevinin merkezi nesne olduğu ortak bir matematiksel çerçeve içinde ele alınabileceğini gösteriyoruz. Simetriyi dayatmanın ve keşfetmenin, Lie türevinin çift doğrusal yapısına göre birbirine dual olan lineer cebirsel görevler olduğunu göstererek mevcut çeşitli sonuçları genişletiyor ve birleştiriyoruz. Ayrıca, makine öğrenimi modellerinin eğitimi sırasında simetri kırılmasını cezalandırmak için Lie türevi ve nükleer norm gevşetmesine dayanan dışbükey düzenlileştirme fonksiyonları sınıfını tanıtarak simetriyi teşvik etmeye yönelik yeni bir yöntem öneriyoruz. Bu fikirlerin, temel fonksiyon regresyonu, dinamik sistem keşfi, çok katmanlı algılayıcılar ve görüntüler gibi uzamsal alanlar üzerinde çalışan sinir ağları dahil olmak üzere çok çeşitli makine öğrenimi modellerine nasıl uygulanabileceğini açıklıyoruz.
> Symmetry is present throughout nature and continues to play an increasingly central role in physics and machine learning. Fundamental symmetries, such as Poincar'{e} invariance, allow physical laws discovered in laboratories on Earth to be extrapolated to the farthest reaches of the universe. Symmetry is essential to achieving this extrapolatory power in machine learning applications. For example, translation invariance in image classification allows models with fewer parameters, such as convolutional neural networks, to be trained on smaller data sets and achieve state-of-the-art performance. In this paper, we provide a unifying theoretical and methodological framework for incorporating symmetry into machine learning models in three ways: 1. enforcing known symmetry when training a model; 2. discovering unknown symmetries of a given model or data set; and 3. promoting symmetry during training by learning a model that breaks symmetries within a user-specified group of candidates when there is sufficient evidence in the data. We show that these tasks can be cast within a common mathematical framework whose central object is the Lie derivative associated with fiber-linear Lie group actions on vector bundles. We extend and unify several existing results by showing that enforcing and discovering symmetry are linear-algebraic tasks that are dual with respect to the bilinear structure of the Lie derivative. We also propose a novel way to promote symmetry by introducing a class of convex regularization functions based on the Lie derivative and nuclear norm relaxation to penalize symmetry breaking during training of machine learning models. We explain how these ideas can be applied to a wide range of machine learning models including basis function regression, dynamical systems discovery, multilayer perceptrons, and neural networks acting on spatial fields such as images.
Makale bağlantısı
https://arxiv.org/abs/2311.00212
Daha fazlası
https://x.com/eigensteve/status/1720115655050227911
Yeni Nesil AlphaFold / Next Generation AlphaFold
Makale tanıtımı
- AlphaFold’un uygulama alanını büyük ölçüde genişleten yeni bir yinelemesine ilişkin ilerlemeyi raporluyor; proteinler, nükleik asitler, küçük moleküller, iyonlar ve modifiye kalıntılar içeren komplekslerin ortak yapı tahmini yeteneklerini gösteriyor ve protein-nükleik asit etkileşimlerinde uzman tahminleyicilerden daha yüksek doğruluk sergiliyor.
> Reports progress on a new iteration of alphafold that greatly expands its range of applicability; shows capabilities of joint structure prediction of complexes including proteins, nucleic acids, small molecules, ions, and modified residue; demonstrates greater accuracy on protein-nucleic acid interactions than specialists predictors.
Makale bağlantısı
https://storage.googleapis.com/deepmind-media/DeepMind.com/…
Daha fazlası
https://x.com/demishassabis/status/1719345831730368596
Büyük Dil Modelleri Duygusal Uyaranları Anlar ve Bunlarla Geliştirilebilir / Large Language Models Understand and Can be Enhanced by Emotional Stimuli
Makale tanıtımı
- Flan-T5-Large, Vicuna, Llama 2, BLOOM, ChatGPT, GPT-4 gibi çeşitli yapay zeka modelleri kullanılarak 45 görev üzerinde otomatik deneyler yürütülüyor; görevler, kapsamlı değerlendirme senaryolarını temsil eden deterministik ve üretici uygulamaları kapsıyor; deney sonuçları, yapay zekanın duygusal zekayı kavradığını gösteriyor.
> Explores the ability of llms to understand emotional stimuli; conducts automatic experiments on 45 tasks using various llms, including flan-t5-large, vicuna, llama 2, bloom, chatgpt, and gpt-4; the tasks span deterministic and generative applications that represent comprehensive evaluation scenarios; experimental results show that llms have a grasp of emotional intelligence.
Makale özeti
- Duygusal zeka, günlük davranışlarımızı ve etkileşimlerimizi önemli ölçüde etkiler. Büyük dil modelleri (LLM'ler) çok sayıda görevde etkileyici performans göstererek yapay genel zekaya doğru atılmış bir adım olarak giderek daha fazla görülse de, LLM'lerin psikolojik duygusal uyaranları gerçekten kavrayıp kavrayamadığı hâlâ belirsizdir. Duygusal ipuçlarını anlamak ve bunlara yanıt vermek, insanlara problem çözmede belirgin bir avantaj sağlar. Bu makalede, yapay sinir ağlarının duygusal uyaranları anlama yeteneğini araştırmaya yönelik ilk adım atılıyor. Bunun için önce Flan-T5-Large, Vicuna, Llama 2, BLOOM, ChatGPT ve GPT-4 dahil çeşitli LLM'ler kullanılarak 45 görev üzerinde otomatik deneyler gerçekleştiriliyor. Bu görevler, kapsamlı değerlendirme senaryolarını temsil eden deterministik ve üretici uygulamalara yayılıyor. Otomatik deneyler, LLM'lerin duygusal zekayı kavradığını ve duygusal istemlerle (orijinal istem ile duygusal uyaranları birleştiren ve "EmotionPrompt" adını verdiğimiz yapı) performanslarının artırılabildiğini gösteriyor; örneğin Instruction Induction'da göreli performans artışı %8,00, BIG-Bench'te ise %115. Mevcut metrikler kullanılarak otomatik değerlendirilebilen deterministik görevlerin yanı sıra, vanilla istemler ve duygusal istemler kullanılarak üretici görevlerin kalitesini değerlendirmek için 106 katılımcıyla bir insan çalışması da yürütüldü. İnsan çalışmasının sonuçları, EmotionPrompt'un üretici görevlerin performansını anlamlı ölçüde artırdığını gösteriyor (performans, doğruluk ve sorumluluk metriklerinde ortalama %10,9 iyileşme). Yazıda, EmotionPrompt'un LLM'lerde neden etkili olduğu ve performansını etkileyebilecek faktörler derinlemesine tartışılıyor. Araştırmacılar, EmotionPrompt'un insan-LLM etkileşimi için disiplinler arası bilgiyi keşfetmede yeni bir yol açtığını öne sürüyor.
Emotional intelligence significantly impacts our daily behaviors and interactions. Although Large Language Models (LLMs) are increasingly viewed as a stride toward artificial general intelligence, exhibiting impressive performance in numerous tasks, it is still uncertain if LLMs can genuinely grasp psychological emotional stimuli. Understanding and responding to emotional cues gives humans a distinct advantage in problem-solving. In this paper, we take the first step towards exploring the ability of LLMs to understand emotional stimuli. To this end, we first conduct automatic experiments on 45 tasks using various LLMs, including Flan-T5-Large, Vicuna, Llama 2, BLOOM, ChatGPT, and GPT-4. Our tasks span deterministic and generative applications that represent comprehensive evaluation scenarios. Our automatic experiments show that LLMs have a grasp of emotional intelligence, and their performance can be improved with emotional prompts (which we call "EmotionPrompt" that combines the original prompt with emotional stimuli), e.g., 8.00% relative performance improvement in Instruction Induction and 115% in BIG-Bench. In addition to those deterministic tasks that can be automatically evaluated using existing metrics, we conducted a human study with 106 participants to assess the quality of generative tasks using both vanilla and emotional prompts. Our human study results demonstrate that EmotionPrompt significantly boosts the performance of generative tasks (10.9% average improvement in terms of performance, truthfulness, and responsibility metrics). We provide an in-depth discussion regarding why EmotionPrompt works for LLMs and the factors that may influence its performance. We posit that EmotionPrompt heralds a novel avenue for exploring interdisciplinary knowledge for human-LLMs interaction.
Makale bağlantısı
https://arxiv.org/abs/2307.11760
Daha fazlası
https://x.com/emollick/status/1720135672764285176
FP8-LM: FP8 büyük dil modellerinin eğitimi / FP8-LM: Training FP8 Large Language Models
Makale tanıtımı
- FP8 LLM'ler eğitilirken, gradyanlar ve optimizer durumları gibi değişkenlerin çoğunun, model doğruluğunu düşürmeden ve hiper parametrelerde herhangi bir değişiklik gerektirmeden düşük hassasiyetli veri biçimleri kullanabildiği bulunmuştur.
Finds that when training fp8 llms most variables, such as gradients and optimizer states, in llm training, can employ low-precision data formats without compromising model accuracy and requiring no changes to hyper-parameter.
Makale özeti
- Bu makalede, büyük dil modellerinin (LLM) verimli eğitimi için FP8 düşük bitli veri biçimleri inceleniyor. Temel içgörümüz, LLM eğitimi sırasında gradyanlar ve optimizer durumları gibi çoğu değişkenin, model doğruluğunu düşürmeden ve hiper parametrelerde değişiklik gerektirmeden düşük hassasiyetli veri biçimlerini kullanabilmesidir. Özellikle Unity, LLM eğitimi için yeni bir FP8 otomatik karma hassasiyet çerçevesi öneriyor. Bu çerçeve, LLM'ler için karma hassasiyetli ve dağıtık paralel eğitimi sadeleştirmek amacıyla üç düzeyde FP8 kullanımı sunuyor. Çerçeve, 8 bit gradyanları, optimizer durumlarını ve dağıtık eğitimi kademeli bir yaklaşımla entegre ediyor. Deney sonuçlarına göre, H100 GPU platformunda GPT-175B modelinin eğitimi sırasında Unity'nin FP8 karma hassasiyetli eğitim çerçevesi gerçek bellek kullanımını %42 azaltmakla kalmadı, aynı zamanda yaygın olarak benimsenen BF16 çerçevesinden (ör. Megatron-LM) %64 daha hızlı çalıştı ve Nvidia Transformer Engine'in hızını %17 oranında aştı. Bu da büyük foundation model'lerin eğitim maliyetlerini önemli ölçüde azaltabiliyor. Ayrıca Unity'nin FP8 karma hassasiyetli eğitim metodolojisi geneldir. LLM instruction tuning ve insan geri bildirimiyle pekiştirmeli öğrenme gibi diğer görevlere de sorunsuz biçimde uygulanabildiğinden, ince ayar maliyetlerini düşürebilir. Unity'nin FP8 düşük hassasiyetli eğitim çerçevesi {https://github.com/Azure/MS-AMP}{aka.ms/MS.AMP} adresinde açık kaynak olarak sunulmaktadır.
> Bu makalede, büyük dil modellerinin (LLM) verimli eğitimi için FP8 düşük bitli veri biçimlerini inceliyoruz. Temel içgörümüz, LLM eğitimi sırasında gradyanlar ve optimizer durumları gibi çoğu değişkenin, model doğruluğundan ödün vermeden ve hiper parametrelerde değişiklik gerektirmeden düşük hassasiyetli veri biçimlerini kullanabilmesidir. Özellikle, LLM'leri eğitmek için yeni bir FP8 otomatik karma hassasiyet çerçevesi öneriyoruz. Bu çerçeve, LLM'ler için karma hassasiyetli ve dağıtık paralel eğitimi sadeleştirmek üzere üç düzeyde FP8 kullanımı sunar. 8 bit gradyanları, optimizer durumlarını ve dağıtık öğrenmeyi artımlı biçimde kademeli olarak entegre eder. Deney sonuçları, H100 GPU platformunda GPT-175B modelinin eğitimi sırasında FP8 karma hassasiyetli eğitim çerçevemizin gerçek bellek kullanımında kayda değer bir %42 azalma sağlamakla kalmayıp, aynı zamanda yaygın olarak benimsenen BF16 çerçevesinden (yani Megatron-LM) %64 daha hızlı çalıştığını ve Nvidia Transformer Engine'in hızını %17 geçtiğini göstermektedir. Bu, büyük foundation model'lerin eğitim maliyetlerini büyük ölçüde azaltır. Ayrıca FP8 karma hassasiyetli eğitim metodolojimiz geneldir. LLM instruction tuning ve insan geri bildirimiyle pekiştirmeli öğrenme gibi diğer görevlere de sorunsuz biçimde uygulanabilir ve ince ayar giderlerinde tasarruf sağlar. FP8 düşük hassasiyetli eğitim çerçevemiz {https://github.com/Azure/MS-AMP}{aka.ms/MS.AMP} adresinde açık kaynak olarak sunulmuştur.
Makale bağlantısı
https://arxiv.org/abs/2310.18313
Daha fazlası
https://x.com/arankomatsuzaki/status/1718813303223222765
Orijinal metin
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-2e0
Henüz yorum yok.