[2024/02/12 ~ 02/18] Bu Haftanın Önemli ML Makaleleri (Top ML Papers of the Week)
(discuss.pytorch.kr)Genel Bakış
-
DAIR.AI'de her hafta yayınlanan ML makalelerine dair yazıları otomatik olarak çevirdik.
-
Bu haftanın seçilen makaleleri, doğal dil işleme, derin sinir ağları ve pekiştirmeli öğrenme alanlarındaki en güncel araştırma trendlerini yansıtıyor. Ayrıca NLP (doğal dil işleme) odaklı teknikler bu hafta daha çok dikkat çekti. Bunun yanında "World Model" ve "neural network trainability" terimleri de, pekiştirmeli öğrenme ya da derin sinir ağlarının kuramsal yönleriyle ilişkili görünüyor.
-
Son dönemde yapay zeka alanında, büyük dil modellerinin gelişimine büyük bir ilgi var. Bu ilgi, GPT-3 gibi modellerin çeşitli dil temelli görevlerde şaşırtıcı performans göstermesinin ardından NLP'nin hem kuramsal araştırmada hem de pratik uygulamada kilit bir konu olmasından kaynaklanıyor. Büyük dil modelleri çeviri, özetleme, soru-cevap, üretken yazı gibi farklı NLP görevlerinde kullanılabiliyor ve bu modellerin anlaşılması ile geliştirilmesine yönelik çalışmalar oldukça yoğun.
-
Ayrıca "neural network trainability" ve "World Model" gibi kavramlar, derin sinir ağlarını daha etkili şekilde eğitmeye ve daha karmaşık ortamlara dönük modelleme yapabilen yeni tekniklere işaret ediyor. Pekiştirmeli öğrenmede daha sofistike ortam modelleri geliştirilerek ajanların daha karmaşık problemleri çözebileceği yetenek kazandırılması hedefleniyor; bu da çağdaş AI araştırmalarında önemli bir eğilim.
-
Bu yazı GPT modeliyle derlenmiştir; bu nedenle hatalı kısımlar olabilir, bu yüzden lütfen aşağıdaki orijinal metne de bakın. Okurken garip veya yanlış bir şey fark ederseniz yorumlarda bildirmenizi rica ederiz.
OpenAI'nin Sora'sı
Makale tanıtımı
- Metin talimatı verildiğinde, gerçekçi ve hayal gücü yüksek sahnelerin bir dakikaya kadar video olarak üretilmesini sağlayan bir metinden-videoya yapay zeka modeli; birden fazla karakter, farklı hareket türleri ve arka plan içeren karmaşık sahneler üretebilir, bunların birbirleriyle ilişkisini anlayabilir ve karakterlerin yanı sıra görsel stili koruyarak tek bir video içinde birden fazla çekim oluşturabilir.
A text-to-video ai model that can create videos of up to a minute of realistic and imaginative scenes given text instructions; it can generate complex scenes with multiple characters, different motion types, and backgrounds, and understand how they relate to each other; other capabilities include creating multiple shots within a single video with persistence across characters and visual style.
Makale bağlantısı
Daha fazla okuma
https://discuss.pytorch.kr/t/gn-openai-sora-ai/3519
https://x.com/OpenAI/status/1758192957386342435
Gemini 1.5 / Gemini 1.5
Makale tanıtımı
- Uzun biçimli içeriği hatırlama ve akıl yürüterek işleme odaklı, hesaplama açısından verimli çok modlu bir uzman-katmanı (mixture-of-experts) modeli; saatlerce süren video ve ses içeren milyonlarca tokena kadar olan uzun belgeler üzerinde çıkarım yapabilir; uzun belge QA, uzun video QA ve uzun bağlamlı ASR'de en güncel performansı geliştirir. Gemini 1.5 pro, standart benchmarklarda Gemini 1.0 ultra ile eşdeğer veya daha iyi performans gösterirken, diğer uzun bağlamlı llm'lere kıyasla en az 10 milyon tokene kadar neredeyse kusursuz (> %99) geri getirme başarısı elde ederek önemli bir sıçrama sağlar.
A compute-efficient multimodal mixture-of-experts model that focuses on capabilities such as recalling and reasoning over long-form content; it can reason over long documents potentially containing millions of tokens, including hours of video and audio; improves the state-of-the-art performance in long-document qa, long-video qa, and long-context asr. gemini 1.5 pro matches or outperforms gemini 1.0 ultra across standard benchmarks and achieves near-perfect retrieval (>99%) up to at least 10 million tokens, a significant advancement compared to other long-context llms.
Makale bağlantısı
https://storage.googleapis.com/deepmind-media/gemini/…
Daha fazla okuma
https://discuss.pytorch.kr/t/gn-gemini-1-5/3518
https://x.com/omarsar0/status/1758151923612483839
V-JEPA
Makale tanıtımı
- 2 milyon video kullanılarak özellik tahmin hedefiyle eğitilen bir görsel model koleksiyonu; yalnızca kendi kendine denetimli öğrenmeye dayanır ve önceden eğitilmiş görüntü kodlayıcıları, metin, negatif örnekler, yeniden yapılandırma veya diğer denetim kaynaklarını kullanmaz; modelin parametrelerini adapte etmeden hareket ve dış görünüm odaklı görevlerin her ikisinde de iyi çalışan çok amaçlı görsel temsil öğrenimi elde ettiğini iddia eder.
A collection of vision models trained on a feature prediction objective using 2 million videos; relies on self-supervised learning and doesn’t use pretrained image encoders, text, negative examples, reconstruction, or other supervision sources; claims to achieve versatile visual representations that perform well on both motion and appearance-based tasks, without adaption of the model’s parameters.
Makale özeti (Abstract)
Bu makale, video üzerinden denetimsiz öğrenme için özellik tahminini tek başına bir hedef olarak ele alır ve yalnızca özellik tahmini hedefini kullanarak, önceden eğitilmiş görüntü kodlayıcıları, metin, negatif örnekler, yeniden yapılandırma veya diğer denetim kaynaklarını kullanmadan eğitilen bir görsel modeller koleksiyonu olan V-JEPA'yı tanıtır. Modeller, kamuya açık veri kümelerinden toplanan 2 milyon video ile eğitildi ve görüntü ile video için aşağı akış görevlerde değerlendirildi. Sonuçlarımız, video özelliklerini tahmin ederek öğrenmenin, model parametrelerini uyarlamaya gerek duymadan hem hareket hem de görünüm temelli görevlerde güçlü performans gösteren çok amaçlı görsel temsiller ürettiğini ortaya koyuyor; örneğin yalnızca videolarla eğitilmiş en büyük modelimiz olan ViT-H/16, donmuş bir backbone kullanarak Kinetics-400'de %81.9, Something-Something-v2'de %72.2 ve ImageNet1K'da %77.9 doğruluk elde etti.
This paper explores feature prediction as a stand-alone objective for unsupervised learning from video and introduces V-JEPA, a collection of vision models trained solely using a feature prediction objective, without the use of pretrained image encoders, text, negative examples, reconstruction, or other sources of supervision. The models are trained on 2 million videos collected from public datasets and are evaluated on downstream image and video tasks. Our results show that learning by predicting video features leads to versatile visual representations that perform well on both motion and appearance-based tasks, without adaption of the model’s parameters; e.g., using a frozen backbone, our largest model, a ViT-H/16 trained only on videos, obtains 81.9% on Kinetics-400, 72.2% on Something-Something-v2, and 77.9% on ImageNet1K.
Makale Bağlantısı
https://ai.meta.com/research/publications/…
Daha Fazla Oku
https://github.com/facebookresearch/jepa
https://x.com/AIatMeta/status/1758176023588577326
LWM(Large World Model): RingAttention ile Milyonluk Uzunluktaki Video ve Dil Kullanan Bir Model / World Model on Million-Length Video And Language With RingAttention
Makale Tanıtımı
- RingAttention ile uzun videolar ve kitaplar üzerinde eğitilmiş genel amaçlı 1M bağlamlı bir çok modlu model; zor arama görevleri ile uzun video anlama alanında yeni bir kıyaslama belirleyerek, farklı dizi uzunlukları, kayıp ağırlığı ve uzun dizi sohbeti için model tarafından üretilmiş QA veri kümesini bir araya getiren maskeleyen dizisel paketleme kullanır; 1 milyonun üzerindeki token uzunluğuna sahip uzun metin ve videoları işleyebilen 7B parametreli bir model ailesini açık kaynaklı yapar.
A general-purpose 1m context multimodal model trained on long videos and books using ringattention; sets new benchmarks in difficult retrieval tasks and long video understanding; uses masked sequence packing for mixing different sequence lengths, loss weighting, and model-generated qa dataset for long sequence chat; open-sources a family of 7b parameter models that can process long text and videos of over 1m tokens.
Makale Özeti (Abstract)
- Mevcut dil modelleri, sözcüklerle kolayca tanımlanamayan dünyanın bazı yönlerini anlamada eksik kalıyor ve karmaşık, uzun biçimli görevlerde zorlanıyor. Video dizileri, dilde ve statik görüntülerde bulunmayan değerli zamansal bilgiyi sağladığından, dil ile birlikte ortak modelleme için çekici bir aday sunuyor. Bu modeller, hem insan metin bilgisinin hem de fiziksel dünyanın anlayışını geliştirebilir ve insanlara yardımcı olacak daha geniş kapsamlı yapay zeka yetenekleri geliştirebilir. Ancak milyonlarca video ve dil dizisinden öğrenmek, bellek kısıtlamaları, hesaplama karmaşıklığı ve sınırlı veri kümeleri nedeniyle zorluklarla karşılaşıyor. Bu zorlukları çözmek için çeşitli videolar ve kitaplardan oluşan büyük bir veri seti derledik, uzun dizilerde ölçeklenebilir biçimde eğitmek için RingAttention tekniğini kullandık ve bağlam boyutunu kademeli olarak 4K'dan 1M tokena çıkardık. Bu makale şu katkıları sunuyor: (a) En büyük bağlam boyutuna sahip sinir ağı: uzun video ve dil dizileri için en büyük bağlam boyutuna sahip transformer modellerinden birini eğiterek, zorlu geri çağırma görevleri ve uzun video anlama alanında yeni kıyaslama sonuçları elde ettik. (b) Farklı dizi uzunluklarını karıştırmak için maskelenmiş dizi paketleme kullanımı, dil ve görsel arasında dengeyi kurmak için kayıp ağırlıklandırması, uzun dizi sohbetleri için model tarafından üretilmiş QA veri seti gibi görsel-dil eğitiminde karşılaşılan zorlukları aşmaya yönelik çözümler. (c) Milyonlarca uzunluğa sahip çok modlu dizileri eğitmek için RingAttention, maskelenmiş dizi paketleme ve diğer kritik özellikleri kullanan son derece optimize edilmiş bir uygulama. (d) 1M'den fazla token içeren uzun metin belgelerini (LWM-Text, LWM-Text-Chat) ve videoları (LWM, LWM-Chat) işleyebilen 7B parametreli bir model ailesini tamamen açık kaynaklı hale getirdik. Bu çalışma, uzun video ve dilin devasa veri kümelerinde eğitim yaparak hem insan bilgisinin hem de çok modlu dünyanın anlayışını geliştirmeye ve daha geniş yeteneklerin geliştirilmesine yol açıyor.
Current language models fall short in understanding aspects of the world not easily described in words, and struggle with complex, long-form tasks. Video sequences offer valuable temporal information absent in language and static images, making them attractive for joint modeling with language. Such models could develop an understanding of both human textual knowledge and the physical world, enabling broader AI capabilities for assisting humans. However, learning from millions of tokens of video and language sequences poses challenges due to memory constraints, computational complexity, and limited datasets. To address these challenges, we curate a large dataset of diverse videos and books, utilize the RingAttention technique to scalably train on long sequences, and gradually increase context size from 4K to 1M tokens. This paper makes the following contributions: (a) Largest context size neural network: We train one of the largest context size transformers on long video and language sequences, setting new benchmarks in difficult retrieval tasks and long video understanding. (b) Solutions for overcoming vision-language training challenges, including using masked sequence packing for mixing different sequence lengths, loss weighting to balance language and vision, and model-generated QA dataset for long sequence chat. (c) A highly-optimized implementation with RingAttention, masked sequence packing, and other key features for training on millions-length multimodal sequences. (d) Fully open-sourced a family of 7B parameter models capable of processing long text documents (LWM-Text, LWM-Text-Chat) and videos (LWM, LWM-Chat) of over 1M tokens. This work paves the way for training on massive datasets of long video and language to develop understanding of both human knowledge and the multimodal world, and broader capabilities.
Makale Bağlantıları
https://arxiv.org/abs/2402.08268
Daha Fazla Oku
https://largeworldmodel.github.io/
https://huggingface.co/LargeWorldModel
https://x.com/haoliuhl/status/1757828392362389999
Sinir ağının eğitilebilirliği sınırı fraktaldır / The boundary of neural network trainability is fractal
Makale Tanıtımı
- Eğitim yapılabilir sinir ağı hiperparametre konfigürasyonlarıyla yapılamayan sinir ağı hiperparametre konfigürasyonları arasındaki sınırın fraktal olduğu, her bir sinir ağı konfigürasyonu ve derin doğrusal ağlar için fraktal hiperparametre manzaralarının gözlendiği ve en iyi performanslı hiperparametrelerin stabilitenin sonunda yer aldığı bulunmuştur.
Finds that the boundary between trainable and untrainable neural network hyperparameter configurations is fractal; observes fractal hyperparameter landscapes for every neural network configuration and deep linear networks; also observes that the best-performing hyperparameters are at the end of stability.
Makale Özeti (Abstract)
- Örneğin, Mandelbrot ve kuadratik Julia kümeleriyle ilişkili bazı fraktaller, bir fonksiyonun yinelemeli olarak uygulanmasıyla ve ortaya çıkan serinin ayrıştığı veya sınırlı kaldığı hiperparametreler arasındaki sınırın belirlenmesiyle hesaplanır. Sinir ağı eğitimi de benzer şekilde bir güncelleme fonksiyonunu (ör. tekrarlanan gradyan inişi adımları) yinelemeli olarak uygular; yakınsayan veya ayrışan davranışa yol açabilir ve hiperparametrelerdeki küçük değişikliklere son derece duyarlı olabilir. Bu benzerlikten ilham alarak, stabil ve ayrışan eğitime yol açan sinir ağı hiperparametreleri arasındaki sınırı deneysel olarak inceledik. Test ettiğimiz tüm konfigürasyonlarda bu sınırın, test edilen her bir yapılandırmada ondan fazla mertebe ölçeğinde fraktal olduğu bulunmuştur.
Some fractals -- for instance those associated with the Mandelbrot and quadratic Julia sets -- are computed by iterating a function, and identifying the boundary between hyperparameters for which the resulting series diverges or remains bounded. Neural network training similarly involves iterating an update function (e.g. repeated steps of gradient descent), can result in convergent or divergent behavior, and can be extremely sensitive to small changes in hyperparameters. Motivated by these similarities, we experimentally examine the boundary between neural network hyperparameters that lead to stable and divergent training. We find that this boundary is fractal over more than ten decades of scale in all tested configurations.
Makale Bağlantısı
https://arxiv.org/abs/2402.06184
Daha Fazla Oku
https://x.com/jaschasd/status/1756930242965606582
OS-Copilot: Kendini Geliştirerek Genel Amaçlı Bilgisayar Ajanlarına / OS-Copilot: Towards Generalist Computer Agents with Self-Improvement
Makale Tanıtımı
- Linux veya macOS gibi bir işletim sisteminin ana bileşenleriyle etkileşen genel bir bilgisayar ajanı oluşturmak için bir çerçeve sunuyoruz. Aynı zamanda genel bilgisayar görevlerini otomatikleştirmek üzere kendini geliştiren bir ajan öneriyor; bu ajan GAIA genel yapay zeka asistanları (GAIA) benchmarkunda önceki yöntemlere göre %35 daha iyi performans gösteriyor.
a framework to build generalist computer agents that interface with key elements of an operating system like linux or macos; it also proposes a self-improving embodied agent for automating general computer tasks; this agent outperforms the previous methods by 35% on the general ai assistants (gaia) benchmark.
Makale Özeti
- Bilgisayar ile otonom etkileşim, uzun zamandır büyük bir potansiyele sahip bir konuydu ve son dönemde büyük dil modellerinin (LLM) yaygınlaşmasıyla dijital ajanlar geliştirme alanında ilerleme gözle görülür biçimde hızlandı. Ancak bu ajanların çoğu, belirli bir yazılım veya web sitesi gibi dar bir alana etkileşim için tasarlanmıştır. Bu dar odak, genel bilgisayar görevleri için uygulanabilirliklerini sınırlar. Bu nedenle, web, kod terminali, dosyalar, multimedya ve çeşitli üçüncü parti uygulamalar dahil olmak üzere bir işletim sisteminin (OS) kapsamlı bileşenleriyle etkileşime geçebilen genel amaçlı ajanlar oluşturmak için OS-Copilot adlı bir çerçeve sunuyoruz. OS-Copilot'i kullanarak, genel bilgisayar görevlerini otomatikleştirmek için kendini geliştiren somutlaştırılmış bir ajan olan FRIDAY'yi geliştirdik. GAIA adlı genel yapay zeka asistanı benchmarkunda FRIDAY, önceki yöntemlerden %35 daha iyi performans göstererek önceki görevlerde biriken beceriler sayesinde görünmeyen uygulamalara güçlü bir genelleme yeteneği sergiliyor. Ayrıca FRIDAY'nin Excel ve PowerPoint'i minimum denetimle kontrol etmeyi ve kendini geliştirmeyi öğrendiğini gösteren sayısal ve nicel kanıtlar da sunuyoruz. OS-Copilot çerçevesi ve ampirik bulgularımız, daha yetkin ve genel amaçlı bilgisayar ajanlarına yönelik gelecekteki çalışmalar için altyapı ve içgörüler sunmaktadır.
Makale Bağlantısı
https://arxiv.org/abs/2402.07456
Daha Fazla Oku
https://x.com/omarsar0/status/1757443594976206885
TestGen-LLM: Meta'da Büyük Dil Modellerini Kullanarak Otomatik Birim Test İyileştirme / Automated Unit Test Improvement using Large Language Models at Meta
Makale Tanıtımı
- Instagram'ın Reels ve Stories ürünleri üzerinde yapılan bir değerlendirme sonrası TestGen-LLM'nin test örneklerinin %75'inin doğru biçimde oluşturulduğu, %57'sinin güvenilir şekilde geçtiği ve kapsamın %25 arttığı bildirilmiştir.
Uses llms to automatically improve existing human-written tests; reports that after an evaluation on reels and stories products for instagram, 75% of testgen-llm's test cases were built correctly, 57% passed reliably, and 25% increased coverage.
Makale Özeti
-
Bu çalışma, Meta'nın mevcut insan tarafından yazılmış testleri otomatik olarak iyileştirmek için LLM kullanan TestGen-LLM aracını anlatıyor. TestGen-LLM, üretilen test sınıflarının orijinal test setinden ölçülebilir iyileşme sağladığını garanti eden bir dizi filtreden başarıyla geçip geçmediğini doğrulayarak LLM kaynaklı hayal ürünü (halüsinasyon) sorunlarını ortadan kaldırır. Meta'nın Instagram ve Facebook platformları için test-a-thonlarında TestGen-LLM'in nasıl dağıtıldığını açıklıyoruz. Instagram'daki Reels ve Stories ürünleri için yapılan değerlendirmede TestGen-LLM'in test vakalarının %75'i doğru şekilde derlendi, %57'si güvenilir şekilde geçti ve %25'i kapsamı artırdı. Meta'nın Instagram ve Facebook test-a-thonlarında bu çözüm, uygulandığı tüm sınıfların %11,5'ini iyileştirdi ve Meta yazılım mühendisleri tarafından önerilenlerin %73'ü üretime dağıtım için kabul edildi. Bu rapor, bu seviyede kod iyileştirme garantisiyle desteklenen LLM tarafından üretilen kodun endüstriyel ölçekte dağıtımına dair ilk rapor olduğuna inanıyoruz.
This paper describes Meta's TestGen-LLM tool, which uses LLMs to automatically improve existing human-written tests. TestGen-LLM verifies that its generated test classes successfully clear a set of filters that assure measurable improvement over the original test suite, thereby eliminating problems due to LLM hallucination. We describe the deployment of TestGen-LLM at Meta test-a-thons for the Instagram and Facebook platforms. In an evaluation on Reels and Stories products for Instagram, 75% of TestGen-LLM's test cases built correctly, 57% passed reliably, and 25% increased coverage. During Meta's Instagram and Facebook test-a-thons, it improved 11.5% of all classes to which it was applied, with 73% of its recommendations being accepted for production deployment by Meta software engineers. We believe this is the first report on industrial scale deployment of LLM-generated code backed by such assurances of code improvement.
Makale Bağlantısı
https://arxiv.org/abs/2402.09171
Daha Fazla Oku
https://x.com/nathanbenaich/status/1758036247115608317
ChemLLM: Kimya Alanında Büyük Dil Modeli / ChemLLM: A Chemical Large Language Model
Makale Tanıtımı
- İsim dönüştürme, molekül açıklaması, reaksiyon tahmini gibi temel görevlerde GPT-3.5'ten daha iyi performans gösterdiğini ve bu görevlerin ikisinde GPT-4'ü geçtiğini iddia eden, kimyasal görevler için eğitilmiş özel bir LLM'dir.
Kimya ile ilgili görevler için eğitilmiş özel bir llm; isim dönüştürme, moleküler açıklama ve reaksiyon tahmini gibi başlıca görevlerde gpt-3.5'in performansını geride bıraktığını ve ayrıca bu görevlerden ikisinde gpt-4'ü de geçtiğini iddia eder.
Makale Özeti (Abstract)
- Büyük dil modelleri (LLM), molekül özellik tahmini, molekül üretimi, deneysel protokol tasarımı gibi kimya alanlarında kayda değer ilerleme kaydetmiştir. Ancak toplulukta, özellikle kimya için tasarlanmış bir diyalog temelli modele ihtiyaç vardır. Bu sorunun temelinde, çoğu kimyasal veri ve bilimsel bilginin büyük ölçüde yapılandırılmış veritabanlarında saklanması ve bu yapılandırılmış verilerin doğrudan kullanıldığında modelin tutarlı bir diyalogu sürdürme yeteneğinin bozulması yatmaktadır. Bu sorunu çözmek için, yapılandırılmış bilgiyi düz bir diyalog biçimine dönüştüren ve dil modeli eğitimi için uygun olan yeni bir şablon tabanlı talimat oluşturma yöntemi geliştirdik. Bu yaklaşımı kullanarak, kimyanın çeşitli alanlarında farklı görevleri akıcı bir diyalog etkileşimiyle yürütebilen ilk kimya odaklı büyük dil modeli olan ChemLLM'i geliştirdik. ChemLLM, ad dönüşümü, molekül açıklaması ve reaksiyon tahmini olmak üzere kimyadaki üç ana görevde GPT-3.5'i geçti ve bunlardan ikisinde GPT-4'ün önüne geçti. Dikkat çekici biçimde, ChemLLM, kimya merkezli korpuslar üzerinde ağırlıklı olarak eğitilmiş olmasına rağmen, ilgili matematiksel ve fiziksel görevlerde olağanüstü bir uyum gösteriyor. Ayrıca ChemLLM, literatür çevirisi ve kemoinformatik programlama gibi kimyaya özgü uzman NLP görevlerinde de ustalık sergiliyor. ChemLLM, kimya araştırmalarında yeni bir keşif yolunu açarken; yapılandırılmış kimyasal bilgiyi diyalog sistemlerine entegre etme yöntemimiz, çeşitli bilim alanlarında LLM geliştirmek için yeni bir ufuk sunuyor. Kodlar, veri kümeleri ve model ağırlıkları hf.co/AI4Chem/ChemLLM-7B-Chat adresinde herkese açık olarak erişilebilir.
Large language models (LLMs) have made impressive progress in chemistry applications, including molecular property prediction, molecular generation, experimental protocol design, etc. However, the community lacks a dialogue-based model specifically designed for chemistry. The challenge arises from the fact that most chemical data and scientific knowledge are primarily stored in structured databases, and the direct use of these structured data compromises the model's ability to maintain coherent dialogue. To tackle this issue, we develop a novel template-based instruction construction method that transforms structured knowledge into plain dialogue, making it suitable for language model training. By leveraging this approach, we develop ChemLLM, the first large language model dedicated to chemistry, capable of performing various tasks across chemical disciplines with smooth dialogue interaction. ChemLLM beats GPT-3.5 on all three principal tasks in chemistry, i.e., name conversion, molecular caption, and reaction prediction, and surpasses GPT-4 on two of them. Remarkably, ChemLLM also shows exceptional adaptability to related mathematical and physical tasks despite being trained mainly on chemical-centric corpora. Furthermore, ChemLLM demonstrates proficiency in specialized NLP tasks within chemistry, such as literature translation and cheminformatic programming. ChemLLM opens up a new avenue for exploration within chemical studies, while our method of integrating structured chemical knowledge into dialogue systems sets a new frontier for developing LLMs across various scientific fields. Codes, Datasets, and Model weights are publicly accessible at hf.co/AI4Chem/ChemLLM-7B-Chat.
Makale Bağlantıları
https://arxiv.org/abs/2402.06852
Daha Fazla Oku
https://hf.co/AI4Chem/ChemLLM-7B-Chat
https://x.com/omarsar0/status/1757246740539773165
Büyük Dil Modelleri: A Survey / Large Language Models: A Survey
Makale Tanıtımı
- Popüler üç LLM ailesini (GPT, Llama, PaLM), özelliklerini, katkılarını ve sınırlamalarını inceler; LLM geliştirmek ve güçlendirmek için geliştirilmiş yetenekleri ve teknikleri özetler; LLM eğitiminde, ince ayarda ve değerlendirmede yaygın olarak kullanılan veri kümeleri ile LLM değerlendirme metriklerini de tartışır; açık zorluklar ve gelecekteki araştırma yönleriyle tamamlar.
Reviews three popular families of llms (gpt, llama, palm), their characteristics, contributions, and limitations; includes a summary of capabilities and techniques developed to build and augment llm; it also discusses popular datasets for llm training, fine-tuning, and evaluation, and llm evaluation metrics; concludes with open challenges and future research directions.
Makale Özeti (Abstract)
- Büyük dil modelleri (LLM), Kasım 2022'de ChatGPT'nin yayınlanmasından bu yana çeşitli doğal dil görevlerinde gösterdikleri güçlü performans sayesinde yoğun ilgi görüyor. LLM'lerin genel amaçlı dil anlama ve üretim yeteneği, çok büyük metin verileri üzerinde milyarlarca model parametresinin eğitilmesiyle kazanılır ve bu durum, ölçekleme yasaları \cite{kaplan2020scaling,hoffmann2022training} ile öngörülür. LLM araştırma alanı çok yeni olmasına rağmen birden çok yönden hızla gelişmektedir. Bu makalede, yaygın üç LLM ailesini (GPT, LLaMA, PaLM) de içine alan en dikkat çekici LLM'leri inceliyor ve özelliklerini, katkılarını ve sınırlılıklarını tartışıyoruz. Ayrıca LLM'leri inşa etmek ve geliştirmek için geliştirilen tekniklere de genel bir bakış sunuyoruz. Daha sonra, LLM eğitimi, ince ayarı ve değerlendirmesi için hazırlanmış popüler veri kümelerini inceliyor, yaygın olarak kullanılan LLM değerlendirme metriklerini gözden geçiriyor ve temsil edici benchmark setlerinde birkaç popüler LLM'nin performansını karşılaştırıyoruz. Son olarak, çözülmemiş zorlukları ve gelecekteki araştırma yönlerini tartışarak makaleyi tamamlıyoruz.
Large Language Models (LLMs) have drawn a lot of attention due to their strong performance on a wide range of natural language tasks, since the release of ChatGPT in November 2022. LLMs' ability of general-purpose language understanding and generation is acquired by training billions of model's parameters on massive amounts of text data, as predicted by scaling laws \cite{kaplan2020scaling,hoffmann2022training}. The research area of LLMs, while very recent, is evolving rapidly in many different ways. In this paper, we review some of the most prominent LLMs, including three popular LLM families (GPT, LLaMA, PaLM), and discuss their characteristics, contributions and limitations. We also give an overview of techniques developed to build, and augment LLMs. We then survey popular datasets prepared for LLM training, fine-tuning, and evaluation, review widely used LLM evaluation metrics, and compare the performance of several popular LLMs on a set of representative benchmarks. Finally, we conclude the paper by discussing open challenges and future research directions.
Makale Bağlantısı
https://arxiv.org/abs/2402.06196
Daha Fazla Oku
https://x.com/omarsar0/status/1757049645119799804
LLM Ajanları Web Sitelerini Otonom Olarak Hackleyebilir / LLM Agents can Autonomously Hack Websites
Makale Tanıtımı
- İnsan geri bildirimi ya da bir zafiyet hakkında açık önceden bilgi olmadan bile web sitelerini otomatik olarak hackleyip SQL enjeksiyonu gibi görevleri gerçekleştirebileceğini gösteriyorlar. Bu durum, bir LLM'nin araç kullanım yeteneği ve geniş bağlam kapasitesi sayesinde mümkün hale geliyor; GPT-4'ün gerçek ortamda web sitelerindeki güvenlik açıklarını bulmak da dahil olmak üzere bu tür saldırıları gerçekleştirebildiği, ancak açık kaynaklı modellerde aynı kapasitenin görülmediği gösteriliyor.
Shows that llm agents can automatically hack websites and perform tasks like sql injections without human feedback or explicit knowledge about the vulnerability beforehand; this is enabled by an llm’s tool usage and long context capabilities; shows that gpt-4 is capable of such hacks, including finding vulnerabilities in websites in the wild; open-source models did not show the same capabilities.
Makale Özeti (Abstract)
- Son yıllarda, büyük dil modelleri (LLM) giderek daha yetkin hale geldi ve artık araçlarla etkileşime girebiliyor (yani fonksiyon çağırma), belge okuyup kendilerini yineleyerek çağırabiliyor. Bunun sonucunda bu LLM'ler ajan olarak otonom çalışabilir hale geldi. Bu ajanların yeteneklerinin artmasıyla birlikte son çalışmalar, LLM ajanlarının siber güvenliği nasıl etkileyeceğine dair tahminlerde bulundu. Ancak, LLM ajanlarının saldırı yetenekleri hakkında çok az şey bilinmektedir. Bu çalışmada, LLM ajanlarının insan geri bildirimi olmadan web sitelerini otonom biçimde hackleyerek, kör bir veritabanı şeması çıkarımı ve SQL enjeksiyonu gibi karmaşık görevleri başarabildiğini gösteriyoruz. Önemli olan, ajanın önceden zafiyeti bilmesinin gerekmemesi. Bu yetenek, araç kullanımında son derece yetenekli olan ve genişletilmiş bağlamdan yararlanan frontier modeller tarafından özgün şekilde sağlanır. Yani GPT-4'ün bu tür saldırıları gerçekleştirebildiğini, ancak mevcut açık kaynaklı modellerin bunu yapamadığını gösteriyoruz. Son olarak, GPT-4'ün gerçek dünyadaki (wild) web sitelerinde güvenlik açıklarını otonom biçimde tespit edebildiğini gösteriyoruz. Bulgularımız, LLM'lerin yaygın dağıtımının getireceği soruları gündeme getirmektedir.
In recent years, large language models (LLMs) have become increasingly capable and can now interact with tools (i.e., call functions), read documents, and recursively call themselves. As a result, these LLMs can now function autonomously as agents. With the rise in capabilities of these agents, recent work has speculated on how LLM agents would affect cybersecurity. However, not much is known about the offensive capabilities of LLM agents. In this work, we show that LLM agents can autonomously hack websites, performing tasks as complex as blind database schema extraction and SQL injections without human feedback. Importantly, the agent does not need to know the vulnerability beforehand. This capability is uniquely enabled by frontier models that are highly capable of tool use and leveraging extended context. Namely, we show that GPT-4 is capable of such hacks, but existing open-source models are not. Finally, we show that GPT-4 is capable of autonomously finding vulnerabilities in websites in the wild. Our findings raise questions about the widespread deployment of LLMs.
Makale Bağlantısı
https://arxiv.org/abs/2402.06664v1
Daha Fazla Oku
https://x.com/emollick/status/1757937829340967240
Orijinal Metin
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-325
⚠️Reklam⚠️: PyTorch Kore Kullanıcı Grubu tarafından derlenen bu yazı işinize yaradı mı? Üye olarak kaydolun ve önemli yazıları e-posta yoluyla alın! (Varsayılan olarak Weekly olsa da Daily olarak da değiştirebilirsiniz.)
Henüz yorum yok.