[2024/04/22 ~ 04/28] Haftanın öne çıkan ML makaleleri (Top ML Papers of the Week)
(discuss.pytorch.kr)-
DAIR.AI tarafından her hafta yayımlanan ML makalelerine dair yazıyı otomatik olarak çevirdik.
-
Bu hafta sunulan makalelere bakıldığında, çoğunun yeni nesil dil modelleri (Large Language Models, LLMs) ve bunların uygulama alanlarına odaklandığı görülüyor. Özellikle "Make Your LLM Fully Utilize the Context", "Graph Machine Learning in the Era of LLMs", "Self-Evolution of LLMs" ve "Naturalized Execution Tuning (NExT)" gibi çalışmalar, LLM'lerin geliştirilmesi ve optimize edilme yöntemleri ile yeni uygulama alanlarına yönelik araştırmaları ele alıyor. Bu da son dönemde yapay zeka alanında LLM'lerin öneminin ve uygulama potansiyelinin giderek arttığını yansıtıyor.
-
LLM'lerdeki gelişmelerin önemli olmasının nedeni, bu modellerin yalnızca doğal dil işleme (Natural Language Processing, NLP) alanında değil, çeşitli multimodal görevlerde de üstün performans göstermesi. Örneğin, "Make Your LLM Fully Utilize the Context" başlıklı makale, LLM'lerin sağladığı bağlamı en üst düzeyde kullanarak daha doğru bilgi çıkarımı ve yorumlama yöntemlerini inceliyor. Ayrıca, "Graph Machine Learning in the Era of LLMs" graf tabanlı veri öğreniminin LLM'ler aracılığıyla nasıl geliştirilebileceğine odaklanıyor; bu da karmaşık ilişkileri ve örüntüleri anlamada büyük fayda sağlıyor.
-
Bu eğilim, yapay zeka alanında LLM'lerin rolünün yalnızca dili anlama ve üretmeyle sınırlı kalmayıp, daha geniş problem çözme alanlarına ve uygulamalara yayıldığını gösteriyor. Bu, araştırmacıların yapay zekanın farklı yönlerini keşfetme ve özellikle insan dilini daha iyi anlayıp kullanabilen modeller geliştirme çabasının bir parçası olarak görülebilir. Ayrıca bu araştırma eğilimi, gelecekte LLM'lerin çeşitli alanlarda kullanımının artacağı yönündeki beklentiyi de destekliyor.
[IMG] [2024/04/22 ~ 04/28] Bu haftanın öne çıkan ML makaleleri (Top ML Papers of the Week)|1028x618
Phi-3 teknik raporu: Telefonunuzda yerel olarak çalışan yüksek yetenekli bir dil modeli / Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone
Makale tanıtımı
3,3 trilyon token ile eğitilmiş yeni bir 3.8B parametreli dil modeli olan phi-3-mini'nin Mixtral 8x7B ve GPT-3.5 ile rekabet ettiği bildiriliyor; varsayılan bağlam uzunluğu 4K olsa da 128K'ya genişletilmiş bir sürümü (phi-mini-128K) de bulunuyor; 3.8B modeli eğitmek için yoğun biçimde filtrelenmiş web verileri ile sentetik verileri birleştiriyor; ayrıca 4.8T token ile eğitilmiş 7B ve 14B modellerin (phi-3-small ve phi-3-medium) sonuçlarını da raporluyor.
A new 3.8B parameter language model called phi-3-mini trained on 3.3 trillion tokens and is reported to rival Mixtral 8x7B and GPT-3.5; has a default context length of 4K but also includes a version that is extended to 128K (phi-mini-128K); combines heavily filtered web data and synthetic data to train the 3.8B models; it also reports results on 7B and 14B models trained on 4.8T tokens (phi-3-small and phi-3-medium).
Makale özeti (Abstract)
3,3 trilyon token ile eğitilmiş, 3,8 milyar parametreli bir dil modeli olan phi-3-mini'yi tanıtıyoruz. Akademik benchmark'lar ve iç testlerle ölçülen genel performansı, telefona dağıtılabilecek kadar küçük olmasına rağmen Mixtral 8x7B ve GPT-3.5 gibi modellerle yarışabilecek düzeye ulaşmıştır (ör. phi-3-mini, MMLU'da %69 ve MT-bench'te 8.38 elde ediyor). Bu yeniliğin tamamı, eğitim için kullandığımız veri kümesinde yatıyor; bu veri kümesi, yoğun biçimde filtrelenmiş web verileri ve sentetik verilerden oluşan, phi-2'de kullanılan veri kümesinin ölçeklendirilmiş bir sürümüdür. Model ayrıca dayanıklılık, güvenlik ve sohbet formatına uygunluk açısından daha da hizalanmıştır. Ayrıca 4.8T token üzerinde eğitilmiş, phi-3-small ve phi-3-medium adlı 7B ve 14B modellerle ilgili ilk parametre ölçekleme sonuçlarını da sunuyoruz; her iki model de phi-3-mini'den belirgin biçimde daha yeteneklidir (ör. MMLU'da sırasıyla %75 ve %78, MT-bench'te ise 8.7 ve 8.9).
We introduce phi-3-mini, a 3.8 billion parameter language model trained on 3.3 trillion tokens, whose overall performance, as measured by both academic benchmarks and internal testing, rivals that of models such as Mixtral 8x7B and GPT-3.5 (e.g., phi-3-mini achieves 69% on MMLU and 8.38 on MT-bench), despite being small enough to be deployed on a phone. The innovation lies entirely in our dataset for training, a scaled-up version of the one used for phi-2, composed of heavily filtered web data and synthetic data. The model is also further aligned for robustness, safety, and chat format. We also provide some initial parameter-scaling results with a 7B and 14B models trained for 4.8T tokens, called phi-3-small and phi-3-medium, both significantly more capable than phi-3-mini (e.g., respectively 75% and 78% on MMLU, and 8.7 and 8.9 on MT-bench).
Makale bağlantısı
https://arxiv.org/abs/2404.14219
Daha fazlası
https://discuss.pytorch.kr/t/…
https://x.com/omarsar0/status/1782780923806699716
OpenELM: Açık kaynak eğitim ve çıkarım çerçevesine sahip verimli bir dil modeli ailesi / OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework
Makale tanıtımı
Katman bazlı ölçekleme stratejisi kullanarak parametreleri verimli biçimde dağıtan, böylece verimlilik ve doğruluğu artıran yeni bir açık dil modeli; 270M, 450M, 1.1B ve 3B gibi farklı boyutlarda sunuluyor; ön eğitim için 2 kat daha az token gerektirirken OLMo'ya kıyasla doğrulukta %2.36 iyileşme sağlıyor.
A new open language model that employs a layer-wise scaling strategy to efficiently allocate parameters and leading to better efficiency and accuracy; comes with different sizes such as 270M, 450M, 1.1B, and 3B; achieves a 2.36% improvement in accuracy compared to OLMo while requiring 2× fewer pre-training tokens.
Makale özeti (Abstract)
Büyük dil modellerinin yeniden üretilebilirliği ve şeffaflığı, açık araştırmayı ilerletmek, sonuçların güvenilirliğini sağlamak ve veri ile model önyargılarının yanı sıra olası risklerin incelenmesini mümkün kılmak açısından kritik önem taşır. Bu amaçla, en güncel açık dil modellerinden biri olan OpenELM’i yayımlıyoruz. OpenELM, katman bazlı ölçekleme stratejisi kullanarak transformer modelinin her katmanında parametreleri verimli biçimde dağıtır ve böylece doğruluğu artırır. Örneğin yaklaşık 1 milyar parametre bütçesinde OpenELM, OLMo’ya kıyasla doğrulukta %2,36 iyileşme gösterirken ön eğitim için $2\times$ daha az token gerektirir. Yalnızca model ağırlıkları ve çıkarım kodu sunan, ayrıca özel veri kümeleri üzerinde ön eğitim yapan önceki yaklaşımlardan farklı olarak bu sürüm; eğitim günlükleri, birden fazla checkpoint ve ön eğitim yapılandırmaları dahil olmak üzere, herkese açık veri kümeleri üzerinde dil modelini eğitmek ve değerlendirmek için eksiksiz bir çerçeve içeriyor. Ayrıca modelleri Apple cihazlarında çıkarım ve ince ayar için MLX kütüphanesine dönüştüren kodu da yayımlıyoruz. Bu kapsamlı sürüm, açık araştırma topluluğunu güçlendirmeyi ve desteklemeyi, böylece gelecekteki açık araştırma çalışmaları için zemin hazırlamayı amaçlıyor. Önceden eğitilmiş model ağırlıkları ve eğitim reçeteleriyle birlikte kaynak koduna \url{https://github.com/apple/corenet} adresinden ulaşılabilir. Ayrıca modeller HuggingFace üzerinde şu adreste bulunabilir: \url{https://huggingface.co/apple/OpenELM}.
Büyük dil modellerinin yeniden üretilebilirliği ve şeffaflığı, açık araştırmayı ilerletmek, sonuçların güvenilirliğini sağlamak ve veri ile model önyargılarının yanı sıra olası risklerin incelenmesini mümkün kılmak açısından kritik önem taşır. Bu amaçla, en güncel açık dil modellerinden biri olan OpenELM’i yayımlıyoruz. OpenELM, katman bazlı ölçekleme stratejisi kullanarak transformer modelinin her katmanında parametreleri verimli biçimde dağıtır ve böylece doğruluğu artırır. Örneğin yaklaşık 1 milyar parametre bütçesinde OpenELM, OLMo’ya kıyasla doğrulukta %2,36 iyileşme gösterirken ön eğitim için $2\times$ daha az token gerektirir. Yalnızca model ağırlıkları ve çıkarım kodu sunan, ayrıca özel veri kümeleri üzerinde ön eğitim yapan önceki yaklaşımlardan farklı olarak bu sürüm; eğitim günlükleri, birden fazla checkpoint ve ön eğitim yapılandırmaları dahil olmak üzere, herkese açık veri kümeleri üzerinde dil modelini eğitmek ve değerlendirmek için eksiksiz bir çerçeve içeriyor. Ayrıca modelleri Apple cihazlarında çıkarım ve ince ayar için MLX kütüphanesine dönüştüren kodu da yayımlıyoruz. Bu kapsamlı sürüm, açık araştırma topluluğunu güçlendirmeyi ve desteklemeyi, böylece gelecekteki açık araştırma çalışmaları için zemin hazırlamayı amaçlıyor. Önceden eğitilmiş model ağırlıkları ve eğitim reçeteleriyle birlikte kaynak koduna \url{https://github.com/apple/corenet} adresinden ulaşılabilir. Ayrıca modeller HuggingFace üzerinde şu adreste bulunabilir: \url{https://huggingface.co/apple/OpenELM}.
Makale bağlantısı
https://arxiv.org/abs/2404.14619
Daha fazlası
https://discuss.pytorch.kr/t/apple-270m-3b-openelm/4204
https://github.com/apple/corenet
https://huggingface.co/apple/OpenELM
https://x.com/rasbt/status/1783480053847736713
Snowflake Arctic
Makale tanıtımı
Kendine özgü Dense-MoE hibrit transformer mimarisi kullanan açık kaynaklı bir LLM’dir (Apache 2.0 lisansı). Kodlama (HumanEval+ ve MBPP+), SQL (Spider) ve komut takibi (IFEval) gibi kurumsal metriklerde Llama3 70B ile eşdeğer performans gösterdiğini; Llama3 70B’ye göre 17 kat daha az hesaplama bütçesi kullandığını; eğitim hesaplama maliyetinin ise yaklaşık 2 milyon doların altında olduğunu (3 bin GPU-haftadan az) iddia ediyor.
Kendine özgü Dense-MoE hibrit transformer mimarisi kullanan açık kaynaklı bir LLM’dir (Apache 2.0 lisansı). Kodlama (HumanEval+ & MBPP+), SQL (Spider) ve komut takibi (IFEval) gibi kurumsal metriklerde Llama3 70B ile eşdeğer performans gösterdiğini; Llama3 70B’ye göre 17 kat daha az hesaplama bütçesi kullandığını; eğitim hesaplama maliyetinin ise yaklaşık 2 milyon doların altında olduğunu (3 bin GPU-haftadan az) iddia ediyor.
Makale bağlantısı
Daha fazlası
https://discuss.pytorch.kr/t/…
https://x.com/omarsar0/status/1783176059694821632
LLM’inizin bağlamı tam olarak kullanmasını sağlayın / Make Your LLM Fully Utilize the Context
Makale tanıtımı
LLM’lerde yaygın olan lost-in-the-middle sorununu aşmaya yönelik bir yaklaşım sunuyor. Mistral-7B üzerine açık biçimde “bilgi yoğun” bir eğitim prosedürü uygulayarak LLM’in bağlamı tam olarak kullanmasını sağlıyor. Bu model, 1) sentezlenmiş uzun bir bağlam (4K-32K token) içindeki kısa bir bölümde (∼128 token) ince taneli bilgi farkındalığı gerektiren ve 2) iki veya daha fazla kısa bölümden gelen bilgilerin birleştirilmesi ve bunlar üzerinde akıl yürütülmesini isteyen sentetik bir veri kümesinden yararlanıyor. Ortaya çıkan model FILM-7B (Fill-in-the-Middle), 32K bağlam penceresi içinde farklı konumlardaki bilgileri sağlam biçimde geri getirebildiğini gösteriyor.
LLM’lerde yaygın olan lost-in-the-middle sorununu aşmaya yönelik bir yaklaşım sunuyor. Mistral-7B üzerine açık biçimde “bilgi yoğun” bir eğitim prosedürü uygulayarak LLM’in bağlamı tam olarak kullanmasını sağlıyor. Bu model, 1) sentezlenmiş uzun bir bağlam (4K−32K token) içindeki kısa bir bölümde (∼128 token) ince taneli bilgi farkındalığı gerektiren ve 2) iki veya daha fazla kısa bölümden gelen bilgilerin birleştirilmesi ve bunlar üzerinde akıl yürütülmesini isteyen sentetik bir veri kümesinden yararlanıyor. Ortaya çıkan model FILM-7B (Fill-in-the-Middle), 32K bağlam penceresi içinde farklı konumlardaki bilgileri sağlam biçimde geri getirebildiğini gösteriyor.
Makale özeti (Abstract)
Günümüzün birçok büyük dil modeli (LLM) uzun girdileri işleyebilse de, hâlâ uzun bağlam içindeki bilgiyi tam olarak kullanmakta zorlanıyor; bu durum "ortada kaybolma" sorunu olarak biliniyor. Bu sorunun, uzun bağlam eğitimi sırasında açık denetimin yetersiz olmasından kaynaklandığını ve bu yüzden uzun bağlamın herhangi bir konumunun kritik bilgi içerebileceğinin yeterince vurgulanmadığını varsayıyoruz. Bu sezgiden yola çıkarak bu çalışma, ortada kaybolma sorununu aşmak için tamamen veri odaklı bir çözüm olan bilgi yoğun (IN2) eğitimi sunuyor. Özellikle IN2 eğitimi, yanıtı bulmak için (1) sentezlenmiş uzun bağlam (4K-32K token) içindeki kısa bir segmentte (~128 token) ayrıntılı bilgi farkındalığı ve (2) iki veya daha fazla kısa segmentten gelen bilgilerin birleştirilmesi ve bunlar üzerinde akıl yürütülmesini gerektiren sentezlenmiş bir uzun bağlam soru-cevap veri kümesinden yararlanıyor. Bu bilgi yoğun eğitimi Mistral-7B'ye uygulayarak FILM-7B'yi (FILl-in-the-Middle) sunuyoruz. FILM-7B'nin uzun bağlamları kullanma yeteneğini kapsamlı biçimde değerlendirmek için, farklı bağlam stillerini (belge, kod ve yapılandırılmış veri bağlamı) ve bilgi erişim örüntülerini (ileri, geri ve çift yönlü erişim) kapsayan üç probing görevi tasarladık. Probing sonuçları, FILM-7B'nin 32K bağlam penceresinde farklı konumlardaki bilgileri istikrarlı biçimde geri getirebildiğini gösteriyor. Bu probing görevlerinin ötesinde FILM-7B, gerçek dünyadaki uzun bağlam görevlerinde performansı anlamlı biçimde artırırken (ör. NarrativeQA'de F1 skoru 23.5->26.9), kısa bağlam görevlerinde de benzer performansı koruyor (ör. MMLU'da doğruluk 59.3->59.2). GitHub bağlantısı: https://github.com/microsoft/FILM.
Birçok çağdaş büyük dil modeli (LLM) uzun girdileri işleyebilse de, uzun bağlam içindeki bilgiyi tam olarak kullanmakta hâlâ zorlanıyor; bu durum ortada kaybolma sorunu olarak biliniyor. Bu sorunun, uzun bağlam eğitimi sırasında açık denetimin yetersiz olmasından ve bunun da uzun bağlamdaki herhangi bir konumun kritik bilgi taşıyabileceğini yeterince vurgulayamamasından kaynaklandığını varsayıyoruz. Bu sezgiye dayanarak çalışmamız, ortada kaybolma sorununu aşmak için tamamen veri odaklı bir çözüm olan bilgi yoğun (IN2) eğitimi sunuyor. Özellikle IN2 eğitimi, yanıtın bulunabilmesi için (1) sentezlenmiş uzun bir bağlam (4K-32K token) içinde kısa bir segmentte (~128 token) ince taneli bilgi farkındalığı ve (2) iki veya daha fazla kısa segmentten gelen bilgilerin birleştirilmesi ve bunlar üzerinde akıl yürütülmesini gerektiren sentezlenmiş bir uzun bağlam soru-cevap veri kümesinden yararlanır. Bu bilgi yoğun eğitimi Mistral-7B üzerinde uygulayarak FILM-7B'yi (FILl-in-the-Middle) sunuyoruz. FILM-7B'nin uzun bağlamları kullanma yeteneğini kapsamlı biçimde değerlendirmek için, çeşitli bağlam stillerini (doküman, kod ve yapılandırılmış veri bağlamı) ve bilgi geri getirme örüntülerini (ileri, geri ve çift yönlü erişim) kapsayan üç probing görevi tasarladık. Probing sonuçları, FILM-7B'nin 32K bağlam penceresindeki farklı konumlardan bilgiyi sağlam biçimde geri getirebildiğini gösteriyor. Bu probing görevlerinin ötesinde FILM-7B, gerçek dünyadaki uzun bağlam görevlerinde performansı önemli ölçüde artırırken (ör. NarrativeQA'de 23.5->26.9 F1 skoru), kısa bağlam görevlerinde de benzer performansı koruyor (ör. MMLU'da 59.3->59.2 doğruluk). Github bağlantısı: https://github.com/microsoft/FILM.
Makale bağlantısı
https://arxiv.org/abs/2404.16811
Daha fazlası
https://github.com/microsoft/FILM
https://x.com/omarsar0/status/1783905514578980949
FineWeb
Makale tanıtımı
Dil modeli eğitimi için 15 trilyon token içeren büyük ölçekli bir web veri kümesi; amaç, 2013 ile 2024 arasındaki CommonCrawl verisini filtreleyip yinelenen kayıtları kaldırarak veri kalitesini artırmak.
Dil modellerinin eğitimi için 15 trilyon token içeren büyük ölçekli bir web veri kümesi; 2013 ile 2024 arasındaki CommonCrawl verisini filtreleyip yinelenen kayıtları kaldırıyor ve amaç verinin kalitesini artırmak.
Makale bağlantısı
https://huggingface.co/datasets/HuggingFaceFW/fineweb
Daha fazlası
https://x.com/gui_penedo/status/1781953413938557276
Yapay zeka tabanlı gen düzenleyiciler / AI-powered Gene Editors
Makale tanıtımı
Büyük ölçekli biyolojik çeşitlilik üzerinde eğitilmiş bir LLM tarafından desteklenen AI sistemi, programlanabilir gen düzenleyici tasarımıyla insan genomunda hassas düzenleme gerçekleştiriyor.
Büyük ölçekte biyolojik çeşitlilik üzerinde eğitilmiş bir LLM tarafından desteklenen bir AI sistemiyle, programlanabilir bir gen düzenleyici tasarımı kullanarak insan genomunda hassas düzenleme gerçekleştiriyor.
Makale bağlantısı
https://www.biorxiv.org/content/10.1101/2024.04.22.590591v1
Daha fazlası
https://x.com/thisismadani/status/1782510590839406904
AutoCrawler: Web crawler oluşturmak için kademeli kavrayışa sahip bir web ajanı / AutoCrawler: A Progressive Understanding Web Agent for Web Crawler Generation
Makale tanıtımı
Crawler'ların çeşitli ve sürekli değişen web ortamlarını daha verimli biçimde işleyebilmesine yardımcı olmak amacıyla LLM'leri crawler'larla birleştirir; web crawler ajanı, HTML'nin hiyerarşik yapısından yararlanarak kademeli anlayış geliştirir, yukarıdan aşağı ve geri adımlı işlemler kullanır ve DOM ağaç yapısından yararlanarak eksiksiz ve çalıştırılabilir bir crawler üretir.
Crawler'ların çeşitli ve değişen web ortamlarını daha verimli ele almasına yardımcı olma hedefiyle LLM'leri crawler'larla birleştirir; web crawler ajanı, HTML'nin hiyerarşik yapısından kademeli kavrayış için yararlanır; yukarıdan aşağı ve geri adımlı işlemler kullanır ve DOM ağaç yapısından yararlanarak eksiksiz ve çalıştırılabilir bir crawler üretir.
Makale özeti (Abstract)
Web otomasyonu, yaygın web işlemlerini otomatikleştirerek, operasyonel verimliliği artırarak ve manuel müdahale ihtiyacını azaltarak karmaşık web görevlerini yerine getiren önemli bir tekniktir. Wrapper gibi geleneksel yöntemler, yeni bir web sitesiyle karşılaşıldığında uyarlanabilirlik ve ölçeklenebilirlik açısından sınırlıdır. Öte yandan, büyük dil modelleri (LLM) ile güçlendirilen üretici ajanlar, açık dünya senaryolarında düşük performans ve yeniden kullanılabilirlik sergiler. Bu çalışmada, dikey bilgi web sayfaları için bir crawler üretim görevi ile LLM'leri crawler'larla birleştiren bir paradigma tanıtılıyor; bu yaklaşım, crawler'ların çeşitli ve sürekli değişen web ortamlarını daha verimli biçimde işlemesine yardımcı oluyor. HTML'in hiyerarşik yapısından yararlanarak aşamalı anlayış sağlayan iki aşamalı bir çerçeve olan AutoCrawler'ı öneriyoruz. Yukarıdan aşağıya ve geri adım operasyonları sayesinde AutoCrawler, hatalı eylemlerden öğrenebilir ve daha iyi eylem üretimi için HTML'i sürekli budayabilir. Birden fazla LLM ile kapsamlı deneyler gerçekleştirerek çerçevemizin etkinliğini gösterdik. Bu makalenin kaynaklarına \url{https://github.com/EZ-hwh/AutoCrawler} adresinden ulaşılabilir
Web automation is a significant technique that accomplishes complicated web tasks by automating common web actions, enhancing operational efficiency, and reducing the need for manual intervention. Traditional methods, such as wrappers, suffer from limited adaptability and scalability when faced with a new website. On the other hand, generative agents empowered by large language models (LLMs) exhibit poor performance and reusability in open-world scenarios. In this work, we introduce a crawler generation task for vertical information web pages and the paradigm of combining LLMs with crawlers, which helps crawlers handle diverse and changing web environments more efficiently. We propose AutoCrawler, a two-stage framework that leverages the hierarchical structure of HTML for progressive understanding. Through top-down and step-back operations, AutoCrawler can learn from erroneous actions and continuously prune HTML for better action generation. We conduct comprehensive experiments with multiple LLMs and demonstrate the effectiveness of our framework. Resources of this paper can be found at \url{https://github.com/EZ-hwh/AutoCrawler}
Makale bağlantısı
https://arxiv.org/abs/2404.12753
Daha fazlasını okuyun
https://github.com/EZ-hwh/AutoCrawler
https://x.com/omarsar0/status/1782462314983071757
Büyük Dil Modelleri (LLM) Çağında Grafik Makine Öğrenimi / Graph Machine Learning in the Era of Large Language Models (LLMs)
Makale tanıtımı
Grafik ML'deki son gelişmeler, LLM'lerin grafik özelliklerini nasıl geliştirebileceği ve OOD ile grafik heterojenliği gibi sorunları nasıl ele alabileceği dahil olmak üzere, LLM çağındaki Grafik ML'e dair en güncel gelişmelere kapsamlı bir genel bakış sunuyor.
Provides a comprehensive overview of the latest advancements for Graph ML in the era of LLMs; covers the recent developments in Graph ML, how LLM can enhance graph features, and how it can address issues such as OOD and graph heterogeneity.
Makale özeti (Abstract)
Grafikler; sosyal ağlar, bilgi grafikleri ve molekül keşfi gibi çeşitli alanlarda karmaşık ilişkileri temsil etmede önemli bir rol oynar. Derin öğrenmenin ortaya çıkmasıyla birlikte Grafik Sinir Ağları (GNN), grafik yapılarının temsilini ve işlenmesini kolaylaştırarak Grafik Makine Öğrenimi'nin (Graph ML) temel taşlarından biri haline geldi. Son dönemde LLM'ler dil görevlerinde eşi benzeri görülmemiş yetenekler sergiledi ve bilgisayarlı görü ile öneri sistemleri gibi çeşitli uygulamalarda yaygın biçimde benimsendi. Bu dikkat çekici başarı, grafik alanında LLM'lerin uygulanmasına yönelik ilgiyi de artırdı. Graph ML'nin genelleme, aktarılabilirlik ve az örnekli öğrenme yeteneklerini ilerletmede LLM'lerin potansiyelini araştırmaya yönelik çabalar giderek artıyor. Öte yandan grafikler, özellikle de bilgi grafikleri, güvenilir olgusal bilgi açısından zengindir; bu da LLM'lerin akıl yürütme yeteneklerini geliştirmek ve halüsinasyonlar ya da açıklanabilirlik eksikliği gibi sınırlamalarını hafifletmek için kullanılabilir. Bu araştırma yönündeki hızlı ilerleme göz önüne alındığında, araştırmacılar ve uygulayıcılar için derinlemesine bir anlayış sağlamak amacıyla LLM çağında Graph ML'deki en son gelişmeleri özetleyen sistematik bir incelemeye ihtiyaç vardır. Bu nedenle bu derlemede önce Graph ML'deki son gelişmeleri gözden geçiriyoruz. Ardından, grafik özelliklerinin kalitesini artırmak, etiketli verilere olan bağımlılığı azaltmak ve grafik heterojenliği ile dağılım dışı genelleme (OOD) gibi zorlukları ele almak için LLM'lerin nasıl kullanılabileceğini inceliyoruz. Sonrasında, grafiklerin LLM'leri nasıl geliştirebileceğini ele alıyor ve LLM ön eğitimi ile çıkarımı iyileştirme yeteneklerini vurguluyoruz. Ayrıca çeşitli uygulamaları inceliyor ve bu umut vadeden alanın olası gelecek yönlerini tartışıyoruz.
Graphs play an important role in representing complex relationships in various domains like social networks, knowledge graphs, and molecular discovery. With the advent of deep learning, Graph Neural Networks (GNNs) have emerged as a cornerstone in Graph Machine Learning (Graph ML), facilitating the representation and processing of graph structures. Recently, LLMs have demonstrated unprecedented capabilities in language tasks and are widely adopted in a variety of applications such as computer vision and recommender systems. This remarkable success has also attracted interest in applying LLMs to the graph domain. Increasing efforts have been made to explore the potential of LLMs in advancing Graph ML's generalization, transferability, and few-shot learning ability. Meanwhile, graphs, especially knowledge graphs, are rich in reliable factual knowledge, which can be utilized to enhance the reasoning capabilities of LLMs and potentially alleviate their limitations such as hallucinations and the lack of explainability. Given the rapid progress of this research direction, a systematic review summarizing the latest advancements for Graph ML in the era of LLMs is necessary to provide an in-depth understanding to researchers and practitioners. Therefore, in this survey, we first review the recent developments in Graph ML. We then explore how LLMs can be utilized to enhance the quality of graph features, alleviate the reliance on labeled data, and address challenges such as graph heterogeneity and out-of-distribution (OOD) generalization. Afterward, we delve into how graphs can enhance LLMs, highlighting their abilities to enhance LLM pre-training and inference. Furthermore, we investigate various applications and discuss the potential future directions in this promising field.
Makale bağlantısı
https://arxiv.org/abs/2404.14928
Daha fazlası
https://x.com/omarsar0/status/1783171591020392886
Büyük Dil Modellerinin Kendini Evrimleştirmesi Üzerine Bir Araştırma / A Survey on Self-Evolution of Large Language Models
Makale tanıtımı
LLM'lerde kendini evrimleştirme yaklaşımlarına dair kapsamlı bir araştırma sunuyor.
Provides a comprehensive survey on self-evolution approaches in LLMs.
Makale özeti (Abstract)
Büyük dil modelleri (LLM), çeşitli alanlarda ve akıllı ajan uygulamalarında önemli ilerlemeler kaydetti. Ancak insan ya da harici model denetimiyle öğrenen mevcut LLM’ler maliyetlidir ve görev karmaşıklığı ile çeşitliliği arttıkça performans tavanına ulaşabilir. Bu sorunu çözmek için, modelin kendi ürettiği deneyimleri otonom biçimde edinmesini, iyileştirmesini ve bunlardan öğrenmesini sağlayan öz-evrim yaklaşımları hızla büyüyor. İnsanların deneyimsel öğrenme sürecinden ilham alan bu yeni eğitim paradigması, LLM’leri süper zekaya doğru ölçekleme potansiyeli sunuyor. Bu çalışma, LLM’lerde öz-evrim yaklaşımlarına dair kapsamlı bir inceleme sunuyor. İlk olarak öz-evrim için kavramsal bir çerçeve öneriliyor ve evrim süreci; deneyim edinimi, deneyim iyileştirme, güncelleme ve değerlendirme olmak üzere dört aşamadan oluşan yinelemeli döngüler olarak özetleniyor. İkinci olarak, LLM’lerin ve LLM tabanlı ajanların evrim hedefleri sınıflandırılıyor; ardından literatür özetleniyor ve her modül için bir taksonomi ile içgörüler sunuluyor. Son olarak, mevcut zorluklar net biçimde ortaya konuyor ve öz-evrim çerçevelerini geliştirmek için gelecekteki yönler önerilerek, araştırmacılara öz-evrimli LLM’lerin geliştirilmesini hızlandıracak kritik içgörüler sağlanıyor.
Large language models (LLMs) have significantly advanced in various fields and intelligent agent applications. However, current LLMs that learn from human or external model supervision are costly and may face performance ceilings as task complexity and diversity increase. To address this issue, self-evolution approaches that enable LLM to autonomously acquire, refine, and learn from experiences generated by the model itself are rapidly growing. This new training paradigm inspired by the human experiential learning process offers the potential to scale LLMs towards superintelligence. In this work, we present a comprehensive survey of self-evolution approaches in LLMs. We first propose a conceptual framework for self-evolution and outline the evolving process as iterative cycles composed of four phases: experience acquisition, experience refinement, updating, and evaluation. Second, we categorize the evolution objectives of LLMs and LLM-based agents; then, we summarize the literature and provide taxonomy and insights for each module. Lastly, we pinpoint existing challenges and propose future directions to improve self-evolution frameworks, equipping researchers with critical insights to fast-track the development of self-evolving LLMs.
Makale bağlantısı
https://arxiv.org/abs/2404.14387
Daha fazlası
https://x.com/omarsar0/status/1782777977526231440
NExT: Büyük dil modellerine kod yürütme üzerine akıl yürütmeyi öğretmek / NExT: Teaching Large Language Models to Reason about Code Execution
Makale tanıtımı
LLM’leri, programların yürütme izlerini inceleyip sentetik düşünce zinciri aracılığıyla çalışma zamanı davranışı üzerine akıl yürütebilecek şekilde eğitiyor; PaLM 2 modelinin MBPP ve Human üzerindeki düzeltme oranını %26,1 ve %14,3 artırdığını ve bilinmeyen senaryolara da genellenebildiğini gösteriyor.
Trains an LLM to have the ability to inspect the execution traced of programs and reason about run-time behavior via synthetic chain-of-thought rationales; improves the fix rate of a PaLM 2 model on MBPP and Human by 26.1% and 14.3%; the model also shows that it can generalize to unknown scenarios.
Makale özeti (Abstract)
İnsan geliştiricilerin temel becerilerinden biri, program yürütmesini anlayıp bunun üzerine akıl yürütebilmektir. Örneğin bir programcı, kodu hata ayıklamak ve onarmak için kod yürütmesini doğal dilde zihinsel olarak simüle edebilir (rubber duck debugging olarak da bilinir). Ancak koda yönelik büyük dil modelleri (LLM), genellikle programların yüzeysel metinsel biçimi üzerinde eğitildiği için, programların çalışma zamanında nasıl yürütüldüğüne dair anlamsal bir kavrayıştan yoksun olabilir. Bu sorunu çözmek için, LLM’lere programların yürütme izlerini (çalıştırılan satırların değişken durumları) incelemeyi ve düşünce zinciri (CoT) gerekçeleri üzerinden çalışma zamanı davranışı hakkında akıl yürütmeyi öğreten bir yöntem olan NExT’i öneriyoruz. Özellikle NExT, zahmetli manuel etiketleme olmadan doğru görev çözümlerine (ör. düzeltilmiş programlara) götüren yürütme farkındalığına sahip gerekçelerden oluşan sentetik bir eğitim kümesini bootstrap etmek için self-training kullanır. MBPP ve HumanEval tabanlı program onarım görevleri üzerindeki deneyler, NExT’in PaLM 2 modelinin düzeltme oranını sırasıyla mutlak olarak %26,1 ve %14,3 artırdığını; ayrıca otomatik metrikler ve insan değerlendiriciler tarafından doğrulandığı üzere gerekçe kalitesini anlamlı biçimde iyileştirdiğini gösteriyor. Modelimiz ayrıca test zamanında program izlerinin bulunmadığı senaryolara da genellenebiliyor.
A fundamental skill among human developers is the ability to understand and reason about program execution. As an example, a programmer can mentally simulate code execution in natural language to debug and repair code (aka. rubber duck debugging). However, large language models (LLMs) of code are typically trained on the surface textual form of programs, thus may lack a semantic understanding of how programs execute at run-time. To address this issue, we propose NExT, a method to teach LLMs to inspect the execution traces of programs (variable states of executed lines) and reason about their run-time behavior through chain-of-thought (CoT) rationales. Specifically, NExT uses self-training to bootstrap a synthetic training set of execution-aware rationales that lead to correct task solutions (e.g., fixed programs) without laborious manual annotation. Experiments on program repair tasks based on MBPP and HumanEval demonstrate that NExT improves the fix rate of a PaLM 2 model, by 26.1% and 14.3% absolute, respectively, with significantly improved rationale quality as verified by automated metrics and human raters. Our model can also generalize to scenarios where program traces are absent at test-time.
Makale bağlantısı
https://arxiv.org/abs/2404.14662
Daha fazlası
https://x.com/AnsongNi/status/1783311827390070941
Orijinal metin
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-b1c
Bu yazı GPT modeliyle derlenmiştir; hatalı kısımlar olabilir, bu yüzden lütfen aşağıdaki orijinal metne de göz atın! Okurken garip veya yanlış bulduğunuz noktalar olursa, yorumlarda bildirmenizi rica ederiz.
⚠️Reklam⚠️: PyTorch Türkiye Kullanıcı Topluluğu tarafından derlenen bu yazıyı faydalı buldunuz mu? Üye olursanız, önemli yazıları e-postayla gönderiyoruz! (Varsayılan ayar Weekly'dir, ancak Daily olarak da değiştirebilirsiniz.)
Henüz yorum yok.