1 puan yazan ninebow 2024-03-06 | Henüz yorum yok. | WhatsApp'ta paylaş
  • DAIR.AI tarafından her hafta yayımlanan ML makalelerine dair yazıyı otomatik olarak çevirdik.

  • Bu hafta seçilen makalelere bakıldığında, araştırmaların ağırlıklı olarak büyük dil modellerine (Large Language Models, LLMs) odaklandığı görülüyor. "Genie", "Mistral Large", "The Era of 1-bit LLMs", "Dataset for LLMs", "PlanGPT" gibi başlıklar, dil modelleme ile bunu iyileştirmeye veya yeni veri kümelerinden yararlanmaya yönelik yaklaşımlara olan ilginin yüksek olduğunu gösteriyor. Bunun nedeni, son birkaç yılda dil işleme teknolojilerinin hızla gelişmesi ve devasa dil modellerinin çeşitli doğal dil işleme görevlerinde üstün performans sergilemesi olabilir.

  • Dil modelleri, özellikle GPT-4 gibi büyük ölçekli modeller, farklı sektörler ve araştırma alanlarında uygulanıyor; bu da bu modelleri daha verimli eğitmeye, daha çeşitli verilere uygulamaya ve hatta daha az bit ile yüksek performansı koruyabilecek yeni teknikler geliştirmeye yönelik ihtiyacı artırıyor. Ayrıca, "On the Societal Impact of Open Foundation Models" gibi başlıklar, dil modellerinin toplum üzerindeki etkisine dair araştırmalar yapıldığını gösteriyor; bu da yalnızca teknolojik ilerlemeye değil, bunun doğurduğu toplumsal değişimlere ve sorumluluklara yönelik farkındalığın da arttığı anlamına geliyor.

  • Öte yandan, "LearnAct" veya "EMO" gibi daha az açıklayıcı başlıklar da dikkat çekiyor; bu tür makaleler yalnızca dil modelleriyle sınırlı kalmayıp daha geniş uygulamalara veya kuramsal gelişmelere odaklanıyor olabilir. Genel olarak bu hafta, dil modellemeye yönelik yeni yaklaşımlar ve bunları kullanan çeşitli uygulama araştırmalarının ana eğilim olarak öne çıktığı görülüyor; bu da yapay zeka alanında önemli kabul edilen çeşitli zorluklara yönelik araştırma ve geliştirme heyecanının bir yansıması olarak değerlendirilebilir.


Genie: Üretken Etkileşimli Ortamlar / Genie: Generative Interactive Environments

Makale tanıtımı

  • İnternet videolarıyla eğitilen ve bir görüntü istemi verildiğinde eylem kontrolü yapılabilen çeşitli 2D dünyalar üretebilen bir foundation model olan Genie, 11B parametreye sahiptir; uzay-zamansal video tokenization, otoregresif dinamik model ve ölçeklenebilir latent action model bileşenlerinden oluşur. Latent action space sayesinde, eğitilen ajanlar görülmemiş videolardaki davranışları taklit edebilir; bu da daha genel amaçlı ajanlar kurmak açısından umut vericidir.

    A foundation model trained from internet videos and with the ability to generate a variety of action-controllable 2d worlds given an image prompt; genie has 11b parameters and consists of a spatiotemporal video tokenizer, an autoregressive dynamic model, and a scalable latent action model; the latent action space enables training agents to imitate behaviors from unseen video which is promising for building more generalist agents.

Makale özeti (Abstract)

  • Etiketsiz internet videolarından gözetimsiz biçimde eğitilen ilk üretken etkileşimli ortam olan Genie’yi tanıtıyoruz. Bu model, metin, sentetik görseller, fotoğraflar ve hatta eskizlerle tanımlanan, eylemle kontrol edilebilen sonsuz çeşitlilikte sanal dünyalar üretmek üzere yönlendirilebilir. 11B parametreye sahip Genie, bir foundation world model olarak değerlendirilebilir. Uzay-zamansal video tokenization, otoregresif dynamics model ve basit ama ölçeklenebilir bir latent action modelden oluşur. Genie, world model literatüründe tipik olarak görülen gerçek eylem etiketleri veya diğer alan-özel gereksinimler olmadan eğitilmesine rağmen, kullanıcıların üretilen ortamlarda kare kare eylemde bulunmasını sağlar. Ayrıca öğrenilmiş latent action space, ajanların görülmemiş videolardaki davranışları taklit edecek şekilde eğitilmesini kolaylaştırır ve geleceğin genel amaçlı ajanlarını eğitmenin yolunu açar.

    We introduce Genie, the first generative interactive environment trained in an unsupervised manner from unlabelled Internet videos. The model can be prompted to generate an endless variety of action-controllable virtual worlds described through text, synthetic images, photographs, and even sketches. At 11B parameters, Genie can be considered a foundation world model. It is comprised of a spatiotemporal video tokenizer, an autoregressive dynamics model, and a simple and scalable latent action model. Genie enables users to act in the generated environments on a frame-by-frame basis despite training without any ground-truth action labels or other domain-specific requirements typically found in the world model literature. Further the resulting learned latent action space facilitates training agents to imitate behaviors from unseen videos, opening the path for training generalist agents of the future.

Makale bağlantısı

https://arxiv.org/abs/2402.15391

Daha fazlası

https://discuss.pytorch.kr/t/…

https://sites.google.com/view/genie-2024/home

https://x.com/_rockt/status/1762026090262872161


Mistral Large / Mistral Large

Makale tanıtımı

  • Güçlü çok dilli, akıl yürütme, matematik ve kod üretimi yeteneklerine sahip yeni bir dil motorunun öne çıkan özellikleri şunlardır: 1) 32k token context window, 2) yerleşik çok dilli yetenekler, 3) akıl yürütme, bilgi, matematik ve kodlama benchmark'larında güçlü performans, 4) function calling ve JSON formatı için yerleşik destek.

    A new llm with strong multilingual, reasoning, maths, and code generation capabilities; features include: 1) 32k tokens context window, 2) native multilingual capacities, 3) strong abilities in reasoning, knowledge, maths, and coding benchmarks, and 4) function calling and json format natively supported.

Makale bağlantısı

https://mistral.ai/news/mistral-large/

Daha fazlası

https://discuss.pytorch.kr/t/…

https://x.com/omarsar0/status/1762140818654064721


1-bit LLM'lerin Çağı: Tüm Büyük Dil Modelleri 1.58 Bit'te / The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

Makale tanıtımı

  • Tüm parametreleri üç değerli {-1, 0, 1} olan, BitNet b1.58 adlı yüksek performanslı ve maliyet açısından verimli bir 1 bit LLM varyantı tanıtılıyor. Aynı model boyutu ve eğitim tokenları verildiğinde, BitNet b1.58 tam hassasiyetli Transformer LLM’in (yani fp16) perplexity ve görev performansını yakalayabiliyor; bu 1 bit LLM’in avantajları ise gecikme, bellek, throughput ve enerji tüketiminde belirgin iyileşmeler sunmasıdır.
    > Introduces a high-performing and cost-effective 1-bit llm variant called bitnet b1.58 where every parameter is a ternary {-1, 0, 1}; given the same model size and training tokens, bitnet b1.58 can match the perplexity and task performance of a full precision transformer llm (i.e., fp16); the benefits of this 1-bit llm are significantly better latency, memory, throughout, and energy consumption.

Makale Özeti(Abstract)

  • BitNet gibi son çalışmalar, 1 bit büyük dil modelleri (LLM) için yeni bir çağın önünü açıyor. Bu çalışmada, LLM’in her bir parametresinin (veya ağırlığının) üç değerli {-1, 0, 1} olduğu bir 1 bit LLM varyantı olan BitNet b1.58 tanıtılıyor. Bu model, aynı model boyutu ve eğitim tokenlarıyla tam hassasiyetli (yani FP16 veya BF16) Transformer LLM ile hem perplexity hem de nihai görev performansı açısından eşleşirken; gecikme, bellek, throughput ve enerji tüketimi bakımından çok daha maliyet verimlidir. Daha da önemlisi, 1.58 bit LLM; hem yüksek performanslı hem de maliyet açısından verimli yeni nesil LLM’lerin eğitimi için yeni bir ölçekleme yasası ve yöntem tanımlar. Ayrıca yeni bir hesaplama paradigmasının önünü açar ve 1 bit LLM’ler için optimize edilmiş özel donanımların tasarlanmasına kapı aralar.
    > Recent research, such as BitNet, is paving the way for a new era of 1-bit Large Language Models (LLMs). In this work, we introduce a 1-bit LLM variant, namely BitNet b1.58, in which every single parameter (or weight) of the LLM is ternary {-1, 0, 1}. It matches the full-precision (i.e., FP16 or BF16) Transformer LLM with the same model size and training tokens in terms of both perplexity and end-task performance, while being significantly more cost-effective in terms of latency, memory, throughput, and energy consumption. More profoundly, the 1.58-bit LLM defines a new scaling law and recipe for training new generations of LLMs that are both high-performance and cost-effective. Furthermore, it enables a new computation paradigm and opens the door for designing specific hardware optimized for 1-bit LLMs.

Makale Bağlantısı

https://arxiv.org/abs/2402.17764

Daha Fazla Okuma

https://x.com/_akhaliq/status/1762729757454618720


Büyük Dil Modelleri için Veri Kümeleri: Kapsamlı Bir Derleme / Datasets for Large Language Models: A Comprehensive Survey

Makale Tanıtımı

  • LLM veri kümelerine ilişkin 180 sayfayı aşan kapsamlı bir genel bakış ve analiz.
    > A comprehensive overview (180+ pages) and analysis of llm datasets.

Makale Özeti(Abstract)

  • Bu makale, LLM’lerin dikkat çekici ilerlemesinde kritik rol oynayan Büyük Dil Modeli (LLM) veri kümelerini incelemeye başlıyor. Veri kümeleri, LLM’lerin gelişimini sürdüren ve besleyen bir kök sistemine benzetilebilecek temel altyapı işlevi görüyor. Bu nedenle, bu veri kümelerinin incelenmesi araştırmalarda önemli bir konu olarak öne çıkıyor. LLM veri kümelerine ilişkin kapsamlı genel bakış ve derinlemesine analiz eksikliğini gidermek, ayrıca mevcut durum ve gelecekteki eğilimlere dair içgörü elde etmek amacıyla bu derleme, LLM veri kümelerinin temel yönlerini beş perspektiften birleştirip sınıflandırıyor: (1) ön eğitim korpusları, (2) komut ince ayar veri kümeleri, (3) tercih veri kümeleri, (4) değerlendirme veri kümeleri, (5) geleneksel doğal dil işleme (NLP) veri kümeleri. Bu derleme, güncel sorunlara ışık tutuyor ve gelecekteki araştırmalar için olası yönleri ortaya koyuyor. Ayrıca, 8 dil kategorisi ve 32 alanı kapsayan 444 veri kümesinin istatistiklerini içeren, hâlihazırda mevcut veri kümesi kaynaklarına dair kapsamlı bir inceleme de sunuluyor. Veri kümesi istatistiklerine 20 boyuttan bilgi dahil edilmiş. İncelenen toplam veri büyüklüğü, ön eğitim korpusları için 774.5 TB’yi, diğer veri kümeleri için ise 700 milyon örneği aşıyor. Amaç, LLM metin veri kümelerinin tamamına dair genel manzarayı sunarak bu alandaki araştırmacılar için kapsamlı bir başvuru kaynağı oluşturmak ve gelecekteki çalışmalara katkı sağlamak. İlgili kaynaklara https://github.com/lmmlzn/Awesome-LLMs-Datasets adresinden ulaşılabilir.
    > This paper embarks on an exploration into the Large Language Model (LLM) datasets, which play a crucial role in the remarkable advancements of LLMs. The datasets serve as the foundational infrastructure analogous to a root system that sustains and nurtures the development of LLMs. Consequently, examination of these datasets emerges as a critical topic in research. In order to address the current lack of a comprehensive overview and thorough analysis of LLM datasets, and to gain insights into their current status and future trends, this survey consolidates and categorizes the fundamental aspects of LLM datasets from five perspectives: (1) Pre-training Corpora; (2) Instruction Fine-tuning Datasets; (3) Preference Datasets; (4) Evaluation Datasets; (5) Traditional Natural Language Processing (NLP) Datasets. The survey sheds light on the prevailing challenges and points out potential avenues for future investigation. Additionally, a comprehensive review of the existing available dataset resources is also provided, including statistics from 444 datasets, covering 8 language categories and spanning 32 domains. Information from 20 dimensions is incorporated into the dataset statistics. The total data size surveyed surpasses 774.5 TB for pre-training corpora and 700M instances for other datasets. We aim to present the entire landscape of LLM text datasets, serving as a comprehensive reference for researchers in this field and contributing to future studies. Related resources are available at: https://github.com/lmmlzn/Awesome-LLMs-Datasets.

Makale bağlantısı

https://arxiv.org/abs/2402.18041

Daha fazla bilgi

https://github.com/lmmlzn/Awesome-LLMs-Datasets

https://x.com/omarsar0/status/1763233452852134001


Eylem Öğrenimi Yoluyla Büyük Dil Modeli Ajanlarını Güçlendirme / Empowering Large Language Model Agents through Action Learning

Makale tanıtımı

  • Python fonksiyonlarını kullanarak eylemler üretip geliştiren yinelemeli bir öğrenme stratejisi aracılığıyla dil ajanları için açık eylem öğrenimini inceliyor; önerilen çerçeve (learnact), her yinelemede yürütme geri bildirimine göre mevcut eylemleri gözden geçirip güncelleyerek eylem alanını genişletiyor ve eylem etkinliğini artırıyor; robotik planlama ve alfworld ortamlarında yapılan deneylerde, alfworld’de react+reflexion’a kıyasla ajan performansını %32 artırdığı görüldü.
    > Explores open-action learning for language agents through an iterative learning strategy that creates and improves actions using python functions; on each iteration, the proposed framework (learnact) expands the action space and enhances action effectiveness by revising and updating available actions based on execution feedback; the learnact framework was tested on robotic planning and alfworld environments; it improves agent performance by 32% in alfworld compared to react+reflexion.

Makale özeti (Abstract)

  • Son dönemde büyük dil modeli (LLM) ajanlarına olan ilgi artsa da, akıllı davranışın temel unsurlarından biri olan deneme-yanılma yoluyla öğrenme becerileri sınırlı kalıyor. Bu çalışma, deneyimden yeni eylemler öğrenme kapasitesinin LLM ajanlarında öğrenmenin ilerlemesi için temel olduğunu savunuyor. İnsanlar deneyimsel öğrenme yoluyla eylem uzaylarını doğal olarak genişletip beceriler geliştirirken, LLM ajanları genellikle sabit eylem uzayları içinde çalıştığından büyüme potansiyelleri kısıtlanıyor. Bu sorunları ele almak için çalışma, dil ajanları için açık uçlu eylem öğrenimini inceliyor. Python fonksiyonları biçiminde eylemler oluşturup iyileştirmeye yönelik yinelemeli bir öğrenme stratejisi içeren LearnAct çerçevesi tanıtılıyor. Her yinelemede LLM, başarısız eğitim görevlerinde tespit edilen hatalara dayanarak o anda kullanılabilir eylemleri gözden geçirip güncelliyor ve böylece eylem etkinliğini artırıyor. Robotik planlama ve Alfworld ortamlarında yapılan deneysel değerlendirmeler, birkaç eğitim görevi örneği üzerinde öğrenme sonrasında açık uçlu eylem öğrenimi yaklaşımının ilgili görev türünde ajan performansını belirgin biçimde iyileştirdiğini gösteriyor (örneğin AlfWorld'de ReAct+Reflexion'a kıyasla %32). Bu sonuç, daha akıllı LLM ajanlarının geliştirilmesinde deneyimsel eylem öğreniminin önemini vurguluyor.
    > Large Language Model (LLM) Agents have recently garnered increasing interest yet they are limited in their ability to learn from trial and error, a key element of intelligent behavior. In this work, we argue that the capacity to learn new actions from experience is fundamental to the advancement of learning in LLM agents. While humans naturally expand their action spaces and develop skills through experiential learning, LLM agents typically operate within fixed action spaces, limiting their potential for growth. To address these challenges, our study explores open-action learning for language agents. We introduce a framework LearnAct with an iterative learning strategy to create and improve actions in the form of Python functions. In each iteration, LLM revises and updates the currently available actions based on the errors identified in unsuccessful training tasks, thereby enhancing action effectiveness. Our experimental evaluations across Robotic Planning and Alfworld environments reveal that after learning on a few training task instances, our approach to open-action learning markedly improves agent performance for the type of task (by 32 percent in AlfWorld compared to ReAct+Reflexion, for instance) highlighting the importance of experiential action learning in the development of more intelligent LLM agents.

Makale bağlantısı

https://arxiv.org/abs/2402.15809

Daha fazlasını okuyun

https://x.com/omarsar0/status/1762533498492010761


EMO: Emote Portrait Alive - Zayıf Koşullar Altında Audio2Video Diffusion Model ile İfade Gücü Yüksek Portre Videoları Üretimi / EMO: Emote Portrait Alive -- Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions

Makale tanıtımı

  • Audio-to-Video diffusion modelinden yararlanarak ara 3D modeller veya yüz landmark'larına ihtiyaç duymayan doğrudan Audio-to-Video sentez yaklaşımını kullanan, ifade gücü yüksek videolar üretmeye yönelik yeni bir çerçeve olan EMO; ifade gücü ve gerçekçilik açısından mevcut yöntemlerden daha iyi performans gösterirken, çeşitli stillerde ikna edici konuşma ve şarkı videoları üretebiliyor.
    > A new framework for generating expressive video by utilizing a direct audio-to-video synthesis approach; by leveraging an audio2video diffusion model it bypasses the need for intermediate 3d models or facial landmarks; emo can produce convincing speaking videos and singing videos in various styles while outperforming existing methods in terms of expressiveness and realism.

Makale özeti (Abstract)

  • Bu çalışma, konuşan kafa videosu üretiminde gerçekçilik ve ifade gücünü artırma sorununu, ses ipuçları ile yüz hareketleri arasındaki dinamik ve incelikli ilişkiye odaklanarak ele alıyor. Geleneksel tekniklerin, insan ifadelerinin tüm yelpazesini ve bireysel yüz stillerinin kendine özgülüğünü çoğu zaman yakalayamama sınırlılığını tespit ediyor. Bu sorunları çözmek için çalışma, ara 3D modeller veya yüz landmark'ları gerektirmeyen doğrudan ses-video sentezi yaklaşımını kullanan yeni bir çerçeve olan EMO'yu öneriyor. Bu yöntem, video boyunca akıcı kare geçişleri ve tutarlı kimlik koruması sağlayarak son derece etkileyici ve canlı animasyonlar üretiyor. Deneysel sonuçlar, EMO'nun yalnızca ikna edici konuşma videoları değil, aynı zamanda çeşitli stillerde şarkı videoları da üretebildiğini ve ifade gücü ile gerçekçilik açısından mevcut son teknoloji yöntemleri önemli ölçüde geride bıraktığını gösteriyor.
    > In this work, we tackle the challenge of enhancing the realism and expressiveness in talking head video generation by focusing on the dynamic and nuanced relationship between audio cues and facial movements. We identify the limitations of traditional techniques that often fail to capture the full spectrum of human expressions and the uniqueness of individual facial styles. To address these issues, we propose EMO, a novel framework that utilizes a direct audio-to-video synthesis approach, bypassing the need for intermediate 3D models or facial landmarks. Our method ensures seamless frame transitions and consistent identity preservation throughout the video, resulting in highly expressive and lifelike animations. Experimental results demonsrate that EMO is able to produce not only convincing speaking videos but also singing videos in various styles, significantly outperforming existing state-of-the-art methodologies in terms of expressiveness and realism.

Makale bağlantısı

https://arxiv.org/abs/2402.17485

Daha fazlasını okuyun

https://x.com/_akhaliq/status/1762686465777999932


Açık foundation modellerinin toplumsal etkisi / On the Societal Impact of Open Foundation Models

Makale tanıtımı

  • Açık foundation modellere ve bunların etkileri, faydaları ve risklerine odaklanan bu görüş yazısı, risk analizi için bir risk değerlendirme çerçevesi öneriyor, bazı durumlarda açık foundation modellerinin marjinal riskinin neden düşük olduğunu açıklıyor ve açık foundation modellerinin toplumsal etkisine dair daha temellendirilmiş bir değerlendirme sunuyor.
    > A position paper with a focus on open foundation models and their impact, benefits, and risks; proposes a risk assessment framework for analyzing risk and explains why the marginal risk of open foundation models is low in some cases; it also offers a more grounded assessment of the societal impact of open foundation models.

Makale bağlantısı

https://crfm.stanford.edu/open-fms/

Daha fazlasını oku

https://x.com/sayashk/status/1762508812370551207


StarCoder 2 / StarCoder 2

Makale tanıtımı

  • Kod için üç farklı boyutta (3b, 7b, 15b) açık makine öğrenimi modeli ailesi; 15b model, 14 trilyon token ve 600'den fazla programlama dili üzerinde eğitildi, 16k token bağlam penceresi ve fill-in-the-middle hedefi kullanıyor; kod tamamlama, kod muhakemesi ve PAL destekli matematiksel muhakeme gibi birçok değerlendirmede 33b+ modellerle aynı seviyeye ulaşıyor.
    > A family of open llms for code with three different sizes (3b, 7b, and 15b); the 15b model was trained on 14 trillion tokens and 600+ programming languages with a context window of 16k token and employing a fill-in-the-middle objective; it matches 33b+ models on many evaluation like code completion, code reasoning, and math reasoning aided through pal.

Makale bağlantısı

https://huggingface.co/blog/starcoder2

Daha fazlasını oku

https://x.com/_philschmid/status/1762843489220296881


Tablo biçimli verilerde büyük dil modelleri (LLM'ler): Tahmin, üretim ve anlama - Derleme makalesi / Large Language Models(LLMs) on Tabular Data: Prediction, Generation, and Understanding - A Survey

Makale tanıtımı

  • Ana teknikler, metrikler, veri setleri, modeller ve optimizasyon yaklaşımları dahil olmak üzere, tablo biçimli veri görevleri için LLM'lere genel bir bakış sunuyor; ayrıca sınırlamalar ve keşfedilmemiş fikirleri, gelecekteki araştırma yönlerine dair içgörülerle birlikte ele alıyor.
    > An overview of llms for tabular data tasks including key techniques, metrics, datasets, models, and optimization approaches; it covers limitations and unexplored ideas with insights for future research directions.

Makale özeti(Abstract)

  • Büyük dil modellemesindeki son atılımlar, tahmin, tablo verisi sentezi, soru yanıtlama ve tablo anlama gibi tablo verisi modellemeyle ilgili çeşitli görevlere bunların uygulanmasının titizlikle araştırılmasını mümkün kıldı. Her görev kendine özgü zorluklar ve fırsatlar sunuyor. Ancak şu anda bu araştırma alanındaki temel teknikleri, metrikleri, veri setlerini, modelleri ve optimizasyon yaklaşımlarını özetleyen ve karşılaştıran kapsamlı bir inceleme eksik. Bu derleme, bu alanlardaki son ilerlemeleri bir araya getirerek, kullanılan veri setleri, ölçütler ve metodolojilere dair kapsamlı bir inceleme ve sınıflandırma sunarak bu boşluğu gidermeyi amaçlıyor. Mevcut literatürdeki güçlü yönleri, sınırlamaları, keşfedilmemiş alanları ve boşlukları belirlerken, bu önemli ve hızla gelişen alanda gelecekteki araştırma yönlerine ilişkin bazı içgörüler de sağlıyor. Ayrıca ilgili kod ve veri seti referansları da sunuyor. Bu kapsamlı inceleme ile, ilgilenen okurlara uygun referanslar ve içgörülü bakış açıları sunmayı, onları alandaki mevcut zorlukları etkili biçimde anlamak ve ele almak için gerekli araçlar ve bilgiyle güçlendirmeyi umuyoruz.
    > Recent breakthroughs in large language modeling have facilitated rigorous exploration of their application in diverse tasks related to tabular data modeling, such as prediction, tabular data synthesis, question answering, and table understanding. Each task presents unique challenges and opportunities. However, there is currently a lack of comprehensive review that summarizes and compares the key techniques, metrics, datasets, models, and optimization approaches in this research domain. This survey aims to address this gap by consolidating recent progress in these areas, offering a thorough survey and taxonomy of the datasets, metrics, and methodologies utilized. It identifies strengths, limitations, unexplored territories, and gaps in the existing literature, while providing some insights for future research directions in this vital and rapidly evolving field. It also provides relevant code and datasets references. Through this comprehensive review, we hope to provide interested readers with pertinent references and insightful perspectives, empowering them with the necessary tools and knowledge to effectively navigate and address the prevailing challenges in the field.

Makale bağlantısı

https://arxiv.org/abs/2402.17944

Daha fazlasını oku

https://x.com/omarsar0/status/1763187964501254492


PlanGPT: Özelleştirilmiş dil modeli ve verimli erişimle kentsel planlamayı geliştirme / PlanGPT: Enhancing Urban Planning with Tailored Language Model and Efficient Retrieval

Makale tanıtımı

  • Retrieval augmentation, fine-tuning, araç kullanımı ve daha fazlası gibi birden çok yaklaşımın LLM'lerle nasıl kullanılacağını ve birleştirileceğini gösteriyor; önerilen çerçeve kentsel ve mekânsal planlamaya uygulanıyor, ancak başka alanlara da uygulanabilecek çok sayıda içgörü ve pratik ipucu içeriyor.
    > Shows how to leverage llms and combine multiple approaches like retrieval augmentation, fine-tuning, tool usage, and more; the proposed framework is applied to urban and spatial planning but there are a lot of insights and practical tips that apply to other domains.

Makale özeti(Abstract)

  • Kentsel planlama alanında, genel amaçlı büyük dil modelleri planlamacıların belirli ihtiyaçlarını karşılamakta çoğu zaman zorlanır. Kentsel planlama metinleri üretme, ilgili bilgileri bulup getirme ve planlama belgelerini değerlendirme gibi görevler kendine özgü zorluklar barındırır. Kent uzmanlarının verimliliğini artırmak ve bu engelleri aşmak için, kentsel ve mekânsal planlamaya özel olarak uyarlanmış ilk uzman büyük dil modeli olan PlanGPT tanıtılıyor. Çin Kentsel Planlama Akademisi gibi kurumlarla iş birliği içinde geliştirilen PlanGPT, özelleştirilmiş yerel veritabanı erişim çerçevesi, alan özelinde temel model ince ayarı ve gelişmiş araç yeteneklerinden yararlanıyor. Ampirik testler, PlanGPT'nin ileri düzey performans sergilediğini ve kentsel planlamanın karmaşıklığına tam olarak uyarlanmış üstün nitelikli yanıtlar sunduğunu gösteriyor.
    > In the field of urban planning, general-purpose large language models often struggle to meet the specific needs of planners. Tasks like generating urban planning texts, retrieving related information, and evaluating planning documents pose unique challenges. To enhance the efficiency of urban professionals and overcome these obstacles, we introduce PlanGPT, the first specialized Large Language Model tailored for urban and spatial planning. Developed through collaborative efforts with institutions like the Chinese Academy of Urban Planning, PlanGPT leverages a customized local database retrieval framework, domain-specific fine-tuning of base models, and advanced tooling capabilities. Empirical tests demonstrate that PlanGPT has achieved advanced performance, delivering responses of superior quality precisely tailored to the intricacies of urban planning.

Makale bağlantısı

https://arxiv.org/abs/2402.19273

Daha fazlası

https://x.com/omarsar0/status/1763424166890377691


Orijinal metin

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-983


Bu yazı GPT modeliyle derlenmiştir; hatalı kısımlar olabilir, bu yüzden lütfen aşağıdaki orijinal metne de göz atın. Okurken garip veya yanlış bir içerik fark ederseniz, lütfen yorumlarda bildirin.

⚠️Reklam⚠️: PyTorch Kore Kullanıcı Topluluğu tarafından derlenen bu yazıyı faydalı buldunuz mu? Üye olursanız, önemli yazıları e-postayla göndeririz! (Varsayılan ayar Weekly'dir, ancak Daily olarak da değiştirebilirsiniz.)

Henüz yorum yok.

Henüz yorum yok.