3 puan yazan ninebow 2024-05-22 | Henüz yorum yok. | WhatsApp'ta paylaş
  • DAIR.AI tarafından her hafta yayımlanan ML makalelerine dair yazıyı otomatik olarak çevirdik.

  • Bu hafta sunulan makalelerde gözlemlenebilen başlıca eğilim, doğal dil işleme (NLP) ve pekiştirmeli öğrenmeye (RL) odaklanan çok sayıda araştırmanın yer almasıdır. Örneğin, "GPT-4o", "Fine-tuning and Hallucinations" ve "Zero-shot Tokenizer Transfer", doğal dil işleme ile ilgili en yeni teknik ve metodolojileri ele alırken özellikle üretici modeller ve tokenizer transfer öğrenimi gibi alanlardaki gelişmeleri inceliyor. Bunun yanı sıra "RLHF Workflow", pekiştirmeli öğrenmeden yararlanan verimli öğrenme süreci tasarımına ilişkin bir araştırma sunuyor; bu da RL alanının pratik uygulama olanaklarını genişletmeye yönelik bir girişim olarak görülebilir.

  • Bu eğilimler, yapay zeka teknolojilerinin, özellikle de makine öğrenimi ve derin öğrenmenin gelişiminde temel rol oynayan doğal dil işleme ile pekiştirmeli öğrenmenin öneminin giderek arttığını yansıtıyor. Son birkaç yılda GPT gibi dil üretim modellerinin patlayıcı büyümesiyle birlikte, bunların uygulama alanı da sürekli genişledi; bu durum araştırmacıların bu modelleri daha incelikli biçimde ayarlamaya ve mevcut modellerin zayıf yönlerini gidermeye yönelik çalışmalara büyük ilgi göstermesine yol açtı. Ayrıca pekiştirmeli öğrenme, karar alma süreçlerini optimize etmek ve karmaşık ortamlarda öğrenme yeteneğini geliştirmek için önemli bir teknik olarak konumlandı; bu da öğrenme verimliliğini en üst düzeye çıkarmayı amaçlayan güncel araştırma eğilimleriyle örtüşüyor.

  • Dolayısıyla bu hafta sunulan makaleler, akademi ve sanayideki Ar-Ge çabalarının hangi yöne ilerlediğini açık biçimde gösteriyor. Doğal dil işleme, insan ile makine arasındaki etkileşimi daha doğal ve verimli hâle getirmeyi amaçlayan teknolojilerin çekirdeğini oluştururken, pekiştirmeli öğrenme bu etkileşimlere dayalı karar alma süreçlerini optimize etmede önemli rol oynuyor. Bu araştırma eğilimleri, gelecekte de gelişmeye devam edecek yapay zeka teknolojilerinin yönünü gösteren önemli göstergeler olacaktır.


GPT-4o

Tanıtım

Ses, görsel ve metni gerçek zamanlı olarak destekleyen çok modlu akıl yürütme yeteneklerine sahip yeni bir modeldir; metin, ses, görüntü ve videonun her türlü kombinasyonunu girdi olarak alıp metin, ses ve görüntü çıktılarının kombinasyonlarını üretebilir ve API üzerinden GPT-4 Turbo performansını korurken %50 daha hızlı ve daha ucuz olduğu bildirilmektedir.

A new model with multimodal reasoning capabilities with real-time support across audio, vision, and text; it can accept as input any combination of text, audio, image, and video to generate combinations of text, audio, and image outputs; it’s reported to match GPT-4 Turbo performance while being 50% much faster and cheaper via APIs.

İlgili bağlantılar

https://openai.com/index/hello-gpt-4o/

Daha fazlası

https://discuss.pytorch.kr/t/openai-gpt-4o-gpt-4o/4362

https://x.com/OpenAI/status/1790072174117613963


Gemini 1.5 Flash / Gemini 1.5 Flash

Makale tanıtımı

Çok modlu yeteneklere ve 2M bağlam penceresine sahip hafif bir transformer decoder modelidir; verimlilik için tasarlanmıştır ve değerlendirilen çeşitli dillerde tüm modeller arasında en hızlı çıktı üretimini sunar. Genel olarak Gemini 1.5 Flash, Gemini 1.0 Pro'ya kıyasla tutarlı biçimde daha iyi performans gösterir ve çeşitli benchmark'larda 1.0 Ultra ile benzer seviyede sonuçlar vermiştir.

A lightweight transformer decoder model with a 2M context window with multimodal capabilities; it is designed for efficiency and yields the fastest output generation of all models on several evaluated languages; overall, Gemini 1.5 Flash performs uniformly better compared to Gemini 1.0 Pro and even performs at a similar level to 1.0 Ultra on several benchmarks.

Makale özeti (Abstract)

Bu rapor, birden fazla uzun belge ile saatler süren video ve ses dahil milyonlarca bağlam token’ı içinden ayrıntılı bilgileri hatırlayıp bunlar üzerinde akıl yürütebilen, hesaplama açısından son derece verimli yeni nesil çok modlu modelleri temsil eden Gemini 1.5 model ailesini tanıtıyor. Bu aile iki yeni model içeriyor: (1) yeteneklerin ve benchmark’ların büyük çoğunluğunda şubat sürümünü geride bırakan güncellenmiş Gemini 1.5 Pro ve (2) kalite kaybını en aza indirirken verimlilik için tasarlanmış daha hafif bir varyant olan Gemini 1.5 Flash. Gemini 1.5 modelleri, farklı modalitelerde uzun bağlamlı bilgi getirme görevlerinde kusursuza yakın geri çağırma elde ediyor; uzun belge QA, uzun video QA ve uzun bağlamlı ASR’de mevcut en iyi sonuçları geliştiriyor; ayrıca geniş bir benchmark setinde Gemini 1.0 Ultra’nın en ileri seviye performansına ulaşıyor veya bunu aşıyor. Gemini 1.5’in uzun bağlam yeteneğinin sınırlarını inceleyen çalışma, sonraki token tahmini ve kusursuza yakın bilgi getirme performansının (>%99) en az 10 milyon token’a kadar istikrarlı biçimde iyileştiğini ve bunun Claude 3.0 (200 bin) ile GPT-4 Turbo (128 bin) gibi mevcut modellere kıyasla nesiller boyu bir sıçrama olduğunu gösteriyor. Son olarak, 10 farklı iş kategorisinde görev tamamlama süresinde %26 ila %75 tasarruf sağlayan profesyonellerle iş birliği gibi gerçek kullanım örneklerine ve dünya genelinde 200’den az konuşuru olan Kalamang dili için bir dilbilgisi kılavuzu verildiğinde, modelin aynı içerikle öğrenmiş bir insanla benzer seviyede İngilizceden Kalamang’a çeviri yapabilmesi gibi dikkat çekici yeni yeteneklere değiniliyor.

In this report, we introduce the Gemini 1.5 family of models, representing the next generation of highly compute-efficient multimodal models capable of recalling and reasoning over fine-grained information from millions of tokens of context, including multiple long documents and hours of video and audio. The family includes two new models: (1) an updated Gemini 1.5 Pro, which exceeds the February version on the great majority of capabilities and benchmarks; (2) Gemini 1.5 Flash, a more lightweight variant designed for efficiency with minimal regression in quality. Gemini 1.5 models achieve near-perfect recall on long-context retrieval tasks across modalities, improve the state-of-the-art in long-document QA, long-video QA and long-context ASR, and match or surpass Gemini 1.0 Ultra’s state-of-the-art performance across a broad set of benchmarks. Studying the limits of Gemini 1.5’s long-context ability, we find continued improvement in next-token prediction and near-perfect retrieval (>99%) up to at least 10M tokens, a generational leap over existing models such as Claude 3.0 (200k) and GPT-4 Turbo (128k). Finally, we highlight real-world use cases, such as Gemini 1.5 collaborating with professions on their completing their tasks achieving 26 to 75% time savings across 10 different job categories, as well as surprising new capabilities of large language models at the frontier; when given a grammar manual for Kalamang, a language with fewer than 200 speakers worldwide, the model learns to translate English to Kalamang at a similar level to a person who learned from the same content.

Makale bağlantısı

https://storage.googleapis.com/deepmind-media/gemini/…

Daha fazlasını oku

https://discuss.pytorch.kr/t/gn-google-i-o-2024/4371

https://x.com/OriolVinyalsML/status/1791521517211107515


Veo

Tanıtım

Google DeepMind’ın en yetenekli video üretim modeli, 1 dakikadan uzun, yüksek kaliteli 1080p çözünürlüklü videolar üretiyor; videolarda maskeli düzenlemeyi destekliyor ve metinle birlikte verilen bir giriş görselinden de video oluşturabiliyor; ayrıca latent diffusion transformer sayesinde tutarlılığı koruyarak video kliplerini 60 saniye ve ötesine uzatabiliyor.

Google Deepmind’s most capable video generation model generates high-quality, 1080p resolution videos beyond 1 minute; it supports masked editing on videos and can also generate videos with an input image along with text; the model can extend video clips to 60 seconds and more while keeping consistency with its latent diffusion transformer.

İlgili bağlantılar

https://deepmind.google/technologies/veo/

Daha fazlasını oku

https://discuss.pytorch.kr/t/veo-google-deepmind/4385

https://x.com/GoogleDeepMind/status/1790435824598716704


Chameleon: Karışık Modlu Erken Füzyon Temel Modelleri / Chameleon: Mixed-Modal Early-Fusion Foundation Models

Makale tanıtımı

İstenilen herhangi bir sırada görsel ve metin üretmek için token tabanlı karışık modlu bir model ailesi; görsel altyazılamada en ileri seviye performans rapor ediyor, yalnızca metin görevlerinde Llama 2’yi geride bırakıyor ve Mixtral 8x7B ile Gemini-Pro karşısında da rekabetçi sonuçlar veriyor; yeni bir uzun biçimli karışık modlu üretim değerlendirmesinde Gemini Pro ve GPT-4V’nin performansını aşıyor.

A family of token-based mixed-modal models for generating images and text in any arbitrary sequence; reports state-of-the-art performance in image captioning and outperforms Llama 2 in text-only tasks and is also competitive with Mixtral 8x7B and Gemini-Pro; exceeds the performance of Gemini Pro and GPT-4V on a new long-form mixed-modal generation evaluation.

Makale özeti (Abstract)

Görüntüleri ve metni herhangi bir rastgele dizide anlayıp üretebilen, erken füzyonlu token tabanlı karma modal model ailesi Chameleon tanıtılıyor. Başlangıçtan itibaren kararlı bir eğitim yaklaşımı, bir hizalama reçetesi ve erken füzyonlu, token tabanlı, karma modal ortama uyarlanmış bir mimari parametreleştirme açıklanıyor. Model; görsel soru yanıtlama, görüntü altyazılama, metin üretimi, görüntü üretimi ve uzun biçimli karma modal üretim dahil olmak üzere kapsamlı bir görev yelpazesinde değerlendiriliyor. Chameleon, görüntü altyazılama görevlerinde son teknoloji performans dahil geniş ve genel yetenekler sergiliyor; yalnızca metin görevlerinde Llama-2’yi geride bırakırken Mixtral 8x7B ve Gemini-Pro gibi modellerle rekabet ediyor ve tek bir model içinde kayda değer görüntü üretimi de gerçekleştiriyor. Ayrıca, istemde veya çıktılarda hem görüntü hem metnin karışık diziler halinde yer aldığı yeni bir uzun biçimli karma modal üretim değerlendirmesinde, insan değerlendirmelerine göre Gemini Pro ve GPT-4V dahil çok daha büyük modellerin performansına ulaşıyor ya da onları aşıyor. Chameleon, tam multimodal belgelerin birleşik modellenmesinde önemli bir ilerlemeyi temsil ediyor.

We present Chameleon, a family of early-fusion token-based mixed-modal models capable of understanding and generating images and text in any arbitrary sequence. We outline a stable training approach from inception, an alignment recipe, and an architectural parameterization tailored for the early-fusion, token-based, mixed-modal setting. The models are evaluated on a comprehensive range of tasks, including visual question answering, image captioning, text generation, image generation, and long-form mixed modal generation. Chameleon demonstrates broad and general capabilities, including state-of-the-art performance in image captioning tasks, outperforms Llama-2 in text-only tasks while being competitive with models such as Mixtral 8x7B and Gemini-Pro, and performs non-trivial image generation, all in a single model. It also matches or exceeds the performance of much larger models, including Gemini Pro and GPT-4V, according to human judgments on a new long-form mixed-modal generation evaluation, where either the prompt or outputs contain mixed sequences of both images and text. Chameleon marks a significant step forward in a unified modeling of full multimodal documents.

Makale bağlantısı

https://arxiv.org/abs/2405.09818

Daha fazlasını okuyun

https://x.com/AIatMeta/status/1791263344714014733


LLM’leri yeni bilgiyle ince ayar yapmak halüsinasyonları teşvik eder mi? / Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?

Makale tanıtımı

Yeni bilgiye yönelik ince ayarın, öğrenicinin halüsinasyon eğilimi üzerindeki etkisini inceliyor; kurulum, yeni bilgi içeren ince ayar örneklerini kapsıyor; LLM’lerin ince ayar yoluyla yeni olgusal bilgiyi edinmekte zorlandığını gösteriyor; ayrıca yeni bilgi öğrenildikçe modelin halüsinasyon eğiliminin arttığını buluyor.

Studies the impact of fine-tuning on new knowledge on the hallucination tendencies of LLMs; the setup includes fine-tuning examples that include new knowledge; shows that LLMs struggle to acquire new factual knowledge via fine-tuning; also finds that as new knowledge is learned it increases the model’s tendency to hallucinate.

Makale özeti (Abstract)

Büyük dil modelleri, denetimli ince ayar yoluyla hizalandıklarında, ön eğitim sırasında edinmedikleri yeni olgusal bilgilerle karşılaşabilir. Bu durumda, model mevcut bilgisine dayanmayan olguları üretmek üzere eğitildiği için, olgusal olarak yanlış yanıtlar şeklinde halüsinasyon davranışını öğrenebileceği sıkça öne sürülür. Bu çalışmada, yeni bilgiye bu tür maruz kalmanın ince ayar yapılmış modelin mevcut bilgisini kullanma yeteneği üzerindeki etkisini inceliyoruz. Bunun için, yeni bilgi tanıtan ince ayar örneklerinin oranını değiştirdiğimiz, closed-book QA odaklı kontrollü bir kurulum tasarlıyoruz. Yeni bilgi tanıtan ince ayar örneklerinin, modelin bilgisiyle tutarlı örneklere kıyasla belirgin biçimde daha yavaş öğrenildiğini göstererek, büyük dil modellerinin ince ayar yoluyla yeni olgusal bilgiyi edinmekte zorlandığını ortaya koyuyoruz. Ancak ayrıca, yeni bilgi içeren örnekler sonunda öğrenildikçe, modelin halüsinasyon eğiliminin doğrusal olarak arttığını da buluyoruz. Bu sonuçlar birlikte ele alındığında, ince ayar yoluyla yeni olgusal bilgi tanıtmanın risklerine dikkat çekiyor ve büyük dil modellerinin olgusal bilgiyi çoğunlukla ön eğitim sırasında edindiği, ince ayarın ise onlara bu bilgiyi daha verimli kullanmayı öğrettiği görüşünü destekliyor.

When large language models are aligned via supervised fine-tuning, they may encounter new factual information that was not acquired through pre-training. It is often conjectured that this can teach the model the behavior of hallucinating factually incorrect responses, as the model is trained to generate facts that are not grounded in its pre-existing knowledge. In this work, we study the impact of such exposure to new knowledge on the capability of the fine-tuned model to utilize its pre-existing knowledge. To this end, we design a controlled setup, focused on closed-book QA, where we vary the proportion of the fine-tuning examples that introduce new knowledge. We demonstrate that large language models struggle to acquire new factual knowledge through fine-tuning, as fine-tuning examples that introduce new knowledge are learned significantly slower than those consistent with the model's knowledge. However, we also find that as the examples with new knowledge are eventually learned, they linearly increase the model's tendency to hallucinate. Taken together, our results highlight the risk in introducing new factual knowledge through fine-tuning, and support the view that large language models mostly acquire factual knowledge through pre-training, whereas fine-tuning teaches them to use it more efficiently.

Makale bağlantısı

https://arxiv.org/abs/2405.05904

Daha fazla bilgi

https://x.com/arankomatsuzaki/status/1788859706187882960


Sıfır Atışlı Tokenizer Aktarımı / Zero-Shot Tokenizer Transfer

Makale tanıtımı

Tokenizer’ı girdi olarak alıp karşılık gelen embedding’leri tahmin eden bir hypernetwork eğitiyor, encoder ve decoder LLM’ler üzerinden yeni tokenizer’lara genellemeyi gösteriyor ve bu yöntemin çok dilli ve kodlama görevlerinde orijinal modele yakın performans elde ederken tokenized sequence uzunluğunu da azalttığını bildiriyor.

Trains a hypernetwork taking a tokenizer as input and predicting the corresponding embeddings; it demonstrates generalization to new tokenizers both with encoder and decoder LLMs; reports that the method achieves performance close to the original models' performance in cross-lingual and coding tasks while reducing the length of the tokenized sequence.

Makale özeti (Abstract)

Dil modelleri (LM), ham metni bir dizi sözlük öğesine (token) eşleyen tokenizer’a bağlıdır. Bu da esnekliklerini kısıtlar: örneğin ağırlıklı olarak İngilizce üzerinde eğitilmiş LM’ler, diğer doğal dillerde ve programlama dillerinde yine iyi çalışabilir, ancak İngilizce merkezli tokenizer’ları nedeniyle verimlilikleri büyük ölçüde düşebilir. Bunu azaltmak için, orijinal LM tokenizer’ını performansı düşürmeden anlık olarak herhangi bir tokenizer ile değiştirebilmemiz gerekir. Bu nedenle bu çalışmada yeni bir problem tanımlanıyor: Sıfır Atışlı Tokenizer Aktarımı (ZeTT). ZeTT’nin merkezindeki temel zorluk, yeni tokenizer’ın sözlüğündeki token’lar için embedding bulmaktır. Embedding başlatmaya yönelik önceki sezgisel yöntemler ZeTT ortamında çoğu zaman rastlantı düzeyinde performans gösterdiği için, tokenizer’ı girdi olarak alıp karşılık gelen embedding’leri tahmin eden bir hypernetwork eğitmeye dayanan yeni bir çözüm öneriliyor. Bu hypernetwork’ün hem encoder (ör. XLM-R) hem de decoder LLM’lerde (ör. Mistral-7B) yeni tokenizer’lara genellenebildiği ampirik olarak gösteriliyor. Yöntemimiz, çok dilli ve kodlama görevlerinde orijinal modellerin performansına yaklaşırken tokenized sequence uzunluğunu da belirgin biçimde azaltıyor. Ayrıca geriye kalan farkın, 1B’den az token üzerinde sürekli eğitimle hızla kapatılabildiğini bulduk. Son olarak, temel bir (L)LM için eğitilmiş bir ZeTT hypernetwork’ünün ek eğitim olmadan ince ayar yapılmış varyantlara da uygulanabildiğini gösteriyoruz. Genel olarak sonuçlarımız, LM’leri tokenizer’larından ayırma yönünde önemli ilerleme sağlıyor.

Language models (LMs) are bound to their tokenizer, which maps raw text to a sequence of vocabulary items (tokens). This restricts their flexibility: for example, LMs trained primarily on English may still perform well in other natural and programming languages, but have vastly decreased efficiency due to their English-centric tokenizer. To mitigate this, we should be able to swap the original LM tokenizer with an arbitrary one, on the fly, without degrading performance. Hence, in this work we define a new problem: Zero-Shot Tokenizer Transfer (ZeTT). The challenge at the core of ZeTT is finding embeddings for the tokens in the vocabulary of the new tokenizer. Since prior heuristics for initializing embeddings often perform at chance level in a ZeTT setting, we propose a new solution: we train a hypernetwork taking a tokenizer as input and predicting the corresponding embeddings. We empirically demonstrate that the hypernetwork generalizes to new tokenizers both with encoder (e.g., XLM-R) and decoder LLMs (e.g., Mistral-7B). Our method comes close to the original models' performance in cross-lingual and coding tasks while markedly reducing the length of the tokenized sequence. We also find that the remaining gap can be quickly closed by continued training on less than 1B tokens. Finally, we show that a ZeTT hypernetwork trained for a base (L)LM can also be applied to fine-tuned variants without extra training. Overall, our results make substantial strides toward detaching LMs from their tokenizer.

Makale bağlantısı

https://arxiv.org/abs/2405.07883

Daha fazla bilgi

https://x.com/bminixhofer/status/1790267652587258343


WavCraft: Büyük Dil Modelleri ile Ses Düzenleme ve Üretimi / WavCraft: Audio Editing and Generation with Large Language Models

Makale tanıtımı

Ses içeriği üretimi ve düzenlemesi için göreve özel modelleri birbirine bağlıyor, kullanıcının talimatlarını birden çok göreve ayırıp her görevi ilgili modülle birlikte ele alıyor ve kullanıcıların açık komutlar vermeden ses içeriğiyle etkileşime geçip içerik üretmesini sağlayan LLM’lerden yararlanıyor.

Leverages LLMs to connect task-specific models for audio content creation and editing; decomposes users' instructions into several tasks and tackles each task collaboratively with the particular module; it can enable users to interact and produce audio content without explicit commands

Makale özeti (Abstract)

Ses içerikleri üretimi ve düzenlemesi için çeşitli göreve özgü modelleri birbirine bağlamak üzere büyük dil modellerinden (LLM) yararlanan kolektif bir sistem olan WavCraft tanıtılıyor. Daha somut olarak WavCraft, ham ses materyallerinin içeriğini doğal dilde açıklar ve ses açıklamaları ile kullanıcı isteklerine göre LLM’i yönlendirir. WavCraft, LLM’in bağlam içi öğrenme yeteneğinden yararlanarak kullanıcı talimatlarını birden fazla göreve ayırır ve her görevi ilgili modülle iş birliği içinde ele alır. Görev ayrıştırma ve göreve özgü modeller kümesi sayesinde WavCraft, kullanıcı kontrolünü kolaylaştıracak biçimde, giriş talimatını izleyerek daha fazla ayrıntı ve gerekçeye sahip ses içerikleri oluşturur veya düzenler. Ayrıca WavCraft, diyalog etkileşimi yoluyla kullanıcılarla iş birliği yapabilir ve hatta açık kullanıcı komutları olmadan da ses içeriği üretebilir. Deneyler, özellikle ses kliplerinin yerel bölgelerini ayarlarken WavCraft’ın mevcut yöntemlere kıyasla daha iyi performans gösterdiğini ortaya koyuyor. Dahası, WavCraft karmaşık talimatları izleyerek girdi kayıtları üzerinde ses içeriği düzenleyip oluşturabilir; bu da daha geniş bir uygulama yelpazesinde ses üreticilerini desteklemesini sağlar. Uygulama ve demolarına buradan ulaşabilirsiniz: https://github.com/JinhuaLiang/WavCraft.

We introduce WavCraft, a collective system that leverages large language models (LLMs) to connect diverse task-specific models for audio content creation and editing. Specifically, WavCraft describes the content of raw audio materials in natural language and prompts the LLM conditioned on audio descriptions and user requests. WavCraft leverages the in-context learning ability of the LLM to decomposes users' instructions into several tasks and tackle each task collaboratively with the particular module. Through task decomposition along with a set of task-specific models, WavCraft follows the input instruction to create or edit audio content with more details and rationales, facilitating user control. In addition, WavCraft is able to cooperate with users via dialogue interaction and even produce the audio content without explicit user commands. Experiments demonstrate that WavCraft yields a better performance than existing methods, especially when adjusting the local regions of audio clips. Moreover, WavCraft can follow complex instructions to edit and create audio content on the top of input recordings, facilitating audio producers in a broader range of applications. Our implementation and demos are available at this https://github.com/JinhuaLiang/WavCraft.

Makale bağlantısı

https://arxiv.org/abs/2403.09527v3

Daha fazlasını okuyun

https://github.com/JinhuaLiang/WavCraft


RLHF iş akışı: ödül modellemeden çevrim içi RLHF’ye / RLHF Workflow: From Reward Modeling to Online RLHF

Makale tanıtımı

Çevrim içi yinelemeli RLHF’nin kolayca yeniden üretilebilmesi için bir reçete sunuluyor; çevrim içi yinelemeli RLHF’nin kuramsal içgörüleri, algoritmik ilkeleri ve pratik uygulaması açıklanıyor.

Provides an easily reproducible recipe for online iterative RLHF; discusses theoretical insights and algorithmic principles of online iterative RLHF and practical implementation.

Makale özeti (Abstract)

Bu teknik rapor, son büyük dil modeli (LLM) literatüründe çevrimdışı karşılığına kıyasla çok daha iyi performans gösterdiği yaygın biçimde bildirilen Online Iterative Reinforcement Learning from Human Feedback (RLHF) iş akışını tanıtıyor. Ancak mevcut açık kaynaklı RLHF projeleri hâlâ büyük ölçüde çevrimdışı öğrenme ortamıyla sınırlı. Bu teknik rapor, bu boşluğu doldurmayı ve online iterative RLHF için kolayca yeniden üretilebilen ayrıntılı bir tarif sunmayı amaçlıyor. Özellikle, kaynakları kısıtlı açık kaynak topluluklarında çevrimiçi insan geri bildirimi genellikle mümkün olmadığından, önce çeşitli açık kaynak veri kümeleri kullanılarak tercih modelleri oluşturuluyor ve ardından insan geri bildirimini yaklaşık olarak modellemek için bu proxy tercih modeli kullanılıyor. Sonrasında online iterative RLHF’nin ardındaki teorik içgörüler ve algoritmik ilkeler ele alınıyor, ardından ayrıntılı pratik uygulama inceleniyor. Eğitilen LLM olan SFR-Iterative-DPO-LLaMA-3-8B-R, AlpacaEval-2, Arena-Hard ve MT-Bench gibi LLM sohbet botu benchmark’larının yanı sıra HumanEval ve TruthfulQA gibi diğer akademik benchmark’larda da etkileyici performans elde etti. Yazarlar, supervised fine-tuning (SFT) ve iterative RLHF’nin tamamen açık kaynak veri kümeleriyle son teknoloji düzeyinde performans sağlayabildiğini gösterdi. Ayrıca model, seçilmiş veri kümeleri ve kapsamlı adım adım kod rehberleri herkese açık hâle getirildi. Daha fazla bilgi için https://github.com/RLHFlow/RLHF-Reward-Modeling ve https://github.com/RLHFlow/Online-RLHF adreslerine bakabilirsiniz.

Bu teknik raporda, yakın dönem büyük dil modeli (LLM) literatüründe çevrimdışı muadiline kıyasla açık ara daha iyi performans gösterdiği yaygın olarak bildirilen Online Iterative Reinforcement Learning from Human Feedback (RLHF) iş akışını sunuyoruz. Ancak mevcut açık kaynak RLHF projeleri hâlâ büyük ölçüde çevrimdışı öğrenme ortamıyla sınırlı. Bu teknik raporda, bu boşluğu doldurmayı ve online iterative RLHF için kolayca yeniden üretilebilecek ayrıntılı bir tarif sunmayı amaçlıyoruz. Özellikle, sınırlı kaynaklara sahip açık kaynak toplulukları için çevrimiçi insan geri bildirimi genellikle uygulanabilir olmadığından, çeşitli açık kaynak veri kümeleri kullanarak tercih modelleri oluşturarak başlıyoruz ve oluşturulan vekil tercih modelini insan geri bildirimini yaklaşık olarak modellemek için kullanıyoruz. Ardından online iterative RLHF’nin arkasındaki teorik içgörüleri ve algoritmik ilkeleri tartışıyor, sonra ayrıntılı pratik uygulamaya geçiyoruz. Eğitilmiş LLM’imiz SFR-Iterative-DPO-LLaMA-3-8B-R, AlpacaEval-2, Arena-Hard ve MT-Bench dâhil LLM sohbet botu benchmark’larında, ayrıca HumanEval ve TruthfulQA gibi diğer akademik benchmark’larda etkileyici performans elde ediyor. Supervised fine-tuning (SFT) ve iterative RLHF’nin tamamen açık kaynak veri kümeleriyle son teknoloji performansı elde edebildiğini gösterdik. Ayrıca modellerimizi, seçilmiş veri kümelerimizi ve kapsamlı adım adım kod rehberlerimizi kamuya açık olarak kullanıma sunduk. Daha ayrıntılı bilgi için lütfen https://github.com/RLHFlow/RLHF-Reward-Modeling ve https://github.com/RLHFlow/Online-RLHF adreslerine bakın.

Makale bağlantısı

https://arxiv.org/abs/2405.07863v1

Daha fazla okuma

https://github.com/RLHFlow/RLHF-Reward-Modeling ve https://github.com/RLHFlow/Online-RLHF

https://x.com/CaimingXiong/status/1790379121719361776


Yalnızca bir kez önbelleğe alın: Dil modelleri için decoder-decoder mimarileri / You Only Cache Once: Decoder-Decoder Architectures for Language Models

Makale tanıtımı

Anahtar-değer çiftlerini yalnızca bir kez önbelleğe alan decoder-decoder LLM mimarisi, global anahtar-değer önbelleğini verimli biçimde kodlayan bir self-decoder üzerine yerleştirilmiş bir cross-decoder içerir ve cross-encoder, önbelleği cross-attention yoluyla yeniden kullanır; bu sayede yeteneklerden ödün vermeden GPU bellek kullanımı önemli ölçüde azalır ve model boyutunun ve eğitim token sayısının ölçeklendirildiği çeşitli senaryolarda Transformer ile benzer performans elde edilir.

Anahtar-değer çiftlerini yalnızca bir kez önbelleğe alan bir decoder-decoder LLM mimarisi; global anahtar-değer önbelleklerini verimli biçimde kodlayan bir self-decoder üzerine yerleştirilmiş bir cross-decoder içerir ve cross-encoder, cross-attention aracılığıyla önbelleği yeniden kullanır; bu da yeteneklerden ödün vermeden GPU bellek kullanımında önemli bir azalma sağlar; model boyutunun ve eğitim token sayısının artırıldığı çeşitli ayarlarda Transformer ile karşılaştırılabilir performans elde eder.

Makale özeti (Abstract)

Büyük dil modelleri için anahtar-değer çiftlerini yalnızca bir kez önbelleğe alan bir decoder-decoder mimarisi olan YOCO tanıtılıyor. Bu mimari, self-decoder üzerine yığılmış bir cross-decoder olmak üzere iki bileşenden oluşuyor. Self-decoder, cross-attention aracılığıyla cross-decoder tarafından yeniden kullanılan küresel anahtar-değer (KV) önbelleğini verimli biçimde kodluyor. Genel model, yalnızca decoder kullanan bir Transformer gibi davranıyor, ancak YOCO önbelleği yalnızca bir kez kullanıyor. Bu tasarım, küresel attention yeteneğini korurken GPU bellek gereksinimini önemli ölçüde azaltıyor. Ayrıca hesaplama akışı, nihai çıktıyı değiştirmeden prefilling aşamasından erken çıkışa izin vererek prefill aşamasını ciddi ölçüde hızlandırıyor. Deney sonuçlarına göre YOCO, model boyutunu ve eğitim token sayısını ölçeklendiren çeşitli ayarlarda Transformer’a kıyasla avantajlı performans elde etti. Ayrıca YOCO, neredeyse kusursuz needle retrieval doğruluğuyla 1M bağlam uzunluğuna kadar genişletildi. Profilleme sonuçları, YOCO’nun bağlam uzunluğu ve model boyutuna bağlı olarak çıkarım belleği, prefill gecikmesi ve throughput açısından çok büyük iyileştirmeler sağladığını gösteriyor. Koda https://aka.ms/YOCO adresinden ulaşabilirsiniz.

We introduce a decoder-decoder architecture, YOCO, for large language models, which only caches key-value pairs once. It consists of two components, i.e., a cross-decoder stacked upon a self-decoder. The self-decoder efficiently encodes global key-value (KV) caches that are reused by the cross-decoder via cross-attention. The overall model behaves like a decoder-only Transformer, although YOCO only caches once. The design substantially reduces GPU memory demands, yet retains global attention capability. Additionally, the computation flow enables prefilling to early exit without changing the final output, thereby significantly speeding up the prefill stage. Experimental results demonstrate that YOCO achieves favorable performance compared to Transformer in various settings of scaling up model size and number of training tokens. We also extend YOCO to 1M context length with near-perfect needle retrieval accuracy. The profiling results show that YOCO improves inference memory, prefill latency, and throughput by orders of magnitude across context lengths and model sizes. Code is available at https://aka.ms/YOCO.

Makale bağlantısı

https://arxiv.org/abs/2405.05254

Daha fazlasını okuyun

https://github.com/microsoft/unilm/tree/master/YOCO

https://x.com/arankomatsuzaki/status/1788435838474355098


CAT3D: Çoklu görünüm difüzyon modelleriyle her şeyi 3D üretmek / CAT3D: Create Anything in 3D with Multi-View Diffusion Models

Makale tanıtımı

Gerçek dünyadaki yakalama sürecini çoklu görünüm difüzyon modeliyle simüle ederek her şeyi 3D olarak üretmeye yönelik bir yöntem sunuluyor; bu yöntem, 3D yeniden yapılandırma tekniklerine girdi olarak kullanılabilecek, bir sahnenin tutarlı yeni görünümlerini üretebiliyor ve gerçek zamanlı olarak render edilebilen 3D temsiller oluşturabiliyor. CAT3D ile sahne 1 dakikadan kısa sürede üretilebiliyor ve tek görüntü ile az sayıda görünümden 3D sahne oluşturma görevlerinde mevcut yöntemlerden daha iyi performans gösterdiği bildiriliyor.

Presents a method for creating anything in 3D by simulating the real-world capture process using a multi-view diffusion model; it can generate consistent novel views of a scene which can be used as input to 3D reconstruction techniques to produce 3D representation rendered in real-time; the scene from CAT3D can be generated in less than one minute and is reported to outperform existing methods on single image and few-view 3D scene creation tasks.

Makale özeti(Abstract)

3D yeniden yapılandırmadaki ilerlemeler, yüksek kaliteli 3D yakalamayı mümkün kıldı; ancak bir 3D sahne oluşturmak için kullanıcının yüzlerce ila binlerce görüntü toplaması gerekiyor. Unity, bu gerçek dünyadaki yakalama sürecini çoklu görünüm difüzyon modeliyle simüle ederek her şeyi 3D üretmeye yarayan bir yöntem olan CAT3D’yi tanıtıyor. Herhangi bir sayıda giriş görüntüsü ve hedef yeni bakış açısı kümesi verildiğinde model, sahnenin son derece tutarlı yeni görünümlerini üretiyor. Üretilen bu görünümler, güçlü 3D yeniden yapılandırma tekniklerine girdi olarak kullanılarak herhangi bir bakış açısından gerçek zamanlı render edilebilen 3D temsiller oluşturulmasını sağlıyor. CAT3D, tüm 3D sahneleri sadece 1 dakika içinde oluşturabiliyor ve tek görüntü ile az sayıda görünümden 3D sahne üretiminde mevcut yöntemlerden daha iyi performans gösteriyor. Sonuçlar ve etkileşimli demolar için proje sayfasına bakabilirsiniz: https://cat3d.github.io.

Advances in 3D reconstruction have enabled high-quality 3D capture, but require a user to collect hundreds to thousands of images to create a 3D scene. We present CAT3D, a method for creating anything in 3D by simulating this real-world capture process with a multi-view diffusion model. Given any number of input images and a set of target novel viewpoints, our model generates highly consistent novel views of a scene. These generated views can be used as input to robust 3D reconstruction techniques to produce 3D representations that can be rendered from any viewpoint in real-time. CAT3D can create entire 3D scenes in as little as one minute, and outperforms existing methods for single image and few-view 3D scene creation. See our project page for results and interactive demos at https://cat3d.github.io .

Makale bağlantısı

https://arxiv.org/abs/2405.10314

Daha fazlasını okuyun

https://cat3d.github.io

https://x.com/_akhaliq/status/1791294630614442009


Orijinal metin

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-ed5


Bu yazı GPT modeliyle derlenmiştir; hatalı kısımlar olabileceğinden lütfen aşağıdaki orijinal metne de göz atın. Okurken kulağa tuhaf gelen veya yanlış olduğunu düşündüğünüz noktalar fark ederseniz, yorumlarda bildirin. 🤗

⚠️Reklam⚠️: 🔥PyTorch Kore Kullanıcı Topluluğu🇰🇷 tarafından derlenen bu yazıyı faydalı buldunuz mu? Üye olarak katılırsanız, önemli yazıları size e-posta💌 ile göndeririz! (Varsayılan ayar Weekly’dir, ancak Daily olarak da değiştirebilirsiniz.)

Henüz yorum yok.

Henüz yorum yok.