28] Bu Haftanın Öne Çıkan ML Makaleleri (Top ML Papers of the Week)

(discuss.pytorch.kr)

3 puan yazan ninebow 2024-01-29 | Henüz yorum yok. | WhatsApp'ta paylaş

Genel Bakış

DAIR.AI tarafından her hafta yayımlanan ML makalelerine ilişkin yazıyı otomatik olarak çevirdik.
Bu hafta seçilen makalelere bakıldığında, Large Language Models (LLMs), Multimodal Models ve Visual Language Models gibi alanlara yönelik ilginin öne çıktığı görülüyor. "Knowledge Fusion of LLMs", "Resource-efficient LLMs & Multimodal Models" ve "Red Teaming Visual Language Models" gibi makaleler bu ana eğilimleri yansıtıyor; büyük ölçekli modeller ve bunların verimliliği, multimodal öğrenme ve görsel veri işleme kapasitesinin artırılmasına yönelik araştırma ve geliştirmeleri ortaya koyuyor.
Bu eğilim, son birkaç yılda yapay zeka teknolojilerinde, özellikle doğal dil işleme (Natural Language Processing, NLP) ve bilgisayarlı görü (Computer Vision) alanlarında, karmaşık verileri anlama ve işleme yeteneğinin öneminin artmasıyla belirginleşiyor. Büyük dil modelleri çeşitli dil anlama görevlerinde yüksek performans sergilerken, multimodal modeller farklı veri türlerini (metin, görüntü, ses vb.) birleştirerek insan benzeri anlayışı hedefleyen araştırmalarda vazgeçilmez bir unsur hâline geldi. Ayrıca görsel dil modelleri, görüntüler ve görsel içerikler üzerinde dil temelli etkileşimi mümkün kılarak daha zengin ve etkileşimli yapay zeka sistemlerinin kurulmasında önemli bir rol oynuyor.
Başlık ve giriş bölümünden görülen bu eğilim, yalnızca gelişmiş yapay zeka modellerinin performansını artırmaya değil, aynı zamanda üretkenlik ve verimlilik için yeni standartlar belirlemeyi hedefleyen araştırmaların da arttığına işaret ediyor. Büyük ölçekli modellerde kaynak verimliliğinin iyileştirilmesini ele alan makaleler, enerji tüketimi ve hesaplama maliyeti açısından sürdürülebilir yapay zeka gelişimini hedefleyen güncel araştırma akımını yansıtıyor. Bu aynı zamanda, yapay zekanın gerçek endüstriyel ve toplumsal uygulamalarda daha yaygın biçimde benimsenebilmesi için mutlaka çözülmesi gereken sorunlara odaklanan akademi ve sanayinin çabalarını da vurguluyor.

Her Şeyi Derinlemesine Analiz Etmek: Büyük Ölçekli Etiketsiz Verinin Gücünü Ortaya Çıkarmak / Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data

Makale Tanıtımı

Her koşulda her türlü görüntüyü işleyebilen güçlü bir monoküler derinlik tahmini çözümü; büyük ölçekli etiketsiz veriyi (62 milyona kadar) otomatik olarak etiketleyerek genelleme hatasını azaltıyor, büyük ölçekli etiketsiz verinin gücünden yararlanmak için etkili stratejiler öneriyor ve genelleme yeteneğinin yanı sıra ince ayarla yeni state-of-the-art sonuçlar elde edip geliştirilmiş bir depth-conditioned ControlNet de ortaya koyuyor.

A robust monocular depth estimation solution that can deal with any images under any circumstance; automatically annotates large-scale unlabeled data (~62m) which helps to reduce generalization error; proposes effective strategies to leverage the power of the large-scale unlabeled data; besides generalization ability, it established new state-of-the-art through fine-tuning and even results in an enhanced depth-conditioned controlnet.

Makale Özeti (Abstract)

Bu çalışma, güçlü monoküler derinlik tahmini için son derece pratik bir çözüm olan Depth Anything'i sunuyor. Yeni teknik modüller peşinde koşmak yerine, her türlü koşul altında her görüntüyü işleyebilen basit ama güçlü bir foundation model oluşturmayı amaçlıyor. Bunun için, büyük ölçekli etiketsiz veriyi (~62M) toplamak ve otomatik olarak açıklama eklemek üzere bir veri motoru tasarlayarak veri kümesini ölçeklendiriyor; böylece veri kapsamı önemli ölçüde genişliyor ve genelleme hatası azaltılabiliyor. Çalışma, veri ölçeklemesini umut verici hâle getiren iki basit ama etkili stratejiyi inceliyor. İlk olarak, veri artırma araçlarından yararlanılarak daha zorlu bir optimizasyon hedefi oluşturuluyor. Bu, modeli ek görsel bilgiyi aktif olarak aramaya ve sağlam temsiller edinmeye zorluyor. İkinci olarak, modelin önceden eğitilmiş encoder'lardan zengin anlamsal öncüller devralmasını sağlamak için yardımcı bir denetim mekanizması geliştiriliyor. Sıfır örnekleme yetenekleri, altı açık veri kümesi ve rastgele çekilmiş fotoğraflar dâhil olmak üzere kapsamlı biçimde değerlendiriliyor. Sonuçlar etkileyici bir genelleme kabiliyeti gösteriyor. Ayrıca, NYUv2 ve KITTI'den alınan metrik derinlik bilgileriyle yapılan fine-tuning sayesinde yeni SOTA sonuçları elde ediliyor. Daha iyi derinlik modeli, daha iyi bir depth-conditioned ControlNet ile de sonuçlanıyor. Ayrıntılar için https://github.com/LiheYoung/Depth-Anything adresine bakabilirsiniz.

This work presents Depth Anything, a highly practical solution for robust monocular depth estimation. Without pursuing novel technical modules, we aim to build a simple yet powerful foundation model dealing with any images under any circumstances. To this end, we scale up the dataset by designing a data engine to collect and automatically annotate large-scale unlabeled data (~62M), which significantly enlarges the data coverage and thus is able to reduce the generalization error. We investigate two simple yet effective strategies that make data scaling-up promising. First, a more challenging optimization target is created by leveraging data augmentation tools. It compels the model to actively seek extra visual knowledge and acquire robust representations. Second, an auxiliary supervision is developed to enforce the model to inherit rich semantic priors from pre-trained encoders. We evaluate its zero-shot capabilities extensively, including six public datasets and randomly captured photos. It demonstrates impressive generalization ability. Further, through fine-tuning it with metric depth information from NYUv2 and KITTI, new SOTAs are set. Our better depth model also results in a better depth-conditioned ControlNet. Our models are released at https://github.com/LiheYoung/Depth-Anything.

Makale Bağlantısı

https://arxiv.org/abs/2401.10891v1

Daha Fazla Okuma

https://x.com/_akhaliq/status/1749284669936275463

Büyük Dil Modellerinin Bilgi Füzyonu / Knowledge Fusion of Large Language Models

Makale Tanıtımı

Birden fazla öğrenilmiş modelin bilgisini dışsallaştırıp bu yetenekleri hedef öğrenilmiş modele aktarmayı temel fikir olarak alan FuseLLM’i öneriyor; kaynak öğrenilmiş modellerin üretim dağılımlarını kullanarak hem kolektif bilgiyi hem de bireysel güçlü yönleri dışsallaştırıp sürekli eğitim yoluyla hedef öğrenilmiş modele aktarıyor; FuseLLM’in akıl yürütme, sağduyu ve kod üretimi gibi çeşitli yeteneklerde hedef modelin performansını artırabildiğini ortaya koyuyor.

Birden fazla llm’den bilgiyi dışsallaştırıp yeteneklerini hedef bir llm’ye aktarmayı temel fikir olarak alan fusellm’i önerir; kaynak llm’lerin üretim dağılımlarını kullanarak hem kolektif bilgilerini hem de bireysel güçlü yönlerini dışsallaştırır ve bunları sürekli eğitim yoluyla hedef llm’ye aktarır; fusellm’in akıl yürütme, sağduyu ve kod üretimi gibi çeşitli yeteneklerde hedef modelin performansını artırabildiğini bulur.

Reklam

Makale Özeti(Abstract)

Büyük dil modellerini (LLM) sıfırdan eğitmek, kendine özgü işlevlere ve güçlü yönlere sahip modeller üretebilse de ciddi maliyet getirir ve yinelenen yeteneklerle sonuçlanabilir. Alternatif olarak, mevcut önceden eğitilmiş LLM’leri daha güçlü bir modele birleştirmek maliyet açısından verimli ve cazip bir yaklaşımdır. Ancak bu LLM’lerin mimarileri farklı olduğundan, ağırlıklarını doğrudan harmanlamak pratik değildir. Bu makalede, mevcut LLM’lerin yeteneklerini birleştirip bunları tek bir LLM’ye aktarmayı amaçlayan LLM’ler için bilgi füzyonu kavramı tanıtılıyor. Kaynak LLM’lerin üretim dağılımlarından yararlanarak onların kolektif bilgisini ve benzersiz güçlü yönlerini dışsallaştırıyor, böylece hedef modelin yeteneklerini tek tek kaynak LLM’lerin ötesine taşıma potansiyeli sunuyor. Çalışma, farklı mimarilere sahip üç popüler LLM olan Llama-2, MPT ve OpenLLaMA üzerinde, çeşitli benchmark’lar ve görevler boyunca yaklaşımı doğruluyor. Bulgular, LLM füzyonunun akıl yürütme, sağduyu ve kod üretimi gibi çeşitli yeteneklerde hedef modelin performansını artırabildiğini doğruluyor. Kod, model ağırlıkları ve veriler \url{https://github.com/fanqiwan/FuseLLM} adresinde herkese açık olarak sunulmuştur.

Büyük dil modellerini (LLM’ler) sıfırdan eğitmek, farklı işlevlere ve güçlü yönlere sahip modeller üretebilse de önemli maliyetler doğurur ve yinelenen yeteneklerle sonuçlanabilir. Alternatif olarak, mevcut önceden eğitilmiş LLM’leri daha güçlü bir modelde birleştirmek maliyet açısından verimli ve cazip bir yaklaşımdır. Ancak bu LLM’lerin farklı mimarileri nedeniyle ağırlıklarını doğrudan harmanlamak pratik değildir. Bu makalede, mevcut LLM’lerin yeteneklerini birleştirip tek bir LLM’ye aktarmayı amaçlayan, LLM’ler için bilgi füzyonu kavramını tanıtıyoruz. Kaynak LLM’lerin üretim dağılımlarından yararlanarak onların kolektif bilgisini ve benzersiz güçlü yönlerini dışsallaştırıyor, böylece hedef modelin yeteneklerini herhangi bir tekil kaynak LLM’nin ötesine taşıma potansiyeli yaratıyoruz. Farklı benchmark’lar ve görevler genelinde, farklı mimarilere sahip üç popüler LLM olan Llama-2, MPT ve OpenLLaMA ile yaklaşımımızı doğruluyoruz. Bulgularımız, LLM füzyonunun akıl yürütme, sağduyu ve kod üretimi gibi çeşitli yeteneklerde hedef modelin performansını iyileştirebildiğini doğruluyor. Kodumuz, model ağırlıkları ve verilerimiz \url{https://github.com/fanqiwan/FuseLLM} adresinde herkese açıktır.

Makale Linki

https://arxiv.org/abs/2401.10491

Daha Fazla Oku

https://github.com/fanqiwan/FuseLLM

https://x.com/omarsar0/status/1749267663900057620

MambaByte: Token gerektirmeyen Seçici Durum Uzayı Modeli / MambaByte: Token-free Selective State Space Model

Makale Tanıtımı

Mamba SSM’i doğrudan ham baytlar üzerinden öğrenmek için uyarlıyor. Baytlar, otoregresif Transformer’ların iyi ölçeklenemediği daha uzun dizilere yol açıyor. Bu çalışma, daha hızlı çıkarımla ilgili büyük kazanımlar bildirdiğini ve hatta alt sözcük Transformer’larını geride bıraktığını aktarıyor.

Mamba ssm’yi doğrudan ham baytlardan öğrenmesi için uyarlar; baytlar, otoregresif transformer’ların kötü ölçeklendiği daha uzun dizilere yol açar; bu çalışma daha hızlı çıkarımla ilgili büyük faydalar bildirmekte ve hatta alt sözcük transformer’larını geride bırakmaktadır.

Makale Özeti(Abstract)

Token gerektirmeyen dil modelleri doğrudan ham baytlardan öğrenir ve alt sözcük tokenizasyonunun önyargısını ortadan kaldırır. Ancak baytlar üzerinde çalışmak, dizilerin ciddi ölçüde uzamasına neden olur ve standart otoregresif Transformer’lar bu tür ortamlarda iyi ölçeklenmez. Biz, bayt dizileri üzerinde otoregresif olarak eğitilmiş Mamba durum uzayı modelinin token gerektirmeyen bir uyarlaması olan MambaByte’ı inceliyoruz. Deneylerimiz, MambaByte’ın diğer bayt düzeyi modellere kıyasla hesaplama verimliliğinin belirgin biçimde daha yüksek olduğunu gösteriyor. Ayrıca MambaByte’ın son teknoloji alt sözcük Transformer’larıyla rekabet edebildiğini ve hatta onları geride bırakabildiğini de görüyoruz. Dahası, uzunlukta doğrusal ölçeklenmesi sayesinde MambaByte, Transformer’lara kıyasla hızlı çıkarım avantajı sunuyor. Bulgularımız, token gerektirmeyen dil modellemeyi mümkün kılmada MambaByte’ın uygulanabilirliğini ortaya koyuyor.

Token gerektirmeyen dil modelleri doğrudan ham baytlardan öğrenir ve alt sözcük tokenizasyonunun önyargısını ortadan kaldırır. Ancak baytlar üzerinde çalışmak, dizilerin önemli ölçüde uzamasına yol açar ve standart otoregresif Transformer’lar bu tür ortamlarda kötü ölçeklenir. Bayt dizileri üzerinde otoregresif olarak eğitilmiş Mamba durum uzayı modelinin token gerektirmeyen bir uyarlaması olan MambaByte’ı deniyoruz. Deneylerimiz, MambaByte’ın diğer bayt düzeyi modellere kıyasla hesaplama verimliliğine işaret ediyor. Ayrıca MambaByte’ın son teknoloji alt sözcük Transformer’larıyla rekabetçi olduğunu ve hatta onlardan daha iyi performans gösterdiğini de görüyoruz. Ayrıca, uzunlukta doğrusal ölçeklenmesi sayesinde MambaByte, Transformer’lara kıyasla hızlı çıkarım avantajından yararlanır. Bulgularımız, token gerektirmeyen dil modellemeyi mümkün kılmada MambaByte’ın uygulanabilirliğini ortaya koymaktadır.

Makale Linki

https://arxiv.org/abs/2401.13660

Daha fazla oku

https://x.com/omarsar0/status/1750366964759859633

Diffuse to Choose: Sanal deneme için latent difüzyon modellerinde görüntü koşullu inpainting’i zenginleştirme / Diffuse to Choose: Enriching Image Conditioned Inpainting in Latent Diffusion Models for Virtual Try-All

Makale tanıtımı

Difüzyon tabanlı bir görüntü koşullu inpainting modeli olarak, verilen sahne içeriğinde doğru anlamsal manipülasyonları mümkün kılarken hızlı çıkarım ile yüksek sadakat arasında denge kurar; mevcut zero-shot difüzyon inpainting yöntemlerini ve hatta DreamPaint gibi few-shot difüzyon kişiselleştirme algoritmalarını bile geride bırakır.

A diffusion-based image-conditioned inpainting model to balance fast inference with high-fidelity while enabling accurate semantic manipulations in a given scene content; outperforms existing zero-shot diffusion inpainting methods and even few-shot diffusion personalization algorithms such as dreampaint.

Makale özeti(Abstract)

Online alışveriş büyüdükçe, alıcıların ürünleri kendi ortamlarında sanal olarak görselleştirebilmesi, yani bizim "Virtual Try-All" olarak tanımladığımız olgu, kritik hale geldi. Son dönem difüzyon modelleri doğası gereği bir world model içerdiğinden, bu görev için inpainting bağlamında uygundur. Ancak geleneksel görüntü koşullu difüzyon modelleri çoğu zaman ürünlerin ince ayrıntılarını yakalayamaz. Buna karşılık DreamPaint gibi kişiselleştirme odaklı modeller, ürünün detaylarını iyi korusa da gerçek zamanlı uygulamalar için optimize edilmemiştir. Unity, verilen sahne içeriğinde doğru anlamsal manipülasyonları garanti ederken, hızlı çıkarımı ve verilen referans öğenin yüksek sadakatli detaylarını korumayı verimli biçimde dengeleyen yeni bir difüzyon tabanlı görüntü koşullu inpainting modeli olan "Diffuse to Choose"u tanıtıyor. Unity’nin yaklaşımı, referans görüntüdeki ince taneli özellikleri ana difüzyon modelinin latent özellik haritalarına doğrudan entegre etmeye ve referans öğenin detaylarını daha iyi korumak için algısal kayıp uygulamaya dayanıyor. Unity, kurum içi ve kamuya açık veri kümeleri üzerinde kapsamlı testler gerçekleştirdi ve sonuçlar, Diffuse to Choose’un mevcut zero-shot difüzyon inpainting yaklaşımlarının yanı sıra DreamPaint gibi few-shot difüzyon kişiselleştirme algoritmalarından da üstün olduğunu gösterdi.

As online shopping is growing, the ability for buyers to virtually visualize products in their settings-a phenomenon we define as "Virtual Try-All"-has become crucial. Recent diffusion models inherently contain a world model, rendering them suitable for this task within an inpainting context. However, traditional image-conditioned diffusion models often fail to capture the fine-grained details of products. In contrast, personalization-driven models such as DreamPaint are good at preserving the item's details but they are not optimized for real-time applications. We present "Diffuse to Choose," a novel diffusion-based image-conditioned inpainting model that efficiently balances fast inference with the retention of high-fidelity details in a given reference item while ensuring accurate semantic manipulations in the given scene content. Our approach is based on incorporating fine-grained features from the reference image directly into the latent feature maps of the main diffusion model, alongside with a perceptual loss to further preserve the reference item's details. We conduct extensive testing on both in-house and publicly available datasets, and show that Diffuse to Choose is superior to existing zero-shot diffusion inpainting methods as well as few-shot diffusion personalization algorithms like DreamPaint.

Makale bağlantısı

https://arxiv.org/abs/2401.13795

Daha fazla oku

https://x.com/_akhaliq/status/1750737690553692570

WARM: Ağırlık ortalamalı ödül modellerinin faydaları üzerine / WARM: On the Benefits of Weight Averaged Reward Models

Makale tanıtımı

Birden çok ödül modelinin fine-tune edilip ardından ağırlık uzayında ortalamasının alınmasını içeren weight averaged reward models (WARM) yaklaşımını tanıtarak, geleneksel tahmin ansambllarına kıyasla verimliliği artırır ve LLM tahminlerinin kalitesini ve hizalamasını iyileştirir.

Introduces weighted averaged rewards models (warm) that involve fine-tuning multiple rewards models and then averaging them in the weight space; average weighting improves efficiency compared to traditional prediction ensembling; it improves the quality and alignment of llm predictions.

Makale özeti(Abstract)

Takviyeli öğrenme (RLHF) yoluyla büyük dil modellerini (LLM) insan tercihleriyle hizalamak, ödül modelindeki (RM) hatalardan yararlanarak altta yatan hedefleri karşılamadan görünürde yüksek ödüller elde edilen ödül hack’lemeye yol açabilir. Unity, ödül hack’lemeyi azaltmak için RM tasarlanırken iki temel zorluğu belirliyor: RL süreci sırasında dağılım kaymaları ve insan tercihlerindeki tutarsızlıklar. Çözüm olarak önce birden fazla RM’yi fine-tune edip ardından bunların ağırlık uzayında ortalamasını alan Weight Averaged Reward Models (WARM) öneriliyor. Bu strateji, aynı ön eğitimi paylaşan fine-tune edilmiş ağırlıkların doğrusal olarak bağlı kalması gözlemine dayanıyor. Ağırlıkların ortalamasını alarak WARM, geleneksel tahmin ensemble yaklaşımına kıyasla verimliliği artırırken, dağılım kaymaları altında güvenilirliği ve tercih tutarsızlıklarına karşı dayanıklılığı da geliştiriyor. Best-of-N ve RL yöntemleri kullanılan özetleme görevlerindeki deneyler, WARM’ın LLM tahminlerinin genel kalitesini ve hizalamasını iyileştirdiğini gösteriyor; örneğin WARM ile fine-tune edilen bir policy RL, tek bir RM ile fine-tune edilen bir policy RL’ye karşı %79,4 kazanma oranı elde etti.

Büyük dil modellerini (LLM) takviyeli öğrenme (RLHF) yoluyla insan tercihleriyle hizalamak, LLM’lerin ödül modelindeki (RM) hatalardan yararlanarak temel hedefleri karşılamadan görünürde yüksek ödüller elde ettiği ödül hack’lemeye yol açabilir. Ödül hack’lemeyi azaltmak için RM tasarlarken iki temel zorluğu belirliyoruz: RL süreci sırasında dağılım kaymaları ve insan tercihlerindeki tutarsızlıklar. Çözüm olarak Weight Averaged Reward Models (WARM) öneriyoruz; önce birden fazla RM fine-tune ediliyor, ardından ağırlık uzayında ortalamaları alınıyor. Bu strateji, aynı ön eğitimi paylaşan fine-tune edilmiş ağırlıkların doğrusal mod bağlantısını koruduğu gözlemine dayanıyor. Ağırlıkları ortalamak, WARM’ın geleneksel tahmin ensemble’ına kıyasla verimliliği artırmasını sağlarken, dağılım kaymaları altında güvenilirliği ve tercih tutarsızlıklarına karşı dayanıklılığı da geliştiriyor. Best-of-N ve RL yöntemleriyle yapılan özetleme görevlerindeki deneylerimiz, WARM’ın LLM tahminlerinin genel kalitesini ve hizalamasını iyileştirdiğini gösteriyor; örneğin WARM ile fine-tune edilmiş bir policy RL, tek bir RM ile fine-tune edilmiş bir policy RL’ye karşı %79,4 kazanma oranına sahip.

Makale bağlantısı

https://arxiv.org/abs/2401.12187

Daha fazlası

https://x.com/ramealexandre/status/1749719471806157304

Kaynak verimli LLM ve çok modlu temel modeller üzerine bir araştırma / A Survey of Resource-efficient LLM and Multimodal Foundation Models

Makale tanıtımı

Kaynak verimli ML ve çok modlu temel modellere dair bu araştırma; mimariler, algoritmalar ve pratik sistem tasarımları ile uygulamaları dahil olmak üzere ML verimliliği araştırmalarına kapsamlı bir analiz ve içgörü sunuyor.

Kaynak verimli LLM’ler ve çok modlu temel modellere ilişkin bir araştırma; mimariler, algoritmalar ve pratik sistem tasarımları ile uygulamaları dahil olmak üzere ML verimliliği araştırmalarına kapsamlı analiz ve içgörüler sunar.

Makale özeti (Abstract)

Büyük dil modelleri (LLM), vision transformer’lar (ViT), diffusion ve LLM tabanlı çok modlu modeller dahil olmak üzere büyük temel modeller, eğitimden dağıtıma kadar tüm makine öğrenmesi yaşam döngüsünü dönüştürüyor. Ancak bu modellerin sunduğu çok yönlülük ve performanstaki büyük ilerlemeler, donanım kaynakları açısından ciddi bir maliyet getiriyor. Bu büyük modellerin büyümesini ölçeklenebilir ve çevresel açıdan sürdürülebilir bir şekilde desteklemek için kaynak verimli stratejiler geliştirmeye önemli bir ilgi var. Bu araştırma, hem algoritmik hem de sistem düzeyindeki yönleri inceleyerek bu çalışmaların kritik önemine derinlemesine bakıyor. En ileri model mimarileri ve eğitim/sunum algoritmalarından pratik sistem tasarımları ve uygulamalarına kadar geniş bir konu yelpazesini kapsayan mevcut literatürden derlenen kapsamlı bir analiz ve değerli içgörüler sunuyor. Bu araştırmanın amacı, mevcut yaklaşımların büyük temel modellerin ortaya çıkardığı kaynak sorunlarını nasıl ele aldığına dair genel bir anlayış sağlamak ve bu alandaki gelecekteki atılımlara ilham verebilmektir.

Büyük dil modelleri (LLM), vision transformer’lar (ViT), diffusion ve LLM tabanlı çok modlu modeller dahil büyük temel modeller, eğitimden dağıtıma kadar tüm makine öğrenmesi yaşam döngüsünde devrim yaratıyor. Ancak bu modellerin sunduğu çok yönlülük ve performanstaki önemli ilerlemeler, donanım kaynakları açısından yüksek bir maliyetle geliyor. Bu büyük modellerin büyümesini ölçeklenebilir ve çevresel olarak sürdürülebilir bir biçimde desteklemek için kaynak verimli stratejiler geliştirmeye büyük bir odak oluştu. Bu araştırma, hem algoritmik hem de sistemsel yönleri inceleyerek bu tür çalışmaların kritik önemini ele alıyor. Son teknoloji model mimarileri ve eğitim/sunum algoritmalarından pratik sistem tasarımları ve uygulamalarına kadar geniş bir konu yelpazesini kapsayan mevcut literatürden elde edilmiş kapsamlı bir analiz ve değerli içgörüler sunuyor. Bu araştırmanın amacı, güncel yaklaşımların büyük temel modellerin doğurduğu kaynak sorunlarını nasıl ele aldığına dair kapsayıcı bir anlayış sunmak ve potansiyel olarak bu alandaki gelecekteki atılımlara ilham vermektir.

Makale bağlantısı

https://arxiv.org/abs/2401.08092v1

Daha fazlası

https://x.com/omarsar0/status/1749208653926654010

Görsel dil modellerinde red teaming / Red Teaming Visual Language Models

Makale tanıtımı

Önce 10 alt görevden oluşan bir red teaming veri kümesi sunuyor (ör. görüntü yanıltma, çok modlu jailbreaking, yüz adaleti vb.); 10 önde gelen açık kaynaklı VLM'nin red teaming görevlerinde farklı derecelerde zorlandığını ve gpt-4v ile aralarında %31'e varan performans farkı bulunduğunu ortaya koyuyor; ayrıca önerilen red teaming veri kümesiyle SFT (Supervised Fine-tuning) kullanarak llava-v1.5 üzerinde red teaming hizalaması uyguluyor ve bu sayede test setinde model performansını %10 artırıyor.

İlk olarak 10 alt görevden oluşan bir red teaming veri kümesi (ör. görüntü yanıltma, çok modlu jailbreaking, yüz adaleti vb.) sunar; 10 önde gelen açık kaynaklı VLM'nin red teaming görevlerinde farklı derecelerde zorlandığını ve gpt-4v ile aralarında %31'e varan performans farkı bulunduğunu ortaya koyar; ayrıca önerilen red teaming veri kümesini kullanarak SFT ile llava-v1.5 üzerinde red teaming hizalaması uygular ve bunun test setinde model performansını %10 iyileştirdiğini gösterir.

Makale özeti(Abstract)

VLM'ler (Vision-Language Models), LLM'lerin (Large Language Models) yeteneklerini çok modlu girdileri kabul edecek şekilde genişletir. LLM'lerin belirli test vakalarıyla (red teaming olarak adlandırılır) zararlı veya hatalı içerik üretmeye yönlendirilebildiği doğrulandığından, VLM'lerin benzer senaryolarda, özellikle metin ve görsel girdilerin birleştiği durumlarda nasıl davrandığı hâlâ bir soru işaretidir. Bu sorunu incelemek için, 4 ana boyut (doğruluk, gizlilik, güvenlik, adalet) altında 10 alt görevi (ör. görüntü yanıltma, çok modlu jailbreaking, yüz adaleti vb.) kapsayan yeni bir red teaming veri kümesi olan RTVLM'yi sunuyoruz. Criteo'nun RTVLM'si, mevcut VLM'leri bu 4 farklı boyutta kıyaslayan ilk red teaming veri kümesidir. Ayrıntılı analiz, 10 önde gelen açık kaynaklı VLM'nin red teaming görevlerinde farklı derecelerde zorlandığını ve GPT-4V ile aralarında %31'e varan performans farkı olduğunu gösteriyor. Ayrıca RTVLM kullanılarak yapılan supervised fine-tuning (SFT) ile LLaVA-v1.5'e basitçe red teaming hizalaması uygulandığında, RTVLM test setinde %10, MM-Hal'de %13 performans artışı elde edildi ve MM-Bench'te fark edilir bir düşüş olmadan, normal hizalama verisi kullanan diğer LLaVA tabanlı modeller geride bırakıldı. Bu da mevcut açık kaynaklı VLM'lerde hâlâ red teaming hizalamasının eksik olduğunu ortaya koyuyor. Kodumuz ve veri kümelerimiz açık kaynak olarak yayımlanacaktır.

VLM'ler (Vision-Language Models), LLM'lerin (Large Language Models) yeteneklerini çok modlu girdileri kabul edecek şekilde genişletir. LLM'lerin belirli test vakalarıyla (red teaming olarak adlandırılır) zararlı veya hatalı içerik üretmeye yönlendirilebildiği doğrulandığından, VLM'lerin benzer senaryolarda, özellikle metin ve görsel girdilerin birleştiği durumlarda nasıl performans gösterdiği hâlâ bir sorudur. Bu sorunu incelemek için, 4 temel boyut (doğruluk, gizlilik, güvenlik, adalet) altında 10 alt görevi (ör. görüntü yanıltma, çok modlu jail-breaking, yüz adaleti vb.) kapsayan yeni bir red teaming veri kümesi olan RTVLM'yi sunuyoruz. RTVLM'miz, mevcut VLM'leri bu 4 farklı boyut açısından kıyaslayan ilk red teaming veri kümesidir. Ayrıntılı analiz, 10 önde gelen açık kaynaklı VLM'nin red teaming görevlerinde farklı derecelerde zorlandığını ve GPT-4V ile aralarında %31'e varan performans farkı olduğunu gösteriyor. Ayrıca RTVLM kullanılarak supervised fine-tuning (SFT) ile LLaVA-v1.5'e basitçe red teaming hizalaması uyguluyoruz; bu da RTVLM test setinde %10, MM-Hal'de %13 performans artışı sağlıyor ve MM-Bench'te fark edilir bir düşüş olmadan, normal hizalama verisi kullanan diğer LLaVA tabanlı modelleri geride bırakıyor. Bu, mevcut açık kaynaklı VLM'lerde hâlâ red teaming hizalamasının eksik olduğunu ortaya koyuyor. Kodumuz ve veri kümelerimiz açık kaynak olacaktır.

Makale bağlantısı

https://arxiv.org/abs/2401.12915

Daha fazlası

https://x.com/omarsar0/status/1750170361843384790

Lumiere: Video Üretimi için Uzay-Zaman Diffusion Modeli / Lumiere: A Space-Time Diffusion Model for Video Generation

Makale tanıtımı

Gerçekçi ve tutarlı harekete sahip videolar sentezlemek için metinden videoya bir uzay-zaman diffusion modeli; tek geçişle videonun tüm zamansal uzunluğunu aynı anda üreten bir uzay-zaman U-Net mimarisi sunuyor; image-to-video, video inpainting ve stilize üretim dahil olmak üzere geniş bir içerik üretim görevi ve video düzenleme uygulaması yelpazesini desteklerken, son teknoloji metinden videoya üretim sonuçları elde ediyor.

Gerçekçi ve tutarlı harekete sahip videolar sentezlemek için metinden videoya bir uzay-zaman diffusion modeli; tek bir geçişle videonun tüm zamansal süresini bir kerede üretmek için bir uzay-zaman U-Net mimarisi sunar; image-to-video, video inpainting ve stilize üretim dahil olmak üzere çok çeşitli içerik üretim görevlerini ve video düzenleme uygulamalarını desteklerken, son teknoloji metinden videoya üretim sonuçları elde eder.

Makale özeti(Abstract)

Video sentezinin temel zorluklarından biri olan gerçekçi, çeşitli ve tutarlı hareketi betimleyen videolar üretmek için tasarlanmış bir metinden videoya difüzyon modeli olan Lumiere tanıtılıyor. Bunun için Google, modelin tek bir geçişiyle videonun tüm zamansal uzunluğunu tek seferde üreten bir Space-Time U-Net mimarisi sunuyor. Bu yaklaşım, önce uzak anahtar kareleri sentezleyip ardından zamansal süper çözünürlük uygulayan mevcut video modellerinden farklıdır; söz konusu mevcut yaklaşımın doğası gereği küresel zamansal tutarlılığı sağlaması zordur. Hem uzamsal hem de (önemli olarak) zamansal downsampling ve upsampling kullanıp önceden eğitilmiş bir metinden görüntüye difüzyon modelinden yararlanarak, bu model birden fazla uzay-zaman ölçeğinde işleme yapıp tam kare hızında, düşük çözünürlüklü videoyu doğrudan üretmeyi öğrenir. En gelişmiş metinden videoya üretim sonuçları sergileniyor ve tasarımın image-to-video, video inpainting ve stilize üretim dahil olmak üzere çok çeşitli içerik üretimi görevlerini ve video düzenleme uygulamalarını kolayca desteklediği gösteriliyor.

We introduce Lumiere -- a text-to-video diffusion model designed for synthesizing videos that portray realistic, diverse and coherent motion -- a pivotal challenge in video synthesis. To this end, we introduce a Space-Time U-Net architecture that generates the entire temporal duration of the video at once, through a single pass in the model. This is in contrast to existing video models which synthesize distant keyframes followed by temporal super-resolution -- an approach that inherently makes global temporal consistency difficult to achieve. By deploying both spatial and (importantly) temporal down- and up-sampling and leveraging a pre-trained text-to-image diffusion model, our model learns to directly generate a full-frame-rate, low-resolution video by processing it in multiple space-time scales. We demonstrate state-of-the-art text-to-video generation results, and show that our design easily facilitates a wide range of content creation tasks and video editing applications, including image-to-video, video inpainting, and stylized generation.

Makale bağlantısı

https://arxiv.org/abs/2401.12945

Daha fazlasını okuyun

https://discuss.pytorch.kr/t/lumiere-google/3357

https://x.com/GoogleAI/status/1751003814931689487

Medusa: Çoklu decoding head'lere sahip basit bir LLM çıkarım hızlandırma çerçevesi / Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads

Makale tanıtımı

Birden fazla sonraki token'ı paralel olarak tahmin eden çoklu decoding head'ler kullanan, LLM çıkarımını hızlandırmaya yönelik basit bir çerçevedir; paralelleştirme decoding adımlarının sayısını önemli ölçüde azaltır; üretim kalitesinden ödün vermeden 2,2 katın üzerinde hızlanma sağlayabilirken, Medusa-2 bu hızlanmayı 2,3 ila 3,6 kata daha da çıkarır.

A simple framework for llm inference acceleration using multiple decoding heads that predict multiple subsequent tokens in parallel; parallelization substantially reduces the number of decoding steps; it can achieve over 2.2x speedup without compromising generation quality, while medusa-2 further improves the speedup to 2.3-3.6x.

Makale özeti (Abstract)

Büyük dil modellerinde (LLM) çıkarım süreci, otomatik regresif kod çözme sürecinde paralellik bulunmaması nedeniyle çoğu zaman hızlandırıcıların bellek bant genişliği tarafından kısıtlanır. Bu sorunu çözmek için speculative decoding gibi yöntemler önerilmiş olsa da, ayrı bir taslak modeli edinme ve sürdürme gerekliliği uygulamayı zorlaştırmaktadır. Bu makalede, birden fazla sonraki token’ı paralel olarak tahmin etmek için ek decoding head’ler ekleyerek LLM çıkarımını geliştiren verimli bir yöntem olan Medusa tanıtılmaktadır. Medusa, ağaç tabanlı bir attention mekanizması kullanarak birden fazla aday devam dizisi oluşturur ve her decoding adımında bunları eşzamanlı olarak doğrular. Paralel işlemden yararlanan Medusa, tek adımlık gecikme açısından yalnızca çok düşük bir ek yük getirirken gereken decoding adımı sayısını önemli ölçüde azaltır. Farklı kullanım senaryolarının ihtiyaçlarını karşılamak için Medusa iki seviyeli ince ayar prosedürü sunar: Medusa-1: Medusa, dondurulmuş bir omurga LLM üzerinde doğrudan ince ayarlanır ve kayıpsız çıkarım hızlandırması sağlar. Medusa-2: Medusa, omurga LLM ile birlikte ince ayarlanır; bu, Medusa head’lerinin tahmin doğruluğunu artırıp daha yüksek hız kazanımı sağlayabilir, ancak omurga modelin yeteneklerini koruyan özel bir eğitim reçetesi gerektirir. Ayrıca, eğitim verisinin bulunmadığı durumları ele almak için self-distillation ve üretim kalitesini korurken kabul oranını artırmak için genel bir kabul şeması da dahil olmak üzere, Medusa’nın kullanımını iyileştiren veya genişleten çeşitli uzantılar önerilmektedir. Medusa, farklı boyutlardaki ve farklı eğitim prosedürlerine sahip modeller üzerinde değerlendirilmiştir. Deney sonuçları, Medusa-1’in üretim kalitesinden ödün vermeden 2,2 katın üzerinde hız artışı sağlayabildiğini, Medusa-2’nin ise bunu 2,3 ila 3,6 kat aralığına kadar daha da artırabildiğini göstermektedir.

Büyük Dil Modellerinde (LLM) çıkarım süreci, otomatik regresif kod çözme sürecinde paralelliğin olmaması nedeniyle çoğu zaman sınırlıdır; bunun sonucunda işlemlerin büyük bölümü hızlandırıcıların bellek bant genişliğiyle kısıtlanır. Speculative decoding gibi yöntemler bu sorunu çözmek için önerilmiş olsa da, ayrı bir taslak modeli edinme ve sürdürmeyle ilgili zorluklar uygulamayı engellemektedir. Bu makalede, paralel olarak birden fazla sonraki token’ı tahmin etmek için ek decoding head’leri ekleyerek LLM çıkarımını güçlendiren verimli bir yöntem olan Medusa’yı sunuyoruz. Ağaç tabanlı bir attention mekanizması kullanan Medusa, birden fazla aday devam dizisi oluşturur ve bunları her decoding adımında eşzamanlı olarak doğrular. Paralel işlemden yararlanarak Medusa, tek adımlık gecikme açısından yalnızca çok az ek yük getirirken gerekli decoding adımı sayısını önemli ölçüde azaltır. Farklı kullanım durumlarının ihtiyaçlarını karşılamak için Medusa için iki seviyeli ince ayar prosedürü sunuyoruz: Medusa-1: Medusa, dondurulmuş bir omurga LLM’in üzerinde doğrudan ince ayarlanır ve kayıpsız çıkarım hızlandırması sağlar. Medusa-2: Medusa, omurga LLM ile birlikte ince ayarlanır; bu, Medusa head’lerinin daha iyi tahmin doğruluğu ve daha yüksek hız kazanımı sağlar, ancak omurga modelin yeteneklerini koruyan özel bir eğitim reçetesi gerektirir. Ayrıca, eğitim verisinin bulunmadığı durumları ele almak için self-distillation ve üretim kalitesini korurken kabul oranını artırmak için tipik bir kabul şeması dahil olmak üzere, Medusa’nın faydasını iyileştiren veya genişleten çeşitli uzantılar öneriyoruz. Medusa’yı çeşitli boyutlardaki ve farklı eğitim prosedürlerine sahip modeller üzerinde değerlendiriyoruz. Deneylerimiz, Medusa-1’in üretim kalitesinden ödün vermeden 2,2x’in üzerinde hızlanma sağlayabildiğini, Medusa-2’nin ise bunu 2,3-3,6x seviyesine daha da çıkardığını göstermektedir.
Reklam

Makale bağlantısı

https://arxiv.org/abs/2401.10774v1

Daha fazlasını okuyun

https://discuss.pytorch.kr/t/…

https://x.com/jiayq/status/1749461664393810350

AgentBoard: Çok Turlu LLM Ajanları için Analitik Değerlendirme Kurulu / AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents

Makale tanıtımı

Açık kaynaklı değerlendirme çerçevesi içeren kapsamlı bir benchmark üzerinden analitik değerlendirme yaparak LM ajanlarının yetenek ve sınırlamalarını değerlendirmeye ve ajan davranışlarını anlaşılır hale getirmeye yardımcı olur; bu da daha güçlü ve sağlam LM ajanları oluşturulmasını sağlar.

Açık kaynaklı bir değerlendirme çerçevesine sahip kapsamlı bir benchmark ile llm ajanlarının analitik değerlendirmesini yapar; llm ajanlarının yeteneklerini ve sınırlamalarını değerlendirmeye yardımcı olur ve ajan davranışlarını anlaşılır hale getirerek daha güçlü ve sağlam llm ajanlarının geliştirilmesini sağlar.

Makale özeti (Abstract)

Büyük dil modellerini (LLM) genel amaçlı ajanlar olarak değerlendirmek, yeteneklerini anlamak ve gerçek uygulamalara daha kolay entegre edilmelerini sağlamak için kritik önemdedir. Ancak değerlendirme süreci önemli zorluklar barındırır. Özellikle kısmen gözlemlenebilir ortamları korurken ve çok turlu etkileşimleri güvence altına alırken, birleşik bir çerçeve içinde farklı senaryolarda ajan performansını kıyaslamak en büyük engeldir. Ayrıca mevcut değerlendirme çerçeveleri çoğunlukla nihai başarı oranına odaklandığı için süreç içindeki içgörüleri pek ortaya koymaz ve model yeteneklerine dair derinlemesine bir anlayış sunmaz. Unity, bu sorunları çözmek için LLM ajanlarının analitik değerlendirmesine özel olarak tasarlanmış öncü bir kapsamlı benchmark ve açık kaynaklı değerlendirme çerçevesi olan AgentBoard'u tanıttı. AgentBoard, kademeli ilerlemeyi yakalayan ayrıntılı ilerleme oranı metriği ve etkileşimli görselleştirme üzerinden çok yönlü analiz için ajanların kolayca değerlendirilmesini sağlayan kapsamlı bir değerlendirme araç seti sunar. Bu sayede yalnızca LLM ajanlarının kabiliyetleri ve sınırlamaları daha net görülmekle kalmaz, aynı zamanda ajan performansının yorumlanabilirliği de öne çıkarılır. Sonuç olarak AgentBoard, ajan davranışlarını daha anlaşılır hale getirme ve daha güçlü LLM ajanlarının geliştirilmesini hızlandırma yönünde önemli bir adım niteliği taşır.

Evaluating large language models (LLMs) as general-purpose agents is essential for understanding their capabilities and facilitating their integration into practical applications. However, the evaluation process presents substantial challenges. A primary obstacle is the benchmarking of agent performance across diverse scenarios within a unified framework, especially in maintaining partially-observable environments and ensuring multi-round interactions. Moreover, current evaluation frameworks mostly focus on the final success rate, revealing few insights during the process and failing to provide a deep understanding of the model abilities. To address these challenges, we introduce AgentBoard, a pioneering comprehensive benchmark and accompanied open-source evaluation framework tailored to analytical evaluation of LLM agents. AgentBoard offers a fine-grained progress rate metric that captures incremental advancements as well as a comprehensive evaluation toolkit that features easy assessment of agents for multi-faceted analysis through interactive visualization. This not only sheds light on the capabilities and limitations of LLM agents but also propels the interpretability of their performance to the forefront. Ultimately, AgentBoard serves as a significant step towards demystifying agent behaviors and accelerating the development of stronger LLM agents.

⚠️Reklam⚠️: PyTorch Kore Kullanıcı Topluluğu tarafından derlenen bu yazıyı faydalı buldunuz mu? Üye olarak kaydolursanız önemli yazıları size e-postayla göndeririz! (Varsayılan ayar Weekly'dir, ancak Daily olarak da değiştirebilirsiniz.)

[2024/01/22 ~ 01/28] Bu Haftanın Öne Çıkan ML Makaleleri (Top ML Papers of the Week)

Genel Bakış

Her Şeyi Derinlemesine Analiz Etmek: Büyük Ölçekli Etiketsiz Verinin Gücünü Ortaya Çıkarmak / Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data

Makale Tanıtımı

Makale Özeti (Abstract)

Makale Bağlantısı

Daha Fazla Okuma

Büyük Dil Modellerinin Bilgi Füzyonu / Knowledge Fusion of Large Language Models

Makale Tanıtımı

Makale Özeti(Abstract)

Makale Linki

Daha Fazla Oku

MambaByte: Token gerektirmeyen Seçici Durum Uzayı Modeli / MambaByte: Token-free Selective State Space Model

Makale Tanıtımı

Makale Özeti(Abstract)

Makale Linki

Daha fazla oku

Diffuse to Choose: Sanal deneme için latent difüzyon modellerinde görüntü koşullu inpainting’i zenginleştirme / Diffuse to Choose: Enriching Image Conditioned Inpainting in Latent Diffusion Models for Virtual Try-All

Makale tanıtımı

Makale özeti(Abstract)

Makale bağlantısı

Daha fazla oku

WARM: Ağırlık ortalamalı ödül modellerinin faydaları üzerine / WARM: On the Benefits of Weight Averaged Reward Models

Makale tanıtımı

Makale özeti(Abstract)

Makale bağlantısı

Daha fazlası

Kaynak verimli LLM ve çok modlu temel modeller üzerine bir araştırma / A Survey of Resource-efficient LLM and Multimodal Foundation Models

Makale tanıtımı

Makale özeti (Abstract)

Makale bağlantısı

Daha fazlası

Görsel dil modellerinde red teaming / Red Teaming Visual Language Models

Makale tanıtımı

Makale özeti(Abstract)

Makale bağlantısı

Daha fazlası

Lumiere: Video Üretimi için Uzay-Zaman Diffusion Modeli / Lumiere: A Space-Time Diffusion Model for Video Generation

Makale tanıtımı

Makale özeti(Abstract)

Makale bağlantısı

Daha fazlasını okuyun

Medusa: Çoklu decoding head'lere sahip basit bir LLM çıkarım hızlandırma çerçevesi / Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads

Makale tanıtımı

Makale özeti (Abstract)

Makale bağlantısı

Daha fazlasını okuyun

AgentBoard: Çok Turlu LLM Ajanları için Analitik Değerlendirme Kurulu / AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents

Makale tanıtımı

Makale özeti (Abstract)

Makale bağlantısı

Daha fazlasını okuyun

Orijinal metin

İlgili okumalar

Henüz yorum yok.