[2024/01/22 ~ 01/28] Bu Haftanın Öne Çıkan ML Makaleleri (Top ML Papers of the Week)
(discuss.pytorch.kr)Genel Bakış
-
DAIR.AI tarafından her hafta yayımlanan ML makalelerine ilişkin yazıyı otomatik olarak çevirdik.
-
Bu hafta seçilen makalelere bakıldığında, Large Language Models (LLMs), Multimodal Models ve Visual Language Models gibi alanlara yönelik ilginin öne çıktığı görülüyor. "Knowledge Fusion of LLMs", "Resource-efficient LLMs & Multimodal Models" ve "Red Teaming Visual Language Models" gibi makaleler bu ana eğilimleri yansıtıyor; büyük ölçekli modeller ve bunların verimliliği, multimodal öğrenme ve görsel veri işleme kapasitesinin artırılmasına yönelik araştırma ve geliştirmeleri ortaya koyuyor.
-
Bu eğilim, son birkaç yılda yapay zeka teknolojilerinde, özellikle doğal dil işleme (Natural Language Processing, NLP) ve bilgisayarlı görü (Computer Vision) alanlarında, karmaşık verileri anlama ve işleme yeteneğinin öneminin artmasıyla belirginleşiyor. Büyük dil modelleri çeşitli dil anlama görevlerinde yüksek performans sergilerken, multimodal modeller farklı veri türlerini (metin, görüntü, ses vb.) birleştirerek insan benzeri anlayışı hedefleyen araştırmalarda vazgeçilmez bir unsur hâline geldi. Ayrıca görsel dil modelleri, görüntüler ve görsel içerikler üzerinde dil temelli etkileşimi mümkün kılarak daha zengin ve etkileşimli yapay zeka sistemlerinin kurulmasında önemli bir rol oynuyor.
-
Başlık ve giriş bölümünden görülen bu eğilim, yalnızca gelişmiş yapay zeka modellerinin performansını artırmaya değil, aynı zamanda üretkenlik ve verimlilik için yeni standartlar belirlemeyi hedefleyen araştırmaların da arttığına işaret ediyor. Büyük ölçekli modellerde kaynak verimliliğinin iyileştirilmesini ele alan makaleler, enerji tüketimi ve hesaplama maliyeti açısından sürdürülebilir yapay zeka gelişimini hedefleyen güncel araştırma akımını yansıtıyor. Bu aynı zamanda, yapay zekanın gerçek endüstriyel ve toplumsal uygulamalarda daha yaygın biçimde benimsenebilmesi için mutlaka çözülmesi gereken sorunlara odaklanan akademi ve sanayinin çabalarını da vurguluyor.
Her Şeyi Derinlemesine Analiz Etmek: Büyük Ölçekli Etiketsiz Verinin Gücünü Ortaya Çıkarmak / Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data
Makale Tanıtımı
- Her koşulda her türlü görüntüyü işleyebilen güçlü bir monoküler derinlik tahmini çözümü; büyük ölçekli etiketsiz veriyi (62 milyona kadar) otomatik olarak etiketleyerek genelleme hatasını azaltıyor, büyük ölçekli etiketsiz verinin gücünden yararlanmak için etkili stratejiler öneriyor ve genelleme yeteneğinin yanı sıra ince ayarla yeni state-of-the-art sonuçlar elde edip geliştirilmiş bir depth-conditioned ControlNet de ortaya koyuyor.
> A robust monocular depth estimation solution that can deal with any images under any circumstance; automatically annotates large-scale unlabeled data (~62m) which helps to reduce generalization error; proposes effective strategies to leverage the power of the large-scale unlabeled data; besides generalization ability, it established new state-of-the-art through fine-tuning and even results in an enhanced depth-conditioned controlnet.
Makale Özeti (Abstract)
- Bu çalışma, güçlü monoküler derinlik tahmini için son derece pratik bir çözüm olan Depth Anything'i sunuyor. Yeni teknik modüller peşinde koşmak yerine, her türlü koşul altında her görüntüyü işleyebilen basit ama güçlü bir foundation model oluşturmayı amaçlıyor. Bunun için, büyük ölçekli etiketsiz veriyi (~62M) toplamak ve otomatik olarak açıklama eklemek üzere bir veri motoru tasarlayarak veri kümesini ölçeklendiriyor; böylece veri kapsamı önemli ölçüde genişliyor ve genelleme hatası azaltılabiliyor. Çalışma, veri ölçeklemesini umut verici hâle getiren iki basit ama etkili stratejiyi inceliyor. İlk olarak, veri artırma araçlarından yararlanılarak daha zorlu bir optimizasyon hedefi oluşturuluyor. Bu, modeli ek görsel bilgiyi aktif olarak aramaya ve sağlam temsiller edinmeye zorluyor. İkinci olarak, modelin önceden eğitilmiş encoder'lardan zengin anlamsal öncüller devralmasını sağlamak için yardımcı bir denetim mekanizması geliştiriliyor. Sıfır örnekleme yetenekleri, altı açık veri kümesi ve rastgele çekilmiş fotoğraflar dâhil olmak üzere kapsamlı biçimde değerlendiriliyor. Sonuçlar etkileyici bir genelleme kabiliyeti gösteriyor. Ayrıca, NYUv2 ve KITTI'den alınan metrik derinlik bilgileriyle yapılan fine-tuning sayesinde yeni SOTA sonuçları elde ediliyor. Daha iyi derinlik modeli, daha iyi bir depth-conditioned ControlNet ile de sonuçlanıyor. Ayrıntılar için https://github.com/LiheYoung/Depth-Anything adresine bakabilirsiniz.
> This work presents Depth Anything, a highly practical solution for robust monocular depth estimation. Without pursuing novel technical modules, we aim to build a simple yet powerful foundation model dealing with any images under any circumstances. To this end, we scale up the dataset by designing a data engine to collect and automatically annotate large-scale unlabeled data (~62M), which significantly enlarges the data coverage and thus is able to reduce the generalization error. We investigate two simple yet effective strategies that make data scaling-up promising. First, a more challenging optimization target is created by leveraging data augmentation tools. It compels the model to actively seek extra visual knowledge and acquire robust representations. Second, an auxiliary supervision is developed to enforce the model to inherit rich semantic priors from pre-trained encoders. We evaluate its zero-shot capabilities extensively, including six public datasets and randomly captured photos. It demonstrates impressive generalization ability. Further, through fine-tuning it with metric depth information from NYUv2 and KITTI, new SOTAs are set. Our better depth model also results in a better depth-conditioned ControlNet. Our models are released at https://github.com/LiheYoung/Depth-Anything.
Makale Bağlantısı
https://arxiv.org/abs/2401.10891v1
Daha Fazla Okuma
https://x.com/_akhaliq/status/1749284669936275463
Büyük Dil Modellerinin Bilgi Füzyonu / Knowledge Fusion of Large Language Models
Makale Tanıtımı
- Birden fazla öğrenilmiş modelin bilgisini dışsallaştırıp bu yetenekleri hedef öğrenilmiş modele aktarmayı temel fikir olarak alan FuseLLM’i öneriyor; kaynak öğrenilmiş modellerin üretim dağılımlarını kullanarak hem kolektif bilgiyi hem de bireysel güçlü yönleri dışsallaştırıp sürekli eğitim yoluyla hedef öğrenilmiş modele aktarıyor; FuseLLM’in akıl yürütme, sağduyu ve kod üretimi gibi çeşitli yeteneklerde hedef modelin performansını artırabildiğini ortaya koyuyor.
> Birden fazla llm’den bilgiyi dışsallaştırıp yeteneklerini hedef bir llm’ye aktarmayı temel fikir olarak alan fusellm’i önerir; kaynak llm’lerin üretim dağılımlarını kullanarak hem kolektif bilgilerini hem de bireysel güçlü yönlerini dışsallaştırır ve bunları sürekli eğitim yoluyla hedef llm’ye aktarır; fusellm’in akıl yürütme, sağduyu ve kod üretimi gibi çeşitli yeteneklerde hedef modelin performansını artırabildiğini bulur.
Makale Özeti(Abstract)
- Büyük dil modellerini (LLM) sıfırdan eğitmek, kendine özgü işlevlere ve güçlü yönlere sahip modeller üretebilse de ciddi maliyet getirir ve yinelenen yeteneklerle sonuçlanabilir. Alternatif olarak, mevcut önceden eğitilmiş LLM’leri daha güçlü bir modele birleştirmek maliyet açısından verimli ve cazip bir yaklaşımdır. Ancak bu LLM’lerin mimarileri farklı olduğundan, ağırlıklarını doğrudan harmanlamak pratik değildir. Bu makalede, mevcut LLM’lerin yeteneklerini birleştirip bunları tek bir LLM’ye aktarmayı amaçlayan LLM’ler için bilgi füzyonu kavramı tanıtılıyor. Kaynak LLM’lerin üretim dağılımlarından yararlanarak onların kolektif bilgisini ve benzersiz güçlü yönlerini dışsallaştırıyor, böylece hedef modelin yeteneklerini tek tek kaynak LLM’lerin ötesine taşıma potansiyeli sunuyor. Çalışma, farklı mimarilere sahip üç popüler LLM olan Llama-2, MPT ve OpenLLaMA üzerinde, çeşitli benchmark’lar ve görevler boyunca yaklaşımı doğruluyor. Bulgular, LLM füzyonunun akıl yürütme, sağduyu ve kod üretimi gibi çeşitli yeteneklerde hedef modelin performansını artırabildiğini doğruluyor. Kod, model ağırlıkları ve veriler \url{https://github.com/fanqiwan/FuseLLM} adresinde herkese açık olarak sunulmuştur.
> Büyük dil modellerini (LLM’ler) sıfırdan eğitmek, farklı işlevlere ve güçlü yönlere sahip modeller üretebilse de önemli maliyetler doğurur ve yinelenen yeteneklerle sonuçlanabilir. Alternatif olarak, mevcut önceden eğitilmiş LLM’leri daha güçlü bir modelde birleştirmek maliyet açısından verimli ve cazip bir yaklaşımdır. Ancak bu LLM’lerin farklı mimarileri nedeniyle ağırlıklarını doğrudan harmanlamak pratik değildir. Bu makalede, mevcut LLM’lerin yeteneklerini birleştirip tek bir LLM’ye aktarmayı amaçlayan, LLM’ler için bilgi füzyonu kavramını tanıtıyoruz. Kaynak LLM’lerin üretim dağılımlarından yararlanarak onların kolektif bilgisini ve benzersiz güçlü yönlerini dışsallaştırıyor, böylece hedef modelin yeteneklerini herhangi bir tekil kaynak LLM’nin ötesine taşıma potansiyeli yaratıyoruz. Farklı benchmark’lar ve görevler genelinde, farklı mimarilere sahip üç popüler LLM olan Llama-2, MPT ve OpenLLaMA ile yaklaşımımızı doğruluyoruz. Bulgularımız, LLM füzyonunun akıl yürütme, sağduyu ve kod üretimi gibi çeşitli yeteneklerde hedef modelin performansını iyileştirebildiğini doğruluyor. Kodumuz, model ağırlıkları ve verilerimiz \url{https://github.com/fanqiwan/FuseLLM} adresinde herkese açıktır.
Makale Linki
https://arxiv.org/abs/2401.10491
Daha Fazla Oku
https://github.com/fanqiwan/FuseLLM
https://x.com/omarsar0/status/1749267663900057620
MambaByte: Token gerektirmeyen Seçici Durum Uzayı Modeli / MambaByte: Token-free Selective State Space Model
Makale Tanıtımı
- Mamba SSM’i doğrudan ham baytlar üzerinden öğrenmek için uyarlıyor. Baytlar, otoregresif Transformer’ların iyi ölçeklenemediği daha uzun dizilere yol açıyor. Bu çalışma, daha hızlı çıkarımla ilgili büyük kazanımlar bildirdiğini ve hatta alt sözcük Transformer’larını geride bıraktığını aktarıyor.
> Mamba ssm’yi doğrudan ham baytlardan öğrenmesi için uyarlar; baytlar, otoregresif transformer’ların kötü ölçeklendiği daha uzun dizilere yol açar; bu çalışma daha hızlı çıkarımla ilgili büyük faydalar bildirmekte ve hatta alt sözcük transformer’larını geride bırakmaktadır.
Makale Özeti(Abstract)
- Token gerektirmeyen dil modelleri doğrudan ham baytlardan öğrenir ve alt sözcük tokenizasyonunun önyargısını ortadan kaldırır. Ancak baytlar üzerinde çalışmak, dizilerin ciddi ölçüde uzamasına neden olur ve standart otoregresif Transformer’lar bu tür ortamlarda iyi ölçeklenmez. Biz, bayt dizileri üzerinde otoregresif olarak eğitilmiş Mamba durum uzayı modelinin token gerektirmeyen bir uyarlaması olan MambaByte’ı inceliyoruz. Deneylerimiz, MambaByte’ın diğer bayt düzeyi modellere kıyasla hesaplama verimliliğinin belirgin biçimde daha yüksek olduğunu gösteriyor. Ayrıca MambaByte’ın son teknoloji alt sözcük Transformer’larıyla rekabet edebildiğini ve hatta onları geride bırakabildiğini de görüyoruz. Dahası, uzunlukta doğrusal ölçeklenmesi sayesinde MambaByte, Transformer’lara kıyasla hızlı çıkarım avantajı sunuyor. Bulgularımız, token gerektirmeyen dil modellemeyi mümkün kılmada MambaByte’ın uygulanabilirliğini ortaya koyuyor.
> Token gerektirmeyen dil modelleri doğrudan ham baytlardan öğrenir ve alt sözcük tokenizasyonunun önyargısını ortadan kaldırır. Ancak baytlar üzerinde çalışmak, dizilerin önemli ölçüde uzamasına yol açar ve standart otoregresif Transformer’lar bu tür ortamlarda kötü ölçeklenir. Bayt dizileri üzerinde otoregresif olarak eğitilmiş Mamba durum uzayı modelinin token gerektirmeyen bir uyarlaması olan MambaByte’ı deniyoruz. Deneylerimiz, MambaByte’ın diğer bayt düzeyi modellere kıyasla hesaplama verimliliğine işaret ediyor. Ayrıca MambaByte’ın son teknoloji alt sözcük Transformer’larıyla rekabetçi olduğunu ve hatta onlardan daha iyi performans gösterdiğini de görüyoruz. Ayrıca, uzunlukta doğrusal ölçeklenmesi sayesinde MambaByte, Transformer’lara kıyasla hızlı çıkarım avantajından yararlanır. Bulgularımız, token gerektirmeyen dil modellemeyi mümkün kılmada MambaByte’ın uygulanabilirliğini ortaya koymaktadır.
Makale Linki
https://arxiv.org/abs/2401.13660
Daha fazla oku
https://x.com/omarsar0/status/1750366964759859633
Diffuse to Choose: Sanal deneme için latent difüzyon modellerinde görüntü koşullu inpainting’i zenginleştirme / Diffuse to Choose: Enriching Image Conditioned Inpainting in Latent Diffusion Models for Virtual Try-All
Makale tanıtımı
- Difüzyon tabanlı bir görüntü koşullu inpainting modeli olarak, verilen sahne içeriğinde doğru anlamsal manipülasyonları mümkün kılarken hızlı çıkarım ile yüksek sadakat arasında denge kurar; mevcut zero-shot difüzyon inpainting yöntemlerini ve hatta DreamPaint gibi few-shot difüzyon kişiselleştirme algoritmalarını bile geride bırakır.
> A diffusion-based image-conditioned inpainting model to balance fast inference with high-fidelity while enabling accurate semantic manipulations in a given scene content; outperforms existing zero-shot diffusion inpainting methods and even few-shot diffusion personalization algorithms such as dreampaint.
Makale özeti(Abstract)
- Online alışveriş büyüdükçe, alıcıların ürünleri kendi ortamlarında sanal olarak görselleştirebilmesi, yani bizim "Virtual Try-All" olarak tanımladığımız olgu, kritik hale geldi. Son dönem difüzyon modelleri doğası gereği bir world model içerdiğinden, bu görev için inpainting bağlamında uygundur. Ancak geleneksel görüntü koşullu difüzyon modelleri çoğu zaman ürünlerin ince ayrıntılarını yakalayamaz. Buna karşılık DreamPaint gibi kişiselleştirme odaklı modeller, ürünün detaylarını iyi korusa da gerçek zamanlı uygulamalar için optimize edilmemiştir. Unity, verilen sahne içeriğinde doğru anlamsal manipülasyonları garanti ederken, hızlı çıkarımı ve verilen referans öğenin yüksek sadakatli detaylarını korumayı verimli biçimde dengeleyen yeni bir difüzyon tabanlı görüntü koşullu inpainting modeli olan "Diffuse to Choose"u tanıtıyor. Unity’nin yaklaşımı, referans görüntüdeki ince taneli özellikleri ana difüzyon modelinin latent özellik haritalarına doğrudan entegre etmeye ve referans öğenin detaylarını daha iyi korumak için algısal kayıp uygulamaya dayanıyor. Unity, kurum içi ve kamuya açık veri kümeleri üzerinde kapsamlı testler gerçekleştirdi ve sonuçlar, Diffuse to Choose’un mevcut zero-shot difüzyon inpainting yaklaşımlarının yanı sıra DreamPaint gibi few-shot difüzyon kişiselleştirme algoritmalarından da üstün olduğunu gösterdi.
> As online shopping is growing, the ability for buyers to virtually visualize products in their settings-a phenomenon we define as "Virtual Try-All"-has become crucial. Recent diffusion models inherently contain a world model, rendering them suitable for this task within an inpainting context. However, traditional image-conditioned diffusion models often fail to capture the fine-grained details of products. In contrast, personalization-driven models such as DreamPaint are good at preserving the item's details but they are not optimized for real-time applications. We present "Diffuse to Choose," a novel diffusion-based image-conditioned inpainting model that efficiently balances fast inference with the retention of high-fidelity details in a given reference item while ensuring accurate semantic manipulations in the given scene content. Our approach is based on incorporating fine-grained features from the reference image directly into the latent feature maps of the main diffusion model, alongside with a perceptual loss to further preserve the reference item's details. We conduct extensive testing on both in-house and publicly available datasets, and show that Diffuse to Choose is superior to existing zero-shot diffusion inpainting methods as well as few-shot diffusion personalization algorithms like DreamPaint.
Makale bağlantısı
https://arxiv.org/abs/2401.13795
Daha fazla oku
https://x.com/_akhaliq/status/1750737690553692570
WARM: Ağırlık ortalamalı ödül modellerinin faydaları üzerine / WARM: On the Benefits of Weight Averaged Reward Models
Makale tanıtımı
- Birden çok ödül modelinin fine-tune edilip ardından ağırlık uzayında ortalamasının alınmasını içeren weight averaged reward models (WARM) yaklaşımını tanıtarak, geleneksel tahmin ansambllarına kıyasla verimliliği artırır ve LLM tahminlerinin kalitesini ve hizalamasını iyileştirir.
> Introduces weighted averaged rewards models (warm) that involve fine-tuning multiple rewards models and then averaging them in the weight space; average weighting improves efficiency compared to traditional prediction ensembling; it improves the quality and alignment of llm predictions.
Makale özeti(Abstract)
- Takviyeli öğrenme (RLHF) yoluyla büyük dil modellerini (LLM) insan tercihleriyle hizalamak, ödül modelindeki (RM) hatalardan yararlanarak altta yatan hedefleri karşılamadan görünürde yüksek ödüller elde edilen ödül hack’lemeye yol açabilir. Unity, ödül hack’lemeyi azaltmak için RM tasarlanırken iki temel zorluğu belirliyor: RL süreci sırasında dağılım kaymaları ve insan tercihlerindeki tutarsızlıklar. Çözüm olarak önce birden fazla RM’yi fine-tune edip ardından bunların ağırlık uzayında ortalamasını alan Weight Averaged Reward Models (WARM) öneriliyor. Bu strateji, aynı ön eğitimi paylaşan fine-tune edilmiş ağırlıkların doğrusal olarak bağlı kalması gözlemine dayanıyor. Ağırlıkların ortalamasını alarak WARM, geleneksel tahmin ensemble yaklaşımına kıyasla verimliliği artırırken, dağılım kaymaları altında güvenilirliği ve tercih tutarsızlıklarına karşı dayanıklılığı da geliştiriyor. Best-of-N ve RL yöntemleri kullanılan özetleme görevlerindeki deneyler, WARM’ın LLM tahminlerinin genel kalitesini ve hizalamasını iyileştirdiğini gösteriyor; örneğin WARM ile fine-tune edilen bir policy RL, tek bir RM ile fine-tune edilen bir policy RL’ye karşı %79,4 kazanma oranı elde etti.
> Büyük dil modellerini (LLM) takviyeli öğrenme (RLHF) yoluyla insan tercihleriyle hizalamak, LLM’lerin ödül modelindeki (RM) hatalardan yararlanarak temel hedefleri karşılamadan görünürde yüksek ödüller elde ettiği ödül hack’lemeye yol açabilir. Ödül hack’lemeyi azaltmak için RM tasarlarken iki temel zorluğu belirliyoruz: RL süreci sırasında dağılım kaymaları ve insan tercihlerindeki tutarsızlıklar. Çözüm olarak Weight Averaged Reward Models (WARM) öneriyoruz; önce birden fazla RM fine-tune ediliyor, ardından ağırlık uzayında ortalamaları alınıyor. Bu strateji, aynı ön eğitimi paylaşan fine-tune edilmiş ağırlıkların doğrusal mod bağlantısını koruduğu gözlemine dayanıyor. Ağırlıkları ortalamak, WARM’ın geleneksel tahmin ensemble’ına kıyasla verimliliği artırmasını sağlarken, dağılım kaymaları altında güvenilirliği ve tercih tutarsızlıklarına karşı dayanıklılığı da geliştiriyor. Best-of-N ve RL yöntemleriyle yapılan özetleme görevlerindeki deneylerimiz, WARM’ın LLM tahminlerinin genel kalitesini ve hizalamasını iyileştirdiğini gösteriyor; örneğin WARM ile fine-tune edilmiş bir policy RL, tek bir RM ile fine-tune edilmiş bir policy RL’ye karşı %79,4 kazanma oranına sahip.
Makale bağlantısı
https://arxiv.org/abs/2401.12187
Daha fazlası
https://x.com/ramealexandre/status/1749719471806157304
Kaynak verimli LLM ve çok modlu temel modeller üzerine bir araştırma / A Survey of Resource-efficient LLM and Multimodal Foundation Models
Makale tanıtımı
- Kaynak verimli ML ve çok modlu temel modellere dair bu araştırma; mimariler, algoritmalar ve pratik sistem tasarımları ile uygulamaları dahil olmak üzere ML verimliliği araştırmalarına kapsamlı bir analiz ve içgörü sunuyor.
> Kaynak verimli LLM’ler ve çok modlu temel modellere ilişkin bir araştırma; mimariler, algoritmalar ve pratik sistem tasarımları ile uygulamaları dahil olmak üzere ML verimliliği araştırmalarına kapsamlı analiz ve içgörüler sunar.
Makale özeti (Abstract)
- Büyük dil modelleri (LLM), vision transformer’lar (ViT), diffusion ve LLM tabanlı çok modlu modeller dahil olmak üzere büyük temel modeller, eğitimden dağıtıma kadar tüm makine öğrenmesi yaşam döngüsünü dönüştürüyor. Ancak bu modellerin sunduğu çok yönlülük ve performanstaki büyük ilerlemeler, donanım kaynakları açısından ciddi bir maliyet getiriyor. Bu büyük modellerin büyümesini ölçeklenebilir ve çevresel açıdan sürdürülebilir bir şekilde desteklemek için kaynak verimli stratejiler geliştirmeye önemli bir ilgi var. Bu araştırma, hem algoritmik hem de sistem düzeyindeki yönleri inceleyerek bu çalışmaların kritik önemine derinlemesine bakıyor. En ileri model mimarileri ve eğitim/sunum algoritmalarından pratik sistem tasarımları ve uygulamalarına kadar geniş bir konu yelpazesini kapsayan mevcut literatürden derlenen kapsamlı bir analiz ve değerli içgörüler sunuyor. Bu araştırmanın amacı, mevcut yaklaşımların büyük temel modellerin ortaya çıkardığı kaynak sorunlarını nasıl ele aldığına dair genel bir anlayış sağlamak ve bu alandaki gelecekteki atılımlara ilham verebilmektir.
> Büyük dil modelleri (LLM), vision transformer’lar (ViT), diffusion ve LLM tabanlı çok modlu modeller dahil büyük temel modeller, eğitimden dağıtıma kadar tüm makine öğrenmesi yaşam döngüsünde devrim yaratıyor. Ancak bu modellerin sunduğu çok yönlülük ve performanstaki önemli ilerlemeler, donanım kaynakları açısından yüksek bir maliyetle geliyor. Bu büyük modellerin büyümesini ölçeklenebilir ve çevresel olarak sürdürülebilir bir biçimde desteklemek için kaynak verimli stratejiler geliştirmeye büyük bir odak oluştu. Bu araştırma, hem algoritmik hem de sistemsel yönleri inceleyerek bu tür çalışmaların kritik önemini ele alıyor. Son teknoloji model mimarileri ve eğitim/sunum algoritmalarından pratik sistem tasarımları ve uygulamalarına kadar geniş bir konu yelpazesini kapsayan mevcut literatürden elde edilmiş kapsamlı bir analiz ve değerli içgörüler sunuyor. Bu araştırmanın amacı, güncel yaklaşımların büyük temel modellerin doğurduğu kaynak sorunlarını nasıl ele aldığına dair kapsayıcı bir anlayış sunmak ve potansiyel olarak bu alandaki gelecekteki atılımlara ilham vermektir.
Makale bağlantısı
https://arxiv.org/abs/2401.08092v1
Daha fazlası
https://x.com/omarsar0/status/1749208653926654010
Görsel dil modellerinde red teaming / Red Teaming Visual Language Models
Makale tanıtımı
- Önce 10 alt görevden oluşan bir red teaming veri kümesi sunuyor (ör. görüntü yanıltma, çok modlu jailbreaking, yüz adaleti vb.); 10 önde gelen açık kaynaklı VLM'nin red teaming görevlerinde farklı derecelerde zorlandığını ve
gpt-4vile aralarında %31'e varan performans farkı bulunduğunu ortaya koyuyor; ayrıca önerilen red teaming veri kümesiyle SFT (Supervised Fine-tuning) kullanarakllava-v1.5üzerinde red teaming hizalaması uyguluyor ve bu sayede test setinde model performansını %10 artırıyor.
> İlk olarak 10 alt görevden oluşan bir red teaming veri kümesi (ör. görüntü yanıltma, çok modlu jailbreaking, yüz adaleti vb.) sunar; 10 önde gelen açık kaynaklı VLM'nin red teaming görevlerinde farklı derecelerde zorlandığını vegpt-4vile aralarında %31'e varan performans farkı bulunduğunu ortaya koyar; ayrıca önerilen red teaming veri kümesini kullanarak SFT ilellava-v1.5üzerinde red teaming hizalaması uygular ve bunun test setinde model performansını %10 iyileştirdiğini gösterir.
Makale özeti(Abstract)
- VLM'ler (Vision-Language Models), LLM'lerin (Large Language Models) yeteneklerini çok modlu girdileri kabul edecek şekilde genişletir. LLM'lerin belirli test vakalarıyla (red teaming olarak adlandırılır) zararlı veya hatalı içerik üretmeye yönlendirilebildiği doğrulandığından, VLM'lerin benzer senaryolarda, özellikle metin ve görsel girdilerin birleştiği durumlarda nasıl davrandığı hâlâ bir soru işaretidir. Bu sorunu incelemek için, 4 ana boyut (doğruluk, gizlilik, güvenlik, adalet) altında 10 alt görevi (ör. görüntü yanıltma, çok modlu jailbreaking, yüz adaleti vb.) kapsayan yeni bir red teaming veri kümesi olan RTVLM'yi sunuyoruz. Criteo'nun RTVLM'si, mevcut VLM'leri bu 4 farklı boyutta kıyaslayan ilk red teaming veri kümesidir. Ayrıntılı analiz, 10 önde gelen açık kaynaklı VLM'nin red teaming görevlerinde farklı derecelerde zorlandığını ve GPT-4V ile aralarında %31'e varan performans farkı olduğunu gösteriyor. Ayrıca RTVLM kullanılarak yapılan supervised fine-tuning (SFT) ile LLaVA-v1.5'e basitçe red teaming hizalaması uygulandığında, RTVLM test setinde %10, MM-Hal'de %13 performans artışı elde edildi ve MM-Bench'te fark edilir bir düşüş olmadan, normal hizalama verisi kullanan diğer LLaVA tabanlı modeller geride bırakıldı. Bu da mevcut açık kaynaklı VLM'lerde hâlâ red teaming hizalamasının eksik olduğunu ortaya koyuyor. Kodumuz ve veri kümelerimiz açık kaynak olarak yayımlanacaktır.
> VLM'ler (Vision-Language Models), LLM'lerin (Large Language Models) yeteneklerini çok modlu girdileri kabul edecek şekilde genişletir. LLM'lerin belirli test vakalarıyla (red teaming olarak adlandırılır) zararlı veya hatalı içerik üretmeye yönlendirilebildiği doğrulandığından, VLM'lerin benzer senaryolarda, özellikle metin ve görsel girdilerin birleştiği durumlarda nasıl performans gösterdiği hâlâ bir sorudur. Bu sorunu incelemek için, 4 temel boyut (doğruluk, gizlilik, güvenlik, adalet) altında 10 alt görevi (ör. görüntü yanıltma, çok modlu jail-breaking, yüz adaleti vb.) kapsayan yeni bir red teaming veri kümesi olan RTVLM'yi sunuyoruz. RTVLM'miz, mevcut VLM'leri bu 4 farklı boyut açısından kıyaslayan ilk red teaming veri kümesidir. Ayrıntılı analiz, 10 önde gelen açık kaynaklı VLM'nin red teaming görevlerinde farklı derecelerde zorlandığını ve GPT-4V ile aralarında %31'e varan performans farkı olduğunu gösteriyor. Ayrıca RTVLM kullanılarak supervised fine-tuning (SFT) ile LLaVA-v1.5'e basitçe red teaming hizalaması uyguluyoruz; bu da RTVLM test setinde %10, MM-Hal'de %13 performans artışı sağlıyor ve MM-Bench'te fark edilir bir düşüş olmadan, normal hizalama verisi kullanan diğer LLaVA tabanlı modelleri geride bırakıyor. Bu, mevcut açık kaynaklı VLM'lerde hâlâ red teaming hizalamasının eksik olduğunu ortaya koyuyor. Kodumuz ve veri kümelerimiz açık kaynak olacaktır.
Makale bağlantısı
https://arxiv.org/abs/2401.12915
Daha fazlası
https://x.com/omarsar0/status/1750170361843384790
Lumiere: Video Üretimi için Uzay-Zaman Diffusion Modeli / Lumiere: A Space-Time Diffusion Model for Video Generation
Makale tanıtımı
- Gerçekçi ve tutarlı harekete sahip videolar sentezlemek için metinden videoya bir uzay-zaman diffusion modeli; tek geçişle videonun tüm zamansal uzunluğunu aynı anda üreten bir uzay-zaman U-Net mimarisi sunuyor; image-to-video, video inpainting ve stilize üretim dahil olmak üzere geniş bir içerik üretim görevi ve video düzenleme uygulaması yelpazesini desteklerken, son teknoloji metinden videoya üretim sonuçları elde ediyor.
> Gerçekçi ve tutarlı harekete sahip videolar sentezlemek için metinden videoya bir uzay-zaman diffusion modeli; tek bir geçişle videonun tüm zamansal süresini bir kerede üretmek için bir uzay-zaman U-Net mimarisi sunar; image-to-video, video inpainting ve stilize üretim dahil olmak üzere çok çeşitli içerik üretim görevlerini ve video düzenleme uygulamalarını desteklerken, son teknoloji metinden videoya üretim sonuçları elde eder.
Makale özeti(Abstract)
- Video sentezinin temel zorluklarından biri olan gerçekçi, çeşitli ve tutarlı hareketi betimleyen videolar üretmek için tasarlanmış bir metinden videoya difüzyon modeli olan Lumiere tanıtılıyor. Bunun için Google, modelin tek bir geçişiyle videonun tüm zamansal uzunluğunu tek seferde üreten bir Space-Time U-Net mimarisi sunuyor. Bu yaklaşım, önce uzak anahtar kareleri sentezleyip ardından zamansal süper çözünürlük uygulayan mevcut video modellerinden farklıdır; söz konusu mevcut yaklaşımın doğası gereği küresel zamansal tutarlılığı sağlaması zordur. Hem uzamsal hem de (önemli olarak) zamansal downsampling ve upsampling kullanıp önceden eğitilmiş bir metinden görüntüye difüzyon modelinden yararlanarak, bu model birden fazla uzay-zaman ölçeğinde işleme yapıp tam kare hızında, düşük çözünürlüklü videoyu doğrudan üretmeyi öğrenir. En gelişmiş metinden videoya üretim sonuçları sergileniyor ve tasarımın image-to-video, video inpainting ve stilize üretim dahil olmak üzere çok çeşitli içerik üretimi görevlerini ve video düzenleme uygulamalarını kolayca desteklediği gösteriliyor.
> We introduce Lumiere -- a text-to-video diffusion model designed for synthesizing videos that portray realistic, diverse and coherent motion -- a pivotal challenge in video synthesis. To this end, we introduce a Space-Time U-Net architecture that generates the entire temporal duration of the video at once, through a single pass in the model. This is in contrast to existing video models which synthesize distant keyframes followed by temporal super-resolution -- an approach that inherently makes global temporal consistency difficult to achieve. By deploying both spatial and (importantly) temporal down- and up-sampling and leveraging a pre-trained text-to-image diffusion model, our model learns to directly generate a full-frame-rate, low-resolution video by processing it in multiple space-time scales. We demonstrate state-of-the-art text-to-video generation results, and show that our design easily facilitates a wide range of content creation tasks and video editing applications, including image-to-video, video inpainting, and stylized generation.
Makale bağlantısı
https://arxiv.org/abs/2401.12945
Daha fazlasını okuyun
https://discuss.pytorch.kr/t/lumiere-google/3357
https://x.com/GoogleAI/status/1751003814931689487
Medusa: Çoklu decoding head'lere sahip basit bir LLM çıkarım hızlandırma çerçevesi / Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads
Makale tanıtımı
- Birden fazla sonraki token'ı paralel olarak tahmin eden çoklu decoding head'ler kullanan, LLM çıkarımını hızlandırmaya yönelik basit bir çerçevedir; paralelleştirme decoding adımlarının sayısını önemli ölçüde azaltır; üretim kalitesinden ödün vermeden 2,2 katın üzerinde hızlanma sağlayabilirken, Medusa-2 bu hızlanmayı 2,3 ila 3,6 kata daha da çıkarır.
> A simple framework for llm inference acceleration using multiple decoding heads that predict multiple subsequent tokens in parallel; parallelization substantially reduces the number of decoding steps; it can achieve over 2.2x speedup without compromising generation quality, while medusa-2 further improves the speedup to 2.3-3.6x.
Makale özeti (Abstract)
- Büyük dil modellerinde (LLM) çıkarım süreci, otomatik regresif kod çözme sürecinde paralellik bulunmaması nedeniyle çoğu zaman hızlandırıcıların bellek bant genişliği tarafından kısıtlanır. Bu sorunu çözmek için speculative decoding gibi yöntemler önerilmiş olsa da, ayrı bir taslak modeli edinme ve sürdürme gerekliliği uygulamayı zorlaştırmaktadır. Bu makalede, birden fazla sonraki token’ı paralel olarak tahmin etmek için ek decoding head’ler ekleyerek LLM çıkarımını geliştiren verimli bir yöntem olan Medusa tanıtılmaktadır. Medusa, ağaç tabanlı bir attention mekanizması kullanarak birden fazla aday devam dizisi oluşturur ve her decoding adımında bunları eşzamanlı olarak doğrular. Paralel işlemden yararlanan Medusa, tek adımlık gecikme açısından yalnızca çok düşük bir ek yük getirirken gereken decoding adımı sayısını önemli ölçüde azaltır. Farklı kullanım senaryolarının ihtiyaçlarını karşılamak için Medusa iki seviyeli ince ayar prosedürü sunar: Medusa-1: Medusa, dondurulmuş bir omurga LLM üzerinde doğrudan ince ayarlanır ve kayıpsız çıkarım hızlandırması sağlar. Medusa-2: Medusa, omurga LLM ile birlikte ince ayarlanır; bu, Medusa head’lerinin tahmin doğruluğunu artırıp daha yüksek hız kazanımı sağlayabilir, ancak omurga modelin yeteneklerini koruyan özel bir eğitim reçetesi gerektirir. Ayrıca, eğitim verisinin bulunmadığı durumları ele almak için self-distillation ve üretim kalitesini korurken kabul oranını artırmak için genel bir kabul şeması da dahil olmak üzere, Medusa’nın kullanımını iyileştiren veya genişleten çeşitli uzantılar önerilmektedir. Medusa, farklı boyutlardaki ve farklı eğitim prosedürlerine sahip modeller üzerinde değerlendirilmiştir. Deney sonuçları, Medusa-1’in üretim kalitesinden ödün vermeden 2,2 katın üzerinde hız artışı sağlayabildiğini, Medusa-2’nin ise bunu 2,3 ila 3,6 kat aralığına kadar daha da artırabildiğini göstermektedir.
> Büyük Dil Modellerinde (LLM) çıkarım süreci, otomatik regresif kod çözme sürecinde paralelliğin olmaması nedeniyle çoğu zaman sınırlıdır; bunun sonucunda işlemlerin büyük bölümü hızlandırıcıların bellek bant genişliğiyle kısıtlanır. Speculative decoding gibi yöntemler bu sorunu çözmek için önerilmiş olsa da, ayrı bir taslak modeli edinme ve sürdürmeyle ilgili zorluklar uygulamayı engellemektedir. Bu makalede, paralel olarak birden fazla sonraki token’ı tahmin etmek için ek decoding head’leri ekleyerek LLM çıkarımını güçlendiren verimli bir yöntem olan Medusa’yı sunuyoruz. Ağaç tabanlı bir attention mekanizması kullanan Medusa, birden fazla aday devam dizisi oluşturur ve bunları her decoding adımında eşzamanlı olarak doğrular. Paralel işlemden yararlanarak Medusa, tek adımlık gecikme açısından yalnızca çok az ek yük getirirken gerekli decoding adımı sayısını önemli ölçüde azaltır. Farklı kullanım durumlarının ihtiyaçlarını karşılamak için Medusa için iki seviyeli ince ayar prosedürü sunuyoruz: Medusa-1: Medusa, dondurulmuş bir omurga LLM’in üzerinde doğrudan ince ayarlanır ve kayıpsız çıkarım hızlandırması sağlar. Medusa-2: Medusa, omurga LLM ile birlikte ince ayarlanır; bu, Medusa head’lerinin daha iyi tahmin doğruluğu ve daha yüksek hız kazanımı sağlar, ancak omurga modelin yeteneklerini koruyan özel bir eğitim reçetesi gerektirir. Ayrıca, eğitim verisinin bulunmadığı durumları ele almak için self-distillation ve üretim kalitesini korurken kabul oranını artırmak için tipik bir kabul şeması dahil olmak üzere, Medusa’nın faydasını iyileştiren veya genişleten çeşitli uzantılar öneriyoruz. Medusa’yı çeşitli boyutlardaki ve farklı eğitim prosedürlerine sahip modeller üzerinde değerlendiriyoruz. Deneylerimiz, Medusa-1’in üretim kalitesinden ödün vermeden 2,2x’in üzerinde hızlanma sağlayabildiğini, Medusa-2’nin ise bunu 2,3-3,6x seviyesine daha da çıkardığını göstermektedir.
Makale bağlantısı
https://arxiv.org/abs/2401.10774v1
Daha fazlasını okuyun
https://discuss.pytorch.kr/t/…
https://x.com/jiayq/status/1749461664393810350
AgentBoard: Çok Turlu LLM Ajanları için Analitik Değerlendirme Kurulu / AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents
Makale tanıtımı
- Açık kaynaklı değerlendirme çerçevesi içeren kapsamlı bir benchmark üzerinden analitik değerlendirme yaparak LM ajanlarının yetenek ve sınırlamalarını değerlendirmeye ve ajan davranışlarını anlaşılır hale getirmeye yardımcı olur; bu da daha güçlü ve sağlam LM ajanları oluşturulmasını sağlar.
> Açık kaynaklı bir değerlendirme çerçevesine sahip kapsamlı bir benchmark ile llm ajanlarının analitik değerlendirmesini yapar; llm ajanlarının yeteneklerini ve sınırlamalarını değerlendirmeye yardımcı olur ve ajan davranışlarını anlaşılır hale getirerek daha güçlü ve sağlam llm ajanlarının geliştirilmesini sağlar.
Makale özeti (Abstract)
- Büyük dil modellerini (LLM) genel amaçlı ajanlar olarak değerlendirmek, yeteneklerini anlamak ve gerçek uygulamalara daha kolay entegre edilmelerini sağlamak için kritik önemdedir. Ancak değerlendirme süreci önemli zorluklar barındırır. Özellikle kısmen gözlemlenebilir ortamları korurken ve çok turlu etkileşimleri güvence altına alırken, birleşik bir çerçeve içinde farklı senaryolarda ajan performansını kıyaslamak en büyük engeldir. Ayrıca mevcut değerlendirme çerçeveleri çoğunlukla nihai başarı oranına odaklandığı için süreç içindeki içgörüleri pek ortaya koymaz ve model yeteneklerine dair derinlemesine bir anlayış sunmaz. Unity, bu sorunları çözmek için LLM ajanlarının analitik değerlendirmesine özel olarak tasarlanmış öncü bir kapsamlı benchmark ve açık kaynaklı değerlendirme çerçevesi olan AgentBoard'u tanıttı. AgentBoard, kademeli ilerlemeyi yakalayan ayrıntılı ilerleme oranı metriği ve etkileşimli görselleştirme üzerinden çok yönlü analiz için ajanların kolayca değerlendirilmesini sağlayan kapsamlı bir değerlendirme araç seti sunar. Bu sayede yalnızca LLM ajanlarının kabiliyetleri ve sınırlamaları daha net görülmekle kalmaz, aynı zamanda ajan performansının yorumlanabilirliği de öne çıkarılır. Sonuç olarak AgentBoard, ajan davranışlarını daha anlaşılır hale getirme ve daha güçlü LLM ajanlarının geliştirilmesini hızlandırma yönünde önemli bir adım niteliği taşır.
> Evaluating large language models (LLMs) as general-purpose agents is essential for understanding their capabilities and facilitating their integration into practical applications. However, the evaluation process presents substantial challenges. A primary obstacle is the benchmarking of agent performance across diverse scenarios within a unified framework, especially in maintaining partially-observable environments and ensuring multi-round interactions. Moreover, current evaluation frameworks mostly focus on the final success rate, revealing few insights during the process and failing to provide a deep understanding of the model abilities. To address these challenges, we introduce AgentBoard, a pioneering comprehensive benchmark and accompanied open-source evaluation framework tailored to analytical evaluation of LLM agents. AgentBoard offers a fine-grained progress rate metric that captures incremental advancements as well as a comprehensive evaluation toolkit that features easy assessment of agents for multi-faceted analysis through interactive visualization. This not only sheds light on the capabilities and limitations of LLM agents but also propels the interpretability of their performance to the forefront. Ultimately, AgentBoard serves as a significant step towards demystifying agent behaviors and accelerating the development of stronger LLM agents.
Makale bağlantısı
https://arxiv.org/abs/2401.13178v1
Daha fazlasını okuyun
https://x.com/ma_chang_nlp/status/1750369056539218082
Orijinal metin
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-5c8
⚠️Reklam⚠️: PyTorch Kore Kullanıcı Topluluğu tarafından derlenen bu yazıyı faydalı buldunuz mu? Üye olarak kaydolursanız önemli yazıları size e-postayla göndeririz! (Varsayılan ayar Weekly'dir, ancak Daily olarak da değiştirebilirsiniz.)
Henüz yorum yok.