6 puan yazan ninebow 2024-03-26 | 1 yorum | WhatsApp'ta paylaş

Road to Sora: OpenAI’nin Sora’sını Anlamak İçin Araştırmalar / "Road to Sora" Paper Reading List

Greg Schoeninger, 5 Mar 2024

Bu yazı, cuma günkü makale kulübümüz ArXiv Dives için bir okuma listesi oluşturma çabasının parçası. Sora için henüz resmi bir makale yayımlanmadığı için amaç, OpenAI’nin Sora hakkındaki teknik raporundaki ipuçlarını takip etmek. Önümüzdeki haftalarda cuma makale kulübümüzde birkaç temel makaleyi ele alarak Sora’nın perde arkasında neler olup bittiğine dair daha net bir tablo çizmeyi planlıyoruz.
> Bu yazı, cuma günkü makale kulübümüz ArXiv Dives için bir okuma listesi oluşturma çabasının parçası. Sora için henüz resmi bir makale yayımlanmadığı için amaç, OpenAI’nin Sora hakkındaki teknik raporundaki ipuçlarını takip etmek. Önümüzdeki haftalarda cuma makale kulübümüzde birkaç temel makaleyi ele alarak Sora’nın perde arkasında neler olup bittiğine dair daha net bir tablo çizmeyi planlıyoruz.

Sora nedir? / What is Sora?

Sora, doğal dil istemlerinden yüksek kaliteli videolar üretebilme yeteneğiyle üretken yapay zeka alanında büyük yankı uyandıran bir model. Eğer henüz Sora’dan bir örnek görmediyseniz, aşağıda mercan resifinde yüzen bir kaplumbağanın üretilmiş videosuna göz atabilirsiniz.
> Sora, doğal dil istemlerinden yüksek kaliteli videolar üretebilme yeteneğiyle üretken yapay zeka alanında büyük yankı uyandıran bir model. Eğer henüz Sora’dan bir örnek görmediyseniz, aşağıda mercan resifinde yüzen bir kaplumbağanın üretilmiş videosuna göz atabilirsiniz.

OpenAI ekibi, modelin teknik ayrıntılarına dair resmi bir araştırma makalesi yayımlamamış olsa da, kullandıkları tekniklerin bazı üst düzey ayrıntılarını ve bazı nitel sonuçları kapsayan bir teknik rapor yayımladı.
> OpenAI ekibi, modelin teknik ayrıntılarına dair resmi bir araştırma makalesi yayımlamamış olsa da, kullandıkları tekniklerin bazı üst düzey ayrıntılarını ve bazı nitel sonuçları kapsayan bir teknik rapor yayımladı.

https://openai.com/research/video-generation-models-as-world-simulators

Sora mimarisine genel bakış / Sora Architecture Overview

Aşağıdaki makaleleri okuduktan sonra buradaki Sora mimarisi daha anlaşılır hale gelecektir. Teknik rapor çok üst düzey bir bakış sunuyor; umudum, her bir makalenin farklı yönlere yakınlaşarak bütün resmi ortaya koyması. Ayrıca "Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models" başlıklı güzel bir derleme makalesi de tersine mühendislikle çıkarılmış mimarinin üst düzey bir diyagramını sunuyor.
> Aşağıdaki makaleleri okuduktan sonra buradaki Sora mimarisi daha anlaşılır hale gelecektir. Teknik rapor çok üst düzey bir bakış sunuyor; umudum, her bir makalenin farklı yönlere yakınlaşarak bütün resmi ortaya koyması. Ayrıca "Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models" başlıklı güzel bir derleme makalesi de tersine mühendislikle çıkarılmış mimarinin üst düzey bir diyagramını sunuyor.

OpenAI ekibi, Sora’nın yukarıda listelenen makalelerdeki birçok kavramı birleştiren bir "Diffusion Transformer" olduğunu ve bunun videodan üretilen latent uzay-zaman yamalarına uygulandığını belirtiyor.
> OpenAI ekibi, Sora’nın yukarıda listelenen makalelerdeki birçok kavramı birleştiren bir "Diffusion Transformer" olduğunu ve bunun videodan üretilen latent uzay-zaman yamalarına uygulandığını belirtiyor.

Bu, Vision Transformer (ViT) makalesinde kullanılan yama yaklaşımı ile Latent Diffusion makalesine benzer latent uzayların birleşimi; ancak bunlar Diffusion Transformer tarzında bir araya getiriliyor. Yalnızca görüntünün genişlik ve yükseklik eksenlerinde yamalar bulunmakla kalmıyor, aynı zamanda bu yapı videonun zaman boyutuna da genişletiliyor.
> Bu, Vision Transformer (ViT) makalesinde kullanılan yama yaklaşımı ile Latent Diffusion makalesine benzer latent uzayların birleşimi; ancak bunlar Diffusion Transformer tarzında bir araya getiriliyor. Yalnızca görüntünün genişlik ve yükseklik eksenlerinde yamalar bulunmakla kalmıyor, aynı zamanda bu yapı videonun zaman boyutuna da genişletiliyor.

Bütün bunlar için eğitim verilerini tam olarak nasıl topladıklarını söylemek zor, ancak yalnızca DALL-E 3 makalesindeki teknikleri birleştirmekle kalmayıp, GPT-4 kullanarak her görüntü için ayrıntılı metin açıklamaları oluşturup bunları videoya dönüştürdükleri anlaşılıyor. Eğitim verisi burada muhtemelen en önemli gizli sos olduğu için, teknik raporda ayrıntılar en az bu konuda açıklanıyor.
> It's hard to say how exactly they collected the training data for all of this, but it seems like a combination of the techniques in the Dalle-3 paper as well as using GPT-4 to elaborate on textual descriptions of images, that they then turn into videos. Training data is likely the main secret sauce here, hence has the least level of detail in the technical report.

Kullanım Alanları / Use Cases

Sora gibi video üretim teknolojilerinin birçok ilgi çekici kullanım alanı ve uygulaması var. İster film, eğitim, oyun, sağlık hizmetleri ya da robotik olsun, doğal dil istemlerinden gerçekçi videolar üretmenin birden fazla sektörü sarsacağına şüphe yok.
> There are many interesting use cases and applications for video generation technologies like Sora. Whether it be movies, education, gaming, healthcare or robotics, there is no doubt generating realistic videos from natural language prompts is going to shake up multiple industries.

Bu diyagramın altındaki not, Oxen.ai için de oldukça geçerli. Oxen.ai’yi iyi tanımayanlar için söyleyelim: Makine öğrenimi modellerine giren ve bu modellerden çıkan veriler üzerinde birlikte çalışmanıza ve bu verileri değerlendirmenize yardımcı olan açık kaynak araçlar geliştiriyoruz. Pek çok insanın bu verilere görünürlük kazanması gerektiğine ve bunun ortak bir çaba olması gerektiğine inanıyoruz. Yapay zeka çok farklı alanları ve sektörleri etkiliyor; bu modelleri eğiten ve değerlendiren verilere ne kadar çok göz bakarsa, sonuçlar da o kadar iyi olur.
> The note at the bottom of this diagram rings true for us at Oxen.ai. If you are not familiar with Oxen.ai we are building open source tools to help you collaborate on and evaluate data the comes in and out of machine learning models. We believe that many people need visibility into this data, and that it should be a collaborative effort. AI is touching many different fields and industries and the more eyes on the data that trains and evaluates these models, the better.

Bize buradan göz atabilirsiniz: https://oxen.ai
> Check us out here: https://oxen.ai

Makale Listesi / Paper Reading List

OpenAI’nin yayımladığı teknik raporun referanslar bölümünde birçok makaleye bağlantı veriliyor, ancak hangilerini önce okumak gerektiğini ya da hangilerinin önemli arka plan bilgisi sunduğunu anlamak biraz zor. Biz de bunların arasından en etkileyici ve ilgi çekici olduğunu düşündüklerimizi seçip türe göre düzenledik.
> There are many papers linked in the references section of the OpenAI technical report but it is a bit hard to know which ones to read first or are important background knowledge. We've sifted through them and selected what we think are the most impactful and interesting ones to read, and organized them by type.

Arka Plan Makaleleri / Background Papers

Üretilen görüntü ve videoların kalitesi 2015’ten bu yana istikrarlı biçimde artıyor. Genel kamuoyunun dikkatini çeken en büyük sıçrama ise 2022’de Midjourney, Stable Diffusion ve DALL-E ile başladı. Bu bölüm, literatürde tekrar tekrar atıf yapılan bazı temel makaleleri ve model mimarilerini içeriyor. Tüm makaleler doğrudan Sora mimarisiyle ilgili olmasa da, son teknoloji düzeyinin zaman içinde nasıl geliştiğini anlamak için önemli bir bağlam sunuyorlar.
> The quality of generated images and video have been steadily increasing since 2015. The biggest gains that caught the general public's eyes began in 2022 with Midjourney, Stable Diffusion and Dalle. This section contains some foundational papers and model architectures that are referenced over and over again in the literature. While not all papers are directly involved in the Sora architecture, they are all important context for how the state of the art has improved over time.

Aşağıdaki makalelerin çoğunu önceki ArXiv Dives yazılarında ele aldık; yetişmek isterseniz Oxen.ai blogundaki tüm içeriklere göz atın.

https://www.oxen.ai/community/arxiv-dives

U-Net

"[U-Net: Biyomedikal Görüntü Segmentasyonu için Konvolüsyonel Ağlar (U-Net: Convolutional Networks for Biomedical Image Segmentatio)](https://arxiv.org/abs/1505.04597?utm_source=pytorchkr)" makalesi, belirli bir alandaki bir görev için (burada biyomedikal görüntüleme) kullanılan bir çalışmanın çok farklı kullanım senaryolarına uygulanmasına iyi bir örnektir. En dikkat çekici yönü, her adımda gürültüyü tahmin etmeyi ve azaltmayı öğrenmeyi kolaylaştırmak için Stable Diffusion gibi birçok difüzyon modelinin temelini oluşturmasıdır. Sora mimarisinde doğrudan kullanılmasa da, önceki son teknoloji yaklaşımları anlamak için önemli bir arka plan bilgisidir.

"U-Net: Convolutional Networks for Biomedical Image Segmentation", bir alandaki bir görevde (biyomedikal görüntüleme) kullanılıp ardından çok farklı kullanım alanlarına uygulanan bir makaleye harika bir örnektir. En dikkat çekici yanı, Stable Diffusion gibi birçok difüzyon modelinin omurgasını oluşturması ve her adımda gürültüyü tahmin edip azaltmayı öğrenmeyi kolaylaştırmasıdır. Sora mimarisinde doğrudan kullanılmasa da, önceki son teknoloji için önemli bir arka plan bilgisidir.

https://arxiv.org/abs/1505.04597

Dil Transformer'ları / Language Transformers

"[Attention Is All You Need](https://arxiv.org/abs/1706.03762?utm_source=pytorchkr)" makalesi, makine çevirisi görevinde kendini kanıtlayan bir başka çalışma olsa da, sonunda tüm doğal dil işleme araştırmaları için çığır açıcı bir makale hâline geldi. Transformer'lar artık ChatGPT gibi birçok LLM uygulamasının temelini oluşturuyor. Transformer'lar zamanla birçok farklı modaliteye genişletilebilir hâle geldi ve Sora mimarisinin bir bileşeni olarak kullanılıyor.

"Attention Is All You Need", makine çevirisi görevinde kendini kanıtlayan bir başka makaleydi, ancak sonunda tüm doğal dil işleme araştırmaları için çığır açan bir çalışma oldu. Transformer'lar artık ChatGPT gibi birçok LLM uygulamasının omurgasıdır. Transformer'lar birçok modaliteye genişletilebilir ve Sora mimarisinin bir bileşeni olarak kullanılır.

https://arxiv.org/abs/1706.03762

Görsel Transformer / Vision Transformer (ViT)

"[An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale](https://arxiv.org/abs/2010.11929?utm_source=pytorchkr)" makalesi, Transformer'ları görüntü tanımaya uygulayan ilk çalışmalardan biriydi ve yeterince büyük veri kümeleri üzerinde eğitildiğinde ResNet'leri ve diğer konvolüsyonel sinir ağlarını geride bırakabildiklerini gösterdi. Bu çalışma, "Attention Is All You Need" makalesindeki mimariyi alıp bilgisayarlı görü görevlerinde çalışacak şekilde uyarladı. Girdilerin metin token'ları olması yerine ViT, girdi olarak 16x16 görüntü yamalarını kullanır.

"An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale", Transformer'ları görüntü tanımaya uygulayan ilk makalelerden biriydi ve yeterince büyük veri kümelerinde eğitildiğinde ResNet'lerden ve diğer Konvolüsyonel Sinir Ağlarından daha iyi performans gösterebildiklerini kanıtladı. Bu çalışma, "Attention Is All You Need" makalesindeki mimariyi alıp bilgisayarlı görü görevleri için işler hâle getiriyor. Girdiler metin token'ları yerine, ViT girdi olarak 16x16 görüntü yamalarını kullanır.

https://arxiv.org/abs/2010.11929

Latent Diffusion Models / Gizil Difüzyon Modelleri

"[High-Resolution Image Synthesis with Latent Diffusion Models](https://arxiv.org/abs/2112.10752?utm_source=pytorchkr)", Stable Diffusion gibi birçok görüntü üretim modelinin arkasındaki tekniktir. Gizil gösterimden (latent representation) başlayan bir gürültü giderici autoencoder dizisi olarak görüntü üretiminin nasıl yeniden formüle edilebileceğini gösterir. Bu modeller, yukarıda bahsedilen U-Net mimarisini üretim sürecinin omurgası olarak kullanır. Bu modeller, kendilerine herhangi bir metin girdisi verildiğinde fotogerçekçi görüntüler üretebilir.

"High-Resolution Image Synthesis with Latent Diffusion Models", Stable Diffusion gibi birçok görüntü üretim modelinin arkasındaki tekniktir. Görüntü üretimini, gizil bir gösterimden başlayan gürültü giderici autoencoder'ların bir dizisi olarak yeniden formüle etmenin nasıl mümkün olduğunu gösterirler. Üretim sürecinin omurgası olarak yukarıda bahsedilen U-Net mimarisini kullanırlar. Bu modeller, herhangi bir metin girdisi verildiğinde fotogerçekçi görüntüler üretebilir.

https://arxiv.org/abs/2112.10752

CLIP

"Doğal Dil Denetiminden Aktarılabilir Görsel Modeller Öğrenme (Learning Transferable Visual Models From Natural Language Supervision)", karşıtsal dil-görüntü ön eğitimi (CLIP; Contrastive Language-Image Pre-training) olarak da anılır ve metin verisi ile görüntü verisini aynı gizil uzaya gömmeye yarayan bir tekniktir. Bu teknik, metin ve görüntü çiftleri arasındaki kosinüs benzerliğinin yüksek olmasını sağlayarak üretici modellerin dil anlama tarafı ile görsel anlama tarafını birbirine bağlamaya yardımcı olur.

"Learning Transferable Visual Models From Natural Language Supervision" often referred to as Contrastive Language-Image Pre-training (CLIP) is a technique for embedding text data and image data into the same latent space as each other. This technique helps connect the language understanding half of generative models to the visual understanding half by making sure that the cosine similarity between the text and image representations are high between text and image pairs.

https://arxiv.org/abs/2103.00020

VQ-VAE

Sora teknik raporuna göre, ham videonun boyutunu Vektör Kuantize Varyasyonel Otomatik Kodlayıcı (VQ-VAE, Vector Quantized Variational Auto Encoder) ile azaltıyorlar. VAE modellerinin, gizil temsilleri öğrenmek için güçlü bir gözetimsiz ön eğitim yöntemi olduğu gösterilmiştir.

According to the technical report, they reduce the dimensionality of the raw video with a Vector Quantised Variational Auto Encoder (VQ-VAE). VAEs have been shown to be a powerful unsupervised pre-training method to learn latent representations.

https://arxiv.org/abs/1711.00937

Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution

Sora teknik raporu, her en-boy oranındaki videoları nasıl aldıklarını ve bunun çok daha büyük bir veri kümesi üzerinde eğitim yapmalarını nasıl sağladığını anlatıyor. Veriyi kırpmak zorunda kalmadan modele ne kadar fazla veri verebilirlerse, o kadar iyi sonuç alıyorlar. Bu makale aynı tekniği görüntüler için kullanıyor, Sora ise bunu videoya genişletiyor.

The Sora technical report talks about how they take in videos of any aspect ratio, and how this allows them to train on a much larger set of data. The more data they can feed the model without having to crop it, the better results they get. This paper uses the same technique but for images, and Sora extends it for video.

https://arxiv.org/abs/2307.06304


Video üretimi alanındaki makaleler / Video Generation Papers

Sora'ya ilham veren ve yukarıdaki üretici modelleri videoya uygulayarak bir üst seviyeye taşıyan birkaç video üretimi makalesine atıfta bulunuyorlar.

ViViT: A Video Vision Transformer

Bu makale, video görevleri için gereken "uzamsal-zamansal tokenlar"ı (spatio-temporal tokens) videoyu bölerek nasıl elde edebileceğinizi ayrıntılı biçimde ele alıyor. Makale video sınıflandırmaya odaklansa da aynı tokenizasyon yöntemi video üretme görevine de uygulanabilir.

This paper goes into details about how you can chop the video into "spatio-temporal tokens" needed for video tasks. The paper focuses on video classification, but the same tokenization can be applied to generating video.

https://arxiv.org/abs/2103.15691

Imagen Video: High Definition Video Generation with Diffusion Models

Imagen, bir dizi video diffusion modeline dayanan metin koşullu bir video üretim sistemidir (text-conditional video generation system). Zamansal yöndeki convolution'lar ve super resolution teknikleri kullanarak metinden yüksek kaliteli videolar üretirler.

Imagen is a text-conditional video generation system based on a cascade of video diffusion models. They use convolutions in the temporal direction and super resolution to generate high quality videos from text.

https://arxiv.org/abs/2210.02303

Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models

Bu makale, yukarıdaki görüntü üretimi makalelerindeki latent diffusion modellerini alıp gizil uzaya bir zamansal boyut (temporal dimension) ekliyor. Burada gizil uzayları hizalayarak zamansal boyutta bazı ilginç teknikler uyguluyorlar, ancak hâlâ Sora'nın zamansal tutarlılığı seviyesinde değil.

This paper takes the latent diffusion models from the image generation papers above and introduces a temporal dimension to the latent space. They apply some interesting techniques in the temporal dimension by aligning the latent spaces, but does not quite have the temporal consistency of Sora yet.

https://arxiv.org/abs/2304.08818

Photorealistic video generation with diffusion models

Bu makale, difüzyon modelleme ile fotogerçekçi video üretimine yönelik transformer tabanlı bir yaklaşım olan W.A.L.T’ı tanıtıyor. Bildiğim kadarıyla referans listesindeki Sora’ya en yakın teknik bu gibi görünüyor ve Google, Stanford ve Georgia Tech ekipleri tarafından Aralık 2023’te yayımlandı.
> They introduce W.A.L.T, a transformer-based approach for photorealistic video generation via diffusion modeling. This feels like the closest technique to Sora in the reference list as far as I can tell, and was released in December of 2023 by the teams at Google, Stanford and Georgia Tech.

https://arxiv.org/abs/2312.06662


Görsel-dil anlama alanındaki makaleler / Vision-Language Understanding

Metin istemlerinden video üretmek için büyük veri setlerinin toplanması gerekir. İnsanların bu kadar çok videoyu tek tek etiketlemesi mümkün olmadığından, DALL-E 3 makalesinde açıklananlara benzer sentetik veri tekniklerinin kullanıldığı anlaşılıyor.
> In order to Generate Videos from text prompts, they need to collect a large dataset. It is not feasible to have humans label that many videos, so it seems they use some synthetic data techniques similar to those described in the DALL·E 3 paper.

DALL·E 3

Metinden videoya üretim sistemlerini eğitmek için, karşılık gelen metin başlıklarına sahip büyük miktarda videoya ihtiyaç vardır. DALL-E 3’te tanıtılan yeniden başlıklandırma (re-captioning) tekniklerini Sora’nın video eğitim verilerine uygularlar. DALL-E 3’te olduğu gibi, kısa kullanıcı istemlerini daha uzun ve ayrıntılı başlıklara dönüştürüp video modeline göndermek için de GPT’den yararlanırlar.
> Training text-to-video generation systems requires a large amount of videos with corresponding text captions. They apply the re-captioning technique introduced in DALL·E 3 to videos. Similar to DALL·E 3, they also leverage GPT to turn short user prompts into longer detailed captions that are sent to the video model.

https://openai.com/dall-e-3

Llava

Modelin kullanıcı talimatlarını izleyebilmesi için, büyük olasılıkla Llava makalesine benzer şekilde talimat tabanlı ince ayar (instruction finetuning) yapılmıştır. Bu makale ayrıca, yukarıdaki Dall-E yöntemleriyle birlikte kullanıldığında ilginç olabilecek büyük ölçekli bir talimat veri seti oluşturmak için bazı sentetik veri teknikleri de gösteriyor.
> In order for the model to be able to follow user instructions, they likely did some instruction fine-tuning similar to the Llava paper. This paper also shows some synthetic data techniques to create a large instruction dataset that could be interesting in combination with the Dalle methods above.

https://arxiv.org/abs/2304.08485

Make-A-Video & Tune-A-Video

Make-A-Video ve Tune-A-Video gibi makaleler, istem mühendisliğinin modelin doğal dil anlama yeteneğini kullanarak karmaşık talimatları nasıl çözdüğünü ve bunları tutarlı, canlı ve yüksek kaliteli video anlatılarına nasıl dönüştürdüğünü göstermiştir. Örneğin, basit bir kullanıcı istemini sıfatlar ve fiillerle genişleterek sahneyi daha dolu biçimde betimlemek mümkündür.
> Papers like Make-A-Video and Tune-A-Video have shown how prompt engineering leverages model’s natural language understanding ability to decode complex instructions and render them into cohesive, lively, and high-quality video narratives. For example: taking a simple user prompt and extending it with adjectives and verbs to more fully flush out the scene.

https://arxiv.org/abs/2209.14792

https://arxiv.org/abs/2212.11565

Sonuç / Conclusion

Umarız bu yazı, Sora gibi bir sistemi oluşturabilecek tüm önemli bileşenleri öğrenmek için size bir başlangıç noktası sunar! Gözden kaçırdığımız bir şey olduğunu düşünüyorsanız bize hello@oxen.ai adresinden e-posta gönderebilirsiniz.
> We hope this gives you a jumping off point for all the important components that could make up a system like Sora! If you think we missed anything, feel free to email us at hello@oxen.ai.

Burada tanıtılan makaleler kesinlikle hafif bir okuma değil. Bu yüzden cuma günleri her seferinde tek bir makale ele alıyor, yavaşlıyor ve konuları herkesin anlayabileceği sade bir dille açıklıyoruz. Herkesin yapay zeka sistemleri inşa etmeye katkıda bulunabileceğine inanıyoruz; temelleri ne kadar iyi anlarsanız, o kadar çok örüntü fark eder ve o kadar iyi ürünler geliştirirsiniz.
> It is by no means a light set of reading. This is why on Fridays we take one paper at a time, slow down, and break down the topics in plain speak so anyone can understand. We believe anyone can contribute to building AI systems, and the more you understand the fundamentals, the more patterns you will spot, and better products you will build.

https://www.oxen.ai/community

ArXiv Dives’a kaydolarak veya Oxen.ai Discord topluluğuna katılarak bu öğrenme yolculuğuna siz de katılın.
> Join us on a learning journey either by signing up for ArXiv Dives or simply joining the Oxen.ai Discord community.

https://discord.com/invite/s3tBEn7Ptg

Orijinal metin

https://www.oxen.ai/blog/road-to-sora-reading-list


⚠️Reklam⚠️: :pytorch:PyTorch Kore Kullanıcı Topluluğu:kr: tarafından derlenen bu yazıyı faydalı buldunuz mu? Üye olursanız önemli yazıları size e-posta:love_letter: ile gönderiyoruz! (Varsayılan olarak haftalık gönderilir, ancak günlüğe de çevirebilirsiniz.)