18 puan yazan xguru 2024-03-22 | 3 yorum | WhatsApp'ta paylaş
  • Sora, Diffusion Transformers (DiT) ve Latent Diffusion temeline dayanıyor; model ve eğitim veri seti büyük ölçekte genişletiliyor
  • Sora, video modellerini ölçeklendirmenin değerli olduğunu ve büyük dil modellerine (LLM) benzer ek ölçeklendirmenin modeli hızla iyileştirmenin temel itici gücü olacağını gösteriyor
  • Runway, Genmo ve Pika gibi şirketler, Sora benzeri video üretim modelleri için sezgisel arayüzler ve iş akışları geliştiriyor
  • Sora'nın eğitimi için, 1 ay boyunca 4.200 ila 10.500 Nvidia H100 GPU kullanıldığı tahmin edilen muazzam miktarda hesaplama gücü gerekiyor
  • Çıkarım tarafında ise Sora'nın, Nvidia H100 GPU başına saatte en fazla yaklaşık 5 dakikalık video üretebildiği tahmin ediliyor. LLM'lerle karşılaştırıldığında, Sora gibi difüzyon tabanlı modellerin çıkarımı kat kat daha pahalı
  • Sora gibi modeller yaygın biçimde dağıtıldıkça, çıkarım hesaplaması eğitim hesaplamasını baskın hale getirecek; "başabaş noktası"nın 15,3 milyon ila 38,1 milyon dakikalık video üretildiğinde gerçekleşeceği tahmin ediliyor ve bu noktadan sonra çıkarım, ilk eğitimden daha fazla hesaplama gerektirecek. Buna karşılık, günde yüklenen video miktarı TikTok'ta 17 milyon dakika, YouTube'da ise 43 milyon dakika
  • TikTok ve YouTube'da yapay zeka tarafından üretilen videoların payı dikkate alındığında, çıkarım için Nvidia H100 GPU'larına yönelik azami talebin yaklaşık 720 bin adet olacağı tahmin ediliyor

Arka plan

  • Sora bir difüzyon modelidir. Difüzyon modelleri görüntü üretiminde popüler bir tercihtir; OpenAI'nin DALL-E'si ve Stability AI'nin Stable Diffusion'ı gibi tanınmış modeller bu sınıfa girer. Son dönemde Runway, Genmo ve Pika gibi şirketler video üretimini araştırıyor ve bunların da büyük olasılıkla difüzyon modellerinden yararlandığı düşünülüyor.
  • Difüzyon modelleri, veriye rastgele gürültü ekleme sürecini kademeli olarak tersine çevirerek görüntü veya video gibi veriler üretmeyi öğrenen bir tür üretken makine öğrenimi modelidir. Bu modeller saf bir gürültü örüntüsünden başlar, ardından bu gürültüyü adım adım giderir ve örüntüleri rafine ederek anlaşılır ve ayrıntılı çıktılara dönüştürür.

Sora'nın teknik ayrıntıları

  • OpenAI, Sora duyurusuyla birlikte bir teknik rapor yayımladı. Bu rapor ayrıntı bakımından eksik olsa da, tasarımının büyük ölçüde "Transformers kullanan ölçeklenebilir difüzyon modelleri" araştırma makalesinden etkilendiği görülüyor

  • Bu makalenin yazarları, görüntü üretimi için Transformer tabanlı bir mimari olan DiT'yi öneriyor; DiT, Diffusion Transformers ifadesinin kısaltması

  • Sora'nın bu yaklaşımı video üretimine genişlettiği anlaşılıyor. Sora teknik raporu ile DiT makalesi birlikte ele alındığında, Sora modelinin nasıl çalıştığına dair oldukça doğru bir tablo elde edilebiliyor

  • Sora'nın üç önemli bileşeni var:

    • Piksel uzayında çalışmıyor; bunun yerine latent uzayda difüzyon gerçekleştiriyor (buna latent diffusion deniyor)
    • Transformer mimarisini kullanıyor
    • Çok büyük bir veri seti kullanıyor gibi görünüyor
  • Latent diffusion

    • İlk nokta olan latent diffusion'ı anlamak için görüntü üretimini düşünelim
      • Her piksel difüzyon kullanılarak üretilebilir, ancak bu son derece verimsizdir (örneğin 512x512 bir görüntü 262.144 piksele sahiptir)
      • Bunun yerine, pikseller bir miktar sıkıştırma içeren bir latent temsile eşlenebilir; ardından difüzyon bu daha kompakt latent uzayda uygulanır ve son aşamada latent uzaydan tekrar piksel uzayına decode edilir
      • Bu eşleme hesaplama karmaşıklığını ciddi ölçüde iyileştirir: 512x512 = 262.144 piksel üzerinde difüzyon sürecini çalıştırmak yerine, örneğin yalnızca 64x64 = 4.096 latent birim üretmek yeterlidir
      • Bu fikir, "yüksek çözünürlüklü görüntü sentezi için latent difüzyon modelleri" araştırma makalesinin temel atılımıydı ve Stable Diffusion'ın da temelini oluşturdu.
    • Piksellerden latent temsile eşleme örneği, Sora teknik raporundan alınmış bir görselde gösteriliyor.
    • Hem DiT hem de Sora bu yaklaşımdan yararlanıyor. Sora özelinde ek bir unsur da videonun zamansal bir boyuta sahip olmasıdır: video, zaman sırasına dizilmiş görüntü karelerinden oluşur
    • Sora teknik raporuna göre, piksellerden latent uzaya eşleme yapan kodlama aşaması hem uzamsal olarak (her karenin genişlik ve yüksekliğini sıkıştırma anlamında) hem de zamansal olarak (zaman boyunca sıkıştırma anlamında) gerçekleşiyor gibi görünüyor
  • Transformer

    • İkinci nokta olarak, hem DiT hem de Sora, yaygın olarak kullanılan U-Net mimarisi yerine vanilla Transformer mimarisini kullanıyor
    • Bu önemli, çünkü DiT makalesinin yazarları Transformer kullanımının öngörülebilir ölçeklenme sağladığını gözlemliyor; yani daha fazla eğitim hesaplaması uygulandığında (modeli daha uzun süre eğitmek, modeli büyütmek veya ikisi birden) performans artıyor
    • Bu ölçeklenme davranışı, sözde ölçeklenme yasalarıyla nicelendirilebilen önemli bir özellik ve daha önce büyük dil modelleri (LLM'ler) ile diğer modalitelerdeki otoregresif modeller bağlamında incelendi
    • Daha iyi modeller elde etmek için ölçekten yararlanabilme yeteneği, LLM'lerdeki hızlı ilerlemenin temel itici güçlerinden biriydi
    • Aynı özellik görüntü ve video üretiminde de mevcut olduğundan, burada da aynı ölçekleme reçetesinin işe yaraması beklenebilir
  • Veri seti

    • Model eğitimi için gereken son temel unsur etiketli veridir ve bunun, Sora benzeri modelleri eğitmede en önemli gizli bileşenlerden biri olduğu düşünülüyor
    • Sora gibi text-to-video modellerini eğitmek için videolar ve bunlara eşlik eden metin açıklamalarından oluşan çiftlere ihtiyaç vardır
    • OpenAI kendi veri seti hakkında çok az şey söylüyor, ancak bunun son derece büyük olduğunu ima ediyor: "İnternet ölçeğindeki veriler üzerinde eğitilerek genel yetenekler kazanan büyük dil modellerinden ilham aldık."
    • OpenAI ayrıca görsellere ayrıntılı metin etiketleri ekleme yöntemini de açıkladı; bu yöntem DALLE-3 veri setini toplamak için kullanılmıştı
    • Genel fikir, veri setinin etiketli bir alt kümesi üzerinde bir captioner modelini eğitmek ve ardından veri setinin geri kalanını otomatik etiketlemek için bu captioner modelini kullanmak
    • Görünüşe göre aynı teknik Sora'nın veri setinde de uygulanmış

Etkileri

  • Sora'nın birkaç önemli etkisi olacağına inanılıyor. Şimdi bunlara kısaca bakalım
  • Video modellerinin pratik kullanıma geçişi
    • Sora'nın üretebildiği videoların kalitesi, yalnızca ayrıntı düzeyi açısından değil, zamansal tutarlılık bakımından da açık bir atılım niteliğinde; örneğin bir nesne geçici olarak örtüldüğünde nesne kalıcılığını doğru ele alabiliyor ve sudaki yansımaları isabetli şekilde üretebiliyor
    • Artık video kalitesinin, belirli türde sahnelerde gerçek uygulamalarda kullanılabilecek kadar yüksek olduğuna inanılıyor
    • Örneğin Sora, yakında bazı stok video görüntüsü kullanımının yerini alabilir
    • Ancak hâlâ çözülmesi gereken zorluklar var:
      • Mevcut Sora modelinin ne kadar kontrol edilebilir olduğu net değil
      • Model piksel çıktısı verdiği için üretilen videoları düzenlemek zor ve zaman alıcı
      • Ayrıca bu modelleri kullanışlı hale getirmek için sezgisel kullanıcı arayüzleri (UI) ve iş akışları oluşturmak da gerekiyor
      • Runway, Genmo, Pika ve benzeri şirketler şimdiden bu sorunlar üzerinde çalışıyor
  • Video modellerinde hızlı ilerleme beklentisi
    • DiT makalesinin temel içgörülerinden biri, yukarıda da tartışıldığı gibi, model kalitesinin ek hesaplama ile doğrudan iyileşmesiydi
    • Bu, LLM'lerde gözlemlenen ölçeklenme yasalarına benziyor
    • Dolayısıyla bu modeller giderek daha fazla hesaplama ile eğitildikçe, video üretim modellerinin kalitesinde hızlı ek ilerlemeler beklenebilir
    • Sora, bu reçetenin gerçekten işe yaradığını açıkça gösteriyor ve OpenAI başta olmak üzere diğer şirketlerin de bu yöne daha fazla odaklanması bekleniyor
  • Sentetik veri üretimi ve veri artırma
    • Robotik ve otonom sürüş araçları gibi alanlarda veri doğası gereği kıttır: internette görev yapan robotların veya araç kullanan taşıtların görüntüleri bol miktarda bulunmaz.
    • Genellikle bu sorunlara simülasyonda eğitim vererek ya da gerçek dünyadan büyük ölçekte veri toplayarak (veya ikisinin birleşimiyle) yaklaşılmıştır
    • Ancak her iki yaklaşım da, simülasyon verisinin çoğu zaman gerçekçi olmaması sorunuyla karşı karşıyadır
    • Gerçek dünya verisini büyük ölçekte toplamak pahalıdır ve nadir olaylar için yeterli veri toplamak da zordur
    • Sora benzeri modeller burada çok faydalı olabilir. Doğrudan tamamen sentetik veri üretmek için kullanılabilecekleri düşünülüyor
    • Sora, mevcut videoları farklı görünümlere dönüştüren veri artırma işlemlerinde de kullanılabilir
    • Yukarıda anlatılan ikinci nokta, Sora'nın orman yolunda giden kırmızı bir arabanın videosunu sık bitki örtüsüne sahip bir orman/jungla manzarasına dönüştürdüğünü gösteriyor
    • Aynı teknikle sahnelerin gündüzden geceye yeniden render edilmesi ya da hava koşullarının değiştirilmesi de hayal edilebilir
  • Simülasyon ve world model'ler
    • Sözde world model'leri öğrenmek, umut vadeden bir araştırma yönü
    • Yeterince doğru olduklarında, bu world model'ler ajanları doğrudan kendi içlerinde eğitmek veya planlama ve keşif için kullanılabilir.
    • Sora benzeri modeller, video verisinden doğrudan gerçek dünyanın nasıl işlediğine dair temel bir simülasyonu örtük biçimde öğreniyor gibi görünüyor
      • Bu tür "ortaya çıkan simülasyonlar" şu anda kusurlu olsa da yine de ilgi çekici; çünkü videolardan bu tür world model'leri büyük ölçekte eğitmenin mümkün olabileceğine işaret ediyor
      • Dahası, Sora sıvılar, ışık yansımaları, kumaş ve saç hareketi gibi son derece karmaşık sahneleri simüle edebiliyor gibi görünüyor.
      • OpenAI, teknik raporunun başlığını "Bir world simulator olarak video üretim modelleri" koyarak bunu modelin en önemli yönü olarak gördüğünü açıkça ortaya koyuyor.
    • Çok yakın zamanda DeepMind, yalnızca video oyun videolarıyla eğitilen Genie modelini tanıttı ve benzer bir etki gösterdi: model bu oyunları simüle etmeyi öğreniyor (ve yenilerini yaratıyor)
      • Bu durumda model, eylemlere doğrudan gözlemlemeden koşullama yapmayı öğreniyor
      • Başka bir deyişle amaç, bu simülasyonların içinde doğrudan öğrenmeyi mümkün kılmak.
    • Bu ikisi birleştirildiğinde, Sora ve Genie benzeri modellerin gerçek dünyadaki görevlerde somutlaşmış ajanları büyük ölçekte eğitmekte, örneğin robotikte, çok faydalı olabileceği düşünülüyor
    • Ancak sınırlamalar da var: Bu modeller piksel uzayında eğitildiği için, örneğin rüzgârın çimen yapraklarını nasıl hareket ettirdiği gibi, yapılan görevle hiç ilgili olmayabilecek tüm ayrıntıları da modellemek durumunda kalıyor
    • Latent uzay sıkıştırılmış olsa da yeniden piksele eşlenebilmesi gerektiğinden çok miktarda bilgi taşımak zorunda; bu yüzden bu latent uzayda planlamanın verimli biçimde yapılıp yapılamayacağı belirsiz

Hesaplama tahminleri (Compute Estimates)

  • Factorial Funds, eğitim ve çıkarımda kullanılan hesaplama miktarına bakmayı tercih ediyor. Bu yararlı, çünkü gelecekte ihtiyaç duyulacak hesaplama miktarına dair öngörülere bilgi sağlayabiliyor
  • Ancak Sora'nın eğitimi için kullanılan model boyutu ve veri setine ilişkin neredeyse hiç ayrıntı bulunmadığından, bu rakamları tahmin etmek de zor
  • Bu nedenle bu bölümdeki tahminler oldukça belirsiz; bunu akılda tutarak değerlendirmek gerekiyor
  • (Bu kısım yalnızca tahminlerden oluştuğu için atlanmıştır)

3 yorum

 
soon0698 2024-03-23

İçeriğe ek olarak, kişisel olarak bildiğim bazı TMI’ları da ekliyorum.

  • Diffusion Transformers (DiT), o dönemde Berkeley’de doktora öğrencisi olan William Peebles tarafından öncülendi ve ilgili makale, en saygın bilgisayarlı görü konferanslarından biri olan CVPR’de açıkça “yenilik yok” (Lack of Novelty) gerekçesiyle reddedildi. Daha sonra ICCV’de yayımlandı; yazar mezun olduktan sonra OpenAI’ye katıldı ve kısa süre içinde doğrudan Sora projesine liderlik etti.
  • DiT’in mimarisi, Diffusion model + Transformer mimarisidir. O dönemde Diffusion model tarafında U-Net yapısını kullanan görüntü restorasyonunun üstün performansı zaten iyi biliniyordu; burada yapılan değişiklik, bunu CNN tabanlı bir yapı yerine Vision Transformer ve Patchify yapısına dönüştürmekti. Bu nedenle makalenin ana odağı büyük ölçüde ViT mimarisinin benimsenmesi yoluyla Scaling Lawu kanıtlamaya ayrılmıştır; fiilî olarak önerilen yöntem ise ana metinde bir sayfayı bile doldurmaz.
  • Kamuoyunun ilgisinin aksine, akademideki insanlar bu tür bir yönelimin giderek daha fazla ilgi ve atıf alması konusunda ciddi endişe dile getiriyor. Çünkü daha fazla (iyi) veri, devasa hesaplama kaynakları ve son olarak Scaling Lawun güvence verdiği bir mimari varsa, artık başka hiçbir akıllıca hack’e ya da icada gerek yokmuş gibi görünüyor. Araştırmacıların kafa yorarak geliştirdiği akıllı tekniklerden ziyade, sadece 100 GPU daha eklemenin sonucu her zaman daha iyiyse, bu pek de hoş bir duygu değildir.
 
yangisu12 2024-03-22

DiT ve Sora'nın, yaygın olarak kullanılan U-Net mimarisi yerine vanilla transformer mimarisi kullandığı söylenmişti; peki U-Net ve transformer yapay zekada nasıl bir rol oynuyor? Kafam çok karıştı :(

 
mhj5730 2024-03-22

Uzaylı gibiler resmen