2 puan yazan GN⁺ 2025-04-21 | 1 yorum | WhatsApp'ta paylaş
  • Video üretimi için sonraki kare tahmin modelinde giriş kare bağlamını paketleme yöntemini inceleyen bir çalışma
  • FramePack, GPU bellek düzenini optimize ederek kare tahminini verimli biçimde gerçekleştiren bir yöntemdir
  • Kare önemine göre GPU kaynakları tahsis ederek hesaplama karmaşıklığını O(1)'e düşürür
  • Drifting sorununu çözmek için çift yönlü örnekleme önerir
  • Görüntüden videoya dönüşümde ilk kareyi kritik şekilde ele alan ters anti-drifting örnekleme yöntemini vurgular

Video üretiminde giriş karelerinin paketlenmesi

  • Sonraki kare tahmin modeli, birden fazla giriş karesini kullanarak yeni kareler üretir
  • FramePack, giriş karelerini GPU bellek düzenine uygun biçimde kodlayarak verimli kare üretimi sağlar
  • Her kare, patchify kernel kullanılarak kodlanır ve önemine göre bağlam uzunluğu ayarlanır
  • Örneğin HunyuanVideo'da, 480p bir kare (1, 2, 2) patchify kernel kullanıldığında 1536 token'a, (2, 4, 4) patchify kernel kullanıldığında ise 192 token'a dönüşür

Kare önemi ve zamanlama

  • Önemli karelere daha fazla GPU kaynağı ayrılır
  • Farklı sıkıştırma kalıpları aracılığıyla başlangıç karesi eşit derecede önemli hale getirilebilir
  • Tüm zamanlama yöntemleri O(1) karmaşıklığa sahiptir
  • Makale, çeşitli zamanlama yöntemleri için ayrıntılı değerlendirmeler sunar

Drifting sorunu ve çözüm yöntemi

  • Drifting, video uzadıkça kalite düşüşü yaşanmasına neden olan bir sorundur
  • Buna hata birikimi veya exposure bias da denir
  • Bunu çözmek için nedenselliği bozup çift yönlü örnekleme yaklaşımını tanıtır
  • Ters anti-drifting örnekleme, tüm çıkarım süreçlerinde ilk kareyi yaklaşık hedef olarak alır

Görüntüden videoya dönüşüm performansı

  • RTX 3060 6GB dizüstü bilgisayarda 13B HY varyantı kullanılarak görüntüden 5 saniyelik ve görüntüden 60 saniyelik videolar üretilir
  • Sonuçlar h264crf18 ile sıkıştırılır ve GitHub deposuna sığacak şekilde hazırlanır

1 yorum

 
GN⁺ 2025-04-21
Hacker News yorumu
  • Bu adam bir dahi. ControlNet’i de onun geliştirdiğini bilmeyenler için söyleyeyim: bu model, tüketici donanımında çalışan ilk gerçekten düzgün video üretim modeli. ControlNet’in pose desteği de yakında bekleniyor
    • Komik olan şu ki bu model insanların dans etmesini gerçekten istiyor. Röportaj için oturan biri bile oturduğu yerde dans etmeye başlıyor
    • Örnekler oldukça etkileyici ve bunları üretmek için kullanılan kaynaklar neredeyse yok denecek kadar az. Önceki nesil tüketici donanımında bile çıkarım yapılabiliyor gibi görünüyor. 5090’daki çıkarım throughput istatistiklerini de görmek isterdim
    • Bunu mekânsal olarak da yapmak mümkün mü? Örneğin görüntüyü tek seferde üretmek yerine yukarıdan aşağıya doğru üretebilir mi
    • Bu model video extrapolation yerine interpolation için kullanılabilir mi
    • Vay canına. Daha fazla RAM ya da başka bir şey olursa daha hızlı olabilir mi? H100 veya H200’de daha yüksek hızlara çıkabilir mi
    • Bu modelin yapabildiği tek hareket dans etmek gibi görünüyor