- Normalleştirme akışı (normalizing flow) kullanarak metin, görüntü ve video girdilerinden doğrudan video üreten ilk nedensel video üretici
- Uçtan uca eğitim, doğru olasılık yoğunluğu tahmini, çoklu üretim görevi (T2V/I2V/V2V)’i tek bir modelde ele alma
- Global-Local mimarisi, Flow-Score Matching, video farkında Jacobi yinelemesi ile zamansal-uzamsal tutarlılık ve verimliliği artırma
- 7B parametreli bir model ile 480p·16fps video üretimi; 70M metin-video ve 400M metin-görüntü verisiyle eğitim
- Normalleştirme akışının difüzyon temelli modellerle eşdeğer kaliteyi ulaştığını ve yüksek kalite otoregresif video üretiminin mümkün olduğunu gösteriyor
STARFlow-V Genel Bakış
- STARFlow-V, difüzyon modeli seviyesinde görsel kaliteye ulaşan bir normalleştirme akışına dayalı nedensel video üretim modelidir.
- Aynı anda uçtan uca eğitim, olasılık yoğunluğu tahmini, çoklu üretim görevi desteği sunar
- Video üretim alanında uzun süre hakim olan difüzyon modellerine karşı normalleştirme akışının pratik uygulanabilirliğini kanıtlıyor
- Metin-video (T2V), görüntü-video (I2V), video-video (V2V) üretimi, hepsi tek bir mimariyle yapılabiliyor
Temel Tasarım ve Eğitim Mimarisi
- Model, Deep Autoregressive Block (global zaman dizisi akıl yürütme) ve Shallow Flow Block (çerçeve içi ayrıntı betimleme) olmak üzere iki parçadan oluşur
- İlki, uzay-zaman latent alanında uzun vadeli bağımlılıkları yakalar
- İkincisi, her çerçevenin yerel ayrıntı yapısını modellemeye odaklanır
- Flow-Score Matching ile eğitilmiş bir nedensel hafif gürültü giderici, çıktı tutarlılığını iyileştirir
- Eğitim hedefi, maksimum olasılık yoğunluğu tahmini ve Flow-Score Matching’in çift hedefli yapısından oluşur
Başlıca Teknik Katkılar
- Global-Local mimarisi
- Global nedensel Transformer bloğu, uzun vadeli uzamsal-zamansal bağımlılıkları işler
- Kare bazlı sığ akış bloğu, yerel ayrıntı betimlemelerini üstlenir
- Piksel düzeyinde otoregresif modeldeki birikimli hata problemini azaltır
- Flow-Score Matching tabanlı gürültü giderme
- Modelin olasılık dağılımı gradyanını (skorunu) tahmin eden nedensel sinirsel gürültü giderici birlikte eğitilir
- Nedensel olmayan veya eksik dış gürültü giderici olmadan tek adımda rafine etme mümkün olur
- Video farkında Jacobi yinelemesi
- Üretim süreci, doğrusal olmayan sistem çözümleme ile yeniden kurulup paralel latent güncelleme yapılır
- Komşu çerçevelerin zamansal bilgisine dayalı başlatma ve pipeline çalıştırma ile hız artışı sağlanır
Model Spesifikasyonları
- Eğitim verisi: 70M metin-video çifti, 400M metin-görüntü çifti
- Model boyutu: 7B parametre, çıktı çözünürlüğü 480p, çerçeve hızı 16fps
- Normalleştirme akışının tersinirliği sayesinde mimari değişikliği veya yeniden eğitim yapmadan çeşitli üretim görevleri gerçekleştirilebilir
Üretim Sonuçları ve Karşılaştırmalar
- Metin-video: doğal ışık, gerçekçi stilde ve makro gibi çeşitli sahneler yüksek kalitede üretildi
- Görüntü-video: giriş görüntüsüne dayalı olarak zaman tutarlılığı korunarak video genişletme
- Video-video: nesne ekleme, renk dönüştürme, stil değiştirme, inpainting gibi çoklu dönüşüm uygulanabiliyor
- Uzun video üretimi: 10-30 saniyelik videolar bile parça parça otoregresif şekilde üretildi
- Karşılaştırmalı deneyler: NOVA ve WAN-Causal ile karşılaştırıldığında görsel sadakat ve zaman tutarlılığında daha iyi sonuçlar gösterildi
Sınırlılıklar ve Başarısızlık Örnekleri
- Karmaşık fiziksel etkileşimlerde veya hızlı hareketli sahnelerde kalite düşüşü olur
- Neden olarak eğitim kaynak kısıtı, düşük kalitede veri, ardışık ince ayar (SFT·RL) eksikliği belirtilmiştir
- Örnek olarak, bir köpeğin suyu silkmesi veya bir keçinin zıplaması sahnelerinde doğallıktan uzak hareketler gözlendi
Araştırma Önemi
- STARFlow-V, normalleştirme akışının yüksek kaliteli otoregresif video üretimine uygun olduğunu ilk kez kanıtlıyor
- Difüzyon modeli odaklı video üretim araştırmalarına alternatif bir yaklaşım sunuyor
- World model geliştirmek için umut vadeden bir araştırma yolunun parçası olarak değerlendiriliyor
1 yorum
Hacker News görüşleri
Apple'ın da bir video anlama modeli var
Görme engelli biri olarak yapay zeka hayatımı tamamen değiştirdi. Bu modelle erişilebilirlik özelliklerinin nasıl gelişeceğini görmek için gerçekten heyecanlıyım
Apple'ın lisansı yalnızca ticari olmayan araştırma kullanımıyla sınırlı, bu yüzden açık kaynak tanımına uymuyor
Bu nedenle buna "open source" yerine "weights available" demenin daha doğru olduğunu düşünüyorum
ABD hukukuna göre model ağırlıkları yaratıcı eser değil, makine çıktısı sayıldığından telif hakkına tabi değil
Bu yüzden ben olsam bu tür anlamsız lisansları görmezden gelir ve serbestçe kullanırdım
"Açık ağırlıklı model" kavramı biraz 'açık kaynak Windows makine dili sürümü' gibi geliyor ve bu beni rahatsız ediyor
Apple'ın lisansının Clickwrap MIT benzeri olması, değişiklik ve yeniden dağıtım hakkı vermesi açısından yine de iyi
Yine de ikiliyi doğrudan kullanabilmek, yalnızca SaaS sunulmasından daha iyi bence
Açık ağırlıklar, yeniden eğitim veya distillation yapılabilmesi bakımından basit bir çalıştırılabilir dosyadan farklı
Metinden videoya örnekler izledim ama dürüst olmak gerekirse etkileyici bulmadım
Bana eski Will Smith makarna videosunu hatırlattı. Acaba bir şeyi mi kaçırıyorum?
Yine de araştırmacıların deney yapabilmesi için yayımlanmış olması anlamlı
Mükemmel değiller ama yayımlanmış modeller arasında en ileri seviyede olabilirler
Yine de lisansın yeterince "açık" olup olmadığı tartışılır
Bu proje araştırma açısından yeni denemeler ve olasılıklar gösterdi
ama ürün açısından bakınca hesaplama kaynağı kısıtları çok belirgin görünüyor
Bu, CFO'nun CEO'nun ML altyapı yatırımı kararını engellediğine dair haberlerle de örtüşüyor
JG'nin ayrılışı, yapay zeka ekibindeki büyük yeniden yapılanma ve Tim'in 2026'da ayrılacağı söylentileri düşünüldüğünde
şirket içi siyasette ML dışı tarafın kazandığı anlaşılıyor
Yine de yaklaşım ilginç; umarım başkaları bunun üzerine yararlı bir şeyler inşa eder
Makaleye göre bu model, diffusion video modellerindeki birikimli hata sorununu çözmeye çalışan bir araştırma modeli
Gizil uzayı nedensel (causal) bir yapıyla tasarlayarak tutarlılığı artırdıklarını söylüyorlar
7B ölçeğindeki bir model için sonuçlar oldukça iyi
Apple bir gün wan veya veo seviyesinde bir model çıkarırsa, muhtemelen gerçekten çok rafine veriyle eğitilmiş olur
STARFlow-V'nin 96 adet H100 GPU ile yaklaşık 20 milyon video üzerinde eğitildiği söyleniyor
Ancak eğitimin ne kadar sürdüğü belirtilmemiş
Repodaki örneklerin Mac üzerinde de çıkarım yapıp yapamayacağını merak ediyorum
Başlık yanlış. Model henüz yayımlanmadı ve bağlantıda da buna dair bir şey yok
Neden düzenlenmiş bir başlık kullanıldığını merak ediyorum
Model iyi görünüyor ama Apple'ın hangi kullanım senaryosunu hedeflediğini merak ediyorum
Bu sadece araştırmacıların ilgisini çeken bir alan da olabilir; büyük şirket araştırmalarında yönün yukarıdan mı belirlendiğini bilmiyorum
Jobs döneminden kalan çok sayıda ilişki var
TikTok veya Instagram yakında bunu ekler ama Apple bunu kendi içinde sunmak istiyor gibi görünüyor
Bana kalırsa Snapchat'i satın almak iyi bir strateji olurdu
Repoda "Pretrained checkpoints will be released soon" yazıyor
Yani henüz açık ağırlıklı değil
Gerçekten açık bir model olması için ağırlıkların fiilen yayımlanması gerekir
"Soon"un ne zaman olduğu ise belirsiz