STARFlow-V: Normalleştirme akışına dayalı uçtan uca video üretim modeli

(starflow-v.github.io)

2 puan yazan GN⁺ 2025-12-03 | 1 yorum | WhatsApp'ta paylaş

Normalleştirme akışı (normalizing flow) kullanarak metin, görüntü ve video girdilerinden doğrudan video üreten ilk nedensel video üretici
Uçtan uca eğitim, doğru olasılık yoğunluğu tahmini, çoklu üretim görevi (T2V/I2V/V2V)’i tek bir modelde ele alma
Global-Local mimarisi, Flow-Score Matching, video farkında Jacobi yinelemesi ile zamansal-uzamsal tutarlılık ve verimliliği artırma
7B parametreli bir model ile 480p·16fps video üretimi; 70M metin-video ve 400M metin-görüntü verisiyle eğitim
Normalleştirme akışının difüzyon temelli modellerle eşdeğer kaliteyi ulaştığını ve yüksek kalite otoregresif video üretiminin mümkün olduğunu gösteriyor

STARFlow-V Genel Bakış

STARFlow-V, difüzyon modeli seviyesinde görsel kaliteye ulaşan bir normalleştirme akışına dayalı nedensel video üretim modelidir.
- Aynı anda uçtan uca eğitim, olasılık yoğunluğu tahmini, çoklu üretim görevi desteği sunar
Video üretim alanında uzun süre hakim olan difüzyon modellerine karşı normalleştirme akışının pratik uygulanabilirliğini kanıtlıyor
Metin-video (T2V), görüntü-video (I2V), video-video (V2V) üretimi, hepsi tek bir mimariyle yapılabiliyor

Temel Tasarım ve Eğitim Mimarisi

Model, Deep Autoregressive Block (global zaman dizisi akıl yürütme) ve Shallow Flow Block (çerçeve içi ayrıntı betimleme) olmak üzere iki parçadan oluşur
- İlki, uzay-zaman latent alanında uzun vadeli bağımlılıkları yakalar
- İkincisi, her çerçevenin yerel ayrıntı yapısını modellemeye odaklanır
Reklam
Flow-Score Matching ile eğitilmiş bir nedensel hafif gürültü giderici, çıktı tutarlılığını iyileştirir
Eğitim hedefi, maksimum olasılık yoğunluğu tahmini ve Flow-Score Matching’in çift hedefli yapısından oluşur

Başlıca Teknik Katkılar

Global-Local mimarisi
- Global nedensel Transformer bloğu, uzun vadeli uzamsal-zamansal bağımlılıkları işler
- Kare bazlı sığ akış bloğu, yerel ayrıntı betimlemelerini üstlenir
- Piksel düzeyinde otoregresif modeldeki birikimli hata problemini azaltır
Flow-Score Matching tabanlı gürültü giderme
- Modelin olasılık dağılımı gradyanını (skorunu) tahmin eden nedensel sinirsel gürültü giderici birlikte eğitilir
- Nedensel olmayan veya eksik dış gürültü giderici olmadan tek adımda rafine etme mümkün olur
Video farkında Jacobi yinelemesi
- Üretim süreci, doğrusal olmayan sistem çözümleme ile yeniden kurulup paralel latent güncelleme yapılır
- Komşu çerçevelerin zamansal bilgisine dayalı başlatma ve pipeline çalıştırma ile hız artışı sağlanır

Model Spesifikasyonları

Eğitim verisi: 70M metin-video çifti, 400M metin-görüntü çifti
Model boyutu: 7B parametre, çıktı çözünürlüğü 480p, çerçeve hızı 16fps
Normalleştirme akışının tersinirliği sayesinde mimari değişikliği veya yeniden eğitim yapmadan çeşitli üretim görevleri gerçekleştirilebilir

Üretim Sonuçları ve Karşılaştırmalar

Metin-video: doğal ışık, gerçekçi stilde ve makro gibi çeşitli sahneler yüksek kalitede üretildi
Görüntü-video: giriş görüntüsüne dayalı olarak zaman tutarlılığı korunarak video genişletme
Video-video: nesne ekleme, renk dönüştürme, stil değiştirme, inpainting gibi çoklu dönüşüm uygulanabiliyor
Uzun video üretimi: 10-30 saniyelik videolar bile parça parça otoregresif şekilde üretildi
Karşılaştırmalı deneyler: NOVA ve WAN-Causal ile karşılaştırıldığında görsel sadakat ve zaman tutarlılığında daha iyi sonuçlar gösterildi

Sınırlılıklar ve Başarısızlık Örnekleri

Karmaşık fiziksel etkileşimlerde veya hızlı hareketli sahnelerde kalite düşüşü olur
Neden olarak eğitim kaynak kısıtı, düşük kalitede veri, ardışık ince ayar (SFT·RL) eksikliği belirtilmiştir
Örnek olarak, bir köpeğin suyu silkmesi veya bir keçinin zıplaması sahnelerinde doğallıktan uzak hareketler gözlendi

Araştırma Önemi

STARFlow-V, normalleştirme akışının yüksek kaliteli otoregresif video üretimine uygun olduğunu ilk kez kanıtlıyor
Difüzyon modeli odaklı video üretim araştırmalarına alternatif bir yaklaşım sunuyor
World model geliştirmek için umut vadeden bir araştırma yolunun parçası olarak değerlendiriliyor

1 yorum

GN⁺ 2025-12-03

Hacker News görüşleri

Apple'ın da bir video anlama modeli var
Görme engelli biri olarak yapay zeka hayatımı tamamen değiştirdi. Bu modelle erişilebilirlik özelliklerinin nasıl gelişeceğini görmek için gerçekten heyecanlıyım
- Böyle şeyleri haber başlıklarında görmek zor oluyor; gerçekten sevindirici bir yorum
- Birkaç yıl önce de işitme engelli ebeveynler için bebek ağlamasını algılayıp bildirim veren bir özellik eklemişlerdi
- Düşük kaliteli bir yorum olabilir ama içtenlikle tebrik ettim ve sevindim
- Yapay zekanın hayatınızı nasıl değiştirdiğini daha somut biçimde paylaşabilir misiniz diye merak ediyorum
- Nadiren de olsa yapay zekanın insanlara gerçekten yardımcı olduğu iyi haberlerden biri olduğu için sevindirici
Apple'ın lisansı yalnızca ticari olmayan araştırma kullanımıyla sınırlı, bu yüzden açık kaynak tanımına uymuyor
Bu nedenle buna "open source" yerine "weights available" demenin daha doğru olduğunu düşünüyorum
- Aslında henüz ağırlıklar bile yayımlanmadı
  ABD hukukuna göre model ağırlıkları yaratıcı eser değil, makine çıktısı sayıldığından telif hakkına tabi değil
  Bu yüzden ben olsam bu tür anlamsız lisansları görmezden gelir ve serbestçe kullanırdım
"Açık ağırlıklı model" kavramı biraz 'açık kaynak Windows makine dili sürümü' gibi geliyor ve bu beni rahatsız ediyor
Apple'ın lisansının Clickwrap MIT benzeri olması, değişiklik ve yeniden dağıtım hakkı vermesi açısından yine de iyi
- Güzel bir benzetme. Bunu genişletirsek, "kapalı makine dili" tipik bir SaaS modeli gibi olur
  Yine de ikiliyi doğrudan kullanabilmek, yalnızca SaaS sunulmasından daha iyi bence
- Yerelde çalıştırılabilmesi önemli
  Açık ağırlıklar, yeniden eğitim veya distillation yapılabilmesi bakımından basit bir çalıştırılabilir dosyadan farklı
- Muhtemelen kod lisansıyla model lisansını karıştırdınız
Metinden videoya örnekler izledim ama dürüst olmak gerekirse etkileyici bulmadım
Bana eski Will Smith makarna videosunu hatırlattı. Acaba bir şeyi mi kaçırıyorum?
- En güncel teknolojiye göre yaklaşık 2 yıl geriden geliyor gibi görünüyor
  Yine de araştırmacıların deney yapabilmesi için yayımlanmış olması anlamlı
- Will Smith'in spagetti videosuna tekrar bakarsanız, bu örneklerin ondan çok daha iyi olduğunu görürsünüz
  Mükemmel değiller ama yayımlanmış modeller arasında en ileri seviyede olabilirler
  Yine de lisansın yeterince "açık" olup olmadığı tartışılır
- Ben de aynı şeyi düşündüm. Bardaktaki sıvı durmuşken seviyenin yükselmeye devam etmesi gibi garip kısımlar vardı
Bu proje araştırma açısından yeni denemeler ve olasılıklar gösterdi
ama ürün açısından bakınca hesaplama kaynağı kısıtları çok belirgin görünüyor
Bu, CFO'nun CEO'nun ML altyapı yatırımı kararını engellediğine dair haberlerle de örtüşüyor
JG'nin ayrılışı, yapay zeka ekibindeki büyük yeniden yapılanma ve Tim'in 2026'da ayrılacağı söylentileri düşünüldüğünde
şirket içi siyasette ML dışı tarafın kazandığı anlaşılıyor
Yine de yaklaşım ilginç; umarım başkaları bunun üzerine yararlı bir şeyler inşa eder
Makaleye göre bu model, diffusion video modellerindeki birikimli hata sorununu çözmeye çalışan bir araştırma modeli
Gizil uzayı nedensel (causal) bir yapıyla tasarlayarak tutarlılığı artırdıklarını söylüyorlar
7B ölçeğindeki bir model için sonuçlar oldukça iyi
Apple bir gün wan veya veo seviyesinde bir model çıkarırsa, muhtemelen gerçekten çok rafine veriyle eğitilmiş olur
STARFlow-V'nin 96 adet H100 GPU ile yaklaşık 20 milyon video üzerinde eğitildiği söyleniyor
Ancak eğitimin ne kadar sürdüğü belirtilmemiş
- Apple Intelligence'ın Nvidia GPU ve Linux ile eğitilmiş olması ilginç
  Repodaki örneklerin Mac üzerinde de çıkarım yapıp yapamayacağını merak ediyorum
Başlık yanlış. Model henüz yayımlanmadı ve bağlantıda da buna dair bir şey yok
Neden düzenlenmiş bir başlık kullanıldığını merak ediyorum
Model iyi görünüyor ama Apple'ın hangi kullanım senaryosunu hedeflediğini merak ediyorum
Bu sadece araştırmacıların ilgisini çeken bir alan da olabilir; büyük şirket araştırmalarında yönün yukarıdan mı belirlendiğini bilmiyorum
- Apple, Pixar ve Disney bağlantıları sayesinde video ve animasyon alanında güçlü
  Jobs döneminden kalan çok sayıda ilişki var
- Muhtemelen iPhone ile çekilen videolara üretken efektler eklemek için düşünülüyordur
  TikTok veya Instagram yakında bunu ekler ama Apple bunu kendi içinde sunmak istiyor gibi görünüyor
  Bana kalırsa Snapchat'i satın almak iyi bir strateji olurdu
Repoda "Pretrained checkpoints will be released soon" yazıyor
Yani henüz açık ağırlıklı değil
Gerçekten açık bir model olması için ağırlıkların fiilen yayımlanması gerekir
"Soon"un ne zaman olduğu ise belirsiz

STARFlow-V: Normalleştirme akışına dayalı uçtan uca video üretim modeli

STARFlow-V Genel Bakış

Temel Tasarım ve Eğitim Mimarisi

Başlıca Teknik Katkılar

Model Spesifikasyonları

Üretim Sonuçları ve Karşılaştırmalar

Sınırlılıklar ve Başarısızlık Örnekleri

Araştırma Önemi

İlgili okumalar

1 yorum

Hacker News görüşleri