2 puan yazan GN⁺ 2025-12-03 | 1 yorum | WhatsApp'ta paylaş
  • Normalleştirme akışı (normalizing flow) kullanarak metin, görüntü ve video girdilerinden doğrudan video üreten ilk nedensel video üretici
  • Uçtan uca eğitim, doğru olasılık yoğunluğu tahmini, çoklu üretim görevi (T2V/I2V/V2V)’i tek bir modelde ele alma
  • Global-Local mimarisi, Flow-Score Matching, video farkında Jacobi yinelemesi ile zamansal-uzamsal tutarlılık ve verimliliği artırma
  • 7B parametreli bir model ile 480p·16fps video üretimi; 70M metin-video ve 400M metin-görüntü verisiyle eğitim
  • Normalleştirme akışının difüzyon temelli modellerle eşdeğer kaliteyi ulaştığını ve yüksek kalite otoregresif video üretiminin mümkün olduğunu gösteriyor

STARFlow-V Genel Bakış

  • STARFlow-V, difüzyon modeli seviyesinde görsel kaliteye ulaşan bir normalleştirme akışına dayalı nedensel video üretim modelidir.
    • Aynı anda uçtan uca eğitim, olasılık yoğunluğu tahmini, çoklu üretim görevi desteği sunar
  • Video üretim alanında uzun süre hakim olan difüzyon modellerine karşı normalleştirme akışının pratik uygulanabilirliğini kanıtlıyor
  • Metin-video (T2V), görüntü-video (I2V), video-video (V2V) üretimi, hepsi tek bir mimariyle yapılabiliyor

Temel Tasarım ve Eğitim Mimarisi

  • Model, Deep Autoregressive Block (global zaman dizisi akıl yürütme) ve Shallow Flow Block (çerçeve içi ayrıntı betimleme) olmak üzere iki parçadan oluşur
    • İlki, uzay-zaman latent alanında uzun vadeli bağımlılıkları yakalar
    • İkincisi, her çerçevenin yerel ayrıntı yapısını modellemeye odaklanır
  • Flow-Score Matching ile eğitilmiş bir nedensel hafif gürültü giderici, çıktı tutarlılığını iyileştirir
  • Eğitim hedefi, maksimum olasılık yoğunluğu tahmini ve Flow-Score Matching’in çift hedefli yapısından oluşur

Başlıca Teknik Katkılar

  • Global-Local mimarisi
    • Global nedensel Transformer bloğu, uzun vadeli uzamsal-zamansal bağımlılıkları işler
    • Kare bazlı sığ akış bloğu, yerel ayrıntı betimlemelerini üstlenir
    • Piksel düzeyinde otoregresif modeldeki birikimli hata problemini azaltır
  • Flow-Score Matching tabanlı gürültü giderme
    • Modelin olasılık dağılımı gradyanını (skorunu) tahmin eden nedensel sinirsel gürültü giderici birlikte eğitilir
    • Nedensel olmayan veya eksik dış gürültü giderici olmadan tek adımda rafine etme mümkün olur
  • Video farkında Jacobi yinelemesi
    • Üretim süreci, doğrusal olmayan sistem çözümleme ile yeniden kurulup paralel latent güncelleme yapılır
    • Komşu çerçevelerin zamansal bilgisine dayalı başlatma ve pipeline çalıştırma ile hız artışı sağlanır

Model Spesifikasyonları

  • Eğitim verisi: 70M metin-video çifti, 400M metin-görüntü çifti
  • Model boyutu: 7B parametre, çıktı çözünürlüğü 480p, çerçeve hızı 16fps
  • Normalleştirme akışının tersinirliği sayesinde mimari değişikliği veya yeniden eğitim yapmadan çeşitli üretim görevleri gerçekleştirilebilir

Üretim Sonuçları ve Karşılaştırmalar

  • Metin-video: doğal ışık, gerçekçi stilde ve makro gibi çeşitli sahneler yüksek kalitede üretildi
  • Görüntü-video: giriş görüntüsüne dayalı olarak zaman tutarlılığı korunarak video genişletme
  • Video-video: nesne ekleme, renk dönüştürme, stil değiştirme, inpainting gibi çoklu dönüşüm uygulanabiliyor
  • Uzun video üretimi: 10-30 saniyelik videolar bile parça parça otoregresif şekilde üretildi
  • Karşılaştırmalı deneyler: NOVA ve WAN-Causal ile karşılaştırıldığında görsel sadakat ve zaman tutarlılığında daha iyi sonuçlar gösterildi

Sınırlılıklar ve Başarısızlık Örnekleri

  • Karmaşık fiziksel etkileşimlerde veya hızlı hareketli sahnelerde kalite düşüşü olur
  • Neden olarak eğitim kaynak kısıtı, düşük kalitede veri, ardışık ince ayar (SFT·RL) eksikliği belirtilmiştir
  • Örnek olarak, bir köpeğin suyu silkmesi veya bir keçinin zıplaması sahnelerinde doğallıktan uzak hareketler gözlendi

Araştırma Önemi

  • STARFlow-V, normalleştirme akışının yüksek kaliteli otoregresif video üretimine uygun olduğunu ilk kez kanıtlıyor
  • Difüzyon modeli odaklı video üretim araştırmalarına alternatif bir yaklaşım sunuyor
  • World model geliştirmek için umut vadeden bir araştırma yolunun parçası olarak değerlendiriliyor

1 yorum

 
GN⁺ 2025-12-03
Hacker News görüşleri
  • Apple'ın da bir video anlama modeli var
    Görme engelli biri olarak yapay zeka hayatımı tamamen değiştirdi. Bu modelle erişilebilirlik özelliklerinin nasıl gelişeceğini görmek için gerçekten heyecanlıyım

    • Böyle şeyleri haber başlıklarında görmek zor oluyor; gerçekten sevindirici bir yorum
    • Birkaç yıl önce de işitme engelli ebeveynler için bebek ağlamasını algılayıp bildirim veren bir özellik eklemişlerdi
    • Düşük kaliteli bir yorum olabilir ama içtenlikle tebrik ettim ve sevindim
    • Yapay zekanın hayatınızı nasıl değiştirdiğini daha somut biçimde paylaşabilir misiniz diye merak ediyorum
    • Nadiren de olsa yapay zekanın insanlara gerçekten yardımcı olduğu iyi haberlerden biri olduğu için sevindirici
  • Apple'ın lisansı yalnızca ticari olmayan araştırma kullanımıyla sınırlı, bu yüzden açık kaynak tanımına uymuyor
    Bu nedenle buna "open source" yerine "weights available" demenin daha doğru olduğunu düşünüyorum

    • Aslında henüz ağırlıklar bile yayımlanmadı
      ABD hukukuna göre model ağırlıkları yaratıcı eser değil, makine çıktısı sayıldığından telif hakkına tabi değil
      Bu yüzden ben olsam bu tür anlamsız lisansları görmezden gelir ve serbestçe kullanırdım
  • "Açık ağırlıklı model" kavramı biraz 'açık kaynak Windows makine dili sürümü' gibi geliyor ve bu beni rahatsız ediyor
    Apple'ın lisansının Clickwrap MIT benzeri olması, değişiklik ve yeniden dağıtım hakkı vermesi açısından yine de iyi

    • Güzel bir benzetme. Bunu genişletirsek, "kapalı makine dili" tipik bir SaaS modeli gibi olur
      Yine de ikiliyi doğrudan kullanabilmek, yalnızca SaaS sunulmasından daha iyi bence
    • Yerelde çalıştırılabilmesi önemli
      Açık ağırlıklar, yeniden eğitim veya distillation yapılabilmesi bakımından basit bir çalıştırılabilir dosyadan farklı
    • Muhtemelen kod lisansıyla model lisansını karıştırdınız
  • Metinden videoya örnekler izledim ama dürüst olmak gerekirse etkileyici bulmadım
    Bana eski Will Smith makarna videosunu hatırlattı. Acaba bir şeyi mi kaçırıyorum?

    • En güncel teknolojiye göre yaklaşık 2 yıl geriden geliyor gibi görünüyor
      Yine de araştırmacıların deney yapabilmesi için yayımlanmış olması anlamlı
    • Will Smith'in spagetti videosuna tekrar bakarsanız, bu örneklerin ondan çok daha iyi olduğunu görürsünüz
      Mükemmel değiller ama yayımlanmış modeller arasında en ileri seviyede olabilirler
      Yine de lisansın yeterince "açık" olup olmadığı tartışılır
    • Ben de aynı şeyi düşündüm. Bardaktaki sıvı durmuşken seviyenin yükselmeye devam etmesi gibi garip kısımlar vardı
  • Bu proje araştırma açısından yeni denemeler ve olasılıklar gösterdi
    ama ürün açısından bakınca hesaplama kaynağı kısıtları çok belirgin görünüyor
    Bu, CFO'nun CEO'nun ML altyapı yatırımı kararını engellediğine dair haberlerle de örtüşüyor
    JG'nin ayrılışı, yapay zeka ekibindeki büyük yeniden yapılanma ve Tim'in 2026'da ayrılacağı söylentileri düşünüldüğünde
    şirket içi siyasette ML dışı tarafın kazandığı anlaşılıyor
    Yine de yaklaşım ilginç; umarım başkaları bunun üzerine yararlı bir şeyler inşa eder

  • Makaleye göre bu model, diffusion video modellerindeki birikimli hata sorununu çözmeye çalışan bir araştırma modeli
    Gizil uzayı nedensel (causal) bir yapıyla tasarlayarak tutarlılığı artırdıklarını söylüyorlar
    7B ölçeğindeki bir model için sonuçlar oldukça iyi
    Apple bir gün wan veya veo seviyesinde bir model çıkarırsa, muhtemelen gerçekten çok rafine veriyle eğitilmiş olur

  • STARFlow-V'nin 96 adet H100 GPU ile yaklaşık 20 milyon video üzerinde eğitildiği söyleniyor
    Ancak eğitimin ne kadar sürdüğü belirtilmemiş

    • Apple Intelligence'ın Nvidia GPU ve Linux ile eğitilmiş olması ilginç
      Repodaki örneklerin Mac üzerinde de çıkarım yapıp yapamayacağını merak ediyorum
  • Başlık yanlış. Model henüz yayımlanmadı ve bağlantıda da buna dair bir şey yok
    Neden düzenlenmiş bir başlık kullanıldığını merak ediyorum

  • Model iyi görünüyor ama Apple'ın hangi kullanım senaryosunu hedeflediğini merak ediyorum
    Bu sadece araştırmacıların ilgisini çeken bir alan da olabilir; büyük şirket araştırmalarında yönün yukarıdan mı belirlendiğini bilmiyorum

    • Apple, Pixar ve Disney bağlantıları sayesinde video ve animasyon alanında güçlü
      Jobs döneminden kalan çok sayıda ilişki var
    • Muhtemelen iPhone ile çekilen videolara üretken efektler eklemek için düşünülüyordur
      TikTok veya Instagram yakında bunu ekler ama Apple bunu kendi içinde sunmak istiyor gibi görünüyor
      Bana kalırsa Snapchat'i satın almak iyi bir strateji olurdu
  • Repoda "Pretrained checkpoints will be released soon" yazıyor
    Yani henüz açık ağırlıklı değil
    Gerçekten açık bir model olması için ağırlıkların fiilen yayımlanması gerekir
    "Soon"un ne zaman olduğu ise belirsiz