1 puan yazan GN⁺ 2025-10-24 | 1 yorum | WhatsApp'ta paylaş
  • Character AI tarafından geliştirilen Ovi, metin veya görsel girdilerden eşzamanlı olarak ses ve video üreten bir yapay zeka modeli
  • Ovi, şirket içinde oluşturulmuş 5B ölçekli bir ses dalını ve Wan2.2 tabanlı video dalını birleştirerek yüksek kaliteli, senkronize görsel-işitsel içerik üretiyor
  • Model 720×720 çözünürlükte eğitildi, ancak 960×960 ve üzeri çözünürlüklerde de doğal sonuçlar üretiyor ve çeşitli en-boy oranlarını (9:16, 16:9 vb.) destekliyor
  • Gradio UI, ComfyUI entegrasyonu (WIP), çoklu GPU çıkarımı, qint8/fp8 niceleme gibi çeşitli çalıştırma seçenekleri ve verimlilik özellikleri sunuyor
  • Bu proje, metinden videoya üretim (T2V) ve görselden videoya üretim (I2V) teknolojilerindeki son gelişmelerden biri olarak ses-video füzyonlu üretim için yeni bir standart ortaya koyuyor

Ovi'ye genel bakış

  • Ovi, Character AI ile Yale University araştırmacıları tarafından ortak geliştirilen bir çapraz modal üretim modeli olup, metin veya metin+görsel girdilerden senkronize ses ve videoyu aynı anda üreten bir sistem
    • Model mimarisi “Twin Backbone Cross-Modal Fusion” olarak adlandırılıyor ve ses ile video dallarını paralel biçimde eğitip birleştiren bir yaklaşım kullanıyor
    • Proje lideri Weimin Wang, ortak katkı sunanlar ise Chetwin Low ve Calder Katyal
  • Veo-3 benzeri bir model olarak tanıtılıyor; Character AI'nin dahili ses veri kümesini kullanarak 5B parametre ölçeğinde bir ses dalı sıfırdan önceden eğitilmiş
  • Üretilen videolar varsayılan olarak 5 saniye uzunluğunda, 24FPS, 720×720 çözünürlükte ve 9:16, 16:9, 1:1 gibi çeşitli oranları destekliyor

Başlıca işlevler ve özellikler

  • 🎬 Video+Audio Generation: Metin veya görsel girdilerden aynı anda ses ve video üretimi
  • 🎵 High-Quality Audio Branch: Şirket içinde oluşturulmuş büyük ölçekli bir ses veri kümesiyle eğitilmiş ses dalı
  • 📝 Flexible Input: Yalnızca metin veya metin+görsel girdilerinin ikisini de destekler
  • ⏱️ 5 saniyelik video üretimi: 24FPS hızında 5 saniyelik kısa video üretimi
  • 🎯 yüksek çözünürlük desteği: 960×960 ve üzeri çözünürlüklerde de doğal sonuçlar üretilebilir
    • Örnek olarak 1280×704, 1504×608, 1344×704 gibi farklı oranlarda videolar sunuluyor
  • 🚀 upscaling yeteneği: Eğitim 720×720'de yapılmış olsa da yüksek çözünürlükte zamansal ve mekânsal tutarlılık korunuyor

Kullanılabilen platformlar ve demolar

Eğitim ve performans

  • Eğitim çözünürlüğü: 720×720
  • Çıkarım sırasında çözünürlük genişletme: 960×960 ve çeşitli en-boy oranları desteği
  • Zamansal tutarlılığın korunması: Kareler arasında doğal geçişler sağlanıyor
  • Ses-video senkron kalitesi: Senkron kalitesi, ses rehberlik ölçeği ayarlanarak kontrol edilebiliyor

Çalıştırma ve yapılandırma

  • Kurulum adımları
    • PyTorch 2.6.0, Flash Attention ve requirements.txt bağımlılıklarının kurulması
    • download_weights.py ile checkpoint indirme (T5, VAE, MMAudio dahil)
    • GPU VRAM'i 24GB ise fp8 veya qint8 nicemleme sürümleri kullanılabilir
  • Çıkarım yapılandırma dosyası: ovi/configs/inference/inference_fusion.yaml
    • Başlıca yapılandırma öğeleri:
      • num_steps: denoising adım sayısı (30~50)
      • audio_guidance_scale, video_guidance_scale: ses-video senkronizasyon gücü
      • sp_size: dizi paralelliği boyutu (GPU sayısıyla aynı olacak şekilde ayarlanır)
      • cpu_offload: GPU VRAM tasarruf modu
      • fp8: 24GB VRAM ortamında çalıştırılabilir
  • Çıkarım çalıştırma örnekleri
    • Tek GPU: python3 inference.py --config-file ...
    • Çoklu GPU: torchrun --nnodes 1 --nproc_per_node 8 inference.py ...

Performans ve bellek gereksinimleri

  • Temel modeli çalıştırmak için en az 32GB VRAM gerekiyor; fp8 modunda 24GB yeterli olabiliyor
  • FlashAttention-3 etkinleştirildiğinde işlem hızı artıyor
  • Dizi paralel işleme ile 4~8 GPU kullanıldığında işlem süresi 40~55 saniye düzeyinde
  • CPU offloading ile VRAM tasarrufu sağlanabiliyor, ancak işlem süresi yaklaşık 20 saniye artıyor

Gradio UI çalıştırma

  • Basit bir komutla Gradio tabanlı arayüz çalıştırılabiliyor
    • python3 gradio_app.py
    • --cpu_offload, --use_image_gen, --qint8, --fp8 seçenekleriyle farklı ortamlar destekleniyor
  • I2V modunda, ilk kareyi üretmek için görsel üretim modeli otomatik olarak etkinleştiriliyor

Prompt yapısı ve örnekler

  • Text-to-Audio-Video (T2AV): example_prompts/gpt_examples_t2v.csv
  • Image-to-Audio-Video (I2AV): example_prompts/gpt_examples_i2v.csv
  • Özel etiket kullanımı
    • ...: ses dönüşümü için metin
    • ...: arka plan sesi ve ses efektlerinin açıklaması
  • GPT ile prompt oluşturma
    • Örnek CSV'lere dayanarak GPT'den belirli bir tema için (ör. “AI ve insanın karşılaşması”) diyalogları düzenlemesi istenebilir
    • Düzenlenmiş prompt Ovi'ye verilerek tema tabanlı video üretimi yapılabilir

Gelecek planları (Todo List)

  • Araştırma makalesi ve demo web sitesinin yayımlanması planlanıyor
  • 11B model checkpoint'i ve çoklu GPU çıkarım kodu yayımlanacak
  • fp8 ağırlıkları, dizi paralelliği verimliliğinde iyileştirme ve FSDP sharding çıkarımı uygulanacak
  • Yüksek çözünürlüklü veri fine-tuning'i ve RL tabanlı performans iyileştirmesi üzerine çalışmalar sürüyor
  • Uzun video üretimi, referans ses koşullandırması ve çıkarım hızını artırmak için distilled model geliştirilmesi planlanıyor

Teknik teşekkür ve iş birliği

  • Wan2.2: video dalını başlatmak için kullanıldı
  • MMAudio: ses VAE'si yeniden kullanıldı
  • Katkıda bulunanlar: @rkfg (fp8 verimliliği), @gluttony-10 (qint8 nicemleme)
  • İş birliği önerileri ve iletişim: Weimin Wang ile iletişime geçilebilir

Atıf bilgisi

  • Makale: Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation
  • arXiv: https://arxiv.org/abs/2510.01284
  • BibTeX sağlanıyor; araştırmada kullanım durumunda atıf öneriliyor

Proje meta verileri

  • Lisans: Apache-2.0
  • Dil dağılımı: Python 96.3%, CUDA 2.1%, C 1.4%, C++ 0.2%
  • GitHub istatistikleri: ★955, fork 92, issue 20, PR 2
  • Geliştiriciler: Character AI ekibi, Yale University araştırmacıları

1 yorum

 
GN⁺ 2025-10-24
Hacker News görüşü
  • Aylardır AI üretim araçlarıyla uğraşıyorum; her bir aracın hızla tek bir yapıda birleşip yerel makinelerde de kullanılabilir hale gelmesi şaşırtıcı
    Geçen haftadan beri Ovi’yi deniyorum ve gerçekten çok eğlenceli. AI üretimleri bir tür slot makinesi gibi; iyi bir girdi verseniz bile sonuç berbat olabiliyor, ama birkaç kez çalıştırınca işe yarar bir şey çıkıyor
    I2V ve T2V ile oldukça gerçek gibi görünen ve duyulan videolar ürettim. T2V bazen 90’ların TV görüntü kalitesi gibi duruyor ama bu da ironik biçimde daha gerçekçi hissettiriyor
    Görsel kaynak olarak Flux SPRO kullanınca oldukça gerçekçi videolar çıkıyor. GPU’m 5090 ve 5 saniyelik bir klip üretmek yaklaşık 4-5 dakika sürüyor

  • Video modelinin Wan 2.2 tabanlı olduğu anlaşılıyor
    Son dönemde Wan etrafında çok hareket var ve OpenAI ya da Runway gibi büyük sermayeli kapalı modellere karşı esnek açık modellerin ortaya çıkması sevindirici

    • VeniceAI’nin sunduğu gizlilik odaklı açık kaynak video modelleri öne çıkıyor. Ovi image→video, Wan 2.1 image→video, Wan 2.2 ise text→video destekliyor
      Wan 2.5 de var ama resmi sağlayıcı üzerinden anonim yönlendirmeyle sunuluyor. Kling, Veo, Sora gibi aracılı seçeneklere göre çok daha ucuz
    • İlgili tartışma Wan – Open-source alternative to VEO 3 başlığında da ele alınmıştı
    • Ayrıca Google da bunun bir parçası
  • Eskiden Nokia’nın Ovi biriminde çalışmıştım. O dönemde Ovi, Nokia telefonları için GSuite benzeri bir kavramdı ve resmi açıklama “Ovi Fince’de kapı (Door) demek” şeklindeydi, ama şirket içi şakada “Macarca’da anaokulu (Kindergarten)” denirdi. Bu Ovi adının kökenini ise bulamadım

    • Ben de Ovi ile ilgili bir projede çalışmıştım. Helsinki merkezindeki ilk toplantılarda yöneticilerin Google’ı rakip olarak konumlandırmak istediğini duymuştum; oldukça iddialı bir girişimdi
      Ama marka stratejisinin eksikliği ve başarısız cihaz yazılımı politikalarına sıkışıp kaldı ve sonunda çöktü. Muhtemelen 2013 civarında tamamen sona erdi. O sırada ben zaten şirketten ayrılmıştım
  • Sanırım kulaklarım AutoTune öncesi nesilden olduğu için, seste hâlâ kusursuz pitch ve compression/companding izleri duyuyorum
    Özellikle Invincible serisindeki Machine Head karakterinin sesine benziyor
    Yine de genel olarak harika bir iş

  • Projenin kendisi ilginç, ama üretken görsel-işitsel içeriğin pratik faydası konusunda hâlâ emin değilim
    Şu an için faydasından çok uğraştırıcı tarafı var gibi görünüyor

  • Bu hızla giderse birkaç ay içinde yüksek kaliteli kısa filmler tamamen üretken yöntemlerle yapılabilir gibi görünüyor

    • Ama aynı ölçüde deepfake kötüye kullanımı yüzünden insanların hayatının mahvolduğu örnekler de görebiliriz
    • Hatta arkadaşların bir araya gelip herkesin kendi prompt’unu yazdığı ve bunların birleştirilmesiyle oluşan bir filmi birlikte izlediği bir prompt partisi geleceği bile olabilir. Düşünmesi bile komik
    • Yine de kısa filmden önce uzun metrajlı filmlerin gelme ihtimalinin daha yüksek olduğunu düşünüyorum. Çünkü video ne kadar kısaysa kaliteyi tutturmak o kadar zor
  • Bu projelerin birbiriyle bağlantılı olup olmadığını merak edip bu başlığı ve şu başlığı karşılaştırdım

    • Yeni bir açık ağırlıklı model çıktığında, fırsatçılar o isimle alan adı kaydedip SEO üzerinden para kazanmaya çalışıyor
      Bugünlerde AI kodlama araçları sayesinde bu tür landing page otomatik üretimi çok daha kolaylaştı
  • I2V için, NVIDIA 4070 ve üzeri GPU ile yeterli VRAM varsa 440x440 çözünürlükte 1-2 dakika içinde kullanılabilir bir taslak elde edebilirsiniz
    T2V’de kalite şu an hâlâ yalnızca eğitildiği çözünürlük civarında istikrarlı. Yine de Wan’ın bilinen çözünürlüklerinde ara sıra iyi sonuçlar geliyor
    CUDA 12.8 ve üzeri, Torch 2.8 ve üzeri kullanıldığında ve Flash 2 yerine SageAttention tercih edildiğinde kalite belirgin şekilde artıyor

  • İlginç bir gelişme ama bunun CAI gibi bir şirketin eline geçmiş olması üzücü
    Genç ve yalnız insanları hedef almak için AI kullanıyor