Ovi - Ses-Video Üretimi için İkiz Omurga Çapraz Modal Füzyon

(github.com/character-ai)

1 puan yazan GN⁺ 2025-10-24 | 1 yorum | WhatsApp'ta paylaş

Character AI tarafından geliştirilen Ovi, metin veya görsel girdilerden eşzamanlı olarak ses ve video üreten bir yapay zeka modeli
Ovi, şirket içinde oluşturulmuş 5B ölçekli bir ses dalını ve Wan2.2 tabanlı video dalını birleştirerek yüksek kaliteli, senkronize görsel-işitsel içerik üretiyor
Model 720×720 çözünürlükte eğitildi, ancak 960×960 ve üzeri çözünürlüklerde de doğal sonuçlar üretiyor ve çeşitli en-boy oranlarını (9:16, 16:9 vb.) destekliyor
Gradio UI, ComfyUI entegrasyonu (WIP), çoklu GPU çıkarımı, qint8/fp8 niceleme gibi çeşitli çalıştırma seçenekleri ve verimlilik özellikleri sunuyor
Bu proje, metinden videoya üretim (T2V) ve görselden videoya üretim (I2V) teknolojilerindeki son gelişmelerden biri olarak ses-video füzyonlu üretim için yeni bir standart ortaya koyuyor

Ovi'ye genel bakış

Ovi, Character AI ile Yale University araştırmacıları tarafından ortak geliştirilen bir çapraz modal üretim modeli olup, metin veya metin+görsel girdilerden senkronize ses ve videoyu aynı anda üreten bir sistem
- Model mimarisi “Twin Backbone Cross-Modal Fusion” olarak adlandırılıyor ve ses ile video dallarını paralel biçimde eğitip birleştiren bir yaklaşım kullanıyor
- Proje lideri Weimin Wang, ortak katkı sunanlar ise Chetwin Low ve Calder Katyal
Veo-3 benzeri bir model olarak tanıtılıyor; Character AI'nin dahili ses veri kümesini kullanarak 5B parametre ölçeğinde bir ses dalı sıfırdan önceden eğitilmiş
Üretilen videolar varsayılan olarak 5 saniye uzunluğunda, 24FPS, 720×720 çözünürlükte ve 9:16, 16:9, 1:1 gibi çeşitli oranları destekliyor

Başlıca işlevler ve özellikler

🎬 Video+Audio Generation: Metin veya görsel girdilerden aynı anda ses ve video üretimi
🎵 High-Quality Audio Branch: Şirket içinde oluşturulmuş büyük ölçekli bir ses veri kümesiyle eğitilmiş ses dalı
📝 Flexible Input: Yalnızca metin veya metin+görsel girdilerinin ikisini de destekler
⏱️ 5 saniyelik video üretimi: 24FPS hızında 5 saniyelik kısa video üretimi
🎯 yüksek çözünürlük desteği: 960×960 ve üzeri çözünürlüklerde de doğal sonuçlar üretilebilir
- Örnek olarak 1280×704, 1504×608, 1344×704 gibi farklı oranlarda videolar sunuluyor
🚀 upscaling yeteneği: Eğitim 720×720'de yapılmış olsa da yüksek çözünürlükte zamansal ve mekânsal tutarlılık korunuyor

Kullanılabilen platformlar ve demolar

Wavespeed.ai üzerinde metin→video ve görsel→video üretimi yapılabiliyor
- https://wavespeed.ai/models/character-ai/ovi/image-to-video
- https://wavespeed.ai/models/character-ai/ovi/text-to-video
HuggingFace Spaces üzerinde de demo sunuluyor
- https://huggingface.co/spaces/akhaliq/Ovi
ComfyUI entegrasyonu (WIP): ComfyUI-WanVideoWrapper üzerinden Ovi modelini iş akışlarına entegre etmek mümkün

Eğitim ve performans

Eğitim çözünürlüğü: 720×720
Çıkarım sırasında çözünürlük genişletme: 960×960 ve çeşitli en-boy oranları desteği
Zamansal tutarlılığın korunması: Kareler arasında doğal geçişler sağlanıyor
Ses-video senkron kalitesi: Senkron kalitesi, ses rehberlik ölçeği ayarlanarak kontrol edilebiliyor

Çalıştırma ve yapılandırma

Kurulum adımları
- PyTorch 2.6.0, Flash Attention ve requirements.txt bağımlılıklarının kurulması
- download_weights.py ile checkpoint indirme (T5, VAE, MMAudio dahil)
- GPU VRAM'i 24GB ise fp8 veya qint8 nicemleme sürümleri kullanılabilir
Çıkarım yapılandırma dosyası: ovi/configs/inference/inference_fusion.yaml
- Başlıca yapılandırma öğeleri:
  - num_steps: denoising adım sayısı (30~50)
  - audio_guidance_scale, video_guidance_scale: ses-video senkronizasyon gücü
  - sp_size: dizi paralelliği boyutu (GPU sayısıyla aynı olacak şekilde ayarlanır)
  - cpu_offload: GPU VRAM tasarruf modu
  - fp8: 24GB VRAM ortamında çalıştırılabilir
Çıkarım çalıştırma örnekleri
- Tek GPU: python3 inference.py --config-file ...
- Çoklu GPU: torchrun --nnodes 1 --nproc_per_node 8 inference.py ...

Performans ve bellek gereksinimleri

Temel modeli çalıştırmak için en az 32GB VRAM gerekiyor; fp8 modunda 24GB yeterli olabiliyor
FlashAttention-3 etkinleştirildiğinde işlem hızı artıyor
Dizi paralel işleme ile 4~8 GPU kullanıldığında işlem süresi 40~55 saniye düzeyinde
CPU offloading ile VRAM tasarrufu sağlanabiliyor, ancak işlem süresi yaklaşık 20 saniye artıyor

Gradio UI çalıştırma

Basit bir komutla Gradio tabanlı arayüz çalıştırılabiliyor
- python3 gradio_app.py
- --cpu_offload, --use_image_gen, --qint8, --fp8 seçenekleriyle farklı ortamlar destekleniyor
I2V modunda, ilk kareyi üretmek için görsel üretim modeli otomatik olarak etkinleştiriliyor

Prompt yapısı ve örnekler

Text-to-Audio-Video (T2AV): example_prompts/gpt_examples_t2v.csv
Image-to-Audio-Video (I2AV): example_prompts/gpt_examples_i2v.csv
Özel etiket kullanımı
- ...: ses dönüşümü için metin
- ...: arka plan sesi ve ses efektlerinin açıklaması
GPT ile prompt oluşturma
- Örnek CSV'lere dayanarak GPT'den belirli bir tema için (ör. “AI ve insanın karşılaşması”) diyalogları düzenlemesi istenebilir
- Düzenlenmiş prompt Ovi'ye verilerek tema tabanlı video üretimi yapılabilir

Gelecek planları (Todo List)

Araştırma makalesi ve demo web sitesinin yayımlanması planlanıyor
11B model checkpoint'i ve çoklu GPU çıkarım kodu yayımlanacak
fp8 ağırlıkları, dizi paralelliği verimliliğinde iyileştirme ve FSDP sharding çıkarımı uygulanacak
Yüksek çözünürlüklü veri fine-tuning'i ve RL tabanlı performans iyileştirmesi üzerine çalışmalar sürüyor
Uzun video üretimi, referans ses koşullandırması ve çıkarım hızını artırmak için distilled model geliştirilmesi planlanıyor

Teknik teşekkür ve iş birliği

Wan2.2: video dalını başlatmak için kullanıldı
MMAudio: ses VAE'si yeniden kullanıldı
Katkıda bulunanlar: @rkfg (fp8 verimliliği), @gluttony-10 (qint8 nicemleme)
İş birliği önerileri ve iletişim: Weimin Wang ile iletişime geçilebilir

Atıf bilgisi

Makale: Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation
arXiv: https://arxiv.org/abs/2510.01284
BibTeX sağlanıyor; araştırmada kullanım durumunda atıf öneriliyor

Proje meta verileri

Lisans: Apache-2.0
Dil dağılımı: Python 96.3%, CUDA 2.1%, C 1.4%, C++ 0.2%
GitHub istatistikleri: ★955, fork 92, issue 20, PR 2
Geliştiriciler: Character AI ekibi, Yale University araştırmacıları

1 yorum

GN⁺ 2025-10-24

Hacker News görüşü

Aylardır AI üretim araçlarıyla uğraşıyorum; her bir aracın hızla tek bir yapıda birleşip yerel makinelerde de kullanılabilir hale gelmesi şaşırtıcı
Geçen haftadan beri Ovi’yi deniyorum ve gerçekten çok eğlenceli. AI üretimleri bir tür slot makinesi gibi; iyi bir girdi verseniz bile sonuç berbat olabiliyor, ama birkaç kez çalıştırınca işe yarar bir şey çıkıyor
I2V ve T2V ile oldukça gerçek gibi görünen ve duyulan videolar ürettim. T2V bazen 90’ların TV görüntü kalitesi gibi duruyor ama bu da ironik biçimde daha gerçekçi hissettiriyor
Görsel kaynak olarak Flux SPRO kullanınca oldukça gerçekçi videolar çıkıyor. GPU’m 5090 ve 5 saniyelik bir klip üretmek yaklaşık 4-5 dakika sürüyor
Video modelinin Wan 2.2 tabanlı olduğu anlaşılıyor
Son dönemde Wan etrafında çok hareket var ve OpenAI ya da Runway gibi büyük sermayeli kapalı modellere karşı esnek açık modellerin ortaya çıkması sevindirici
- VeniceAI’nin sunduğu gizlilik odaklı açık kaynak video modelleri öne çıkıyor. Ovi image→video, Wan 2.1 image→video, Wan 2.2 ise text→video destekliyor
  Wan 2.5 de var ama resmi sağlayıcı üzerinden anonim yönlendirmeyle sunuluyor. Kling, Veo, Sora gibi aracılı seçeneklere göre çok daha ucuz
- İlgili tartışma Wan – Open-source alternative to VEO 3 başlığında da ele alınmıştı
- Ayrıca Google da bunun bir parçası
Eskiden Nokia’nın Ovi biriminde çalışmıştım. O dönemde Ovi, Nokia telefonları için GSuite benzeri bir kavramdı ve resmi açıklama “Ovi Fince’de kapı (Door) demek” şeklindeydi, ama şirket içi şakada “Macarca’da anaokulu (Kindergarten)” denirdi. Bu Ovi adının kökenini ise bulamadım
- Ben de Ovi ile ilgili bir projede çalışmıştım. Helsinki merkezindeki ilk toplantılarda yöneticilerin Google’ı rakip olarak konumlandırmak istediğini duymuştum; oldukça iddialı bir girişimdi
  Ama marka stratejisinin eksikliği ve başarısız cihaz yazılımı politikalarına sıkışıp kaldı ve sonunda çöktü. Muhtemelen 2013 civarında tamamen sona erdi. O sırada ben zaten şirketten ayrılmıştım
Sanırım kulaklarım AutoTune öncesi nesilden olduğu için, seste hâlâ kusursuz pitch ve compression/companding izleri duyuyorum
Özellikle Invincible serisindeki Machine Head karakterinin sesine benziyor
Yine de genel olarak harika bir iş
Projenin kendisi ilginç, ama üretken görsel-işitsel içeriğin pratik faydası konusunda hâlâ emin değilim
Şu an için faydasından çok uğraştırıcı tarafı var gibi görünüyor
Bu hızla giderse birkaç ay içinde yüksek kaliteli kısa filmler tamamen üretken yöntemlerle yapılabilir gibi görünüyor
- Ama aynı ölçüde deepfake kötüye kullanımı yüzünden insanların hayatının mahvolduğu örnekler de görebiliriz
- Hatta arkadaşların bir araya gelip herkesin kendi prompt’unu yazdığı ve bunların birleştirilmesiyle oluşan bir filmi birlikte izlediği bir prompt partisi geleceği bile olabilir. Düşünmesi bile komik
- Yine de kısa filmden önce uzun metrajlı filmlerin gelme ihtimalinin daha yüksek olduğunu düşünüyorum. Çünkü video ne kadar kısaysa kaliteyi tutturmak o kadar zor
Bu projelerin birbiriyle bağlantılı olup olmadığını merak edip bu başlığı ve şu başlığı karşılaştırdım
- Yeni bir açık ağırlıklı model çıktığında, fırsatçılar o isimle alan adı kaydedip SEO üzerinden para kazanmaya çalışıyor
  Bugünlerde AI kodlama araçları sayesinde bu tür landing page otomatik üretimi çok daha kolaylaştı
I2V için, NVIDIA 4070 ve üzeri GPU ile yeterli VRAM varsa 440x440 çözünürlükte 1-2 dakika içinde kullanılabilir bir taslak elde edebilirsiniz
T2V’de kalite şu an hâlâ yalnızca eğitildiği çözünürlük civarında istikrarlı. Yine de Wan’ın bilinen çözünürlüklerinde ara sıra iyi sonuçlar geliyor
CUDA 12.8 ve üzeri, Torch 2.8 ve üzeri kullanıldığında ve Flash 2 yerine SageAttention tercih edildiğinde kalite belirgin şekilde artıyor
İlginç bir gelişme ama bunun CAI gibi bir şirketin eline geçmiş olması üzücü
Genç ve yalnız insanları hedef almak için AI kullanıyor

Ovi - Ses-Video Üretimi için İkiz Omurga Çapraz Modal Füzyon

Ovi'ye genel bakış

Başlıca işlevler ve özellikler

Kullanılabilen platformlar ve demolar

Eğitim ve performans

Çalıştırma ve yapılandırma

Performans ve bellek gereksinimleri

Gradio UI çalıştırma

Prompt yapısı ve örnekler

Gelecek planları (Todo List)

Teknik teşekkür ve iş birliği

Atıf bilgisi

Proje meta verileri

İlgili okumalar

1 yorum

Hacker News görüşü