- Character AI tarafından geliştirilen Ovi, metin veya görsel girdilerden eşzamanlı olarak ses ve video üreten bir yapay zeka modeli
- Ovi, şirket içinde oluşturulmuş 5B ölçekli bir ses dalını ve Wan2.2 tabanlı video dalını birleştirerek yüksek kaliteli, senkronize görsel-işitsel içerik üretiyor
- Model 720×720 çözünürlükte eğitildi, ancak 960×960 ve üzeri çözünürlüklerde de doğal sonuçlar üretiyor ve çeşitli en-boy oranlarını (9:16, 16:9 vb.) destekliyor
- Gradio UI, ComfyUI entegrasyonu (WIP), çoklu GPU çıkarımı, qint8/fp8 niceleme gibi çeşitli çalıştırma seçenekleri ve verimlilik özellikleri sunuyor
- Bu proje, metinden videoya üretim (T2V) ve görselden videoya üretim (I2V) teknolojilerindeki son gelişmelerden biri olarak ses-video füzyonlu üretim için yeni bir standart ortaya koyuyor
Ovi'ye genel bakış
- Ovi, Character AI ile Yale University araştırmacıları tarafından ortak geliştirilen bir çapraz modal üretim modeli olup, metin veya metin+görsel girdilerden senkronize ses ve videoyu aynı anda üreten bir sistem
- Model mimarisi “Twin Backbone Cross-Modal Fusion” olarak adlandırılıyor ve ses ile video dallarını paralel biçimde eğitip birleştiren bir yaklaşım kullanıyor
- Proje lideri Weimin Wang, ortak katkı sunanlar ise Chetwin Low ve Calder Katyal
- Veo-3 benzeri bir model olarak tanıtılıyor; Character AI'nin dahili ses veri kümesini kullanarak 5B parametre ölçeğinde bir ses dalı sıfırdan önceden eğitilmiş
- Üretilen videolar varsayılan olarak 5 saniye uzunluğunda, 24FPS, 720×720 çözünürlükte ve 9:16, 16:9, 1:1 gibi çeşitli oranları destekliyor
Başlıca işlevler ve özellikler
- 🎬 Video+Audio Generation: Metin veya görsel girdilerden aynı anda ses ve video üretimi
- 🎵 High-Quality Audio Branch: Şirket içinde oluşturulmuş büyük ölçekli bir ses veri kümesiyle eğitilmiş ses dalı
- 📝 Flexible Input: Yalnızca metin veya metin+görsel girdilerinin ikisini de destekler
- ⏱️ 5 saniyelik video üretimi: 24FPS hızında 5 saniyelik kısa video üretimi
- 🎯 yüksek çözünürlük desteği: 960×960 ve üzeri çözünürlüklerde de doğal sonuçlar üretilebilir
- Örnek olarak 1280×704, 1504×608, 1344×704 gibi farklı oranlarda videolar sunuluyor
- 🚀 upscaling yeteneği: Eğitim 720×720'de yapılmış olsa da yüksek çözünürlükte zamansal ve mekânsal tutarlılık korunuyor
Kullanılabilen platformlar ve demolar
- Wavespeed.ai üzerinde metin→video ve görsel→video üretimi yapılabiliyor
- HuggingFace Spaces üzerinde de demo sunuluyor
- ComfyUI entegrasyonu (WIP):
ComfyUI-WanVideoWrapper üzerinden Ovi modelini iş akışlarına entegre etmek mümkün
Eğitim ve performans
- Eğitim çözünürlüğü: 720×720
- Çıkarım sırasında çözünürlük genişletme: 960×960 ve çeşitli en-boy oranları desteği
- Zamansal tutarlılığın korunması: Kareler arasında doğal geçişler sağlanıyor
- Ses-video senkron kalitesi: Senkron kalitesi, ses rehberlik ölçeği ayarlanarak kontrol edilebiliyor
Çalıştırma ve yapılandırma
- Kurulum adımları
- PyTorch 2.6.0, Flash Attention ve requirements.txt bağımlılıklarının kurulması
download_weights.py ile checkpoint indirme (T5, VAE, MMAudio dahil)
- GPU VRAM'i 24GB ise
fp8 veya qint8 nicemleme sürümleri kullanılabilir
- Çıkarım yapılandırma dosyası:
ovi/configs/inference/inference_fusion.yaml
- Başlıca yapılandırma öğeleri:
num_steps: denoising adım sayısı (30~50)
audio_guidance_scale, video_guidance_scale: ses-video senkronizasyon gücü
sp_size: dizi paralelliği boyutu (GPU sayısıyla aynı olacak şekilde ayarlanır)
cpu_offload: GPU VRAM tasarruf modu
fp8: 24GB VRAM ortamında çalıştırılabilir
- Çıkarım çalıştırma örnekleri
- Tek GPU:
python3 inference.py --config-file ...
- Çoklu GPU:
torchrun --nnodes 1 --nproc_per_node 8 inference.py ...
Performans ve bellek gereksinimleri
- Temel modeli çalıştırmak için en az 32GB VRAM gerekiyor; fp8 modunda 24GB yeterli olabiliyor
- FlashAttention-3 etkinleştirildiğinde işlem hızı artıyor
- Dizi paralel işleme ile 4~8 GPU kullanıldığında işlem süresi 40~55 saniye düzeyinde
- CPU offloading ile VRAM tasarrufu sağlanabiliyor, ancak işlem süresi yaklaşık 20 saniye artıyor
Gradio UI çalıştırma
- Basit bir komutla Gradio tabanlı arayüz çalıştırılabiliyor
python3 gradio_app.py
--cpu_offload, --use_image_gen, --qint8, --fp8 seçenekleriyle farklı ortamlar destekleniyor
- I2V modunda, ilk kareyi üretmek için görsel üretim modeli otomatik olarak etkinleştiriliyor
Prompt yapısı ve örnekler
- Text-to-Audio-Video (T2AV):
example_prompts/gpt_examples_t2v.csv
- Image-to-Audio-Video (I2AV):
example_prompts/gpt_examples_i2v.csv
- Özel etiket kullanımı
...: ses dönüşümü için metin
...: arka plan sesi ve ses efektlerinin açıklaması
- GPT ile prompt oluşturma
- Örnek CSV'lere dayanarak GPT'den belirli bir tema için (ör. “AI ve insanın karşılaşması”) diyalogları düzenlemesi istenebilir
- Düzenlenmiş prompt Ovi'ye verilerek tema tabanlı video üretimi yapılabilir
Gelecek planları (Todo List)
- Araştırma makalesi ve demo web sitesinin yayımlanması planlanıyor
- 11B model checkpoint'i ve çoklu GPU çıkarım kodu yayımlanacak
- fp8 ağırlıkları, dizi paralelliği verimliliğinde iyileştirme ve FSDP sharding çıkarımı uygulanacak
- Yüksek çözünürlüklü veri fine-tuning'i ve RL tabanlı performans iyileştirmesi üzerine çalışmalar sürüyor
- Uzun video üretimi, referans ses koşullandırması ve çıkarım hızını artırmak için distilled model geliştirilmesi planlanıyor
Teknik teşekkür ve iş birliği
- Wan2.2: video dalını başlatmak için kullanıldı
- MMAudio: ses VAE'si yeniden kullanıldı
- Katkıda bulunanlar: @rkfg (fp8 verimliliği), @gluttony-10 (qint8 nicemleme)
- İş birliği önerileri ve iletişim: Weimin Wang ile iletişime geçilebilir
Atıf bilgisi
- Makale: Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation
- arXiv: https://arxiv.org/abs/2510.01284
- BibTeX sağlanıyor; araştırmada kullanım durumunda atıf öneriliyor
Proje meta verileri
- Lisans: Apache-2.0
- Dil dağılımı: Python 96.3%, CUDA 2.1%, C 1.4%, C++ 0.2%
- GitHub istatistikleri: ★955, fork 92, issue 20, PR 2
- Geliştiriciler: Character AI ekibi, Yale University araştırmacıları
1 yorum
Hacker News görüşü
Aylardır AI üretim araçlarıyla uğraşıyorum; her bir aracın hızla tek bir yapıda birleşip yerel makinelerde de kullanılabilir hale gelmesi şaşırtıcı
Geçen haftadan beri Ovi’yi deniyorum ve gerçekten çok eğlenceli. AI üretimleri bir tür slot makinesi gibi; iyi bir girdi verseniz bile sonuç berbat olabiliyor, ama birkaç kez çalıştırınca işe yarar bir şey çıkıyor
I2V ve T2V ile oldukça gerçek gibi görünen ve duyulan videolar ürettim. T2V bazen 90’ların TV görüntü kalitesi gibi duruyor ama bu da ironik biçimde daha gerçekçi hissettiriyor
Görsel kaynak olarak Flux SPRO kullanınca oldukça gerçekçi videolar çıkıyor. GPU’m 5090 ve 5 saniyelik bir klip üretmek yaklaşık 4-5 dakika sürüyor
Video modelinin Wan 2.2 tabanlı olduğu anlaşılıyor
Son dönemde Wan etrafında çok hareket var ve OpenAI ya da Runway gibi büyük sermayeli kapalı modellere karşı esnek açık modellerin ortaya çıkması sevindirici
Wan 2.5 de var ama resmi sağlayıcı üzerinden anonim yönlendirmeyle sunuluyor. Kling, Veo, Sora gibi aracılı seçeneklere göre çok daha ucuz
Eskiden Nokia’nın Ovi biriminde çalışmıştım. O dönemde Ovi, Nokia telefonları için GSuite benzeri bir kavramdı ve resmi açıklama “Ovi Fince’de kapı (Door) demek” şeklindeydi, ama şirket içi şakada “Macarca’da anaokulu (Kindergarten)” denirdi. Bu Ovi adının kökenini ise bulamadım
Ama marka stratejisinin eksikliği ve başarısız cihaz yazılımı politikalarına sıkışıp kaldı ve sonunda çöktü. Muhtemelen 2013 civarında tamamen sona erdi. O sırada ben zaten şirketten ayrılmıştım
Sanırım kulaklarım AutoTune öncesi nesilden olduğu için, seste hâlâ kusursuz pitch ve compression/companding izleri duyuyorum
Özellikle Invincible serisindeki Machine Head karakterinin sesine benziyor
Yine de genel olarak harika bir iş
Projenin kendisi ilginç, ama üretken görsel-işitsel içeriğin pratik faydası konusunda hâlâ emin değilim
Şu an için faydasından çok uğraştırıcı tarafı var gibi görünüyor
Bu hızla giderse birkaç ay içinde yüksek kaliteli kısa filmler tamamen üretken yöntemlerle yapılabilir gibi görünüyor
Bu projelerin birbiriyle bağlantılı olup olmadığını merak edip bu başlığı ve şu başlığı karşılaştırdım
Bugünlerde AI kodlama araçları sayesinde bu tür landing page otomatik üretimi çok daha kolaylaştı
I2V için, NVIDIA 4070 ve üzeri GPU ile yeterli VRAM varsa 440x440 çözünürlükte 1-2 dakika içinde kullanılabilir bir taslak elde edebilirsiniz
T2V’de kalite şu an hâlâ yalnızca eğitildiği çözünürlük civarında istikrarlı. Yine de Wan’ın bilinen çözünürlüklerinde ara sıra iyi sonuçlar geliyor
CUDA 12.8 ve üzeri, Torch 2.8 ve üzeri kullanıldığında ve Flash 2 yerine SageAttention tercih edildiğinde kalite belirgin şekilde artıyor
İlginç bir gelişme ama bunun CAI gibi bir şirketin eline geçmiş olması üzücü
Genç ve yalnız insanları hedef almak için AI kullanıyor