- AV2, Alliance for Open Media tarafından geliştirilen yeni nesil açık video codec’i olup, 5 yıllık geliştirmenin ardından nihai spesifikasyonun 2025 sonlarında açıklanmasına hazırlanıyor
- Test sonuçlarına göre AV2, aynı görüntü kalitesinde AV1’e kıyasla yaklaşık %30 daha düşük bitrate sağlıyor ve VMAF ölçütünde %32,59 iyileşme kaydediyor
- Verimliliği, yapay zeka tabanlı yeniliklerden çok matematiksel optimizasyon ve algoritma iyileştirmeleriyle artırması öne çıkıyor
- 256×256 süperblok, tam özyinelemeli bölme, veri tabanlı tahmin modları, TIP(Temporal Interpolation) gibi özelliklerle yüksek çözünürlük ve hızlı hareket işleme performansı iyileştiriliyor
- Donanım verimliliği doğrulaması tamamlandı; bundan sonraki geliştirme odağının encoder optimizasyonu ve yapay zeka destekli profil genişlemesi olması bekleniyor
AV2 geliştirme durumu
- AV2, AV1’in hibrit blok tabanlı yapısını korurken daha büyük 256×256 süperbloklar ve tam özyinelemeli bölme yöntemini benimsiyor
- Luma ve chroma bölmelerini ayırarak daha hassas tahmin yapılmasını sağlıyor
- Tahmin sistemi; veri tabanlı intra modları, geliştirilmiş chroma-from-luma modellemesi ve en fazla 7 referans kare kullanan sıralamalı referans sistemi içeriyor
- TIP(Temporal Interpolation Prediction) özelliği eklenerek hızlı hareket eden veya yüksek çözünürlüklü sahnelerde hareket telafisi verimliliği artırılıyor
Kalite ve sıkıştırma verimliliği
- Netflix’ten Andrey Norkin, PSNR-YUV ölçütünde %28,63, VMAF ölçütünde %32,59 bitrate tasarrufu doğrulandığını açıkladı
- VMAF(Video Multi-Method Assessment Fusion), Netflix tarafından geliştirilen ve öznel görüntü kalitesi değerlendirmesini yansıtan bir video kalite ölçüm metriğidir
- Bu iyileştirmeler, yapay zekadan değil matematiksel modelleme ve algoritma inovasyonundan kaynaklanıyor; AOM grubu yapay zeka genişleme olasılığından söz etse de codec’in kendisi geleneksel yaklaşımlara dayanıyor
Dönüşüm ve kuantizasyon sistemi
- Birleşik üstel kuantizer(exponential quantizer) kullanıma alınarak 8, 10 ve 12 bit videolar daha geniş bir aralık ve daha yüksek hassasiyetle destekleniyor
- Trellis tabanlı kuantizasyon ve kullanıcı tanımlı matrisler sayesinde düşük bitrate’te bile ayrıntılı kontrol sağlanabiliyor
- Öğrenme tabanlı dönüşüm(transform) ve çapraz bileşen dönüşümü, dokuyu korurken sıkıştırma kaynaklı bozulmaları(artifact) azaltıyor
- Katsayı kodlama(coefficient coding), ekran içeriği ve karma içerik için iyileştirildi
Filtreleme ve son işleme
- Birleştirilmiş genel amaçlı deblocker, ince dokuyu daha iyi korurken,
Guided Detail Filter ve Cross-Component Sample Offset gibi yeni filtrelerle gürültü giderme performansı artırılıyor
- Film grain synthesis, daha esnek biçimde uygulanabiliyor
- Çok katmanlı video(multi-layer) ve stereo video desteğiyle yeni nesil multimedya formatlarına uyum sağlanıyor
Gelecek planları
- Tüm AV2 araçlarında donanım verimliliği doğrulaması tamamlandı
- Bir sonraki aşama, encoder optimizasyonu ile yüksek bit derinliği ve yapay zeka genişleme profilleri geliştirmeye odaklanacak
- Nihai spesifikasyonun 2025 sonlarında açıklanması planlanıyor; bunun ardından başlıca platformlar ve streaming servislerinde kademeli ticarileşme bekleniyor
3 yorum
AV1 adının tuhaf olduğunu düşünmüştüm, meğerse her şey planlıymış...
AV1 ile biter sanmıştım ama daha da gelişme ihtimali varmış?!
Teknoloji gerçekten de öngörülemez...
Hacker News görüşleri
Yayın servislerinin aşırı sıkıştırmayı ne zaman bırakacağını merak ediyorum. En üst seviye 4K TV ve gigabit internet kullanmama rağmen, sıkıştırma artefaktları yüzünden görüntü adeta macun gibi görünüyor. Aslında gördüğüm en iyi görüntü kalitesi, 20 yıl önce basit bir dijital antenle izlediğim zamandı. Özellikle gradyanlarda ya da filmlerin karanlık sahnelerinde sıkıştırma izleri çok belirgin oluyor. Bu arada TV'm tamamen kalibre edilmiş durumda ve en yüksek bant genişlikli yayın paketini kullanıyorum. Görsel olarak benzer örnek görüntüler buradaki bağlantıda görülebilir
Yayın servisleri açısından içerik dağıtım maliyeti devasa, üstelik içerik üretildikten sonra kalan en büyük gider de bu oluyor. Bu yüzden bitrate'i düşürmek için uç yöntemlere başvuruyorlar. Netflix'in kamera grain'ini (noise) temizleyip istemci tarafında yapay olarak üretilmiş noise ekleyen bir algoritma kullanmasının nedeni bu; YouTube Shorts'un da yakın zamanda aşırı denoise teknolojisi kullandığı bir örnek var. Noise rastgele veri olduğu için sıkıştırılması çok zordur, bu yüzden mümkün olduğunca ortadan kaldırmak isterler. Ama canlı kamerayla çekilmiş görüntüde noise'u kaldırınca çok ince detaylar da beraberinde kayboluyor. İlgili tartışma için buraya bakılabilir
Gradyanlarda ya da karanlık sahnelerde sıkıştırma izleri görmeniz, TV kalibrasyonu doğru yapılmadığında ortaya çıkan bir durumdur. Çoğu zaman contrast çok yüksek ayarlanmıştır. İnsanlar karanlık sahnelerdeki tüm detayları görmek için ayarları değiştirme eğiliminde ama aslında bazı şeylerin öyle görünmemesi gerekir. Doğru ayarlanmış bir ekranda karanlık alanlar neredeyse görünmemelidir. Çoğu codec de karanlık sahne detaylarını atacak şekilde tasarlanır. Elbette yayın servislerinin bu yaklaşımı fazla ileri götürdüğü de doğru, ama bu gerilimin bir kısmı insanların ekranlarını yanlış ayarlamasından kaynaklanıyor
Netflix, COVID öncesinde 1080P içerikler için yaklaşık 8Mbps kullanıyordu. x264/beamr ile oldukça iyiydi, HEVC ile ise daha da iyiydi. Ama COVID sonrasında tüm yayın servisleri, talep patlaması ve bant genişliği kısıtları nedeniyle görüntü kalitesini düşürdü. Sonrasında müşteriler düşük kaliteye alıştı ve tekrar yükselteceklerini sanmıyorum. Son testlere göre seviye 3~5Mbps civarında. HEVC/AV1/AV2 codec'leri H.264'e kıyasla %50'den fazla bitrate tasarrufu sağlayabiliyor ama 0.5~4Mbps bandını geçince tasarruf oranı hızla azalıyor ve yüksek bitrate'te x264 encoder daha iyi bile olabilir
Netflix gibi aşırı düşük ortalama bitrate kullananlar var ama her servis aynı değil. Örnek verilere göre Netflix'te Kate 11.15 Mbps, Disney'de Andor 15.03 Mbps, Amazon Jack Ryan 15.02 Mbps, Max'te The Last of Us 19.96 Mbps, Apple'da For All Mankind 25.12 Mbps. Daha ayrıntılı sayılar ve karşılaştırmalar bu bağlantıda görülebilir
Korsan sürüm sana daha uygun olabilir
İnsanların hâlâ video boyutunu daha da küçültmenin yollarını buluyor olması epey şaşırtıcı. Bu sadece zeki insanların fikirleri sayesinde mi, yoksa encode/decode sürecinde daha güçlü işlem gücü kullanılabildiği için mi, merak ediyorum
İkisi de doğru. Formatlar geliştikçe daha yaratıcı yöntemler uygulanabiliyor ya da daha fazla hesaplama kaynağı kullanılabiliyor. Örneğin kareler arası değişimler, "superblock" (macroblock'a benzer) birimleriyle encode edilir. Bu bloklar, kare içindeki diğer bölgeleri ya da önceki kareleri referans alarak değişimi tahmin eder. Bloğun değişen alanı ne kadar hassas biçimde tanımlanabilirse verimlilik o kadar artar. Ama blok konumunu anlatmak için de veri gerektiğinden, bu tanımı en aza indiren kısıtlayıcı kurallar vardır. AV2'de blok tanımlama yöntemi değiştiği için değişim alanlarına uydurmak kolaylaşmış ve en büyük blok boyutu da 2 katına çıktığından büyük hareketler daha az blokla daha etkili sıkıştırılabiliyor. Bunun dışında da pek çok değişiklik yapıldı ve encoder tarafındaki algoritmik yaratıcılık da gelişmeye devam ediyor. Bu tür ilerlemelerin gerçekten kullanılabilmesi için bitstream içinde hangi dönüşümlere, tahmin tekniklerine vb. izin verileceği konusunda standartlaşmış uzlaşı gerekiyor. İlgili videoya buradan bakılabilir
Patentler hâlâ büyük rol oynuyor. Yeni tekniklerin mevcut patentleri ihlal etmemesine çok dikkat etmek gerekiyor. Bu yüzden AV1/AV2'de kullanılamayan bazı numaralar ya da yöntemler olabilir
Her ikisi de gerekli. Modern codec'ler görüntü kalitesi (PSNR, SSIM), hesaplama karmaşıklığı (CPU vs DSP vs bellek), depolama alanı ve bitrate gibi açılardan farklı trade-off'lar içeriyor; dolayısıyla her senaryo için en iyi olan tek bir codec yok
Generative AI codec'lerin gerçek prodüksiyonda ne zaman kullanılacağını merak ediyorum. Konsept aslında görece basit. Encoder, decoder'ın kullanacağı tam modeli bilir; birkaç temel pikseli gönderir ve decoder kalanını yapay zekayla doldurur. Mesela bir kalabalıktaki rastgele insan yüzlerini üretmek ya da gerekirse o bölgeye daha fazla veri göndererek bunun belirli bir takım maskotu yüzüne benzemesini sağlamak mümkün olabilir. Sıkıştırma aşırıya vardığında geriye artık video değil, sahneyi tarif eden bir metin betiği kalacak gibi
AV2'nin ayrıntılarını çok iyi bilmiyorum ama H.265'ten H.266'ya geçerken açısal (prediction) açı sayısı 2 katına çıktı, chroma'nın luma'dan tahmin edilmesine yönelik araçlar, piksel blok kopyalama gibi intra prediction tarafında pek çok teknik eklendi. Inter prediction tarafında da devasa iyileştirmeler yapıldı. Bunların hepsi donanım decoder'ının mantık devreleri/silikon alanı açısından pahalı ama bitrate tasarrufu büyük. CPU decoder açısından ek hesaplama yükü o kadar da yüksek değil. Asıl maliyet encode tarafında. Sıkıştırma verimini en üst düzeye çıkarmak için seçilebilecek tahmin araçlarının sayısı arttıkça encode süresi uzuyor. Bu yüzden Google, AV1 encode'u yalnızca izlenme sayısı çok yüksek videolara uyguluyor
Bu ikinci başlangıç olduğuna göre umarım bu kez daha düzgün olur. AOM'un 20 Ekim'de bir canlı oturumu planlanıyor, ben de merakla bekliyorum. Daha fazla veri ve metrik, encode/decode karmaşıklığı, donanım decoder yol haritası, uygunluk ve test kitleri, gelecekteki profiller, AVIF ve AV2'deki iyileştirmeler, JPEG-XL ile karşılaştırma gibi konular ele alınacak. %30 BDRATE düşüşünün AV1'in en güncel encoder'ına mı yoksa 1.0 sürümüne mi göre olduğu da merak konusu. Muhtemelen canlı encode iyileştirmelerinden de söz edecekler
AV1'e göre %30 azalma çılgınca. Sanki daha yeni çıkmış gibi geliyor ama 2019'da çıkmıştı
Ben de ancak geçen yıl AV1 donanım desteği olan ilk cihazımı kullandım. Codec'lerin bu hızlı gelişim hızının her zaman bir bedeli var: içerikleri birden fazla formatta saklamak gerekiyor ya da istemci tarafında yazılımsal decode yapıldığı için pil daha hızlı tükeniyor. YouTube açıkça ikinci seçeneği tercih ediyor
O kadar etkileyici ki insan şüphe ediyor. Doğruysa gerçekten olağanüstü
Codec uygulama ve optimizasyon işleri muhtemelen hayatımda yaptığım en eğlenceli işlerden biriydi. AV2'yi derinlemesine incelemek isterdim ama şu an vaktim yok
Sonunda adı AVI gibi olmayan bir codec geldiğine sevindim
Bu hızlı fiber internetin pek anlamı kalmıyor...
Dünyanın büyük kısmı hâlâ veri ve video tüketimini mobil ağlar üzerinden yapıyor
Evet. Neyse ki 1TB microSD kart için iade sürem hâlâ dolmadı
İleride 8K içerik akışı başlayabilir ya da 16K VR video için kullanılabilir
İdeal olan maksimum verimlilikle maksimum erişilebilirliği aynı anda hedeflemek. Bu ilke, işlem gücü ya da enerji piyasaları için de geçerli olmalı
Medya arttıkça hız talebi artıyor, hız arttıkça da medya çoğalıyor; sonsuz bir döngü
AV1 adının AVI'ye bir gönderme ya da şaka olduğunu düşünüyordum ama AV2'de o hava yok. AV1 için .av1 uzantılı dosyalar ve video/AV1 MIME türü de var; şimdi AV2 çıkınca her şeyi .av2 ve video/AV2 olarak mı çoğaltacağız diye merak ediyorum. AVIF bunun içinde nasıl konumlanacak, o da ayrı soru
.av1 uzantısı ham AV1 veri dosyası içindir. AV2 muhtemelen .av2 kullanacak ve ikisi birbiriyle uyumlu olmayacak. Pratikte ise video akışı Matroska(.mkv), WebM, MP4 gibi container'ların içine konur ve codec tür kodu belirtilir (av01, av02). AVIF de bir container; adı AV1 image format olsa da istenirse AV2'ye genişletilebilir. Tam netlik için adını AOMedia Video Image Format yapmak mümkün
Yani dosya uzantısının yalnızca dosya formatını yansıtması, içindeki codec'ten bağımsız olması gerektiğini mi söylüyorsun? Eskiden bu şekilde sorunlar çıkmıştı. Sadece uzantıya bakarak dosyanın açılıp açılamayacağını anlayabilmek kullanışlı olurdu
AV1 ya da AV2 formatlarında Cloudflare engelleme mesajı gören var mı?
Gaussian splatting tabanlı bir video codec'in ne zaman çıkacağını merak ediyorum