1 puan yazan GN⁺ 2024-03-05 | Henüz yorum yok. | WhatsApp'ta paylaş

Opus 1.5'in başlıca yükseltmeleri

  • Opus 1.5 sürümü duyuruldu ve makine öğrenimi tabanlı kalite iyileştirmeleri dahil çeşitli yükseltmeler yapıldı.
  • Önceki sürümle tamamen uyumlu kalırken ses deneyimini iyileştiren yeni özellikler sunuldu.
  • Makine öğrenimi sayesinde sinyal işleme ve üretimde ilk kez derin öğrenme teknikleri kullanıldı.

Paket kaybı işleme

  • Paket kaybı, görüşmelerdeki en büyük rahatsızlıklardan biridir; paketler iletilmezse kodeğin kalitesi iyi olsa bile bunun faydası olmaz.
  • Paket kaybı gizleme (PLC), eksik paketlerin yerine sesi doldurma görevini üstlenir ve burada makine öğrenimi büyük katkı sağlar.
  • PLC için derin sinir ağı (DNN) kullanılıyor; bu yaklaşım makalede ve teknik ayrıntılarda incelenebilir.

Derin artık veri yedekliliği (DRED)

  • Paketler art arda kaybolduğunda yalnızca PLC'nin sınırları vardır; bu durum yedeklilik ile çözülür.
  • Opus, düşük bit hızlı yedeklilik (LBRR) mekanizmasını zaten içeriyor, ancak ML kullanarak konuşmayı verimli biçimde sıkıştıran DRED de sunuluyor.
  • DRED, yaklaşık 12-32 kb/s ek yükle 1 saniyelik yedeklilik aktarabiliyor.

Sinirsel vocoder

  • DRED ve PLC'nin düşük karmaşıklığı, yeni sinirsel vocoder teknolojisi sayesinde mümkün oluyor.
  • FARGAN vocoder, LPCNet'in 1/5 karmaşıklığıyla dizüstü bilgisayarlarda veya güncel telefonlarda CPU çekirdeğinin %1'inden azını kullanıyor.

Düşük bit hızında konuşma kalitesi iyileştirmesi

  • Yeterli bit verilmediğinde kodlama artefaktları duyulabiliyor; bunun için LACE ve NoLACE adlı iki iyileştirme yöntemi sunuluyor.
  • LACE, geleneksel bir post-filter'a benziyor, ancak DNN, çözücünün kullanabildiği tüm verilere dayanarak post-filter katsayılarını optimize ediyor.
  • NoLACE daha fazla hesaplama gerektiriyor, ancak ek doğrusal olmayan sinyal işleme sayesinde daha güçlü.

WebRTC entegrasyonu

  • DRED, jitter buffer ile sıkı entegrasyon gerektiriyor ve jitter buffer boyutu, paket varış gecikmesi için izin verilen azami miktarı belirliyor.
  • DRED verisi, geç gelen ses paketlerine benzer şekilde işleniyor ve ağ koşulları iyileşirse buffer boyutu küçültülebiliyor.

IETF ve standardizasyon

  • Bu çalışma, IETF mlcodec çalışma grubu içinde yürütülüyor ve Opus'un genel genişletme mekanizması, derin yedeklilik ve konuşma kodlama iyileştirmelerine odaklanıyor.
  • DRED mekanizması, Opus paketlerine ek bilgi eklerken eski sürüm çözücülerin normal Opus verisini çözmeye devam etmesini sağlıyor.

Diğer iyileştirmeler

  • Opus'a AVX2 desteği ve çalışma anında algılama eklendi; böylece yeni DNN kodu ve SILK encoder daha hızlı hale geldi.
  • ARMv7 Neon optimizasyonu AArch64 üzerinde yeniden etkinleştirildi ve kodlama daha verimli oldu.
  • Paket kaybını daha gerçekçi biçimde simüle etmek için, gerçek dünyaya benzer kayıpları taklit edebilen paket kaybı modelleri üretilebiliyor.

GN⁺ görüşü

  • Opus 1.5, mevcut ses kodeği teknolojisini makine öğrenimiyle geliştiren yenilikçi bir yaklaşım sunuyor. Bu, iletişim teknolojilerinin ilerlemesi açısından önemli bir adım olabilir.
  • Paket kaybı sorunu, gerçek zamanlı iletişimde kritik bir problem ve Opus 1.5'in teknolojileri bunu çözmek için etkili yöntemler sunuyor. Özellikle DRED gibi özellikler, ağ kararsızlığının yüksek olduğu ortamlarda faydalı olabilir.
  • Sinirsel vocoder gibi teknolojiler, konuşma kalitesini artırmada önemli rol oynuyor; ancak bu tekniklerin karmaşıklığı ve performans gereksinimleri düşünüldüğünde, tüm kullanıcıların aynı ölçüde fayda sağlayıp sağlayamayacağı tartışmaya açık.
  • Opus 1.5'in teknolojileri, WebRTC gibi gerçek zamanlı iletişim platformlarına entegre edildiğinde asıl değerini gösterebilir; bu da uzaktan çalışma ve çevrimiçi iletişimin kalitesini büyük ölçüde artırabilir.
  • Standardizasyon süreci, bu teknolojilerin yaygın benimsenmesi ve uyumluluğun korunması açısından kritik öneme sahip ve IETF'in çalışmaları, bu teknolojinin daha geniş bir uygulama ve hizmet yelpazesinde kullanılmasına katkı sağlayacaktır.

Henüz yorum yok.

Henüz yorum yok.