透過 Top 500 美拍短視頻看 AV1 性能

本文來自美圖編解碼技術團隊的投稿,詳細陳述了AV1在美拍短視頻熱門視頻序列上的表現,AV1 與x265 main profile相比在同質量下大約可以節省 27% 的碼率;編碼耗時方面AV1 是x265 main profile 的 36.5 倍。

文 / 美圖編解碼技術團隊

導語

AV1 以其出色的壓縮性能,無疑是自 2017 年以來備受關注的新生代視頻編碼標準。業界也相繼對 AV1 進行了一些評測工作,如 Facebook、Netflix 對它的編碼複雜度也從早期的 VP9 的近千倍降到了百倍。為了驗證 AV1 在短視頻上的性能,美圖音視頻團隊自 2018 年 11 月,基於 Top 500 美拍短視頻進行了一次全面的 AV1 性能評估,對標編碼器採用在實際生成環境中使用的主流視頻編碼器 x264、x265、VP9。

本文將詳細介紹整個評估過程,結合實驗數據,綜合評價 AV1 在短視頻上的性能表現。

AV1 在實驗中的表現

在對本文進行闡述前,我們先來看看 AV1 的綜合表現,評估結果表明,AV1 的壓縮效率優勢明顯,但是編碼耗時仍相對較長:

  • 相比於 x264 high profile、x265 main profile 及 VP9 ,AV1 在相同質量下分別能獲得 36.0%、26.9%、31.8% 的碼率增益。並且,隨著視頻分辨率的增加,AV1 的碼率增益優勢更加明顯;
  • 在編碼耗時上,AV1 分別是 x264 high profile 的 395 倍、x265 main profile 的 36 倍、VP9 的 156 倍。

研究背景

AV1(全稱,AOMedia Video 1)無疑是自 2017 年以來備受關注的新生代視頻編碼標準,原因在於它的高壓縮性能。經業界測試數據表明,如莫斯科國立大學(MSU)、Facebook、Netflix 均進行了相關實驗,都證實了 AV1 已超越 H.265 和 VP9,成為目前壓縮率最高的視頻編碼標準。然而,它的高複雜度也曾令人震驚,數據表明 2018 年初,相比於 VP9 編碼器點播速度檔,AOM/libaom[1]的編碼時長是 VP9 編碼時長近一千倍。近兩年來,無論是 AV1 的標準制定團隊 AOM,還是其他廠商,如 Intel,都致力於優化 AV1 的速度性能,近日,有相關數據表明 AV1 已接近使用水平[2]。

在軟硬件的支持性方面,越來越多的軟件或平臺開始支持 AV1 視頻播放,如 Mozilla 的 Firefox 瀏覽器,Chromium 瀏覽器內核,微軟Windows 10 平臺,以及 Android Q 系統;谷歌、英特爾、ARM、高通、三星、索尼等頭部硬件廠商也紛紛加入到硬件解碼器的研發隊列中,可以預見移動端 AV1 硬解支持將在 2020 年迅速普及[3]。

針對 AV1 進行全面的編碼性能評估實驗

在 AV1 的浪潮來臨之際,我們針對美拍 Top 500 及頭部達人的視頻,採用 2018 年 v1.0.0 版本 libaom 對 AV1 的壓縮效率及編碼複雜度進行了一次全面的編碼性能評估實驗。實驗對標的編碼器選用在實際生成環境中使用的主流視頻編碼器 x264、x265、VP9,質量評價指標採用 PSNR、SSIM 及 VMAF-Phone 模型。

視頻測試序列的選擇

測試序列取自美拍 Top 500 及來自頭部達人的熱門、優質視頻,實際參與評估實驗的視頻有 523 個,這些視頻具有以下特點:

  • 大部分是手機拍攝的視頻,包括照片視頻、手機錄屏的視頻、官方製作發佈的視頻;
  • 壓縮後的視頻;
  • 大部分是 SD/HD(480p/540p/720p),而不是官方測試機構常用的 UHD/4K、8K;
  • 大部分視頻幀率都是 30 fps;
  • 大部分視頻寬幅比都是 16:9;
  • 大部分視頻處於 10s~60s 之間。

視頻測試序列的複雜度分析

一個編碼器的壓縮效率與視頻內容息息相關,因此在進行編碼器評估工作之前,我們先對每個視頻進行了複雜度分析。依據 ITU-T 主觀質量評價標準《ITU-T P.910》[4]所描述的方法,我們通過對每個視頻計算最大空間複雜度信息 (SI) 、最大時間複雜度信息 (TI) 來描述測試序列的複雜度。由於某些視頻中存在大量場景切換,因此我們還計算了平均 SI、TI 來綜合衡量序列複雜度。

圖1、圖2 分別展示了 Top 500 美拍視頻(前 6s)的 SI-TI 分佈情況。結果表明,我們的大部分視頻處於40≤SI≤90,TI≤40,對應於 ITU-T 主觀質量評價標準《ITU-T P.910》中的 A(One person, mainly head and shoulders, limited detail and motion)、B(One person with graphics and/or more detail)、C類(More than one person),該數據結果與美拍的業務場景也十分契合。

透過 Top 500 美拍短視頻看 AV1 性能

圖 1 Top 500 美拍視頻 SI-TI(max) 散點分佈圖


透過 Top 500 美拍短視頻看 AV1 性能

圖 2 Top 500 美拍視頻 SI-TI (average) 散點分佈圖

編碼器的選擇

對於 AV1,我們採用 AOM AV1 提供的參考軟件(AOM/libaom);對於 H.264/AVC、H.265/HEVC、VP9,我們採用 ffmpeg 4.0.2 對應的編碼庫。表1 列出了實驗中使用的編碼器版本。

透過 Top 500 美拍短視頻看 AV1 性能

表 1 實驗中採用的編碼器版本

編碼參數的配置

我們分別基於 CRF、ABR 兩種碼率控制配置下對編碼器性能進行評估。不同編碼器的 CRF 配置見表2,我們取 6 個 CRF 值進行多組編碼,並將 CRF 編碼後得到的碼率作為 2-pass ABR 編碼的目標碼率。

透過 Top 500 美拍短視頻看 AV1 性能

表 2 CRF 配置

具體每個編碼器的配置方案如表 3 所示。

透過 Top 500 美拍短視頻看 AV1 性能

表 3 編碼器詳細配置

評估結果

我們採用 BD-Rate 來衡量各個編碼器的壓縮效率,複雜度性能則採用編碼時長之間的倍數關係來描述。BD-Rate 是通過對比率失真曲線,計算相同質量下平均的碼率差異來衡量兩種編碼方案的 RD 性能優劣。在評估結果的描述上,我們將從 AV1 的角度出發,計算 AV1相對於其他編碼方案的 BD-Rate 性能。其中,失真的計算維度採用 PSNR、SSIM,另外,針對 1080p 的序列會加入 VMAF-Phone 模型的評價結果。同樣,在對比複雜度性能時,我們也會計算 AV1 相對於其他編碼方案的編碼時間的倍數。以下是具體在 CRF/QP、ABR上的結果。

值得注意的是,短視頻由於其 UGC 居多的特性,其視頻源和近年來被廣泛使用的 VMAF AI 模型使用的 Netflix 視頻源訓練集差異較大,因此原生 VMAF 模型並不能很好地評價短視頻內容的畫質。

CRF/QP 的結果

圖3、圖4 是 CRF/QP 碼率控制方式下,分別以 PSNR、SSIM 為質量評價指標展現的 AV1 相比於 x264 high profile、x265 main profile、libvpx-vp9 在相同質量下節省的碼率。

從 PSNR 的維度來看,AV1 的 BD-Rate 相比於前述的三種編碼器分別平均節省了 35.88%,26.17%,36%。並且,從分辨率維度來看,隨著分辨率的增加,AV1 的碼率增益越大。對比 x264 high profile、x265 main profile 和 VP9,我們可以發現 x265 main 的壓縮效率在各分辨率下都要優於 x264 high profile 和 VP9,在低分辨率下x264 high profile 的壓縮效率略優於 VP9,在大分辨率下 VP9 的壓縮效率逐漸逼近 x265 main profile。

從 SSIM 的維度來看,AV1 的 BD-Rate 分別節省了 35.33%,22.24%,68.52%。需要說明的是,其中 libvpx-vp9 以 SSIM 維度計算的 BD-Rate 並不具有準確的物理意義,因為相比於 AV1,兩條 RD 曲線近乎平行(如圖6~圖9所示),所以無法準確找到同一質量的兩個碼率點進行比較。可以說 BD-Rate 不適用於展現以 SSIM 維度來衡量的 RD 性能,應該加上 BD-PSNR 的統計指標加以驗證。圖6~圖9 是各個分辨率下隨機抽取的一個序列的 RD 曲線。RD 曲線越高,說明率失真性能越好。可以發現在 SSIM 衡量指標下,RD 性能的變化趨勢與 BD-Rate 結果一致,有:AV1 > x265 main profile > x264 high profile > VP9。

同理,BD-Rate 也不適用於展現以 VMAF-Phone 模型來衡量的 RD 性能,圖10 是取自 1080p 下某個視頻序列的 RD 曲線。不難發現,在 VMAF-Phone 畫質損傷衡量指標下,難以很好地區分 x264 high profile、x265 main profile 與 AV1 的孰優孰劣, 而 VP9 的 RD 性能明顯差於其他編碼器。

從編碼複雜度上,如 圖5 所示,AV1 相比於 x264 high profile、x265 main profile、libvpx-vp9 的編碼時間分別為 370.89 倍、44.34 倍、168.88 倍。同時,我們發現在大分辨率視頻上, VP9 在 RD 性能接近 x265 main profile 的情況下,編碼時長降到 x265 main profile 約五分之一。

透過 Top 500 美拍短視頻看 AV1 性能

圖 3 AV1 相對於 x264 high profile、x265 main profile、libvpx-vp9 的 BD-Rate 節省比例(質量標準:PSNR 碼控方式:CRF/QP)

透過 Top 500 美拍短視頻看 AV1 性能

圖 4 AV1 相對於 x264 high profile、x265 main profile、libvpx-vp9 的 BD-Rate 節省比例(質量標準:SSIM 碼控方式:CRF/QP)

透過 Top 500 美拍短視頻看 AV1 性能

圖 5 AV1 相對於 x264 high profile、x265 main profile、libvpx-vp9 增加的編碼耗時倍數(碼控方式:CRF/QP)

透過 Top 500 美拍短視頻看 AV1 性能


透過 Top 500 美拍短視頻看 AV1 性能

圖 7 540p 示例視頻 RD 曲線(質量標準:SSIM 碼控方式:CRF/QP)

透過 Top 500 美拍短視頻看 AV1 性能

圖 8 720p 示例視頻 RD 曲線(質量標準:SSIM 碼控方式:CRF/QP)

透過 Top 500 美拍短視頻看 AV1 性能

圖 9 1080p 示例視頻 RD 曲線(質量標準:SSIM 碼控方式:CRF/QP)

透過 Top 500 美拍短視頻看 AV1 性能

圖 10 1080p 示例視頻 RD 曲線(質量標準:VMAF-Phone model 碼控方式:CRF/QP)

ABR 的結果

圖11、圖12 是 ABR 碼率控制方式下,分別以 PSNR、SSIM 為質量評價指標展現的 AV1 相比於 x264 high profile、x265 main profile、libvpx-vp9 在相同質量下節省的碼率。

從 PSNR 的維度來看,AV1 的性能與 CRF/QP 的結果類似,BD-Rate 相比於前述的三種編碼器分別平均節省了 36.21%,27.64%,27.69%,且 RD 性能的增益優勢也隨分辨率增加而增加。與在 CRF/QP 下不同的是,VP9 的壓縮性能在 ABR 下遠優於 x264 high profile,與 x265 main profile 不相上下,在高分辨率下甚至超越了x265 main profile。

從 SSIM 的維度來看,AV1 的 BD-Rate 分別節省了 32.96%,21.59%,62.35%。同樣地,圖14 ~ 圖17 給出了四個分辨率下示例視頻序列的 RD 曲線來直觀比較各個編碼器的 RD 性能。類似於 CRF/QP 的結果,RD 曲線的排序結果與 BD-Rate 排序結果一致,有:AV1 > x265 main profile > x264 high profile > VP9。

同樣,在以 VMAF-Phone 來衡量畫質時,AV1 與 x264 high profile、x265 main profile 的 RD 性能非常接近,VP9 依然處於劣勢,如圖18 所示。

從編碼複雜度上(如圖13 ),AV1 相比於 x264 high profile、x265 main profile、libvpx-vp9 的編碼時間分別為 420.50 倍,28.69 倍,143.53 倍。

透過 Top 500 美拍短視頻看 AV1 性能

圖 11 AV1 相對於 x264 high profile、x265 main profile、libvpx-vp9 的 BD-Rate 節省比例(質量標準:PSNR 碼控方式:ABR)

透過 Top 500 美拍短視頻看 AV1 性能

圖 12 AV1 相對於 x264 high profile、x265 main profile、libvpx-vp9 的 BD-Rate 節省比例(質量標準:SSIM 碼控方式:ABR)

透過 Top 500 美拍短視頻看 AV1 性能

圖 13 AV1 相對於 x264 high profile、x265 main profile、libvpx-vp9 增加的編碼耗時倍數(碼控方式:ABR)

透過 Top 500 美拍短視頻看 AV1 性能

圖 14 360p 示例視頻 RD 曲線(質量標準:SSIM 碼控方式:ABR)

透過 Top 500 美拍短視頻看 AV1 性能

圖 15 540p 示例視頻 RD 曲線(質量標準:SSIM 碼控方式:ABR)

透過 Top 500 美拍短視頻看 AV1 性能

圖 16 720p 示例視頻 RD 曲線(質量標準:SSIM 碼控方式:ABR)

透過 Top 500 美拍短視頻看 AV1 性能

圖 17 1080p 示例視頻 RD 曲線(質量標準:SSIM 碼控方式:ABR)

透過 Top 500 美拍短視頻看 AV1 性能

圖 18 1080p 示例視頻 RD 曲線(質量標準:VMAF-Phone model 碼控方式:ABR)

結論

從 AV1 在短視頻上的評估結果來看,我們可以得到與 Facebook[5]類似的一些結論,比如 AV1 相比於 VP9、x264 high profile 在相同質量下可以節省 30% ~ 40% 的碼率。同時我們還得到了 AV1 相對於 x265 main profile 的表現:在相同質量下大約可以節省 27% 的碼率。而在編碼耗時上,AV1 的速度進步明顯,相比於 Facebook 在 v0.1.0 AV1 上的結果:5869.9x( AV1 vs x264 high profile )、658.5x( AV1 vs VP9),v1.0.0 版本的 AV1 是 x264 high profile 的 395.7 倍、VP9 的 156.2 倍、x265 main profile 的 36.5 倍。

除此之外,我們還發現了 VP9 在短視頻上的一些特性。首先,VP9 在通過 SSIM 及 VMAF 評價時表現較差。其次,VP9 在 ABR 下相對於 CRF 有更好的表現,其壓縮性能與 x265 main profile 接近,但編碼速度卻比後者快了 5 倍。

另外,對編碼器評估工作有如下幾點啟示:

  • 在質量評價工具的選擇上,原生 VMAF-Phone 模型並不能很好地區分各個編碼器在短視頻場景下的畫質。
  • RD 性能統計指標的選擇上,一種更為準確的方式是結合 BD-Rate、BD-PSNR 共同來衡量。

相信以上結論會引發音視頻領域工程師的一些思考,並推進 AV1 在各自生產線中的使用。

未來規劃

美圖會持續跟進 AV1 在移動端和主流瀏覽器上的解碼支持的成熟度,針對核心用戶的視頻內容率先應用 AV1 編碼,降低用戶觀看高分辨率視頻內容的時間成本,並給用戶帶來更好的畫質體驗。畢竟用戶在觀看 AV1 視頻時,在相同碼率下,將獲得相比 x264、x265 及 VP9 更高的畫質,或者相同質量下降低 30%~40% 的下載時長。另外,我們的編碼器評估工作尚未停止,結合 Intel 近年來相繼開源的 SVT-HEVC、SVT-AV1 編碼器,我們會在後續的工作中加入對 SVT 系列編碼器的評估。

參考內容

  • AOM/libaom:由以谷歌為主要貢獻者的 AOM 會員聯合打造,是目前 AV1 工具實現最完整的一款開源軟件編解碼器,包括編碼器 aomenc 和解碼器 aomdec。
  • https://www.streamingmedia.com/Articles/Editorial/Featured-Articles/Good-News-AV1-Encoding-Times-Drop-to-Near-Reasonable-Levels-130284.aspx
  • http://m.danbo-tech.com/6177789/20190322A07OMR00.html
  • https://www.itu.int/rec/dologin_pub.asp?lang=e&id=T-REC-P.910-200804-I!!PDF-E&type=items
  • https://code.fb.com/video-engineering/av1-beats-x264-and-libvpx-vp9-in-practical-use-case/


分享到:


相關文章: