作者:安謀科技 (Arm China) 高級(jí)軟件產(chǎn)品經(jīng)理 楊喜樂(lè)
視頻編解碼技術(shù)作為支撐超高清視頻及泛音視頻產(chǎn)業(yè)發(fā)展的基石,其重要性愈發(fā)凸顯。H.264/AVC 是目前廣泛使用的編解碼標(biāo)準(zhǔn),能夠在較低的數(shù)據(jù)速率下提供高質(zhì)量的視頻流,是在線視頻和移動(dòng)端視頻的理想選擇;H.265/HEVC 進(jìn)一步提高了壓縮效率,在傳輸高清視頻流和 4K 視頻時(shí)所需的帶寬大約是 H.264 的一半。然而,新一代編解碼技術(shù)在節(jié)省帶寬的同時(shí),也對(duì)算力提出了更高的要求。
盡管專用視頻加速卡(如 ASICs)和 GPU 在特定任務(wù)上展現(xiàn)出卓越性能,但通用服務(wù)器 CPU 因其出色的靈活性、廣泛的適用性以及更高的性價(jià)比,正在成為視頻轉(zhuǎn)碼場(chǎng)景中的主流選擇。隨著多核 CPU 架構(gòu)和視頻編解碼技術(shù)的不斷進(jìn)步,可以預(yù)見(jiàn) CPU 在視頻轉(zhuǎn)碼領(lǐng)域的應(yīng)用將更加廣泛。
在本文中,我們將探討基于 Armv9 架構(gòu)的中興微電子“珠峰 1.0”芯片在 x264/x265 視頻轉(zhuǎn)碼場(chǎng)景下,所展現(xiàn)的可擴(kuò)展算力和穩(wěn)定核心,并通過(guò)與主流 x86 架構(gòu)產(chǎn)品相比,展示珠峰芯片所具備的性能和能效優(yōu)勢(shì)。
x264/x265 基準(zhǔn)測(cè)試
“珠峰 1.0”是中興微電子發(fā)布的首顆領(lǐng)域定制融合處理器,搭載 128 個(gè)核心,主頻最高達(dá)到 3.1GHz。該芯片可提供指令集加速,比如 SVE/SVE2 等向量計(jì)算技術(shù)等,并在視頻轉(zhuǎn)碼等高算力場(chǎng)景中能夠讓工作負(fù)載以可預(yù)測(cè)的方式穩(wěn)定運(yùn)行。與此同時(shí),依托于 Arm 成熟堅(jiān)實(shí)的軟件生態(tài)和主流視頻編解碼庫(kù)中基于最新 Arm 架構(gòu)指令的優(yōu)化,珠峰芯片可以為視頻轉(zhuǎn)碼和其他云工作負(fù)載提供卓越的性能和能效收益。
x264 和 x265 作為主流的開源編解碼器實(shí)現(xiàn)在業(yè)界得到了廣泛的認(rèn)可和應(yīng)用,我們將通過(guò)實(shí)測(cè) x264/x265 轉(zhuǎn)碼場(chǎng)景下的編碼速度(每秒幀數(shù),F(xiàn)PS)來(lái)對(duì)比珠峰芯片和主流 x86 產(chǎn)品(英特爾 IceLake[1]、英特爾 Sapphire Rapids (SPR)[2] 和 AMD Milan[3])在多線程和整個(gè) socket 配置下的性能和吞吐。
表 1:珠峰芯片和主流 x86 架構(gòu)產(chǎn)品平臺(tái)配置
(配置: 內(nèi)核: 6.0; GCC 編譯器: 12.2;
x86 開啟 turbo,1 線程 = 1 邏輯 CPU)
測(cè)試視頻:
https://ultravideo.fi/video/Bosphorus_1920x1080_120fps_420_8bit_YUV_Y4M.7z
測(cè)試命令腳本:
x264:
for cpu in ${cpulist[@]};do
cmd = numactl -C $cpu ${x264_DIR}/x264 -o output_${cpu}.mkv
${input_video_DIR}/Bosphorus_1920x1080_120fps_420_8bit_YUV.y4m --preset medium --
frames 600 --threads 1 &
done
x265:
for cpu in ${cpulist[@]};do
cmd = numactl -C $cpu ${x265_DIR}/x265 -o output_${cpu}.mkv
${input_video_DIR}/Bosphorus_1920x1080_120fps_420_8bit_YUV.y4m --preset medium --
frames 600 --no-wpp --pools ',' --frame-threads 1 &
done
<<< 左右滑動(dòng)查看完整腳本 >>>
八線程轉(zhuǎn)碼測(cè)試
圖 1:?jiǎn)尉€程下 x264 的平均轉(zhuǎn)碼速率對(duì)比
圖 2:?jiǎn)尉€程下 x265 的平均轉(zhuǎn)碼速率對(duì)比
我們可以看到,在八線程的配置下,珠峰芯片在 x264/x265 轉(zhuǎn)碼場(chǎng)景中相比 x86 架構(gòu)芯片平均每線程分別有 1.34 倍和 1.17 倍的性能優(yōu)勢(shì)。
單 socket 轉(zhuǎn)碼測(cè)試
圖 3:?jiǎn)?socket 下 x264 轉(zhuǎn)碼速率對(duì)比
圖 4:?jiǎn)?socket 下 x265 轉(zhuǎn)碼速率對(duì)比
在單 socket 的配置下,珠峰芯片在 x264/x265 轉(zhuǎn)碼場(chǎng)景中相比 x86 架構(gòu)芯片單 socket 分別有 2.96 倍和 2.54 倍的性能優(yōu)勢(shì)。
轉(zhuǎn)碼能效比
除了擁有最佳的轉(zhuǎn)碼性能外,基于 Armv9 架構(gòu)的珠峰芯片非常注重性能和功耗的平衡,卓越的能效可以極大地減少視頻轉(zhuǎn)碼中產(chǎn)生的碳足跡。下面是珠峰芯片和主流 x86 架構(gòu)產(chǎn)品 (IceLake、SPR 和 Milan)熱設(shè)計(jì)功耗 (TDP) 的比較:
圖 5:熱設(shè)計(jì)功耗 (TDP) 對(duì)比
結(jié)論
在 x264/x265 視頻轉(zhuǎn)碼的場(chǎng)景下,我們可以清楚地看到基于 Armv9 架構(gòu)的中興微電子珠峰芯片具備強(qiáng)勁的可擴(kuò)展算力和穩(wěn)定核心,測(cè)試結(jié)果顯示,與主流 x86 架構(gòu)產(chǎn)品選擇相比(如英特爾至強(qiáng)第四代 Sapphire Rapids),該芯片提供了卓越的性能和能效,在運(yùn)行 x264 時(shí)性能優(yōu)勢(shì)高達(dá) 2.08 倍,而在運(yùn)行 x265 時(shí)性能優(yōu)勢(shì)高達(dá) 1.79 倍;此外,能效提升高達(dá) 1.35 倍。
-
處理器
+關(guān)注
關(guān)注
68文章
19372瀏覽量
230420 -
芯片
+關(guān)注
關(guān)注
456文章
51004瀏覽量
425207 -
ARM
+關(guān)注
關(guān)注
134文章
9117瀏覽量
368194 -
cpu
+關(guān)注
關(guān)注
68文章
10887瀏覽量
212340
原文標(biāo)題:基于 Arm 架構(gòu)的珠峰芯片加速極致視頻體驗(yàn)
文章出處:【微信號(hào):Arm社區(qū),微信公眾號(hào):Arm社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論