電子發燒友網報道(文/周凱揚)無論是長視頻串流平臺,還是短視頻社交媒體,每日龐大的視頻上傳數據和訪問量都對其背后的硬件平臺提出了極高的要求,比如網絡帶寬、時延、視頻處理等,為了進一步優化成本,硬件的選擇成了一大難題。比如在視頻編解碼上,面臨效率較低的CPU軟件轉碼和成本較高的GPU硬件轉碼,不少公司決心改用更具性價比的VPU。
為什么我們需要VPU?
對于視頻流媒體網站而言,高效的編碼可以在有效節省帶寬成本的同時,保證視頻質量不變,諸如H265、VP9和AV1等。然而,依賴軟件編碼雖然能夠帶來極高的畫面質量,但對硬件占用和配置要求高,使得編碼效率極低,遠不如FPGA、GPU之類的硬件加速。而基于ASIC的VPU,則進一步提高了編碼效率,在成本上也要低于FPGA、GPU等硬件。無論是租用服務器還是采用本地服務器,都能使性價比成倍增長。
除了視頻串流之外,VPU在另一個云端應用場景中同樣起到了至關重要的作用,那就是云游戲。對于云游戲而言,服務器內部的GPU和CPU已經貢獻出了一部分算力用于游戲的運行和圖形處理,如果再加上視頻編碼的工作,無疑會進一步加重負載,這也就意味著同規格硬件的并發數會進一步降低。這樣的改變反映到租用服務器的游戲廠商上,就等效于支持單個用戶的成本降低。
坐擁全球最大視頻網站,谷歌選擇了自研VPU
要論播放量、規模、地區覆蓋以及視頻質量,排名第一的視頻網站自然是谷歌的Youtube。每分鐘500小時以上的視頻上傳量,超過19億的月活躍用戶,讓其成為獨一檔的視頻串流與分享平臺。然而,在各大視頻網站中,谷歌在圖像質量上依然有著絕對的優勢,這一方面歸功于谷歌的網絡基礎設施建設,另一方面也與其自研的VPU脫不了干系。
從2015年起谷歌就開始研究獨立的視頻處理單元,從而用到更加高效的編碼,比如VP9。2021年,谷歌發布了首個自研的視頻處理單元,谷歌將其稱為Argos VCU。這個谷歌自研的ASIC芯片,對最高4K60fps的H.264和VP9編碼提供了完整的支持,同時支持單/多輸出轉碼、速度/質量微調等。
谷歌VPU / 谷歌
谷歌聲稱,相比在傳統服務器上使用經過優化的軟件轉碼方案,VCU給他們帶來了20到33倍的計算效率提升。與此同時,與谷歌的TPU一樣,谷歌已經準備好了硬件迭代的方案,比如增加對AV1編碼的支持、進一步提高負載等。
第三方ASIC VPU,智能化成為趨勢
有了谷歌的前車之鑒,不少廠商都開始打起了VPU的主意,這也包括了不少第三方VPU設計廠商。以NETINT為例,他們推出了Codensity G5這一ASIC芯片,單芯片可以支持32個1080p30、8個4kp30和2個8kp30視頻流的實時編碼,時延僅有8ms。Codensity G5既支持H.264、HEVC、AV1的編碼,也支持H.264、HEVC和VP9等格式的解碼。
與此同時,基于Codensity G5打造的VPU模組還具備18TOPS的AI算力,可以用于視頻分析之類的AI從處理器,比如背景去除、畫面加強、面部檢測和物體檢測等。Codensity G5也可與不同架構的CPU混合使用,比如x86的AMD EPYC處理器、Arm的Amepre Altra Max處理器等等。
Alveo MA35D / AMD
除此之外,還有曾經以FPGA媒體加速卡方案聞名的AMD/Xilinx,其Alveo U30就是一款混合了ASIC和FPGA設計的處理器。但從去年發布的Alveo MA35D媒體加速卡開始,就成了不折不扣的ASIC VPU方案。相比上一代Alveo U30,Alveo MA35D實現了4倍的通道密度和1.8倍的壓縮效率,編解碼除了支持主流格式外,也新增了AV1的編碼和VP9、AV1的解碼。同樣是4Kp60的視頻,相較于U30的32ms轉碼時延,MA35D也能做到與Codensity G5一樣的8ms。
寫在最后
對于多數視頻平臺而言,有關視頻處理類的工作也不僅僅是依賴VPU等硬件,還有一整套預處理管線等。但隨著視頻在社交媒體內的占比越來越高,VPU能夠帶來的成本、部署時間優勢將越來越明顯,尤其在帶寬費用寸土寸金的國內。
-
gpu
+關注
關注
28文章
4759瀏覽量
129123 -
vpu
+關注
關注
0文章
15瀏覽量
11797
發布評論請先 登錄
相關推薦
評論