AI就像一個加速器,正在滲透在多媒體應用的方方面面,改進甚至顛覆傳統(tǒng)的圖像視頻處理方法。本文整理自騰訊云高級研發(fā)工程師劉兆瑞在LiveVideoStackCon 2020北京站上的演講,將從超低碼率壓縮場景下AI技術在前置處理中的優(yōu)化、AI技術的畫質修復探索以及智能編輯場景的落地實踐三個方面展開。
大家好,首先非常榮幸有機會收到LiveVideoStack邀請來和大家分享騰訊視頻云在AI視覺上的落地實踐與應用,以及AI視覺泛化應用過程遇到的機遇和挑戰(zhàn)。
首先簡單做個自我介紹,加入騰訊以后,就一直在騰訊視頻云工作,早先負責PSTN云通信平臺,之后進行極速高清轉碼平臺的研發(fā)工作,與此同時也針對視頻的場景和特性進行編碼器的優(yōu)化。現(xiàn)在主要負責騰訊明眸(畫質修復、畫質增強)的研發(fā)工作,該工作與騰訊多媒體實驗室聯(lián)合研發(fā),已經在騰訊視頻云上得到比較好的落地與應用。 今天分享的內容更多以一個工程師的角度,和大家分享我們是如何把AI視覺真正的落地,應用在廣泛、海量的視頻處理過程中。所以在技術選型上,可能不會去選擇目前state of the art的技術,更多會考慮模型的穩(wěn)定性、泛化能力以及資源的消耗、成本。接下來的分享是我們在實際落地過程中遇到的問題、踩過的坑,以及我們的一些trick。希望能為做類似業(yè)務落地的同學提供一定的參考。
上圖是騰訊視頻云在直播點播媒體處理、智能編輯等方面的產品矩陣,可以看到,無論是直播、點播中應用的視頻壓縮和畫質修復技術,還是智能編輯中應用的審核、識別、標簽等技術,都離不開AI的支持。 01極速高清,視頻壓縮的挑戰(zhàn) 近年來,視頻編碼領域也是在飛速發(fā)展,從H264編碼標準到現(xiàn)在的H265再到AV1。但是從實際用戶的使用情況觀察,目前H264標準依舊是主流,甚至90%以上的用戶還在使用H264。其實,H264已經是十幾年前的標準,有很多可以優(yōu)化的痛點,我們希望可以結合AI技術,使H264在當前標準的基礎上,獲得新的編碼壓縮增益。 1.1 極速高清,單一視頻的極致壓縮
首先簡單對騰訊云極速高清產品做個定義,簡單而言它是一個結合了前置處理、編碼器優(yōu)化的整體視頻壓縮解決方案。給客戶提供更低碼率的同時,保證主觀感受不變差,甚至更好的主觀感受。 提到壓縮肯定離不開編碼器,從編碼器角度來說,目前x264其實是非常成熟、優(yōu)秀的編碼器,但它仍然存在一定優(yōu)化空間,比如x264是通用的編碼器,不會針對一些垂直領域去做調優(yōu),但對于云服務的一些垂直場景,編碼器內部還有很多可以調試優(yōu)化的地方。在不同垂直品類的視頻場景,我們在碼率控制、rdo分析、deblock濾波等等編碼器內部都做了新的編碼工具。同時視頻源的質量也是參差不齊的,所以針對不同質量的視頻源會進行銳化、去噪等輔助操作。極速高清方案整體壓縮下來,與普通轉碼相比會有額外20%-40%的碼率節(jié)省。 1.2 場景分類,海量視頻的分類壓縮 但是對于云上業(yè)務,每天轉碼海量的視頻,我們不可能針對每個視頻tune編碼特性和參數(shù),而我們在編碼器上很多優(yōu)化的編碼工具都是針對垂直場景,如果使用場景不匹配,會出現(xiàn)一定的反效果。所以針對不同場景、不同品類,和編碼團隊配合,更好的使用編碼工具是非常有意義的一件事。
上圖是一個簡單的直觀對比,左邊兩張圖像使用同樣的銳化強度處理,但游戲場景會有失真的情況。從編碼器的對比來看,如果你使用同樣crf35的編碼強度去壓縮,可以發(fā)現(xiàn)大逃殺類游戲已經產生了大量模糊,但秀場視頻還能夠保持不錯的質量感官。
前面提到視頻場景分類的必要性,我們在場景分類的模型選擇上是基于CNN的,主要是考慮CNN模型已經非常成熟、穩(wěn)定,同時資源的消耗也比較低,速度能夠達到我們實時的需求。此外,CNN在推理過程中使用CPU就可以達到我們的要求,這也是一個非常誘人的優(yōu)點,畢竟在很多情況下,GPU資源還是相對比較稀缺。 1.3 基于AI的輔助壓縮
我們通過場景分類來更好的利用編碼特性和工具,但我們也知道在編碼中沒有極限,尤其是To B服務要滿足客戶的各類需求。比如實際場景中的一個例子,源是非常復雜的高動態(tài)的MV類視頻,需要輸出720P@30fps,并且壓縮到500Kbps以下,同時因為播放端等因素限制,必須使用H264編碼。上圖是使用x264編碼器在slow復雜度下壓縮出來的效果,可以看到這個壓縮出來的結果還是比較差。
下面跟大家分享下,我們對于這個問題的嘗試和思考過程。我們知道碼率、質量和分辨率之間是有一個間隔交錯的區(qū)間,也就是說在碼率非常低的情況下,低分辨率的質量(視覺效果)可能會優(yōu)于高分辨率。從原理上來看,低分辨率和高分辨率相比,細節(jié)信息是更少的。用低碼率來壓縮高分辨率視頻,會出現(xiàn)非常多的塊效應。而低分率視頻對人眼的感官來說只是模糊、不夠清晰。因此可以通過一些模糊、去噪的手段,主動減少一些視頻細節(jié)。這樣處理后,整個視頻的塊效應變少了,當然也會帶來額外的模糊效應。從客觀指標來看(PSNR、SSIM、VMAF),各個指標都有比較大的降低,雖然主觀有一定提升,但從客觀指標和整體方案來看,并不完美。
首先分析下模糊方案的缺點,模糊去噪的處理過程中,并不知道編碼器的傾向喜好,會按照去噪算法統(tǒng)一的磨平細節(jié),而沒有考慮編碼過程。所以我們思考是否可以基于AI視覺的技術,做一個reduce artifact的filter。我們希望這個filter能夠主動磨掉一些細節(jié),使視頻和編碼器有更好的親和性,也就是說這個視頻會更容易被編碼器壓縮,與此同時它不會把人眼關注的、明顯的邊緣磨掉,也就是在保證主體清晰度的前提下,編碼客觀指標也不會大幅下降。我們在模型訓練的過程中,引入了編碼過程,shuffle后還原的圖像不直接計算loss,而是進行一次視頻壓縮,用壓縮后的圖像來計算loss。低碼率壓縮時,先經過reduce artifact處理,再進行轉碼,畫面的人眼感官會有一個顯著的提升。 02騰訊明眸—永恒的追求,畫質提升 2.1 視頻超分辨率
提到畫質修復、畫質增強,肯定離不開超分辨率。目前超分辨技術已經取得一定的突破,可以大規(guī)模的落地使用。其中,基于ResNet的WDSR模型目前有比較好的超分效果和穩(wěn)定性。基于WDSR的視頻超分有比較好的連貫性和穩(wěn)定性,對每一個視頻幀獨立處理,連接成視頻后不會有頓挫、抖動現(xiàn)象。 實際場景挑戰(zhàn) — 訓練數(shù)據(jù)
在實際落地的過程中,還有很多新的問題需要關注和解決。首先訓練數(shù)據(jù)非常重要,以上圖為例,左邊的視頻已經有非常多噪點和模糊的情況,如果像實驗環(huán)境下的視頻一樣使用無損的下采樣數(shù)據(jù)進行訓練,效果其實是微乎其微的。針對這樣的情況,我們會把圖像進行下采樣,然后用比較高的CRF值(比較差的編碼質量)對這個圖像進行編碼,這樣訓練數(shù)據(jù)中就有很多的噪點、偽影信息,訓練出來的模型也會有比較好的去偽影能力。 海量視頻的分類超分
對于云上業(yè)務來說,每天需要處理海量的視頻數(shù)據(jù)。如果對一個高清晰的視頻進行超分,同時超分的模型是由一個高CRF數(shù)據(jù)集訓練提供,會發(fā)現(xiàn)超分后視頻的很多細節(jié)被磨平損失,反之亦然。所以不同訓練數(shù)據(jù)構造的模型與視頻源之間要有一定的匹配關系。針對這種場景,我們通過CRF值來構造多種壓縮強度的數(shù)據(jù)源,進而用這些數(shù)據(jù)源訓練出不同強度的超分模型。當需要進行超分處理時,先使用基于CNN清晰度分類模型,對視頻源進行分類,判斷視頻源的清晰程度,然后使用跟清晰程度匹配的超分模型來進行處理。 Y or RGB?
接下來跟大家分享下落地過程中遇到的問題。團隊最開始基于Y通道進行超分,但經過一段時間的運營,發(fā)現(xiàn)視頻源是清晰的情況下,如果單獨把Y通道單獨提取出來會有很多奇怪的紋理和毛刺,超分后會放大這些異常。如果基于RGB超分則不會有這樣的問題。雖然Y通道有自身的缺點,但在實際的落地過程中,很多場景還是離不開基于Y通道的超分。比如直播中的 4K超分,為了保證實時性,會對一路直播流進行分布式的拆分,路由到多臺GPU節(jié)點進行處理,而在分布式超分的場景中,使用Y通道傳輸可以節(jié)省帶寬的消耗。 老片場景超分辨率:細節(jié)補足與幀間穩(wěn)定性
對于一些老片的場景,基于ResNet和CNN的超分模型,雖然可以提升視頻質量,但是其對視頻細節(jié)的捕捉能力還不夠強,上述模型可以把一個非常差的視頻提升到還不錯的程度,但與目前所認可的高清還有一段差距。這種老片的視頻場景,可以通過GAN網絡來優(yōu)化,GAN網絡具有比較強的細節(jié)補充能力,這種補齊比較符合人眼感官,帶來視覺效果的提升。當然,GAN網絡在實際落地的過程中,還有很多需要解決的問題,首要問題就是GAN的不穩(wěn)定性和幀間一致性的優(yōu)化。 2.2 快速、可控的色彩增強
在色彩增強方面,這里將MobileNet的特征與HSV色彩直方圖相結合,作為一個融合特征去分類訓練,通過這個模型來獲取調整對比度、亮度和色度的參數(shù)。這樣處理后的模型比較小,速度也非常快,有利于大規(guī)模落地使用;其次,它不是端到端的處理,所以整個過程是可控的,由于顏色的變換對于人眼來說是非常敏感的,因此在落地的過程中,我們也更傾向于使用中間過程可控的方式。
從上面三張圖片的對比來看,足球和暗場景都會使色彩變的更加鮮艷,同時對于游戲場景,也能比較好地保證原始視頻顏色的本真。 2.3 視頻流暢度提升,視頻插幀
最后再介紹下我們在視頻插幀所做的工作。相比于光流法,落地過程中更傾向于CAIN模型結構。CAIN網絡的特性在于下限很高,穩(wěn)定性比較強,很少有大面積的模糊錯插。當然與光流法相比,CAIN插出來的清晰度較差。場景分割也是插幀中必不可少的一項操作,對于判斷出的場景分割點,可以跳過不進行插幀,避免變化太大的問題。場景分割的實現(xiàn)方案可以考慮移植編碼器的screencut算法,其在性能和穩(wěn)定性上都經過了千錘百煉的優(yōu)化,適用于大規(guī)模的落地使用。
上圖是我們使用插幀效果的對比,雖然手部有一定程度的模糊,但在視頻播放過程中,由于前后兩幀都是清晰的,考慮到視覺殘留效應,這種小的模糊是完全可以接受的。 03云端全鏈路視頻智能生產 最后再介紹下我們在視頻編輯部分所支持的一些能力。 3.1 制作云 — 從生產、編輯到消費的全鏈路
視頻制作云,其集成了新一代的云端遠程界面制作,通過超低延時協(xié)議把各地信號流傳到云端進行導播,支持了在線剪輯和AI識別等處理,同時我們也為企業(yè)也提供了從生產到編輯到消費的全鏈路,支持一鍵分發(fā)到各大消息平臺。
騰訊微剪,首發(fā)獨創(chuàng)的小程序視頻編輯工具,快速集成,支持音樂、濾鏡等特效 。支持智能模板,根據(jù)輸入素材自動視圖拼接生成視頻。
在直播制作方面,我們提供了云導播臺。云導播臺的優(yōu)勢就在于操作簡單,功能上支持2s快速切換,直播內容無縫銜接。同時,云導播臺是基于互聯(lián)網的,所以非常容易支持一些互聯(lián)網活動,比如支持直播過程中的實時發(fā)放紅包和優(yōu)惠券。
責任編輯:lq
-
編碼器
+關注
關注
45文章
3654瀏覽量
134865 -
視頻
+關注
關注
6文章
1950瀏覽量
73009 -
AI視覺
+關注
關注
0文章
65瀏覽量
4491
原文標題:AI視覺,視頻云新挑戰(zhàn)的解決之道
文章出處:【微信號:livevideostack,微信公眾號:LiveVideoStack】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論