最好看的小说排行,懒人听书,小说排行榜

AI就像一個加速器，正在滲透在多媒體應用的方方面面，改進甚至顛覆傳統(tǒng)的圖像視頻處理方法。本文整理自騰訊云高級研發(fā)工程師劉兆瑞在LiveVideoStackCon 2020北京站上的演講，將從超低碼率壓縮場景下AI技術在前置處理中的優(yōu)化、AI技術的畫質修復探索以及智能編輯場景的落地實踐三個方面展開。

大家好，首先非常榮幸有機會收到LiveVideoStack邀請來和大家分享騰訊視頻云在AI視覺上的落地實踐與應用，以及AI視覺泛化應用過程遇到的機遇和挑戰(zhàn)。

首先簡單做個自我介紹，加入騰訊以后，就一直在騰訊視頻云工作，早先負責PSTN云通信平臺，之后進行極速高清轉碼平臺的研發(fā)工作，與此同時也針對視頻的場景和特性進行編碼器的優(yōu)化。現(xiàn)在主要負責騰訊明眸（畫質修復、畫質增強）的研發(fā)工作，該工作與騰訊多媒體實驗室聯(lián)合研發(fā)，已經在騰訊視頻云上得到比較好的落地與應用。今天分享的內容更多以一個工程師的角度，和大家分享我們是如何把AI視覺真正的落地，應用在廣泛、海量的視頻處理過程中。所以在技術選型上，可能不會去選擇目前state of the art的技術，更多會考慮模型的穩(wěn)定性、泛化能力以及資源的消耗、成本。接下來的分享是我們在實際落地過程中遇到的問題、踩過的坑，以及我們的一些trick。希望能為做類似業(yè)務落地的同學提供一定的參考。

上圖是騰訊視頻云在直播點播媒體處理、智能編輯等方面的產品矩陣，可以看到，無論是直播、點播中應用的視頻壓縮和畫質修復技術，還是智能編輯中應用的審核、識別、標簽等技術，都離不開AI的支持。 01極速高清，視頻壓縮的挑戰(zhàn) 近年來，視頻編碼領域也是在飛速發(fā)展，從H264編碼標準到現(xiàn)在的H265再到AV1。但是從實際用戶的使用情況觀察，目前H264標準依舊是主流，甚至90%以上的用戶還在使用H264。其實，H264已經是十幾年前的標準，有很多可以優(yōu)化的痛點，我們希望可以結合AI技術，使H264在當前標準的基礎上，獲得新的編碼壓縮增益。 1.1 極速高清，單一視頻的極致壓縮

首先簡單對騰訊云極速高清產品做個定義，簡單而言它是一個結合了前置處理、編碼器優(yōu)化的整體視頻壓縮解決方案。給客戶提供更低碼率的同時，保證主觀感受不變差，甚至更好的主觀感受。提到壓縮肯定離不開編碼器，從編碼器角度來說，目前x264其實是非常成熟、優(yōu)秀的編碼器，但它仍然存在一定優(yōu)化空間，比如x264是通用的編碼器，不會針對一些垂直領域去做調優(yōu)，但對于云服務的一些垂直場景，編碼器內部還有很多可以調試優(yōu)化的地方。在不同垂直品類的視頻場景，我們在碼率控制、rdo分析、deblock濾波等等編碼器內部都做了新的編碼工具。同時視頻源的質量也是參差不齊的，所以針對不同質量的視頻源會進行銳化、去噪等輔助操作。極速高清方案整體壓縮下來，與普通轉碼相比會有額外20%-40%的碼率節(jié)省。 1.2 場景分類，海量視頻的分類壓縮但是對于云上業(yè)務，每天轉碼海量的視頻，我們不可能針對每個視頻tune編碼特性和參數(shù)，而我們在編碼器上很多優(yōu)化的編碼工具都是針對垂直場景，如果使用場景不匹配，會出現(xiàn)一定的反效果。所以針對不同場景、不同品類，和編碼團隊配合，更好的使用編碼工具是非常有意義的一件事。

上圖是一個簡單的直觀對比，左邊兩張圖像使用同樣的銳化強度處理，但游戲場景會有失真的情況。從編碼器的對比來看，如果你使用同樣crf35的編碼強度去壓縮，可以發(fā)現(xiàn)大逃殺類游戲已經產生了大量模糊，但秀場視頻還能夠保持不錯的質量感官。

前面提到視頻場景分類的必要性，我們在場景分類的模型選擇上是基于CNN的，主要是考慮CNN模型已經非常成熟、穩(wěn)定，同時資源的消耗也比較低，速度能夠達到我們實時的需求。此外，CNN在推理過程中使用CPU就可以達到我們的要求，這也是一個非常誘人的優(yōu)點，畢竟在很多情況下，GPU資源還是相對比較稀缺。 1.3 基于AI的輔助壓縮

我們通過場景分類來更好的利用編碼特性和工具，但我們也知道在編碼中沒有極限，尤其是To B服務要滿足客戶的各類需求。比如實際場景中的一個例子，源是非常復雜的高動態(tài)的MV類視頻，需要輸出720P@30fps，并且壓縮到500Kbps以下，同時因為播放端等因素限制，必須使用H264編碼。上圖是使用x264編碼器在slow復雜度下壓縮出來的效果，可以看到這個壓縮出來的結果還是比較差。

下面跟大家分享下，我們對于這個問題的嘗試和思考過程。我們知道碼率、質量和分辨率之間是有一個間隔交錯的區(qū)間，也就是說在碼率非常低的情況下，低分辨率的質量（視覺效果）可能會優(yōu)于高分辨率。從原理上來看，低分辨率和高分辨率相比，細節(jié)信息是更少的。用低碼率來壓縮高分辨率視頻，會出現(xiàn)非常多的塊效應。而低分率視頻對人眼的感官來說只是模糊、不夠清晰。因此可以通過一些模糊、去噪的手段，主動減少一些視頻細節(jié)。這樣處理后，整個視頻的塊效應變少了，當然也會帶來額外的模糊效應。從客觀指標來看（PSNR、SSIM、VMAF）,各個指標都有比較大的降低，雖然主觀有一定提升，但從客觀指標和整體方案來看，并不完美。

首先分析下模糊方案的缺點，模糊去噪的處理過程中，并不知道編碼器的傾向喜好，會按照去噪算法統(tǒng)一的磨平細節(jié)，而沒有考慮編碼過程。所以我們思考是否可以基于AI視覺的技術，做一個reduce artifact的filter。我們希望這個filter能夠主動磨掉一些細節(jié)，使視頻和編碼器有更好的親和性，也就是說這個視頻會更容易被編碼器壓縮，與此同時它不會把人眼關注的、明顯的邊緣磨掉，也就是在保證主體清晰度的前提下，編碼客觀指標也不會大幅下降。我們在模型訓練的過程中，引入了編碼過程，shuffle后還原的圖像不直接計算loss，而是進行一次視頻壓縮，用壓縮后的圖像來計算loss。低碼率壓縮時，先經過reduce artifact處理，再進行轉碼，畫面的人眼感官會有一個顯著的提升。 02騰訊明眸—永恒的追求，畫質提升 2.1 視頻超分辨率

提到畫質修復、畫質增強，肯定離不開超分辨率。目前超分辨技術已經取得一定的突破，可以大規(guī)模的落地使用。其中，基于ResNet的WDSR模型目前有比較好的超分效果和穩(wěn)定性。基于WDSR的視頻超分有比較好的連貫性和穩(wěn)定性，對每一個視頻幀獨立處理，連接成視頻后不會有頓挫、抖動現(xiàn)象。實際場景挑戰(zhàn) — 訓練數(shù)據(jù)

在實際落地的過程中，還有很多新的問題需要關注和解決。首先訓練數(shù)據(jù)非常重要，以上圖為例，左邊的視頻已經有非常多噪點和模糊的情況，如果像實驗環(huán)境下的視頻一樣使用無損的下采樣數(shù)據(jù)進行訓練，效果其實是微乎其微的。針對這樣的情況，我們會把圖像進行下采樣，然后用比較高的CRF值（比較差的編碼質量）對這個圖像進行編碼，這樣訓練數(shù)據(jù)中就有很多的噪點、偽影信息，訓練出來的模型也會有比較好的去偽影能力。海量視頻的分類超分

對于云上業(yè)務來說，每天需要處理海量的視頻數(shù)據(jù)。如果對一個高清晰的視頻進行超分，同時超分的模型是由一個高CRF數(shù)據(jù)集訓練提供，會發(fā)現(xiàn)超分后視頻的很多細節(jié)被磨平損失，反之亦然。所以不同訓練數(shù)據(jù)構造的模型與視頻源之間要有一定的匹配關系。針對這種場景，我們通過CRF值來構造多種壓縮強度的數(shù)據(jù)源，進而用這些數(shù)據(jù)源訓練出不同強度的超分模型。當需要進行超分處理時，先使用基于CNN清晰度分類模型，對視頻源進行分類，判斷視頻源的清晰程度，然后使用跟清晰程度匹配的超分模型來進行處理。 Y or RGB？

接下來跟大家分享下落地過程中遇到的問題。團隊最開始基于Y通道進行超分，但經過一段時間的運營，發(fā)現(xiàn)視頻源是清晰的情況下，如果單獨把Y通道單獨提取出來會有很多奇怪的紋理和毛刺，超分后會放大這些異常。如果基于RGB超分則不會有這樣的問題。雖然Y通道有自身的缺點，但在實際的落地過程中，很多場景還是離不開基于Y通道的超分。比如直播中的 4K超分，為了保證實時性，會對一路直播流進行分布式的拆分，路由到多臺GPU節(jié)點進行處理，而在分布式超分的場景中，使用Y通道傳輸可以節(jié)省帶寬的消耗。老片場景超分辨率：細節(jié)補足與幀間穩(wěn)定性

對于一些老片的場景，基于ResNet和CNN的超分模型，雖然可以提升視頻質量，但是其對視頻細節(jié)的捕捉能力還不夠強，上述模型可以把一個非常差的視頻提升到還不錯的程度，但與目前所認可的高清還有一段差距。這種老片的視頻場景，可以通過GAN網絡來優(yōu)化，GAN網絡具有比較強的細節(jié)補充能力，這種補齊比較符合人眼感官，帶來視覺效果的提升。當然，GAN網絡在實際落地的過程中，還有很多需要解決的問題，首要問題就是GAN的不穩(wěn)定性和幀間一致性的優(yōu)化。 2.2 快速、可控的色彩增強

在色彩增強方面，這里將MobileNet的特征與HSV色彩直方圖相結合，作為一個融合特征去分類訓練，通過這個模型來獲取調整對比度、亮度和色度的參數(shù)。這樣處理后的模型比較小，速度也非常快，有利于大規(guī)模落地使用；其次，它不是端到端的處理，所以整個過程是可控的，由于顏色的變換對于人眼來說是非常敏感的，因此在落地的過程中，我們也更傾向于使用中間過程可控的方式。

從上面三張圖片的對比來看，足球和暗場景都會使色彩變的更加鮮艷，同時對于游戲場景，也能比較好地保證原始視頻顏色的本真。 2.3 視頻流暢度提升，視頻插幀

最后再介紹下我們在視頻插幀所做的工作。相比于光流法，落地過程中更傾向于CAIN模型結構。CAIN網絡的特性在于下限很高，穩(wěn)定性比較強，很少有大面積的模糊錯插。當然與光流法相比，CAIN插出來的清晰度較差。場景分割也是插幀中必不可少的一項操作，對于判斷出的場景分割點，可以跳過不進行插幀，避免變化太大的問題。場景分割的實現(xiàn)方案可以考慮移植編碼器的screencut算法，其在性能和穩(wěn)定性上都經過了千錘百煉的優(yōu)化，適用于大規(guī)模的落地使用。

上圖是我們使用插幀效果的對比，雖然手部有一定程度的模糊，但在視頻播放過程中，由于前后兩幀都是清晰的，考慮到視覺殘留效應，這種小的模糊是完全可以接受的。 03云端全鏈路視頻智能生產最后再介紹下我們在視頻編輯部分所支持的一些能力。 3.1 制作云 — 從生產、編輯到消費的全鏈路

視頻制作云，其集成了新一代的云端遠程界面制作，通過超低延時協(xié)議把各地信號流傳到云端進行導播，支持了在線剪輯和AI識別等處理，同時我們也為企業(yè)也提供了從生產到編輯到消費的全鏈路，支持一鍵分發(fā)到各大消息平臺。

騰訊微剪，首發(fā)獨創(chuàng)的小程序視頻編輯工具，快速集成，支持音樂、濾鏡等特效。支持智能模板，根據(jù)輸入素材自動視圖拼接生成視頻。

在直播制作方面，我們提供了云導播臺。云導播臺的優(yōu)勢就在于操作簡單，功能上支持2s快速切換，直播內容無縫銜接。同時，云導播臺是基于互聯(lián)網的，所以非常容易支持一些互聯(lián)網活動，比如支持直播過程中的實時發(fā)放紅包和優(yōu)惠券。

責任編輯：lq

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴