大家晚上好,非常榮幸參加LiveVideoStack線上公開(kāi)課。首先自我介紹下,我是查勇,來(lái)自華為云,是媒體處理服務(wù)的研發(fā)負(fù)責(zé)人。近10年我一直是在從事視頻編解碼產(chǎn)品的開(kāi)發(fā)和架構(gòu)設(shè)計(jì)工作,我本人是非常熱愛(ài)媒體處理相關(guān)技術(shù)的研究的。
參與此次公開(kāi)課分享的目的主要有兩方面,一方面是想通過(guò)本次分享,為大家介紹華為云媒體處理服務(wù)在視頻AI轉(zhuǎn)碼領(lǐng)域的一些技術(shù)實(shí)踐;另一方面是想與更多專家交流,互相學(xué)習(xí),以促進(jìn)下一代視頻轉(zhuǎn)碼技術(shù)的快速發(fā)展,助力行業(yè)實(shí)現(xiàn)音視頻體驗(yàn)升級(jí)。
本次分享的主題包括三個(gè)部分:首先介紹超高清視頻行業(yè)發(fā)展趨勢(shì),以及這些趨勢(shì)為云轉(zhuǎn)碼帶來(lái)的機(jī)遇和挑戰(zhàn);其次從技術(shù)層面分析一下,在超高清視頻時(shí)代,通過(guò)云轉(zhuǎn)碼提升音視頻體驗(yàn)的一些關(guān)鍵技術(shù)點(diǎn);最后從華為云媒體處理服務(wù)自身的實(shí)踐出發(fā),詳細(xì)介紹一下華為云如何使用AI轉(zhuǎn)碼技術(shù)來(lái)打造視頻的超高清體驗(yàn),希望能給大家?guī)?lái)一些收獲和啟發(fā)。
01/超高清視頻行業(yè)發(fā)展的趨勢(shì)
在大視頻時(shí)代,隨著5G、AI以及云技術(shù)的發(fā)展,超高清視頻行業(yè)迎來(lái)了一個(gè)高速發(fā)展期。我們可以看到,在生產(chǎn)端,4K/8K超高清制播平臺(tái)正在加快建設(shè)中,超高清電視的制播模式也在不斷創(chuàng)新,當(dāng)前超高清內(nèi)容的生產(chǎn)能力得到了極大提升。在消費(fèi)端,隨著芯片技術(shù)的發(fā)展,4K/8K電視和沉浸式終端的逐漸普及,消費(fèi)端體驗(yàn)超高清內(nèi)容的媒介也在不斷豐富。
在傳輸環(huán)節(jié),5G高帶寬、低時(shí)延的特點(diǎn),使得超高清內(nèi)容更容易獲取,互動(dòng)性場(chǎng)景的體驗(yàn)也越來(lái)越好。在處理環(huán)節(jié),借助云端的強(qiáng)大算力和AI技術(shù),我們可以實(shí)現(xiàn)超高清內(nèi)容的極致壓縮和畫質(zhì)增強(qiáng),在提升播放體驗(yàn)的同時(shí),可以極大地降低分發(fā)和制作的成本。另外借助邊緣云計(jì)算的技術(shù)和能力也可以進(jìn)一步地降低超高清視頻的制作和分發(fā)成本。
在應(yīng)用場(chǎng)景上,我們可以看到超高清視頻也逐步地在向直播、VR、多視角、自由視角等領(lǐng)域發(fā)展,應(yīng)用范圍正在逐步擴(kuò)展。
總的來(lái)說(shuō),超高清視頻行業(yè)的基礎(chǔ)設(shè)施正在逐步完善,應(yīng)用場(chǎng)景也在逐步走向成熟。
大家都知道一個(gè)產(chǎn)業(yè)的快速發(fā)展,是和生態(tài)建設(shè)的成熟度息息相關(guān)的。下面我們一起看一下超高清視頻產(chǎn)業(yè)在標(biāo)準(zhǔn)生態(tài)建設(shè)以及政策方面的情況。
首先在組織層面,中國(guó)已經(jīng)成立了超高清產(chǎn)業(yè)聯(lián)盟。在標(biāo)準(zhǔn)方面,超高清視頻產(chǎn)業(yè)發(fā)展的白皮書和與之關(guān)聯(lián)的軟硬件諸多協(xié)議也都相繼出臺(tái),這些都進(jìn)一步促進(jìn)了超高清視頻產(chǎn)業(yè)的健康有序發(fā)展。在政策方面,14省市發(fā)布了超高清視頻產(chǎn)業(yè)發(fā)展的行動(dòng)計(jì)劃,為超高清產(chǎn)業(yè)消費(fèi)體驗(yàn)升級(jí),行業(yè)創(chuàng)新提供指導(dǎo)意見(jiàn)。
在生態(tài)和政策的雙重驅(qū)動(dòng)下,當(dāng)前多地已經(jīng)啟動(dòng)了超高清項(xiàng)目實(shí)驗(yàn)基地,如成都的超高清基地、青島高清視頻基地、廣州花果山基地以及馬欄山內(nèi)容基地等,超高清產(chǎn)業(yè)實(shí)現(xiàn)進(jìn)一步向縱深發(fā)展。
根據(jù)權(quán)威機(jī)構(gòu)預(yù)測(cè),2022年中國(guó)超高清視頻產(chǎn)業(yè)總值將達(dá)到4萬(wàn)億元,超高清用戶總數(shù)也將達(dá)到2億。我們可以看到,當(dāng)前4K/8K電視已經(jīng)成為電視機(jī)廠商的旗艦標(biāo)配,消費(fèi)者對(duì)視頻畫質(zhì)的關(guān)注度也越來(lái)越高,HDR、高幀率、寬色域、高色深,這些指標(biāo)都成為終端性能的一個(gè)新賣點(diǎn)。
另外隨著芯片技術(shù)的發(fā)展,沉浸式終端的種類也越來(lái)越多,消費(fèi)者越來(lái)越追求高逼真、更加接近現(xiàn)實(shí)的視頻體驗(yàn),我們正面臨一個(gè)視頻消費(fèi)體驗(yàn)升級(jí)的時(shí)代。
超高清行業(yè)的高速發(fā)展以及消費(fèi)體驗(yàn)的升級(jí),為云端視頻處理也帶來(lái)了更多的機(jī)會(huì)點(diǎn):一是當(dāng)前超高清內(nèi)容的供給跟不上硬件發(fā)展的速度,為了讓市場(chǎng)上非超高清視頻內(nèi)容帶來(lái)超高清的體驗(yàn),我們可以使用云端視頻處理的技術(shù)來(lái)解決;二是視頻在采集、制作和壓縮環(huán)節(jié)都會(huì)引入噪聲或者失真,我們可以借助云端視頻處理的能力來(lái)降低引入專業(yè)設(shè)備和人工處理的成本。
但很多時(shí)候機(jī)遇與挑戰(zhàn)是并存的,通過(guò)云端視頻處理來(lái)提升音視頻體驗(yàn),也面臨著幾方面的挑戰(zhàn):一方面,市場(chǎng)上存量的視頻內(nèi)容,例如老舊影片和電視劇,局限于當(dāng)時(shí)的采集設(shè)備和制作技術(shù),畫質(zhì)是參差不齊的,涉及畫質(zhì)修復(fù)的種類和場(chǎng)景非常多;另一方面,影響視頻體驗(yàn)的客觀指標(biāo)非常多,例如低分辨率、噪聲、模糊、低幀率、色彩灰暗、暗亮斑等等,當(dāng)前無(wú)法使用單一技術(shù)來(lái)完成所有場(chǎng)景的體驗(yàn)提升,這對(duì)技術(shù)的積累要求非常高。
02/云轉(zhuǎn)碼打造視頻超高清體驗(yàn)的關(guān)鍵技術(shù)點(diǎn)
那么云端視頻處理需要具備哪些關(guān)鍵技術(shù)點(diǎn)來(lái)提升視頻的畫質(zhì)呢?要具備超高清視頻的體驗(yàn),從一些低質(zhì)量視頻的表現(xiàn)出發(fā)我們可以總結(jié)出影響體驗(yàn)的一些關(guān)鍵特征,比如低分辨率、噪聲、模糊、劃痕、閃爍、低幀率、色彩灰暗等等。對(duì)應(yīng)的我們?cè)谠贫宿D(zhuǎn)碼的系統(tǒng),就可以針對(duì)這些低質(zhì)視頻的特征,使用相應(yīng)的技術(shù)來(lái)改善低質(zhì)視頻的畫質(zhì),主要技術(shù)包括超分、降噪、修復(fù)、插幀、SDR2HDR。
2.1 超分算法
首先來(lái)看一下超分,也叫空間分辨率增強(qiáng)。超分本質(zhì)上是指在單位空間內(nèi)生成更多的像素,增大像素的密度,來(lái)增強(qiáng)圖像細(xì)節(jié),提高視頻的清晰度。
在深度學(xué)習(xí)網(wǎng)絡(luò)應(yīng)用于超分之前,提升分辨率大多使用傳統(tǒng)的插值算法。如比較常用的雙線性插值,雙三次插值,lanczos插值等算法,我們?cè)谵D(zhuǎn)碼系統(tǒng)中經(jīng)常會(huì)用到這些算法做下采樣。如上圖(左)是一個(gè)雙三次插值的示例,該算法利用的是待采樣點(diǎn)周圍16個(gè)點(diǎn)的灰度值做三次差值,再通過(guò)選取適當(dāng)?shù)牟逯祷瘮?shù)來(lái)擬合數(shù)據(jù)。
從算法的描述上我們能看出,傳統(tǒng)的插值算法一般是要預(yù)定義一個(gè)插值基函數(shù),也叫映射函數(shù),考慮到計(jì)算量,我們的映射函數(shù)一般不會(huì)太復(fù)雜,因此傳統(tǒng)算法在這種場(chǎng)景的泛化能力是比較差的。另外因?yàn)榇蠖嗍菐瑑?nèi)插值,我們插入的值與前后幀是無(wú)時(shí)間關(guān)聯(lián)性的,與鄰近像素點(diǎn)空間關(guān)聯(lián)性也相對(duì)較少,因此效果一般不會(huì)太好。
當(dāng)前要追求超分的效果,大家越來(lái)越傾向于選擇基于深度學(xué)習(xí)的超分算法。如圖(右)是一個(gè)簡(jiǎn)單的超分網(wǎng)絡(luò) — SRCNN,大家都很熟悉這個(gè)網(wǎng)絡(luò)模型。隨著SRCNN的出現(xiàn),我們真正地進(jìn)入到了深度學(xué)習(xí)的超分時(shí)代,基本上每年都有一些新的研究方向出現(xiàn),超分神經(jīng)網(wǎng)絡(luò)也變得越來(lái)越強(qiáng)大。相比于傳統(tǒng)的超分算法,基于神經(jīng)網(wǎng)絡(luò)的超分映射函數(shù)是多層非線性且可以學(xué)習(xí)的,插入的值在時(shí)間和空間維度能夠關(guān)聯(lián)更多的周邊像素,細(xì)節(jié)上的體現(xiàn)更加精確,在超高清領(lǐng)域應(yīng)用也越來(lái)越廣泛。
2.2 視頻插幀
除了空間分辨率會(huì)影響畫質(zhì),時(shí)間分辨率也就是幀率對(duì)人的主觀體驗(yàn)影響也很大。我們知道現(xiàn)在終端設(shè)備更新?lián)Q代的速度很快,支持的分辨率從480p、720p到1080p,再到現(xiàn)在的4K和8K。同樣的,終端支持的幀率也從25fps到60fps再到120fps甚至更高,高刷新率現(xiàn)在也是終端的一個(gè)重要賣點(diǎn)。
除了依賴采集的硬件來(lái)提高幀率,目前使用軟件的方法也逐步得到應(yīng)用。大家都體驗(yàn)過(guò), 在一些劇烈的運(yùn)動(dòng)場(chǎng)景下,低幀率會(huì)帶來(lái)明顯的卡頓感,影響人的視覺(jué)感受。視頻插幀算法,就是在原始的視頻幀之間合成不存在的幀來(lái)提高畫面的流暢度,簡(jiǎn)單來(lái)說(shuō)就是提高幀率?;诓鍘惴ǖ难芯糠浅6啵鐐鹘y(tǒng)的基于光流的插幀算法。
傳統(tǒng)算法有什么缺點(diǎn)呢,現(xiàn)實(shí)畫面中存在一些大的物體快速運(yùn)動(dòng)或者遮擋的場(chǎng)景,基于傳統(tǒng)的光流插幀難以解決這種場(chǎng)景帶來(lái)的問(wèn)題,因此插幀的質(zhì)量在這些場(chǎng)景無(wú)法得到改善。想要提升效果的話,我們就回歸到了基于AI的思路上面。
目前AI插幀的思路方法一般都是預(yù)訓(xùn)練生成光流估計(jì)模型,算法實(shí)現(xiàn)上首先輸入兩幀,計(jì)算幀間的光流和提取特征金字塔,然后把warpping之后的圖、特征金字塔和原始圖像一起送入圖像合成網(wǎng)絡(luò),生成插幀之后的圖像。目前這個(gè)方向上相關(guān)的論文也非常多,大家感興趣的可以去研究一下。
2.3 視頻降噪技術(shù)
接下來(lái)我們看一下視頻降噪技術(shù),大家應(yīng)該都體驗(yàn)過(guò)視頻中的噪聲,我們經(jīng)??吹囊恍├掀械难┗ㄔ肼暫烷W爍噪聲是很明顯的,給人帶來(lái)的畫質(zhì)體驗(yàn)是非常差的。我們知道在視頻采集到送顯的一個(gè)完整的周期內(nèi),涉及到的各個(gè)階段都會(huì)引入不同種類的噪聲,最終都會(huì)反饋到消費(fèi)環(huán)節(jié)的播放體驗(yàn)中。正因?yàn)樵肼曇氲膩?lái)源是多樣且廣泛的,所以視頻降噪是非常必要的。
通過(guò)降噪技術(shù),我們可以在保持原始信息完整性的同時(shí),又能夠去除無(wú)用的一些信息。當(dāng)前各種圖像降噪算法非常多,比如基于空域像素特征去噪和變換域去噪的傳統(tǒng)降噪算法。傳統(tǒng)的降噪算法在降噪的同時(shí)往往會(huì)丟失圖像的一些細(xì)節(jié)或者邊緣信息,而且一般來(lái)說(shuō)我們需要設(shè)置降噪參數(shù),效果受參數(shù)的影響也比較大,因此在通用場(chǎng)景上難以廣泛應(yīng)用。
另一個(gè)快速發(fā)展的方向是基于神經(jīng)網(wǎng)絡(luò)的自適應(yīng)降噪算法,算法可以根據(jù)輸入圖像噪聲的級(jí)別,自適應(yīng)地調(diào)節(jié)降噪的強(qiáng)度,圖像的細(xì)節(jié)或邊緣信息損失也會(huì)相對(duì)較小,能夠最大程度的保留原始信息。
基于神經(jīng)網(wǎng)絡(luò)的自適應(yīng)降噪算法,同樣也有自身的缺點(diǎn)。比如由于訓(xùn)練的素材有限,場(chǎng)景無(wú)法全覆蓋,一些場(chǎng)景會(huì)超出網(wǎng)絡(luò)的學(xué)習(xí)能力,當(dāng)然這也是采用深度學(xué)習(xí)算法遇到的普遍問(wèn)題。因?yàn)樵肼晛?lái)源的場(chǎng)景會(huì)更廣泛,所以對(duì)算法的考驗(yàn)也更大。
2.4 視頻修復(fù)技術(shù)
視頻修復(fù)分為狹義的修復(fù)和廣義的修復(fù),狹義的修復(fù)是指針對(duì)視頻中存在的一些問(wèn)題,比如劃痕、暗亮斑、閃爍等問(wèn)題的針對(duì)性修復(fù)。廣義的修復(fù)是在修復(fù)視頻瑕疵的同時(shí),對(duì)原視頻做一些增強(qiáng)。廣義的修復(fù)應(yīng)用范圍會(huì)更廣一些,主要應(yīng)用在老舊影片、老舊電視劇、一些低質(zhì)的UGC視頻等。
在AI智能修復(fù)老片技術(shù)出現(xiàn)以前,經(jīng)典老片修復(fù)通常是由人工逐幀修復(fù)的,效率低,許多大片修復(fù)的時(shí)間以年為單位。如果使用AI的智能修復(fù)技術(shù)框架,就可以基于海量的樣本去訓(xùn)練和自動(dòng)學(xué)習(xí),可以大幅的提升老片修復(fù)的質(zhì)量和效率。人工無(wú)法做到的修復(fù)效果,借助當(dāng)前的AI技術(shù)都可以輕松完成。
盡管目前可以使用AI技術(shù)修復(fù)老片,但修復(fù)經(jīng)典老片仍然不是一件容易的事情,最大的難度是在保留老片的藝術(shù)風(fēng)格和美感的同時(shí)還要處理不同的問(wèn)題和瑕疵。
2.5 SDR2HDR
另外一個(gè)關(guān)鍵技術(shù)點(diǎn),我們看一下近幾年發(fā)展較快的一項(xiàng)技術(shù),SDR 2HDR 。HDR由于其相比SDR具有更高的亮度范圍、更廣的色彩范圍和更深的位深而被大家所熟知,對(duì)應(yīng)帶來(lái)的是視頻具有更豐富的細(xì)節(jié),更寬廣的色域和更自然的色彩過(guò)渡。我們可以看到上圖中SDR和HDR的對(duì)比,在亮度、色彩飽和度以及對(duì)比度上,能明顯地感受到HDR的圖片帶來(lái)的視覺(jué)效果更好一些。另外,當(dāng)前HDR領(lǐng)域也出現(xiàn)了不同的標(biāo)準(zhǔn),從圖表中可以看到這些標(biāo)準(zhǔn)在不同維度的差異。
03/華為云在視頻AI轉(zhuǎn)碼領(lǐng)域的技術(shù)實(shí)踐
下面我們一起來(lái)看一下,在超高清視頻時(shí)代,華為云是如何使用AI技術(shù)來(lái)提升視頻畫質(zhì)并改善播放體驗(yàn)的。
針對(duì)視頻體驗(yàn)提升,華為云推出了智享超清技術(shù),它是一套完整的視頻增強(qiáng)和修復(fù)的解決方案,主要的技術(shù)包括我們上文提到的超分、倍幀,SDR2HDR、HDRVivid、2D轉(zhuǎn)3D以及畫質(zhì)修復(fù)等。華為云智享超清技術(shù)是完全基于華為自研AI算法,采用多任務(wù)AI增強(qiáng)方式,通過(guò)智能修復(fù)和智能增強(qiáng)技術(shù)來(lái)打造視頻的超高清體驗(yàn),能夠更好地服務(wù)直播、點(diǎn)播和互動(dòng)文娛等場(chǎng)景。
3.1 華為云智享超清技術(shù)總體架構(gòu)
上圖是華為云智享超清技術(shù)的總體架構(gòu):基于AI Deep Learning的一個(gè)多任務(wù)畫質(zhì)增強(qiáng)。前面講到單一任務(wù)是很難解決畫質(zhì)的所有問(wèn)題的,我們綜合分析后采用了圖中的pipeline架構(gòu),每一個(gè)增強(qiáng)模塊相當(dāng)于一個(gè)算法插件,可以自由組合,使用起來(lái)也相對(duì)靈活。在處理之前我們會(huì)做一些基本的預(yù)分析,比如說(shuō)噪聲強(qiáng)度分析、畫面亮度分析、ROI區(qū)域檢測(cè)等等,這些分析結(jié)果會(huì)用于指導(dǎo)后續(xù)模塊的智能化處理。
從圖中可以看出,畫質(zhì)增強(qiáng)的整體解決方案主要包括:基礎(chǔ)層的修復(fù),時(shí)域、空域的清晰度增強(qiáng),亮度和顏色增強(qiáng),3D增強(qiáng)等。在實(shí)際的處理中也可以做一些選擇性的修復(fù),選擇性修復(fù)主要包括去劃痕、去亮斑、去閃爍等。在算法設(shè)計(jì)上我們會(huì)更強(qiáng)調(diào)自適應(yīng)能力,也就是在面對(duì)不同場(chǎng)景的畫質(zhì)損失時(shí),視頻增強(qiáng)技術(shù)在盲修復(fù)時(shí)要有很強(qiáng)的泛化能力。
在實(shí)際應(yīng)用過(guò)程中,這些模塊并不都是順序處理的,因?yàn)檫@樣時(shí)間花費(fèi)很大,為了提高效率,我們也會(huì)將多個(gè)視頻增強(qiáng)的任務(wù)進(jìn)行聯(lián)合優(yōu)化處理。
3.2 面向混合失真的AI畫質(zhì)修復(fù)
眾所周知,真實(shí)的視頻源會(huì)包含多種混合失真,比如說(shuō)噪聲、壓縮失真、模糊等等,并且這些失真程度會(huì)差異很大。如果僅考慮分辨率因素,假設(shè)我們對(duì)一個(gè)視頻進(jìn)行超分,超分之后可能反而會(huì)引起瑕疵的放大,難以帶來(lái)顯著的視覺(jué)效果改善。
華為云智享超清技術(shù)通過(guò)構(gòu)建多任務(wù)的混合失真修復(fù)網(wǎng)絡(luò),來(lái)實(shí)現(xiàn)更優(yōu)的主觀效果。我們使用了很多的步驟來(lái)模擬失真的視頻,通過(guò)多種途徑構(gòu)建生成更多用于畫質(zhì)修復(fù)的樣本,比如加上高斯噪聲,隨機(jī)加上一些運(yùn)動(dòng)模糊,加上一些彩色噪聲,降采樣來(lái)降低分辨率,壓縮時(shí)使用很高的壓縮率來(lái)產(chǎn)生壓縮噪聲等。構(gòu)建了這樣的一種數(shù)據(jù)集之后,我們通過(guò)混合失真的多任務(wù)視頻增強(qiáng)算法,自適應(yīng)地去估計(jì)各種失真,這樣就可以增強(qiáng)算法對(duì)不同質(zhì)量視頻的泛化能力。
當(dāng)然這里也會(huì)面臨許多挑戰(zhàn),比如在失真估計(jì)模塊中如何估計(jì)噪聲強(qiáng)度,因?yàn)椴煌瑘D像的噪聲不同,同一圖像的不同區(qū)域噪聲也不同。我們提出了AI自適應(yīng)的降噪算法,對(duì)圖片不同區(qū)域主觀視覺(jué)的噪聲差異進(jìn)行評(píng)估。首先會(huì)對(duì)噪聲明顯區(qū)域進(jìn)行精準(zhǔn)的定位,然后綜合考慮時(shí)域和空域的噪聲強(qiáng)度差異,進(jìn)行不同區(qū)域的噪聲強(qiáng)度估計(jì)。
還有一個(gè)很大的挑戰(zhàn)就是噪聲的模擬,上面提到的方法模擬出的噪聲與真實(shí)噪聲還是有差異的。我們使用了AI網(wǎng)絡(luò)例如CycleGAN來(lái)模擬真實(shí)的噪聲,這樣訓(xùn)練后我們就可以在畫面自然度和清晰度等維度實(shí)現(xiàn)一個(gè)更優(yōu)的主觀效果。
3.3 基于語(yǔ)義特征的視頻超分
我們?cè)賮?lái)看一下華為基于語(yǔ)義特征的視頻超分技術(shù)。對(duì)于畫質(zhì)的空間分辨率增強(qiáng),我們提出了基于語(yǔ)義特征的視頻超分,即先根據(jù)語(yǔ)義對(duì)圖像進(jìn)行分割,然后分區(qū)域進(jìn)行處理,最后再對(duì)增強(qiáng)后的結(jié)果進(jìn)行融合。例如針對(duì)大部分電影、電視劇中人眼關(guān)注較強(qiáng)的一些區(qū)域,像字幕、人臉、紋理等,基于人眼主觀的特點(diǎn),使用單獨(dú)的算法模塊對(duì)這些關(guān)注區(qū)域進(jìn)行重點(diǎn)處理,確保人眼關(guān)注區(qū)域可以達(dá)到比較好的增強(qiáng)效果,從多個(gè)局部最優(yōu)解獲得全局最優(yōu)解。
這種基于語(yǔ)義特征的視頻超分,一般可以獲得比盲超分更好的增強(qiáng)效果,因?yàn)樗鼈兙哂休^強(qiáng)的先驗(yàn),比如字幕增強(qiáng),字幕和每個(gè)字大概是什么樣子是確定的;人臉增強(qiáng),人臉都包含眼睛、嘴、鼻子、耳朵。我們可以收集很多字幕、紋理的數(shù)據(jù)庫(kù),有了這種先驗(yàn),增強(qiáng)的效果會(huì)得到很大的提升。
3.4 基于耦合光流網(wǎng)絡(luò)的視頻插幀
大家應(yīng)該都有過(guò)這種體驗(yàn),普通20fps或者30fps的視頻在手機(jī)上看很流暢,一旦放到大屏上,運(yùn)動(dòng)被放大,卡頓就會(huì)比較明顯,所以我們需要對(duì)時(shí)域進(jìn)行增強(qiáng),提高視頻的幀率。
針對(duì)視頻插幀的任務(wù),華為云提出了一種耦合光流網(wǎng)絡(luò)模型,這種光流網(wǎng)絡(luò)模型可以準(zhǔn)確地估計(jì)出前后兩幀之間的光流,在一些困難的場(chǎng)景,比如說(shuō)小物體快速運(yùn)動(dòng)、遮擋等場(chǎng)景,光流估計(jì)都比較準(zhǔn)確。如圖是一個(gè)例子,左邊是目前比較先進(jìn)的視頻插幀算法RIFE估計(jì)的光流,右邊是華為云自研算法估計(jì)的光流。大家可以不關(guān)注這些顏色代表的含義,僅從形狀上來(lái)看,可以看出右邊的光流模型估計(jì)出的光流會(huì)更細(xì)膩一些,細(xì)節(jié)會(huì)更豐富一些。
3.5 基于場(chǎng)景自適應(yīng)的SDR2HDR技術(shù)
大家都清楚從SDR到HDR轉(zhuǎn)換的時(shí)候會(huì)面臨許多挑戰(zhàn),比如亮場(chǎng)景和暗場(chǎng)景,我們要使用不同的方案來(lái)實(shí)現(xiàn)場(chǎng)景的自適應(yīng),實(shí)現(xiàn)最佳的亮度動(dòng)態(tài)擴(kuò)展;再比如說(shuō)SDR中的綠色在轉(zhuǎn)換成HDR時(shí),有時(shí)會(huì)出現(xiàn)綠色失真的問(wèn)題;人臉的顏色可能因?yàn)楸尘吧珜?dǎo)致轉(zhuǎn)換后偏紅,這種情況需要做到色彩擴(kuò)展的場(chǎng)景自適應(yīng),在擴(kuò)展色彩時(shí)控制色偏;再比如有些噪聲或者失真,在轉(zhuǎn)換成HDR時(shí)被放大了,或者更容易被感知到了,這種情況下,我們就應(yīng)該控制亮度提升導(dǎo)致的噪聲和失真。
華為云SDR2HDR的方案是基于AI技術(shù)來(lái)實(shí)現(xiàn)場(chǎng)景自適應(yīng)的轉(zhuǎn)換,舉個(gè)例子:對(duì)于一個(gè)待處理的原視頻,首先會(huì)進(jìn)行一個(gè)場(chǎng)景識(shí)別,分類出比如人臉、風(fēng)景等類別,進(jìn)行場(chǎng)景分類后,就可以實(shí)現(xiàn)自適應(yīng)場(chǎng)景的亮度擴(kuò)展和自適應(yīng)場(chǎng)景的色彩擴(kuò)展,對(duì)轉(zhuǎn)制過(guò)程中各場(chǎng)景的Tone Mapping算法進(jìn)行優(yōu)化,來(lái)抑制8比特?cái)U(kuò)展到10比特后出現(xiàn)的失真。
在實(shí)際應(yīng)用時(shí),我們會(huì)對(duì)大量轉(zhuǎn)換后的視頻進(jìn)行主觀評(píng)測(cè),會(huì)針對(duì)不同場(chǎng)景轉(zhuǎn)換后視頻出現(xiàn)的一些問(wèn)題做針對(duì)性調(diào)優(yōu),這樣做之后,算法當(dāng)前在影視劇和電視劇場(chǎng)景都有非常好的效果。
3.6 基于CUVA HDR標(biāo)準(zhǔn)的場(chǎng)景自適應(yīng)SDR2HDR技術(shù)
上面我們提到的華為云SDR2HDR技術(shù)轉(zhuǎn)換的是HDR10,前面的介紹中也列舉了HDR技術(shù)的不同標(biāo)準(zhǔn)。華為公司作為主要貢獻(xiàn)方深度參與了CUVA HDR技術(shù)標(biāo)準(zhǔn)的制定。HDR10采用的是靜態(tài)的色調(diào)映射,會(huì)有顯示設(shè)備兼容性的問(wèn)題,比如原場(chǎng)景的亮度是1000nit,大于顯示屏500nit的最大亮度值,使用靜態(tài)的映射曲線映射后,視頻在500nit顯示屏上顯示時(shí)就容易出現(xiàn)過(guò)曝的問(wèn)題,很多細(xì)節(jié)就消失了。
華為云當(dāng)前基于CUVA HDR標(biāo)準(zhǔn)的 SDR2HDR技術(shù)采用的是動(dòng)態(tài)元數(shù)據(jù)方案,會(huì)適應(yīng)不同的亮度屏幕來(lái)達(dá)到最佳的顯示效果,能夠確保同一內(nèi)容在不同亮度屏上實(shí)現(xiàn)最優(yōu)的體驗(yàn),避免產(chǎn)生色彩變暗、過(guò)曝等問(wèn)題。我們前面提到的場(chǎng)景自適應(yīng)技術(shù)同樣也適用在CUVA HDR轉(zhuǎn)換中,這種多技術(shù)結(jié)合的方案,能夠帶來(lái)更好的設(shè)備兼容性和場(chǎng)景適應(yīng)性。
04/總結(jié)
以上就是華為云媒體處理服務(wù)打造視頻超高清體驗(yàn)的幾個(gè)關(guān)鍵技術(shù)。影響視頻體驗(yàn)的指標(biāo)是很多的,但提升體驗(yàn)的方向是基本明確的,雖然這里面有很多的困難和技術(shù)層面的挑戰(zhàn),但相信我們技術(shù)人能夠直面挑戰(zhàn),用技術(shù)上的創(chuàng)新給用戶帶來(lái)極致的體驗(yàn)。超高清視頻的時(shí)代已然到來(lái),要打造極致的體驗(yàn),云上技術(shù)創(chuàng)新只是其中重要的一環(huán),唯有端管云協(xié)同服務(wù)、協(xié)同創(chuàng)新,才能給消費(fèi)者帶來(lái)更真實(shí)的視頻感官享受。
本次分享全部?jī)?nèi)容到此結(jié)束,謝謝大家。
Q&A
Q:HDRVivid標(biāo)準(zhǔn)的優(yōu)勢(shì)和前景在哪里?
HDR Vivid標(biāo)準(zhǔn),是在現(xiàn)有HDR基礎(chǔ)上,通過(guò)增加動(dòng)態(tài)元數(shù)據(jù),為不同亮度顯示終端提供更加準(zhǔn)確的動(dòng)態(tài)范圍映射方式,可以最大限度地還原HDR內(nèi)容原有藝術(shù)效果。因?yàn)椴捎玫氖莿?dòng)態(tài)元數(shù)據(jù)的方案,就可以有效解決SDR轉(zhuǎn)換成HDR后,在不同終端上顯示可能帶來(lái)的一些問(wèn)題,比如暗場(chǎng)景產(chǎn)生色彩過(guò)暗,亮場(chǎng)景產(chǎn)生過(guò)曝的問(wèn)題。HDR Vivid標(biāo)準(zhǔn)的呈現(xiàn)效果明顯優(yōu)于國(guó)際主流的靜態(tài)元數(shù)據(jù)HDR方案,在亮度適配和終端兼容性方面表現(xiàn)尤為出色。作為中國(guó)超高清視頻產(chǎn)業(yè)聯(lián)盟(CUVA)發(fā)布的中國(guó)首個(gè)高動(dòng)態(tài)范圍視頻標(biāo)準(zhǔn),提供了端到端媒體系統(tǒng)標(biāo)準(zhǔn),并且采取了友好的知識(shí)產(chǎn)權(quán)政策,更容易推廣和產(chǎn)業(yè)化部署。
Q:在視頻增強(qiáng)和修復(fù)這塊,有沒(méi)有遇到一些比較有挑戰(zhàn)的點(diǎn),具體是怎么解決的?
采用AI的技術(shù)遇到的問(wèn)題和挑戰(zhàn)有時(shí)候會(huì)比傳統(tǒng)的算法更多,在視頻增強(qiáng)和修復(fù)這塊,最大的難題是如何做到場(chǎng)景自適應(yīng)。今天我們講解中提到最多的也是場(chǎng)景自適應(yīng)的技術(shù),我們講神經(jīng)網(wǎng)絡(luò)的泛化能力,要做到全場(chǎng)景覆蓋是很難的。受限于訓(xùn)練數(shù)據(jù)總有一些場(chǎng)景效果是不滿足的,依賴我們對(duì)特殊場(chǎng)景做針對(duì)性的優(yōu)化。
Q:視頻插幀,1080p分辨率視頻,速度怎么樣?
華為云的視頻插幀算法也在不斷地做性能優(yōu)化,目前視頻插幀結(jié)合超分已經(jīng)在1080p分辨率視頻實(shí)現(xiàn)商用,端到端性能還是可以滿足客戶訴求的。針對(duì)這些AI增強(qiáng)算法我們使用了GPU加速,對(duì)于不同的算法我們也會(huì)通過(guò)調(diào)整或者簡(jiǎn)化模型結(jié)構(gòu)來(lái)降低算法復(fù)雜度。
Q:華為云官網(wǎng)哪個(gè)服務(wù)開(kāi)放了智享超清能力,可以試用嗎?
華為云媒體處理服務(wù)官網(wǎng)有智享超清能力的介紹和效果示例的,大家可以上我們的官網(wǎng)去看一下。智享超清只是我們?cè)妻D(zhuǎn)碼其中的一個(gè)子能力,我們?nèi)A為云媒體處理服務(wù)對(duì)外開(kāi)放了豐富的媒體處理能力,比如標(biāo)準(zhǔn)轉(zhuǎn)碼、高清低碼、截圖、水印、加密等等。
Q:基于光流的插幀算法目前咱們有哪些應(yīng)用嗎?實(shí)際效果如何?
基于光流的插幀算法,目前我們已經(jīng)應(yīng)用到超高清轉(zhuǎn)制場(chǎng)景了,華為云媒體處理服務(wù)的智享超清特性里面就包含了基于AI的插幀能力,對(duì)于30fps及以內(nèi)的普通幀率高清影片,可以生成60fps甚至120fps的高幀率視頻,讓普通影片在大屏上也能流暢播放。大家手機(jī)上如果有華為視頻APP,可以觀看AiMax專區(qū)的影片,在大屏上播放效果特別好。
Q:請(qǐng)問(wèn)下,F(xiàn)Fmpeg本身也有一些視頻修復(fù)算法,華為云使用了FFmpeg的AI修復(fù)算法嗎?
FFmpeg基于AI框架的能力,比如超分、去雨等,給了我們基于FFmpeg的框架如何去集成深度學(xué)習(xí)算法的一個(gè)指導(dǎo),主要是一個(gè)技術(shù)牽引,這些FFmpeg開(kāi)放出來(lái)的示例距離商用還是有一定的GAP的。我們有專業(yè)的AI算法團(tuán)隊(duì),可以在技術(shù)上做持續(xù)的積累。
Q:AR視頻源比如高清4K、8K,對(duì)這些高分辨率素材處理有什么加速建議嗎?
針對(duì)4K、8K的超高清片源,首先在編解碼上使用CPU已經(jīng)有了一定的性能瓶頸,我們會(huì)使用硬件編碼卡來(lái)做加速;其次在AI增強(qiáng)上,我們會(huì)使用GPU來(lái)加速,但不是所有的算法都使用GPU,其中一部分也使用了 CPU的能力,比如說(shuō)噪聲強(qiáng)度檢測(cè)、亮度檢測(cè)等模塊,因?yàn)槠浔旧韺?duì)性能消耗是不大的,我們就可以基于CPU去處理。對(duì)于算法是基于CPU還是GPU處理,可以根據(jù)算法的復(fù)雜度來(lái)決定。
Q:華為云的轉(zhuǎn)碼耗時(shí)比現(xiàn)狀是多少,在轉(zhuǎn)多格式的情況下,怎么提升耗時(shí)比呢?
目前我們轉(zhuǎn)碼分為標(biāo)準(zhǔn)轉(zhuǎn)碼和高清低碼,在標(biāo)準(zhǔn)轉(zhuǎn)碼和高清低碼上都是支持一入多出的。
在做長(zhǎng)視頻轉(zhuǎn)碼的時(shí)候,我們會(huì)做并行轉(zhuǎn)碼,先對(duì)長(zhǎng)視頻進(jìn)行切片,然后進(jìn)行分布式并行轉(zhuǎn)碼,最后做轉(zhuǎn)碼后分片的合并。華為云轉(zhuǎn)碼提供的是倍速轉(zhuǎn)碼模式,在長(zhǎng)視頻場(chǎng)景下這種切轉(zhuǎn)合的模式都能提供很高的轉(zhuǎn)碼效率。
Q:字幕增強(qiáng)更多是構(gòu)造字幕數(shù)據(jù)集嗎?模型上有沒(méi)有針對(duì)文字進(jìn)行特殊的設(shè)計(jì)?
字幕數(shù)據(jù)集達(dá)到一定的覆蓋即可,也不是越多效果就會(huì)越好。我們會(huì)利用華為已經(jīng)獲得版權(quán)的一些電視劇和電影中的實(shí)際字幕文本來(lái)做訓(xùn)練集。因?yàn)樽帜恢械奈淖直旧砭哂幸欢ǖ南闰?yàn),而且文字結(jié)構(gòu)信息強(qiáng),我們?cè)谀P蜕蠒?huì)針對(duì)文字結(jié)構(gòu)和loss函數(shù)進(jìn)行針對(duì)性的設(shè)計(jì)。
審核編輯 :李倩
-
視頻
+關(guān)注
關(guān)注
6文章
1947瀏覽量
72935 -
AI
+關(guān)注
關(guān)注
87文章
30979瀏覽量
269249 -
華為云
+關(guān)注
關(guān)注
3文章
2555瀏覽量
17451
原文標(biāo)題:査勇:華為云在視頻AI轉(zhuǎn)碼領(lǐng)域的技術(shù)實(shí)踐
文章出處:【微信號(hào):livevideostack,微信公眾號(hào):LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論