在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

AI視覺泛化應用過程遇到的機遇和挑戰(zhàn)

LiveVideoStack ? 來源:LiveVideoStack ? 作者:LiveVideoStack ? 2020-12-07 13:53 ? 次閱讀

AI就像一個加速器,正在滲透在多媒體應用的方方面面,改進甚至顛覆傳統(tǒng)的圖像視頻處理方法。本文整理自騰訊云高級研發(fā)工程師劉兆瑞在LiveVideoStackCon 2020北京站上的演講,將從超低碼率壓縮場景下AI技術在前置處理中的優(yōu)化、AI技術的畫質修復探索以及智能編輯場景的落地實踐三個方面展開。

大家好,首先非常榮幸有機會收到LiveVideoStack邀請來和大家分享騰訊視頻云在AI視覺上的落地實踐與應用,以及AI視覺泛化應用過程遇到的機遇和挑戰(zhàn)。

首先簡單做個自我介紹,加入騰訊以后,就一直在騰訊視頻云工作,早先負責PSTN云通信平臺,之后進行極速高清轉碼平臺的研發(fā)工作,與此同時也針對視頻的場景和特性進行編碼器的優(yōu)化。現(xiàn)在主要負責騰訊明眸(畫質修復、畫質增強)的研發(fā)工作,該工作與騰訊多媒體實驗室聯(lián)合研發(fā),已經在騰訊視頻云上得到比較好的落地與應用。 今天分享的內容更多以一個工程師的角度,和大家分享我們是如何把AI視覺真正的落地,應用在廣泛、海量的視頻處理過程中。所以在技術選型上,可能不會去選擇目前state of the art的技術,更多會考慮模型的穩(wěn)定性、泛化能力以及資源的消耗、成本。接下來的分享是我們在實際落地過程中遇到的問題、踩過的坑,以及我們的一些trick。希望能為做類似業(yè)務落地的同學提供一定的參考。

上圖是騰訊視頻云在直播點播媒體處理、智能編輯等方面的產品矩陣,可以看到,無論是直播、點播中應用的視頻壓縮和畫質修復技術,還是智能編輯中應用的審核、識別、標簽等技術,都離不開AI的支持。 01極速高清,視頻壓縮的挑戰(zhàn) 近年來,視頻編碼領域也是在飛速發(fā)展,從H264編碼標準到現(xiàn)在的H265再到AV1。但是從實際用戶的使用情況觀察,目前H264標準依舊是主流,甚至90%以上的用戶還在使用H264。其實,H264已經是十幾年前的標準,有很多可以優(yōu)化的痛點,我們希望可以結合AI技術,使H264在當前標準的基礎上,獲得新的編碼壓縮增益。 1.1 極速高清,單一視頻的極致壓縮

首先簡單對騰訊云極速高清產品做個定義,簡單而言它是一個結合了前置處理、編碼器優(yōu)化的整體視頻壓縮解決方案。給客戶提供更低碼率的同時,保證主觀感受不變差,甚至更好的主觀感受。 提到壓縮肯定離不開編碼器,從編碼器角度來說,目前x264其實是非常成熟、優(yōu)秀的編碼器,但它仍然存在一定優(yōu)化空間,比如x264是通用的編碼器,不會針對一些垂直領域去做調優(yōu),但對于云服務的一些垂直場景,編碼器內部還有很多可以調試優(yōu)化的地方。在不同垂直品類的視頻場景,我們在碼率控制、rdo分析、deblock濾波等等編碼器內部都做了新的編碼工具。同時視頻源的質量也是參差不齊的,所以針對不同質量的視頻源會進行銳化、去噪等輔助操作。極速高清方案整體壓縮下來,與普通轉碼相比會有額外20%-40%的碼率節(jié)省。 1.2 場景分類,海量視頻的分類壓縮 但是對于云上業(yè)務,每天轉碼海量的視頻,我們不可能針對每個視頻tune編碼特性和參數(shù),而我們在編碼器上很多優(yōu)化的編碼工具都是針對垂直場景,如果使用場景不匹配,會出現(xiàn)一定的反效果。所以針對不同場景、不同品類,和編碼團隊配合,更好的使用編碼工具是非常有意義的一件事。

上圖是一個簡單的直觀對比,左邊兩張圖像使用同樣的銳化強度處理,但游戲場景會有失真的情況。從編碼器的對比來看,如果你使用同樣crf35的編碼強度去壓縮,可以發(fā)現(xiàn)大逃殺類游戲已經產生了大量模糊,但秀場視頻還能夠保持不錯的質量感官。

前面提到視頻場景分類的必要性,我們在場景分類的模型選擇上是基于CNN的,主要是考慮CNN模型已經非常成熟、穩(wěn)定,同時資源的消耗也比較低,速度能夠達到我們實時的需求。此外,CNN在推理過程中使用CPU就可以達到我們的要求,這也是一個非常誘人的優(yōu)點,畢竟在很多情況下,GPU資源還是相對比較稀缺。 1.3 基于AI的輔助壓縮

我們通過場景分類來更好的利用編碼特性和工具,但我們也知道在編碼中沒有極限,尤其是To B服務要滿足客戶的各類需求。比如實際場景中的一個例子,源是非常復雜的高動態(tài)的MV類視頻,需要輸出720P@30fps,并且壓縮到500Kbps以下,同時因為播放端等因素限制,必須使用H264編碼。上圖是使用x264編碼器在slow復雜度下壓縮出來的效果,可以看到這個壓縮出來的結果還是比較差。

下面跟大家分享下,我們對于這個問題的嘗試和思考過程。我們知道碼率、質量和分辨率之間是有一個間隔交錯的區(qū)間,也就是說在碼率非常低的情況下,低分辨率的質量(視覺效果)可能會優(yōu)于高分辨率。從原理上來看,低分辨率和高分辨率相比,細節(jié)信息是更少的。用低碼率來壓縮高分辨率視頻,會出現(xiàn)非常多的塊效應。而低分率視頻對人眼的感官來說只是模糊、不夠清晰。因此可以通過一些模糊、去噪的手段,主動減少一些視頻細節(jié)。這樣處理后,整個視頻的塊效應變少了,當然也會帶來額外的模糊效應。從客觀指標來看(PSNR、SSIM、VMAF),各個指標都有比較大的降低,雖然主觀有一定提升,但從客觀指標和整體方案來看,并不完美。

首先分析下模糊方案的缺點,模糊去噪的處理過程中,并不知道編碼器的傾向喜好,會按照去噪算法統(tǒng)一的磨平細節(jié),而沒有考慮編碼過程。所以我們思考是否可以基于AI視覺的技術,做一個reduce artifact的filter。我們希望這個filter能夠主動磨掉一些細節(jié),使視頻和編碼器有更好的親和性,也就是說這個視頻會更容易被編碼器壓縮,與此同時它不會把人眼關注的、明顯的邊緣磨掉,也就是在保證主體清晰度的前提下,編碼客觀指標也不會大幅下降。我們在模型訓練的過程中,引入了編碼過程,shuffle后還原的圖像不直接計算loss,而是進行一次視頻壓縮,用壓縮后的圖像來計算loss。低碼率壓縮時,先經過reduce artifact處理,再進行轉碼,畫面的人眼感官會有一個顯著的提升。 02騰訊明眸—永恒的追求,畫質提升 2.1 視頻超分辨率

提到畫質修復、畫質增強,肯定離不開超分辨率。目前超分辨技術已經取得一定的突破,可以大規(guī)模的落地使用。其中,基于ResNet的WDSR模型目前有比較好的超分效果和穩(wěn)定性。基于WDSR的視頻超分有比較好的連貫性和穩(wěn)定性,對每一個視頻幀獨立處理,連接成視頻后不會有頓挫、抖動現(xiàn)象。 實際場景挑戰(zhàn) — 訓練數(shù)據(jù)

在實際落地的過程中,還有很多新的問題需要關注和解決。首先訓練數(shù)據(jù)非常重要,以上圖為例,左邊的視頻已經有非常多噪點和模糊的情況,如果像實驗環(huán)境下的視頻一樣使用無損的下采樣數(shù)據(jù)進行訓練,效果其實是微乎其微的。針對這樣的情況,我們會把圖像進行下采樣,然后用比較高的CRF值(比較差的編碼質量)對這個圖像進行編碼,這樣訓練數(shù)據(jù)中就有很多的噪點、偽影信息,訓練出來的模型也會有比較好的去偽影能力。 海量視頻的分類超分

對于云上業(yè)務來說,每天需要處理海量的視頻數(shù)據(jù)。如果對一個高清晰的視頻進行超分,同時超分的模型是由一個高CRF數(shù)據(jù)集訓練提供,會發(fā)現(xiàn)超分后視頻的很多細節(jié)被磨平損失,反之亦然。所以不同訓練數(shù)據(jù)構造的模型與視頻源之間要有一定的匹配關系。針對這種場景,我們通過CRF值來構造多種壓縮強度的數(shù)據(jù)源,進而用這些數(shù)據(jù)源訓練出不同強度的超分模型。當需要進行超分處理時,先使用基于CNN清晰度分類模型,對視頻源進行分類,判斷視頻源的清晰程度,然后使用跟清晰程度匹配的超分模型來進行處理。 Y or RGB?

接下來跟大家分享下落地過程中遇到的問題。團隊最開始基于Y通道進行超分,但經過一段時間的運營,發(fā)現(xiàn)視頻源是清晰的情況下,如果單獨把Y通道單獨提取出來會有很多奇怪的紋理和毛刺,超分后會放大這些異常。如果基于RGB超分則不會有這樣的問題。雖然Y通道有自身的缺點,但在實際的落地過程中,很多場景還是離不開基于Y通道的超分。比如直播中的 4K超分,為了保證實時性,會對一路直播流進行分布式的拆分,路由到多臺GPU節(jié)點進行處理,而在分布式超分的場景中,使用Y通道傳輸可以節(jié)省帶寬的消耗。 老片場景超分辨率:細節(jié)補足與幀間穩(wěn)定性

對于一些老片的場景,基于ResNet和CNN的超分模型,雖然可以提升視頻質量,但是其對視頻細節(jié)的捕捉能力還不夠強,上述模型可以把一個非常差的視頻提升到還不錯的程度,但與目前所認可的高清還有一段差距。這種老片的視頻場景,可以通過GAN網絡來優(yōu)化,GAN網絡具有比較強的細節(jié)補充能力,這種補齊比較符合人眼感官,帶來視覺效果的提升。當然,GAN網絡在實際落地的過程中,還有很多需要解決的問題,首要問題就是GAN的不穩(wěn)定性和幀間一致性的優(yōu)化。 2.2 快速、可控的色彩增強

在色彩增強方面,這里將MobileNet的特征與HSV色彩直方圖相結合,作為一個融合特征去分類訓練,通過這個模型來獲取調整對比度、亮度和色度的參數(shù)。這樣處理后的模型比較小,速度也非常快,有利于大規(guī)模落地使用;其次,它不是端到端的處理,所以整個過程是可控的,由于顏色的變換對于人眼來說是非常敏感的,因此在落地的過程中,我們也更傾向于使用中間過程可控的方式。

從上面三張圖片的對比來看,足球和暗場景都會使色彩變的更加鮮艷,同時對于游戲場景,也能比較好地保證原始視頻顏色的本真。 2.3 視頻流暢度提升,視頻插幀

最后再介紹下我們在視頻插幀所做的工作。相比于光流法,落地過程中更傾向于CAIN模型結構。CAIN網絡的特性在于下限很高,穩(wěn)定性比較強,很少有大面積的模糊錯插。當然與光流法相比,CAIN插出來的清晰度較差。場景分割也是插幀中必不可少的一項操作,對于判斷出的場景分割點,可以跳過不進行插幀,避免變化太大的問題。場景分割的實現(xiàn)方案可以考慮移植編碼器的screencut算法,其在性能和穩(wěn)定性上都經過了千錘百煉的優(yōu)化,適用于大規(guī)模的落地使用。

上圖是我們使用插幀效果的對比,雖然手部有一定程度的模糊,但在視頻播放過程中,由于前后兩幀都是清晰的,考慮到視覺殘留效應,這種小的模糊是完全可以接受的。 03云端全鏈路視頻智能生產 最后再介紹下我們在視頻編輯部分所支持的一些能力。 3.1 制作云 — 從生產、編輯到消費的全鏈路

視頻制作云,其集成了新一代的云端遠程界面制作,通過超低延時協(xié)議把各地信號流傳到云端進行導播,支持了在線剪輯和AI識別等處理,同時我們也為企業(yè)也提供了從生產到編輯到消費的全鏈路,支持一鍵分發(fā)到各大消息平臺。

騰訊微剪,首發(fā)獨創(chuàng)的小程序視頻編輯工具,快速集成,支持音樂、濾鏡等特效 。支持智能模板,根據(jù)輸入素材自動視圖拼接生成視頻。

在直播制作方面,我們提供了云導播臺。云導播臺的優(yōu)勢就在于操作簡單,功能上支持2s快速切換,直播內容無縫銜接。同時,云導播臺是基于互聯(lián)網的,所以非常容易支持一些互聯(lián)網活動,比如支持直播過程中的實時發(fā)放紅包和優(yōu)惠券。

責任編輯:lq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 編碼器
    +關注

    關注

    45

    文章

    3654

    瀏覽量

    134865
  • 視頻
    +關注

    關注

    6

    文章

    1950

    瀏覽量

    73009
  • AI視覺
    +關注

    關注

    0

    文章

    65

    瀏覽量

    4491

原文標題:AI視覺,視頻云新挑戰(zhàn)的解決之道

文章出處:【微信號:livevideostack,微信公眾號:LiveVideoStack】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    AI醫(yī)療深度融合機遇挑戰(zhàn)并存

    2024年,醫(yī)療AI步入轉折期,挑戰(zhàn)與新生并存。
    的頭像 發(fā)表于 12-16 13:52 ?224次閱讀

    產業(yè)"內卷"下磁性元件面臨的機遇挑戰(zhàn)

    面對產業(yè)內卷的大環(huán)境,磁性元件行業(yè)究竟面臨著怎樣的機遇挑戰(zhàn)?企業(yè)又該如何在利潤空間不斷緊縮的夾縫中求生存、謀發(fā)展? 伴隨市場環(huán)境的日益復雜多變,以及消費者需求的多元與精細化,磁性元件產業(yè)逐漸步入
    的頭像 發(fā)表于 12-05 11:09 ?183次閱讀
    產業(yè)&quot;內卷<b class='flag-5'>化</b>&quot;下磁性元件面臨的<b class='flag-5'>機遇</b>與<b class='flag-5'>挑戰(zhàn)</b>

    光刻膠的使用過程與原理

    本文介紹了光刻膠的使用過程與原理。
    的頭像 發(fā)表于 10-31 15:59 ?475次閱讀

    數(shù)字挑戰(zhàn)機遇分析

    了深刻的變革。然而,數(shù)字進程中也面臨著諸多挑戰(zhàn),需要我們深入分析和應對。 一、數(shù)字帶來的機遇 經濟增長新動力 數(shù)字化為經濟增長提供了新的動力。通過數(shù)字
    的頭像 發(fā)表于 10-28 09:09 ?804次閱讀

    AI for Science:人工智能驅動科學創(chuàng)新》第6章人AI與能源科學讀后感

    和國際合作等多個層面。這些內容讓我更加認識到,在推動人工智能與能源科學融合的過程中,需要不斷探索和創(chuàng)新,以應對各種挑戰(zhàn)機遇。 最后,通過閱讀這一章,我深刻感受到人工智能對于能源科學的重要性。人工智能
    發(fā)表于 10-14 09:27

    AI for Science:人工智能驅動科學創(chuàng)新》第4章-AI與生命科學讀后感

    的深入發(fā)展。 3. 挑戰(zhàn)機遇并存 盡管AI在生命科學領域取得了顯著的成果,但也面臨著諸多挑戰(zhàn)。例如,數(shù)據(jù)隱私、算法偏見、倫理道德等問題都需要我們認真思考和解決。同時,如何更好地將
    發(fā)表于 10-14 09:21

    AFE031AIRGZT在使用過程遇到的疑問求解

    使用到貴司AFE031AIRGZT芯片,在使用過程遇到如下問題: 1.使用afe031.pdf 和sboa130a.pdf文檔中提到的電路連接,將芯片連接后,參考電壓REF1為2.7v左右,而
    發(fā)表于 09-24 07:19

    灌區(qū)信息面臨的挑戰(zhàn)分析

    灌區(qū)信息化作為現(xiàn)代農業(yè)發(fā)展的重要支撐,旨在通過信息技術的深度融合與應用,實現(xiàn)水資源的高效管理、精準灌溉以及灌區(qū)運行的智能。然而,在推進灌區(qū)信息過程中,一系列挑戰(zhàn)也隨之浮現(xiàn),這些
    的頭像 發(fā)表于 09-12 17:45 ?406次閱讀
    灌區(qū)信息<b class='flag-5'>化</b>面臨的<b class='flag-5'>挑戰(zhàn)</b>分析

    數(shù)據(jù)中心的AI時代轉型:挑戰(zhàn)機遇

    隨著人工智能(AI)的迅速發(fā)展和廣泛應用,數(shù)據(jù)中心作為AI技術的基石,也面臨著前所未有的挑戰(zhàn)機遇。為了滿足AI的高性能和低延遲要求,數(shù)據(jù)中
    的頭像 發(fā)表于 07-24 08:28 ?518次閱讀
    數(shù)據(jù)中心的<b class='flag-5'>AI</b>時代轉型:<b class='flag-5'>挑戰(zhàn)</b>與<b class='flag-5'>機遇</b>

    探討數(shù)字背景下PMC的挑戰(zhàn)機遇

    在數(shù)字浪潮的席卷下,各行各業(yè)都面臨著前所未有的變革。對于負責產品物料控制(PMC)的企業(yè)來說,這一變革既是挑戰(zhàn)也是機遇。如何在數(shù)字背景下,抓住時代的脈搏,推動PMC管理的創(chuàng)新與升級
    的頭像 發(fā)表于 07-05 11:03 ?488次閱讀

    阿丘科技:生成式AI與行業(yè)視覺大模型驅動工業(yè)AI視覺2.0

    5月21日,阿丘科技CEO黃耀應邀參加北京機器視覺助力智能制造創(chuàng)新發(fā)展大會,并發(fā)表《AI+工業(yè)視覺探索與展望》主題演講,下文根據(jù)黃耀先生的主題演講主要內容撰寫而成。可點擊文末“閱讀原文”下載原版
    的頭像 發(fā)表于 05-25 08:25 ?799次閱讀
    阿丘科技:生成式<b class='flag-5'>AI</b>與行業(yè)<b class='flag-5'>視覺</b>大模型驅動工業(yè)<b class='flag-5'>AI</b><b class='flag-5'>視覺</b>2.0

    焊接過程視覺監(jiān)控技術的應用與挑戰(zhàn)

    小編一起了解焊接過程視覺監(jiān)控技術的應用與挑戰(zhàn)視覺監(jiān)控技術的應用 視覺監(jiān)控技術通過攝像機和傳感器實時獲取焊接
    的頭像 發(fā)表于 05-22 11:30 ?413次閱讀
    焊接<b class='flag-5'>過程</b><b class='flag-5'>視覺</b>監(jiān)控技術的應用與<b class='flag-5'>挑戰(zhàn)</b>

    機遇挑戰(zhàn)并存的AI時代,三星如何在DRAM領域開拓創(chuàng)新?

    機遇挑戰(zhàn)并存的AI時代,三星如何在DRAM領域開拓創(chuàng)新?
    發(fā)表于 05-09 18:46 ?501次閱讀
    在<b class='flag-5'>機遇</b>與<b class='flag-5'>挑戰(zhàn)</b>并存的<b class='flag-5'>AI</b>時代,三星如何在DRAM領域開拓創(chuàng)新?

    ST motor profiler測試電機遇到的疑問求解

    ST motor profiler測試電機遇到問題請教各位! NUCLEO-F303RE ST開發(fā)板+X-NUCLEO-IHM08M1(自制板)測試電機4極內轉子電機:4200k 電流1.2a 電壓
    發(fā)表于 04-17 07:24

    視覺焊縫跟蹤系統(tǒng)的發(fā)展趨勢與挑戰(zhàn)

    的不斷發(fā)展,視覺焊縫跟蹤系統(tǒng)高速發(fā)展的同時,也面臨著一系列的挑戰(zhàn)。 首先,隨著工業(yè)4.0的發(fā)展,對焊接過程的智能需求日益增長。未來的視覺
    的頭像 發(fā)表于 03-05 16:30 ?404次閱讀
    <b class='flag-5'>視覺</b>焊縫跟蹤系統(tǒng)的發(fā)展趨勢與<b class='flag-5'>挑戰(zhàn)</b>
    主站蜘蛛池模板: 色香影院| 日本黄在线观看| 日本免费网站在线观看| 网友自拍区一区二区三区| 午夜看片福利| 美欧毛片| 伊人久久成人爱综合网| 一级片免费在线| 色图综合网| 免费激情网址| 国产tube| 久久青草视频| 成年美女| 人人干狠狠操| 又黄又免费的网站| 亚洲免费不卡| 亚洲第一看片| 欧美成人3d动漫在线播放网站| 色综合中文网| 明日花绮罗在线观看| 国产三级日本三级在线播放| 永久免费影视在线观看| 免费在线观看大片影视大全| 爽死你个放荡粗暴小淫视频| 国产在线观看福利| 亚洲无卡| 四虎影永久地址www| 精品美女在线| 天天爽夜夜爽每晚高澡| аⅴ资源天堂8在线| 2019天天操天天干天天透| 一区二区三区四区视频在线观看| 欲色影视香色天天影视来| 在线观看www妖精免费福利视频| 五月婷六月婷婷| 久久香蕉综合色一综合色88| 99色在线播放| 丁香天堂网| 好大好硬好爽免费视频| 99久久精品费精品国产一区二区| 色聚网久久综合|