近日,F(xiàn)orrester咨詢公司對(duì)中國(guó)計(jì)算機(jī)視覺及智能影像市場(chǎng)進(jìn)行了調(diào)查,訪問(wèn)了包括研究機(jī)構(gòu)、科研院校、投資機(jī)構(gòu)以及部分互聯(lián)網(wǎng)企業(yè),視頻行業(yè)企業(yè),針對(duì)以視頻行業(yè)為代表的文娛產(chǎn)業(yè)中人工智能的應(yīng)用趨勢(shì)、面臨的挑戰(zhàn)進(jìn)行了分析,并提出相應(yīng)的戰(zhàn)略建議。網(wǎng)易智能節(jié)選整理如下:
近年來(lái),在互聯(lián)網(wǎng)、大數(shù)據(jù)、超級(jí)計(jì)算、傳感網(wǎng)、腦科學(xué)等新理論、新技術(shù)以及經(jīng)濟(jì)社會(huì)發(fā)展強(qiáng)烈需求的共同驅(qū)動(dòng)下,人工智能呈現(xiàn)出飛躍式的進(jìn)步,進(jìn)入新的發(fā)展階段。無(wú)論是企業(yè)還是政府在人工智能方面的關(guān)注和投入,都在不同層面推動(dòng)著人工智能技術(shù)和應(yīng)用的蓬勃發(fā)展。各種創(chuàng)新的AI應(yīng)用逐步開始進(jìn)入社會(huì)生活的各個(gè)場(chǎng)景。
同時(shí),我們也看到,新興科技正在推動(dòng)新一輪全球產(chǎn)業(yè)變革,而人工智能毫無(wú)疑問(wèn)成為了釋放產(chǎn)業(yè)變革潛能的重要力量。作為人工智能技術(shù)的重要分支,計(jì)算機(jī)視覺技術(shù)在算法、數(shù)據(jù)及算力的加持下,更是得到了飛速的發(fā)展,已經(jīng)具備大規(guī)模應(yīng)用的可行性。特別是在文娛產(chǎn)業(yè)得到了廣泛應(yīng)用的智能影像技術(shù)已經(jīng)成為行業(yè)變革的核心驅(qū)動(dòng)力,將進(jìn)一步催生新應(yīng)用、新產(chǎn)品、新產(chǎn)業(yè)、新業(yè)態(tài)、新模式的出現(xiàn),推動(dòng)智能影像產(chǎn)業(yè)生態(tài)的繁榮。
01
調(diào)查結(jié)果摘要
人工智能為影像分析技術(shù)帶來(lái)變革。人工智能在影像行業(yè)的綜合應(yīng)用,特別是通過(guò)對(duì)動(dòng)態(tài)視覺內(nèi)容的理解和重構(gòu),是計(jì)算機(jī)視覺技術(shù)及計(jì)算機(jī)動(dòng)畫技術(shù)的交叉和融合,給智能影像產(chǎn)業(yè)帶來(lái)了充滿想象力的廣闊舞臺(tái)和空間。
智能影像技術(shù)為產(chǎn)業(yè)變革帶來(lái)強(qiáng)勁動(dòng)力。過(guò)去幾年文娛產(chǎn)業(yè)經(jīng)歷了快速的發(fā)展,以內(nèi)容制作方、視頻平臺(tái)方為代表行業(yè)參與者正面臨著諸多的挑戰(zhàn),各方仍在行業(yè)變局中摸索前行,期望不斷通過(guò)運(yùn)用新興技術(shù)和應(yīng)用的創(chuàng)新提升自身的核心競(jìng)爭(zhēng)力。智能影像技術(shù)在行業(yè)的應(yīng)用日漸深入,成為新一輪行業(yè)變革的核心驅(qū)動(dòng)力。
把握數(shù)字化轉(zhuǎn)型新契機(jī),智能影像技術(shù)加速業(yè)務(wù)變革。智能影像技術(shù)不僅成為文娛產(chǎn)業(yè)商業(yè)價(jià)值變現(xiàn)的核心引擎,也在逐漸進(jìn)入更多的內(nèi)容原創(chuàng)領(lǐng)域,通過(guò)自動(dòng)化影像加工、生產(chǎn)技術(shù)為產(chǎn)業(yè)升級(jí)提供動(dòng)力。而且,智能影像技術(shù)也通過(guò)全面賦能推動(dòng)應(yīng)用在教育、零售等更多領(lǐng)域落地,成為行業(yè)價(jià)值創(chuàng)新的基石。
深耕行業(yè)場(chǎng)景,聚焦價(jià)值創(chuàng)造,拓展行業(yè)生態(tài)。智能影像技術(shù)企業(yè)需要聚焦行業(yè)實(shí)踐、商業(yè)價(jià)值閉環(huán),以及開放性平臺(tái)技術(shù),推動(dòng)智能影像行業(yè)的協(xié)同發(fā)展和生態(tài)的進(jìn)一步繁榮。
02
智能影像技術(shù)的發(fā)展歷程
2006年以來(lái),隨著深度學(xué)習(xí)技術(shù)的進(jìn)展,人工智能再次獲得了廣泛關(guān)注。特別在圖像領(lǐng)域,深度學(xué)習(xí)帶來(lái)的突破性效果在很多領(lǐng)域已經(jīng)超過(guò)人類水平,各種類型的神經(jīng)網(wǎng)絡(luò)不斷涌現(xiàn),伴隨著計(jì)算力的提升以及海量數(shù)據(jù)的積累,人工智能為廣闊的圖像分析領(lǐng)域帶來(lái)深刻變革。資本市場(chǎng)對(duì)與計(jì)算機(jī)視覺的熱度空前高漲。
根據(jù)Forrester統(tǒng)計(jì),全球在計(jì)算機(jī)視覺領(lǐng)域的投資持續(xù)增長(zhǎng),截止到2018年11月末投資較2017年增長(zhǎng)113%,在過(guò)去的五年中復(fù)合增長(zhǎng)率高達(dá)135%,在本次訪談?wù){(diào)研中了解到,未來(lái)五年內(nèi)全球計(jì)算機(jī)視覺軟件及服務(wù)市場(chǎng)規(guī)模將超過(guò)200億美金。
影像相關(guān)的市場(chǎng)規(guī)模相當(dāng)可觀,人工智能技術(shù)的賦能將會(huì)催生更多商業(yè)場(chǎng)景,進(jìn)一步推動(dòng)整體市場(chǎng)繁榮。在眾多細(xì)分領(lǐng)域中,智能影像生產(chǎn)技術(shù)直接從源頭上提高了視頻影像的生產(chǎn)能力。除了與影像源頭密切相關(guān)的文娛產(chǎn)業(yè),智能影像還將賦能廣告營(yíng)銷、教育、游戲、零售乃至制造等相關(guān)行業(yè)。
影像生產(chǎn)技術(shù)以計(jì)算機(jī)視覺(Computer Vision) 與計(jì)算機(jī)圖形學(xué)為基礎(chǔ)。計(jì)算機(jī)視覺誕生于上世紀(jì)六十年代,是指能夠賦予機(jī)器自然視覺能力的學(xué)科,關(guān)注圖像的識(shí)別和分割。在初步興起的二十年時(shí)間里,“識(shí)別”領(lǐng)域進(jìn)展有限,而分割領(lǐng)域取得了一定的進(jìn)展。進(jìn)入本世紀(jì),隨著互聯(lián)網(wǎng)的不斷發(fā)展,圖片的來(lái)源日趨豐富,各類圖像數(shù)據(jù)庫(kù)開始出現(xiàn),標(biāo)注數(shù)據(jù)進(jìn)一步促進(jìn)計(jì)算機(jī)視覺的發(fā)展。
在深度學(xué)習(xí)廣泛應(yīng)用之前,視覺算法一般分為:特征感知、圖像預(yù)處理、特征提取、特征篩選、推理與識(shí)別。手工設(shè)計(jì)特征需要對(duì)相關(guān)領(lǐng)域具有足夠的積累和經(jīng)驗(yàn),對(duì)于提取的特征還需要進(jìn)行大量調(diào)試工作。不同的特征對(duì)應(yīng)的后端機(jī)器學(xué)習(xí)算法也有所不同。二者組合起來(lái),通用性差而且需要投入大量工程性工作,進(jìn)展緩慢且效果不佳,與人類水平有很大差距,遲遲難以大規(guī)模商用,對(duì)于圖像之外的多模態(tài)感知識(shí)別更是困難重重。
計(jì)算機(jī)圖形學(xué)(Computer Graphics)是指在計(jì)算機(jī)上用專門的軟件和硬件用來(lái)表現(xiàn)和控制圖像數(shù)據(jù),它同樣誕生于上世紀(jì)六十年代。自誕生之初開始即開始踴躍發(fā)展,分形理論、曲面造型技術(shù)、光柵圖形學(xué)算法、光照模型、光線追蹤算法、輻射度算法等技術(shù)手段陸續(xù)被提出。80年代中期,皮克斯使用SGI計(jì)算機(jī)創(chuàng)作了第一段完全用計(jì)算機(jī)生成的短片。1995年首部計(jì)算機(jī)生成的動(dòng)畫影片《玩具總動(dòng)員》全球上映,1996年最早的全三維游戲《雷神之錘》發(fā)售。
一些事實(shí)標(biāo)準(zhǔn)的出現(xiàn),如SGI公司開發(fā)的OpenGL開放式三維圖形標(biāo)準(zhǔn),微軟公司的標(biāo)準(zhǔn)接口DirectX,Adobe公司的Postscript等,進(jìn)一步加速了影像生產(chǎn)的產(chǎn)業(yè)化進(jìn)程。但是,影像生產(chǎn)中大量人工仍然不可避免,具體到面向大眾的個(gè)性化影像生產(chǎn)而言,重復(fù)性的人力勞動(dòng)已經(jīng)嚴(yán)重制約了產(chǎn)能,亟需智能化、自動(dòng)化的影像生產(chǎn)技術(shù)推動(dòng)產(chǎn)業(yè)的升級(jí)。
03
智能影像生產(chǎn)技術(shù)的發(fā)展現(xiàn)狀
Forrester對(duì)人工智能技術(shù)進(jìn)行分類研究時(shí)采用了Sense、Act、Think的框架。類比來(lái)看,在感知(Sense)層面,人工智能技術(shù)為靜態(tài)圖片識(shí)別乃至多模態(tài)影像識(shí)別帶來(lái)了突破;在思考(Think)層面,基于多模態(tài)識(shí)別結(jié)合商業(yè)需求可以形成深入的影像智能化理解。以感知、思考為基礎(chǔ),在行動(dòng)(Act)層面,人工智能技術(shù)為自動(dòng)化影像生產(chǎn)帶來(lái)了強(qiáng)勁動(dòng)力。為此,我們將智能影像生產(chǎn)技術(shù)分為兩部分:影像智能化理解(Sense和Think)和影像自動(dòng)化生成(Act)。
傳統(tǒng)的計(jì)算機(jī)視覺技術(shù)大量聚焦在特征生成和選擇。端到端深度學(xué)習(xí)帶來(lái)了自動(dòng)特征學(xué)習(xí)能力,從而極大促進(jìn)了計(jì)算機(jī)視覺的發(fā)展。深度學(xué)習(xí)所需的大量訓(xùn)練數(shù)據(jù)以及運(yùn)算能力在當(dāng)下也得到了良好的供應(yīng)。對(duì)于“識(shí)別”這種人類無(wú)需思考即可在極短時(shí)間內(nèi)作出判斷的任務(wù)目前是人工智能最擅長(zhǎng)的領(lǐng)域。從包括圖像、語(yǔ)音、文字的多模態(tài)識(shí)別,人工智能對(duì)于影 像感知和理解能力不斷提升,推動(dòng)了智能影像產(chǎn)業(yè)的快速發(fā)展。
此外,各種神經(jīng)網(wǎng)絡(luò)的組合為靜態(tài)圖像識(shí)別提供了有力武器。憑借著AlexNet在ILSVRC競(jìng)賽的一戰(zhàn)成名,卷積神經(jīng)網(wǎng)絡(luò)(CNN)因其良好的泛化能力以及優(yōu)秀的實(shí)際效果已經(jīng)替代了眾多傳統(tǒng)計(jì)算機(jī)視覺算法,成為當(dāng)前圖像識(shí)別領(lǐng)域的主流。
在此基礎(chǔ)上,ResNet、Inception、Xception、DenseNet、ShuffleNet等多種改良結(jié)構(gòu)也不斷涌現(xiàn),推動(dòng)了識(shí)別效果的進(jìn)一步提高,在大規(guī)模人臉與人體識(shí)別、物體檢測(cè)與追蹤、3D視覺等領(lǐng)域都獲得了廣泛應(yīng)用,已經(jīng)達(dá)到了可以廣泛實(shí)際落地的程度,甚至有的受訪者表示這類任務(wù)的性能一定程度上已經(jīng)達(dá)到飽和。
圖像、語(yǔ)音、文本等多模態(tài)識(shí)別進(jìn)一步豐富了影像識(shí)別能力。深度學(xué)習(xí)不僅賦能了計(jì)算機(jī)視覺領(lǐng)域,還為語(yǔ)音識(shí)別、文本分析領(lǐng)域帶來(lái)突破。循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)及其變種LSTM在這些領(lǐng)域取得令人矚目的進(jìn)展而成為主流。以此為基礎(chǔ),各種增強(qiáng)技術(shù)如雙向LSTM、Attention model等也開始得以廣泛應(yīng)用。深度學(xué)習(xí)的理論基礎(chǔ)在“去黑盒化”的 道路上已經(jīng)取得進(jìn)展,各種技術(shù)的組合為也不斷刷新著各類任務(wù)的效果新高。多模態(tài)識(shí)別已成為計(jì)算機(jī)視覺和AI最令人激動(dòng)的領(lǐng)域之一,現(xiàn)有感知能力甚至已經(jīng)超出商業(yè)變現(xiàn)的步伐。尋找應(yīng)用場(chǎng)景、促進(jìn)技術(shù)落地的難度開始大于技術(shù)本身。
影像語(yǔ)義理解增加了商業(yè)模式的可能性。通過(guò)視頻結(jié)構(gòu)化分析、目標(biāo)檢測(cè)跟蹤、動(dòng)作態(tài)勢(shì)感知、人物識(shí)別以及情感分析等多模態(tài)感知技術(shù),人類已經(jīng)可以從動(dòng)態(tài)影像中獲取淺層信息。但是要做到商業(yè)模式變現(xiàn),仍需進(jìn)一步從語(yǔ)義的層面深入理解影像內(nèi)容。
在這一領(lǐng)域,需要有大量的行業(yè)積累,例如對(duì)綜藝類視頻節(jié)目中人物、物體等的識(shí)別標(biāo)注,需要專業(yè)的經(jīng)驗(yàn),基于編劇、布景、拍攝等角度,對(duì)視頻進(jìn)行結(jié)構(gòu)化建模進(jìn)行分析和學(xué)習(xí),把特征空間提升到語(yǔ)義空間。在此基礎(chǔ)上對(duì)影像數(shù)據(jù)生成語(yǔ)義標(biāo)簽、業(yè)務(wù)分類乃至文字描述以供后續(xù)業(yè)務(wù)場(chǎng)景使用。常識(shí)的建立可以極大提升機(jī)器性能,既有經(jīng)驗(yàn)與多種深度網(wǎng)絡(luò)的融合將會(huì)形成企業(yè)差異化的競(jìng)爭(zhēng)優(yōu)勢(shì)。
04
智能影像行業(yè)案例
Netflix:總部位于美國(guó)加州的Netflix成立于1997年,是一家在線影片服務(wù)提供商。Netflix以投入優(yōu)質(zhì)內(nèi)容吸引用戶,通過(guò)用戶加入會(huì)員付費(fèi)觀看內(nèi)容獲取收入。但近年來(lái)面臨新增用戶增長(zhǎng)放緩以及內(nèi)容成本急劇攀升的壓力,Netflix 2018Q2新增了447萬(wàn)國(guó)際用戶和67萬(wàn)美國(guó)用戶,低于Q1的500萬(wàn)和120萬(wàn)。隨著用戶對(duì)內(nèi)容的要求越來(lái)越高,在線視頻平臺(tái)圍繞優(yōu)質(zhì)內(nèi)容進(jìn)行競(jìng)爭(zhēng),內(nèi)容正成為流量入口,Netflix也不例外,投入大量資源自己制作的內(nèi)容,代表作包括《紙牌屋》,《怪奇物語(yǔ)》等。用戶對(duì)視頻形態(tài)也發(fā)生了變化,隨著用戶的觀看視頻的時(shí)間碎片化,短視頻、倍速觀看、跨屏看等等的個(gè)性化和自主化趨勢(shì)對(duì)體驗(yàn)提出了更高挑戰(zhàn)。
在這個(gè)挑戰(zhàn)下,Netflix在繼續(xù)加大對(duì)原創(chuàng)內(nèi)容投入的同時(shí),積極嘗試并希望通過(guò)機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)、計(jì)算機(jī)視覺等新興AI技術(shù), 保持行業(yè)優(yōu)勢(shì),優(yōu)化內(nèi)部運(yùn)營(yíng)。
Netflix嘗試將人工智能應(yīng)用在核心系統(tǒng)上,帶來(lái)的直接效果就是付費(fèi)用戶超過(guò)1億,推薦引擎提高3到4倍的點(diǎn)擊率。同時(shí),通過(guò)對(duì)視頻及客戶觀影數(shù)據(jù)的分析,避免購(gòu)買低收益的視頻內(nèi)容,累計(jì)已經(jīng)實(shí)現(xiàn)了超過(guò)十億美元的內(nèi)容成本的節(jié)省。
影譜科技(Moviebook):他們通過(guò)整合視頻類渠道,覆蓋了各硬件終端與計(jì)算機(jī)芯片、貫穿可視化場(chǎng)景,其智能影像生產(chǎn)技術(shù)具有批量自動(dòng)化處理、子像素級(jí)分析、智能疊加和無(wú)痕展示等特征。
在人工智能業(yè)務(wù)領(lǐng)域,Moviebook通過(guò)Vedio AI制作引擎,實(shí)現(xiàn)影像內(nèi)容生產(chǎn)制作的“從視頻中捕獲動(dòng)作”Motion Capture from Video System(MCVS)框架。MCVS無(wú)需預(yù)先進(jìn)行動(dòng)作捕捉合成的高度結(jié)構(gòu)化數(shù)據(jù),就可以讓機(jī)器直接模仿大量已存視頻片段來(lái)學(xué)習(xí)高難度技能,允許數(shù)據(jù)為驅(qū)動(dòng)的模仿以生成無(wú)監(jiān)督學(xué)習(xí)視頻內(nèi)容。
該系統(tǒng)MCVS每天可以處理日常視頻網(wǎng)絡(luò)上的數(shù)百萬(wàn)端視頻圖像,提取關(guān)鍵幀,進(jìn)行自動(dòng)結(jié)構(gòu)化,為下游任務(wù)提供大量數(shù)字化資源,如視頻搜索、原生視頻內(nèi)容營(yíng)銷、視頻內(nèi)容創(chuàng)作、視頻識(shí)別、游戲生產(chǎn)、在線教育等。
迪士尼:迪士尼研究院的一項(xiàng)內(nèi)部研究,正在改變影片和VR的創(chuàng)作。過(guò)去,拍攝影片或開發(fā)一款VR游戲/內(nèi)容,都需要先有劇本描述人物及場(chǎng)景等,但文字難以直觀地描述復(fù)雜場(chǎng)景,這一步驟將耗費(fèi)大量時(shí)間。為了在編寫故事的過(guò)程中協(xié)助編劇,迪士尼開發(fā)了一個(gè)系統(tǒng),可以從自然語(yǔ)言故事中提取信息,并允許以故事為中心以及以人物為中心的推理。這些推理功能通過(guò)直觀的查詢系統(tǒng)向創(chuàng)作人員開放,允許腳本編寫者向系統(tǒng)詢問(wèn)有關(guān)故事和角色信息的問(wèn)題,并形成可視化的動(dòng)畫或簡(jiǎn)單視頻的展示,導(dǎo)演更直觀地了解角色將如何在場(chǎng)景中進(jìn)行表演,以及腳本的變化會(huì)怎樣影響場(chǎng)景。
這項(xiàng)技術(shù)將應(yīng)用在電影的創(chuàng)作和拍攝中,通過(guò)初步自動(dòng)生成簡(jiǎn)單動(dòng)畫,進(jìn)行現(xiàn)場(chǎng)整合及語(yǔ)音錄制,然后戴上ⅤR頭顯直接在虛擬場(chǎng)景中進(jìn)行預(yù)覽,提供“親臨”影片故事場(chǎng)景的體驗(yàn),制作人員還可移動(dòng)預(yù)覽場(chǎng)景中的虛擬人物角色的位置。這項(xiàng)技術(shù)將與迪士尼的數(shù)字影像、人工智能以及特效技術(shù)整合用于電影的創(chuàng)作制作以及后期過(guò)程。
-
計(jì)算機(jī)視覺
+關(guān)注
關(guān)注
8文章
1698瀏覽量
46031 -
智能影像
+關(guān)注
關(guān)注
0文章
11瀏覽量
3133
原文標(biāo)題:計(jì)算機(jī)視覺及智能影像報(bào)告:未來(lái)規(guī)模超200億美元
文章出處:【微信號(hào):smartman163,微信公眾號(hào):網(wǎng)易智能】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論