本文來自影譜科技創(chuàng)新研發(fā)中心負(fù)責(zé)人吉長江在8月舉行的LiveVideoStack Meet武漢站的分享,并由LiveVideoStack整理而成。吉長江詳細(xì)介紹了視頻植入的流程、典型方法、難點及技術(shù)趨勢,他認(rèn)為,基于學(xué)習(xí)的視頻植入將是未來的發(fā)展趨勢。
大家好,我是來自北京影譜科技的吉長江,今天與大家分享的是影譜科技的視頻植入技術(shù)。
1. 背景介紹
或許此前大家對影譜科技還不是特別了解,但是隨著近期備受矚目的商湯對影譜科技的投資以及一同開拓大文娛市場等一系列活動,影譜科技逐漸走入大眾的視野。影譜科技在互聯(lián)網(wǎng)行業(yè)已耕耘數(shù)年,從開始參與的移動互聯(lián)網(wǎng)到現(xiàn)在專注于To B方向的視頻植入,我們致力于優(yōu)化原生廣告的用戶體驗,努力將其打造為一個良好的互聯(lián)網(wǎng)變現(xiàn)方式,這也堅定了我們沿著To B方向走下去的決心,接下來將與大家分享其中的相關(guān)技術(shù)重點。
2. 原生視頻廣告
我們認(rèn)為網(wǎng)絡(luò)視頻生態(tài)環(huán)境可以簡單描述為一個三體系統(tǒng),不僅僅是一個視頻與觀眾之間形成的簡單關(guān)系,還應(yīng)考慮在其中扮演重要角色的廣告。我們在設(shè)計廣告這一網(wǎng)絡(luò)視頻中最重要的變現(xiàn)手段時,必須要照顧到內(nèi)容制片方與視頻平臺方的變現(xiàn)訴求,還應(yīng)照顧到用戶的觀看體驗。過于生硬的貼片廣告勢必會讓用戶的觀看視頻體驗大打折扣,因而如何實現(xiàn)良好的原生視頻廣告效果就變得非常重要。當(dāng)然這里還有最重要的一點:我們通過視頻植入技術(shù)實現(xiàn)原生視頻廣告,可以有效降低廣告主的盲投風(fēng)險,原生視頻廣告允許廣告主看到此視頻廣告的拍攝小樣或在此視頻上線后再決定是否投資,相對于傳統(tǒng)貼片廣告而言有效降低了招商階段的風(fēng)險。
2.1 視頻植入技術(shù)
上圖是我們與芒果臺合作,借助視頻植入技術(shù)實現(xiàn)的原生廣告效果,大家可以看到通過此項技術(shù)我們可以將廣告比較完美地植入到視頻畫面中。也許有人會將其簡單地理解為P圖,但是在視頻當(dāng)中實現(xiàn)此效果的復(fù)雜程度遠(yuǎn)高于簡單的圖像處理,我們需要處理攝像機的運動軌跡、景深、遮擋關(guān)系等等,并非簡單的后期效果疊加。
2.1.1 視頻植入的定義
如果對視頻植入技術(shù)做出一個準(zhǔn)確的定義,我認(rèn)為視頻植入就是在視頻中自動化完成各類視覺元素融合的過程。首先“視覺元素”包括圖片、3D模型,甚至包括視頻中的視頻等等;此外,必須要做到的是精準(zhǔn)而自然地“融合”,也就是必須要體現(xiàn)真實感。因此我們需要通過精準(zhǔn)掌握攝像機的運動軌跡,妥善處理多個物體的遮擋關(guān)系,準(zhǔn)確估算光照等操作,讓植入的視頻元素自然地出現(xiàn)在視頻畫面中而不顯得突兀生硬。為了實現(xiàn)以上效果,我們不僅要解決一系列技術(shù)細(xì)節(jié)問題,還需要將整個視頻植入過程完全自動化、標(biāo)準(zhǔn)化、流程化、規(guī)模化。
通過以上描述大家可以看出,視頻植入是一個全新的視覺任務(wù)。與傳統(tǒng)的幾種視覺任務(wù)相比,視頻植入也許在技術(shù)與困難上有諸多相似之處,但總體上來說還是有很大差異。例如大家非常熟悉的強調(diào)實時性的AR,其植入對象是比較虛擬化的,用戶很容易分辨出植入對象并非真實的視頻元素;但對視頻植入廣告來說需要完成的是影視級別的植入,也就是需要實現(xiàn)讓植入廣告成為原生拍攝的真實元素,使觀眾無法準(zhǔn)確分辨廣告的后期植入效果。達(dá)成這種以假亂真的效果需要的基礎(chǔ)技術(shù)與SFM、視覺SLAM技術(shù)有相通之處。
2.1.2 視頻植入過程
那么實現(xiàn)影視級別的視頻植入需要經(jīng)過哪些步驟呢?首先需要的是視頻鏡頭定位,而后進(jìn)行包括平面檢測與攝像機運動深度恢復(fù)在內(nèi)的3D恢復(fù);隨后經(jīng)過一系列的質(zhì)量評估后就可確定比較適合的植入廣告位置,接下來進(jìn)行光照估計,完成最終的渲染。大家不難看出這是一個從解構(gòu)到重構(gòu)的過程,解構(gòu)主要是運用計算機視覺技術(shù)從語義和幾何兩個角度進(jìn)行處理;重構(gòu)則運用CG技術(shù)實現(xiàn)光照估計與渲染視覺元素的處理。
1)語義解構(gòu)
首先讓我們來看一下語義解構(gòu)。所謂語義解構(gòu),換句話說就是視頻內(nèi)容的結(jié)構(gòu)化。我們認(rèn)為視頻本質(zhì)上是一個多模態(tài)信息,在此多模態(tài)信息中最重要的是圖像,也是觀眾最關(guān)心的,其次是字幕與聲音;如果從維度上考慮,視頻可分為人物、場景、行為三個維度。其中我們會特別關(guān)注的是人物,因為無論是視頻方還是廣告方都會格外重視人物的明星效應(yīng)與其背后的商業(yè)價值,這也是我們確定的一個能夠良好實現(xiàn)人臉識別商業(yè)化落地的關(guān)鍵點。上圖是我們的AI處理系統(tǒng)識別視頻中明星的效果圖,通過基于人物的檢測追蹤和識別技術(shù),我們可以檢測識別出影視劇、綜藝節(jié)目等視頻畫面中出現(xiàn)的大大小小的明星,準(zhǔn)確標(biāo)注他們出現(xiàn)的時間點與位置并將這些數(shù)據(jù)整理入庫。這得益于與自動化所和商湯的合作,現(xiàn)在這套系統(tǒng)已支持超過一千位明星的識別并可實現(xiàn)從正臉到側(cè)臉的檢測,同時我們自己也進(jìn)行了包括場景優(yōu)化在內(nèi)的各項技術(shù)提升。
2)幾何解構(gòu)
上圖的Demo是為了更好地說明如何進(jìn)行幾何解構(gòu)。所謂的幾何解構(gòu)需要處理的是從2D畫面到3D場景的重建過程,大致過程是估算攝像機的運動并通過算法從2D點中生成3D點,從而實現(xiàn)3D的重建與人物的遮罩,為后續(xù)妥善處理視頻中元素的遮擋問題進(jìn)行技術(shù)鋪墊。
3)3D重建的典型過程
對SLAM有所了解的同學(xué)可能比較熟悉接下來的內(nèi)容——3D重建的典型過程。之所以將其稱為一個典型的過程,是因為除此之外還有其它的解決方法,但目前來說這套方法是最成熟的,可被稱為“典型”,主要由以下步驟組成:首先進(jìn)行的是特征點的計算和匹配;接下來,基于特征點匹配的結(jié)果系統(tǒng)會估算攝像機的位姿并跟蹤其運動得出其運動軌跡,之后經(jīng)過一系列優(yōu)化處理,生成稀疏點云或稠密深度圖。
4)面臨的問題
此典型過程與傳統(tǒng)方法一樣面臨著很多問題,使之無法處理所有鏡頭與畫面。比較典型的問題包括復(fù)雜的場景和遮擋,例如難以在一個人頭攢動的場景中實現(xiàn)準(zhǔn)確的3D重建。而最重要的問題則是紋理缺乏,一旦目標(biāo)缺乏紋理就無法從中準(zhǔn)確提取特征點。特征點偵測在整條Pipeline中處于基礎(chǔ)位置,無法準(zhǔn)確提取特征點意味著后面的所有處理都無法進(jìn)行。之后會講到如何用深度學(xué)習(xí)技術(shù)解決此項問題,這也是現(xiàn)在的一個技術(shù)發(fā)展前沿。除了以上描述的問題,我們還面臨諸如攝像機運動軌跡退化(攝像機靜止或純旋轉(zhuǎn))、非剛性(攝像機與目標(biāo)同時運動)等不利于我們進(jìn)行三維結(jié)構(gòu)還原的情景與Pipeline過長造成魯棒性降低等問題,這就要求我們尋求更穩(wěn)定而有效的解決方案。
2.2 基于學(xué)習(xí)的方法
針對以上問題,我們提出的方案是基于學(xué)習(xí)的方法。大家可以思考這個問題:人類是如何通過視覺感知周圍環(huán)境的?有人會說是不是因為人類有兩只眼睛,可利用雙目進(jìn)行三維場景的視覺重構(gòu)?其實單目視覺也可實現(xiàn)類似效果,通過大量學(xué)習(xí)收獲的海量信息,即使一只眼睛的小黃人也可以理解三維世界,例如杯子與桌面的位置可通過杯子一般放在桌面上方的常識確定,人與車的相對位置可通過兩者的大小來確定等。這些經(jīng)驗知識指導(dǎo)人們還原與認(rèn)知自己所處的環(huán)境,而我們?nèi)粘S^看的視頻都是基于單目攝像機拍攝形成的一個圖像幀序列,那么單目+學(xué)習(xí)能否還原3D結(jié)構(gòu)?事實證明這個思路是正確的。
2.2.1 卷積神經(jīng)網(wǎng)絡(luò)——替代深度估計模塊
接下來先看一個比較典型的例子,上圖是用深度卷積網(wǎng)絡(luò)替代深度估計模塊進(jìn)行深度偵測的示意圖。我們可以看到,整個網(wǎng)絡(luò)的結(jié)構(gòu)類似于一個包括編碼器與解碼器在內(nèi)的自編碼器;首先我們輸入一個立體視覺的兩張圖片,通過深度網(wǎng)絡(luò)估算出相應(yīng)深度圖。當(dāng)然這里的兩張圖片并不隨機,圖片的采集有一定要求,我們可以在KITTI開源數(shù)據(jù)庫中得到采集照片需要的數(shù)據(jù)集;拍攝時用相對距離已知且固定,焦距相同的兩臺照相機同時對同一個場景進(jìn)行拍攝,采集符合要求的照片并得到深度圖;成功輸出深度圖后,我們可根據(jù)此雙目系統(tǒng)的基礎(chǔ)數(shù)學(xué)公式:
D(x)=f*B/d(x)
利用深度圖估算并預(yù)測出原圖所展示的空間深度信息,產(chǎn)生的預(yù)測值與實際的真實值之間存在差異值;我們將這個所有像素的光度差異值作為損失函數(shù)進(jìn)行基于WARP的反向傳播并借此訓(xùn)練神經(jīng)網(wǎng)絡(luò),經(jīng)過大量訓(xùn)練就可得到這樣一個可對于單視圖進(jìn)行深度估計的卷積神經(jīng)網(wǎng)絡(luò)。輸入一張圖片,此卷積神經(jīng)網(wǎng)絡(luò)就可生成一張我們所需要的深度圖,這樣采用深度學(xué)習(xí)技術(shù)完全替代傳統(tǒng)的深度估計的過程是比較典型的。
2.2.2 卷積神經(jīng)網(wǎng)絡(luò)——替代多個模塊
不僅如此,我們還可實現(xiàn)同時進(jìn)行深度和攝像機運動的估計。此方法與之前提到的利用幾何原理與雙目相機模型的方法類似,但這里用來訓(xùn)練CNN的素材是一段視頻,其原理是利用相鄰幀之間的微小差異進(jìn)行反算,使用針孔相機模型公式:
可同時訓(xùn)練兩個獨立的神經(jīng)網(wǎng)絡(luò),分別用來輸出深度圖與估算攝像機的旋轉(zhuǎn)平移等運動。這與前一個神經(jīng)網(wǎng)絡(luò)的訓(xùn)練類似,都是致力于實現(xiàn)無監(jiān)督的全自動化學(xué)習(xí)過程。對于視頻而言由于其幀間存在很多關(guān)聯(lián)信息,這些關(guān)聯(lián)信息可作為神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)數(shù)據(jù),因此我們可在這里實現(xiàn)無監(jiān)督學(xué)習(xí)。無監(jiān)督學(xué)習(xí)的好處在于節(jié)省了大量的高成本的人工標(biāo)記工作。因此在視頻分析領(lǐng)域,無監(jiān)督學(xué)習(xí)會扮演著越來越重要的角色,值得大家去關(guān)注。當(dāng)然這里并不是說傳統(tǒng)的有監(jiān)督學(xué)習(xí)一無是處,在諸多專業(yè)細(xì)分領(lǐng)域例如視頻觀眾識別等還需要依賴人工標(biāo)注的有監(jiān)督學(xué)習(xí)。鑒于視頻幀間存在可以被利用的豐富信息,雖然與傳統(tǒng)圖像處理相比難度更大,但我們可以利用無監(jiān)督學(xué)習(xí)實現(xiàn)更高效的視頻處理效果。
2.2.3 2D語義分割結(jié)合點云
深度學(xué)習(xí)還能幫助我們做更多的事情。除了估算深度與攝像機運動,我們還可以利用語義分割的結(jié)果進(jìn)行平面檢測。由于在植入廣告時我們會對墻面桌面等平面元素給予更多的關(guān)注,而如果只是從點云中簡單粗暴地進(jìn)行擬合,其過程的處理復(fù)雜程度很高,效率十分低下。因此,可以結(jié)合語義信息用深度學(xué)習(xí)進(jìn)行2D語義分割,將分割結(jié)果與3D重建的結(jié)果結(jié)合即可得到了一個含有語義信息的深度圖或點云,在此基礎(chǔ)上進(jìn)行的平面檢測,其算法復(fù)雜程度會大大降低,準(zhǔn)確度會顯著提高,這些就是深度學(xué)習(xí)帶給我們的便利。
2.2.4 深度學(xué)習(xí)助力幾何解構(gòu)
深度學(xué)習(xí)在幾何解構(gòu)方面的應(yīng)用還有很多,其不僅能替換現(xiàn)有方法中的一個或多個模塊,也能在傳統(tǒng)幾何方法的基礎(chǔ)上加入語義信息。這里需要注意的是,單獨依靠深度學(xué)習(xí)的方法完成視頻植入的效果與傳統(tǒng)方法還是存在一定差距,不過這不妨礙我們將其作為未來的發(fā)展方向不斷探索。從之前的例子我們可以看出,盡管傳統(tǒng)方法依舊不可被替代,但深度學(xué)習(xí)的確有助于克服傳統(tǒng)方法的諸多不足,例如應(yīng)對缺乏紋理的對象時傳統(tǒng)方法會明顯力不從心,而利用經(jīng)過訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)進(jìn)行深度估算與攝像機軌跡追蹤會明顯改善處理效果。
3. 展望未來
3.1 基于學(xué)習(xí)的視頻植入
從長遠(yuǎn)來看,我認(rèn)為基于無監(jiān)督訓(xùn)練的深度學(xué)習(xí)處理視頻植入是一個不可否認(rèn)的趨勢。隨著海量的學(xué)習(xí)與其背后數(shù)據(jù)的不斷積累,系統(tǒng)可在不更新訓(xùn)練模型的條件下持續(xù)提高模型的識別能力,也就是我們常說的“學(xué)無止境”。“學(xué)無止境”意味著持續(xù)不斷地獲得新數(shù)據(jù)與提升能力,我想無論是對技術(shù)人員還是計算機網(wǎng)絡(luò)而言,這一點都是十分關(guān)鍵的。
3.2 智能影像生產(chǎn)
也許大家從我的分享中感受到了視頻植入的神奇,但視頻植入是一個針對特定領(lǐng)域的問題。我們往往關(guān)注的是如何將一個海報貼在墻上或把一個3D模型放在桌面上。如果我們將視頻植入技術(shù)發(fā)展到批量的智能影像生產(chǎn)則需要面臨更大的挑戰(zhàn),也就是借助技術(shù)實現(xiàn)更通用、精確、真實的視頻植入效果,才能收獲符合智能影像生產(chǎn)要求的產(chǎn)品。相信隨著深度學(xué)習(xí)的發(fā)展,我們期待的智能影像生產(chǎn)將獲得矚目的進(jìn)步,這也是我們與用戶共同的目標(biāo)。
隨著近年短視頻行業(yè)的蓬勃發(fā)展,除了關(guān)注長視頻領(lǐng)域,我們也越來越關(guān)注包括短視頻平臺、直播平臺在內(nèi)的短視頻領(lǐng)域。我們期待利用基于視頻植入技術(shù)的原生視頻廣告將廣告主的一些想法自然添加在直播畫面里的桌面或墻上并隨著攝像機的運動實現(xiàn)自然變化,這種后期植入式海報是我們的優(yōu)勢產(chǎn)品之一。我相信,借助科技的力量,利用場景的關(guān)聯(lián)性優(yōu)化廣告投放效果能讓廣告成為互聯(lián)網(wǎng)視頻的錦上之花。
-
視頻
+關(guān)注
關(guān)注
6文章
1947瀏覽量
72946 -
互聯(lián)網(wǎng)
+關(guān)注
關(guān)注
54文章
11163瀏覽量
103402
原文標(biāo)題:吉長江:基于學(xué)習(xí)的視頻植入技術(shù)是未來趨勢
文章出處:【微信號:livevideostack,微信公眾號:LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論