NVIDIA致力于通過深度學(xué)習(xí)推動人工智能的發(fā)展。各行業(yè)的初創(chuàng)企業(yè)可借助 NVIDIA強(qiáng)大的AI計算平臺,探索人工智能帶來的無限可能。
“NVIDIA初創(chuàng)企業(yè)GPU應(yīng)用大賽” 第一季自今年5月正式啟動以來,得到了“NVIDIA初創(chuàng)加速計劃”各成員企業(yè)的踴躍參與。經(jīng)過NVIDIA專家評審,我們從中遴選出了幾家代表性的GPU應(yīng)用作為優(yōu)勝獎的獲得者,并將陸續(xù)分享他們的GPU創(chuàng)新應(yīng)用故事。
高清圖像在交通錄像取證,競技場景細(xì)節(jié)還原等環(huán)境下,為專業(yè)人士提供著至關(guān)重要的細(xì)節(jié)信息,但在實(shí)際應(yīng)用中,由于制作工藝和成本的考慮,很多場合都不會采用高分辨率、超分辨率的相機(jī)來進(jìn)行圖像信號的采集,因此,將低分辨率的圖片還原成高分辨率圖片就非常重要。
圖像超分辨率(SuperResolution,SR)就是將低分辨率(LowResolution,LR)的圖像通過一定的算法轉(zhuǎn)提升到高分辨率(HighResolution,HR)的技術(shù)。以往傳統(tǒng)的圖像超分辨率技術(shù)在圖像還原方面差強(qiáng)人意,而且需要大量人力進(jìn)行比對,效率很低。GPU和深度學(xué)習(xí)的大規(guī)模應(yīng)用為整個行業(yè)帶來了突破性的發(fā)展。目前,使用GPU來加速圖片超分辨率重建已經(jīng)成為業(yè)界內(nèi)逐漸成熟的技術(shù)方案。
作為NVIDIA初創(chuàng)加速計劃成員,北京飛搜科技有限公司(以下簡稱“飛搜科技”)在計算機(jī)視覺領(lǐng)域擁有多項(xiàng)世界領(lǐng)先的研究成果,尤其是在人臉識別、目標(biāo)追蹤、目標(biāo)檢測等領(lǐng)域。該公司通過采用NVIDIA Tesla P100對圖像進(jìn)行大規(guī)模的深度學(xué)習(xí)訓(xùn)練,實(shí)現(xiàn)了對視頻監(jiān)控圖像中對低質(zhì)量圖片快速重建,且重建出的高清圖像的人眼感官效果也頗佳,遠(yuǎn)超傳統(tǒng)超分辨率方法。
傳統(tǒng)圖像超分變率重建效果差強(qiáng)人意
GPU帶來行業(yè)革新
圖像超分辨率領(lǐng)域在早期用傳統(tǒng)方法,僅僅能從圖像表層特征進(jìn)行推測,從而擴(kuò)大圖片尺寸和分辨率,在學(xué)術(shù)界和評測上一般用PSNR(Peak Singnal-to-Noise Ratil峰值信噪比,此值越大越好)。傳統(tǒng)方法在提高PSNR值上效果顯著,但真正重建之后的圖片,跟人眼日常所見及預(yù)期恢復(fù)的圖像還有很大差別,會讓人從感官上覺得“不像”。
在上述基礎(chǔ)上,相關(guān)領(lǐng)域研究人員嘗試使用神經(jīng)網(wǎng)絡(luò)來進(jìn)行圖像超分辨率重建,此舉再次提升了 PSNR 的結(jié)果,但是其重建 速度慢,而且對復(fù)雜場景,或者存在多層隱藏特征的圖片,重建之后仍然會有跟原本物體不一樣的感覺。
與此同時,通過監(jiān)控來發(fā)現(xiàn)異樣是一個非常耗費(fèi)人力的工作,而且在發(fā)現(xiàn)異常之后,想要通過放大圖片,對異常部分想要進(jìn)行更多的了解和分析也會耗費(fèi)更多精力,利用過去的方法不僅不會提高工作效率,反倒會由于重建結(jié)果不好而耽誤時間。
現(xiàn)在,隨著深度學(xué)習(xí)以及GPU的大規(guī)模應(yīng)用,在超分辨率這個問題上能進(jìn)行更大規(guī)模的訓(xùn)練,得到的深度學(xué)習(xí)模型不僅僅有一個更高的PSNR結(jié)果,同時在重建之后的人眼感官效果上也有不錯的表現(xiàn),能夠貼近現(xiàn)實(shí)生活的物體。
目前,使用GPU來加速圖片超分辨率重建已經(jīng)成為業(yè)界內(nèi)逐漸成熟的技術(shù)方案。
GPU深度學(xué)習(xí)凸顯圖像重建優(yōu)勢
在針對監(jiān)控視頻中不清楚的圖像進(jìn)行超分辨率重建流程中,首先由監(jiān)控人員發(fā)現(xiàn)視頻中的問題,然后針對視頻序列截幀得到的圖片,選擇出需要高清圖片的這一幀,之后將此圖片傳入深度學(xué)習(xí)模型,由深度學(xué)習(xí)模型在GPU上進(jìn)行特征提取,根據(jù)提取的特征再進(jìn)行大尺寸高分辨率圖像重建,得到高分辨率圖片后,再由人工觀察高清圖片獲取所需要的信息。
由于深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)CNN具有良好的特征提取特性,所以飛搜科技的研究團(tuán)隊在圖像超分辨率中應(yīng)用CNN來進(jìn)行特征提取,然后利用轉(zhuǎn)置卷積和隨機(jī)通道等方法放大圖像尺寸。
具體而言,首先將待進(jìn)行放大的圖片尺寸統(tǒng)一,然后將此圖片輸入CNN模型,使用隨機(jī)通道排序方法將圖片尺寸擴(kuò)大。正是由于CNN良好的特征提取能力,使得圖片重建后具有良好的視覺感官效果和PSNR值。
CNN進(jìn)行超分示意圖,輸入一個尺寸為fxf大小的低質(zhì)量圖片,然后進(jìn)行n層輸出大小仍然為fxf的卷積運(yùn)算,同時固定卷積核大小,最后一個卷積層將輸出即將進(jìn)行隨機(jī)通道排序的特征圖。
進(jìn)行隨機(jī)通道重排之后放大圖片的示意圖,每一個特征圖對應(yīng)一個通道,按照通道的前后順序以及卷積核的大小來對每個特征值在輸出圖片上的位置進(jìn)行重新排列(上圖中卷積核大小為2x2)
全新圖片超分辨率重建技術(shù)獲得認(rèn)可
憑借在超分辨率領(lǐng)域的出色表現(xiàn),飛搜科技研究團(tuán)隊在2018年計算機(jī)視覺頂級會議CVPR(Computer Vision and Pattern Recognition)workshop NTIRE(New Trends in Image Restoration and Enhancement)競賽中獲得優(yōu)異成績。
飛搜科技的解決方案也在諸多領(lǐng)域應(yīng)用中效果顯著,在對博彩業(yè)視頻圖片進(jìn)行超分辨率重建的實(shí)例中,圖a和圖b(下圖所示)就是進(jìn)行重建前后的圖片對比。可以看到,該算法模型在圖片放大后能保留很多細(xì)節(jié)信息,比如撲克牌上和籌碼上的數(shù)字,在放大后仍然有較好的視覺感官。
圖a(左)為小尺寸低分辨率圖片,圖b(右)為大尺寸高分辨率圖片
可以說,在NVIDIA Tesla P100系列GPU的大力支持下,隨著深度學(xué)習(xí)的快速發(fā)展以及其在超分辨率領(lǐng)域的應(yīng)用,用更多的數(shù)據(jù)訓(xùn)練更大的模型以實(shí)現(xiàn)圖片超分辨率重建成為了現(xiàn)實(shí)。不僅訓(xùn)練速度快,而且訓(xùn)練完成之后的模型在運(yùn)行速度上也會比CPU快幾倍到幾十倍,在PSNR指標(biāo)上也得到了很大的提高,同時更貼近正常生活中的物體線條。
飛搜科技借助Tesla P100實(shí)現(xiàn)超分辨率圖像重建只是這一領(lǐng)域應(yīng)用的冰山一角,未來將會有規(guī)模更大,更具有代表性的數(shù)據(jù)和更好的硬件來進(jìn)一步提高圖片超分辨率在實(shí)際應(yīng)用中的能力和表現(xiàn)。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5055瀏覽量
103374 -
AI
+關(guān)注
關(guān)注
87文章
31294瀏覽量
269655 -
人工智能
+關(guān)注
關(guān)注
1792文章
47514瀏覽量
239248 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5510瀏覽量
121347
原文標(biāo)題:初創(chuàng)加速故事 | Tesla P100助力飛搜科技在圖像超分辨率重建領(lǐng)域大放異彩
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論