目前,人們對性能強(qiáng)大且結(jié)構(gòu)復(fù)雜的計(jì)算機(jī)已是司空見慣。通過與手機(jī)和藍(lán)牙音響對話,我們可以收到環(huán)境敏感信息的反饋;駕駛某些汽車時(shí),我們可以雙手脫離方向盤,讓電子設(shè)備帶我們上路;只要觸摸某個(gè)按鈕,我們便可以與世界任何地方的任何人分享信息和圖片。
但目前有一個(gè)領(lǐng)域仍處于初步階段:計(jì)算機(jī)“視覺”。雖然我們的口袋里裝著性能極佳的相機(jī),但要真正了解這個(gè)世界,這些設(shè)備相對來說便黯然失色了。因?yàn)樵O(shè)備雖然可以清晰地捕捉到世界的畫面,卻不能理解畫面的內(nèi)涵。
例如,如果您給一個(gè)三歲小孩展示一張人與大象同框的照片,他可以清楚地告知照片的內(nèi)容,但若要計(jì)算機(jī)做同樣的事情,則相當(dāng)具有挑戰(zhàn)。
只有當(dāng)使用圖像數(shù)據(jù)集對計(jì)算機(jī)進(jìn)行訓(xùn)練后,其方可識別對象
不過,情況正發(fā)生變化。近年來,一個(gè)稱之為“深度學(xué)習(xí)”的領(lǐng)域大幅提升了計(jì)算機(jī)理解所見事物的能力。深度學(xué)習(xí),尤其是卷積神經(jīng)網(wǎng)絡(luò)的使用,并沒有依賴傳統(tǒng)的圖像處理技術(shù),而是賦予計(jì)算機(jī)理解世界的能力,且這方面已取得重大進(jìn)展。
卷積神經(jīng)網(wǎng)絡(luò)最早可以追溯到20世紀(jì)80年代末,其創(chuàng)建是基于20世紀(jì)60年代早期的人工神經(jīng)網(wǎng)絡(luò)(ANN)和多層感知器(MLP)。它們最初的設(shè)計(jì)旨在模擬人腦的工作方式。當(dāng)然,為了像人腦一樣做好工作,需要使用大量的數(shù)據(jù)來進(jìn)行訓(xùn)練。
2005年,隨著GPU的崛起,CNN開始變得廣為人知,并大量投入使用。這是因?yàn)?,GPU處理重復(fù)性任務(wù)的速度使得CNN的使用變成現(xiàn)實(shí)。
2012年,計(jì)算機(jī)視覺智能領(lǐng)域的工作取得了重大的飛躍,Alex Krizhevsky使用神經(jīng)網(wǎng)絡(luò)贏得了ImageNet挑戰(zhàn)賽。這是一個(gè)巨大的圖像數(shù)據(jù)庫,含有數(shù)百萬圖像數(shù)據(jù),由普林斯頓大學(xué)李凱教授于2007年創(chuàng)建。該數(shù)據(jù)庫為計(jì)算機(jī)提供了充足的訓(xùn)練數(shù)據(jù),使之能以如孩童學(xué)習(xí)的方式進(jìn)行學(xué)習(xí)。通常,ImageNet挑戰(zhàn)賽被看作計(jì)算機(jī)視覺領(lǐng)域一年一度的奧林匹克盛會,其基于篩選的圖像,測試計(jì)算機(jī)學(xué)會理解所見對象的速度有多快。失誤越少,比分則越高。
2012年,AlexNet CNN迅速提升了圖像識別性能,產(chǎn)生了重大的影響
當(dāng)時(shí),Krizhevsky能夠?qū)㈠e(cuò)誤率從26%降到15%——這是一個(gè)重大的改進(jìn),且是通過使用卷積神經(jīng)網(wǎng)絡(luò)而實(shí)現(xiàn)的。每年,隨著創(chuàng)立團(tuán)隊(duì)創(chuàng)建了更好的系統(tǒng)來加速和提高設(shè)備理解圖像的能力,故而這一進(jìn)程也得到了持續(xù)的改進(jìn)。
ImageNet CNN的性能近年來持續(xù)優(yōu)化
但CNN如何在現(xiàn)實(shí)世界使用,它們又將產(chǎn)生怎樣的影響?
輔助技術(shù)
在《2001:太空漫游》中有一個(gè)著名的場景,宇航員大衛(wèi)·保曼和富蘭克·保爾躲在一個(gè)艙里,在這個(gè)艙里,飛船計(jì)算機(jī)HAL無法聽到他們對它古怪行為的談話。然而,HAL卻能讀懂他們的唇語。按現(xiàn)階段,我們知道,HAL將使用CNN來破譯他們說的話。唇讀計(jì)算機(jī)還有更多的使用案例,如從音頻不可用的視頻內(nèi)容中獲取副本、記者獲取政客或名人更真實(shí)的言論等。
1968年拍攝的電影《2001:太空漫游》中的HAL9000展示讀唇術(shù)
來自牛津大學(xué)的一組研究人員已提出使用CNN進(jìn)行唇讀,另一篇提交給IEEE的論文則指出如何使用CNN“減少物體搖晃及面部特征提取模糊造成的負(fù)面影響”。這里,便生成了一個(gè)詞,識別率高達(dá)71.76%,這要遠(yuǎn)優(yōu)于傳統(tǒng)的方法。
不過,目前,你仍可以以手中的設(shè)備感受CNN的強(qiáng)大。有一款名為AIPoly的APP,其設(shè)計(jì)可以幫助視力有缺陷人士在使用了Imagination PowerVR GPU的智能手機(jī)上,通過攝像機(jī)識別物體并語音反饋信息。
全自動(dòng)駕駛汽車
CNN與全自動(dòng)駕駛汽車也密切相關(guān),但使用CNN驅(qū)動(dòng)全自動(dòng)駕駛汽車仍在開發(fā)中。來自康奈爾大學(xué)的論文探討了如何有效使用CNN來識別汽車牌照,其相比傳統(tǒng)的方式效果更佳。當(dāng)然,車牌并不像移動(dòng)的物體那樣不可預(yù)測,但有一篇討論CNN的論文指出,使用CNN相比傳統(tǒng)的方法效率更高。
談及移動(dòng)物體,人們自然地認(rèn)為,CNN作為ADAS和汽車全自動(dòng)視覺系統(tǒng)中使用的最重要的算法,將在全自動(dòng)駕駛汽車領(lǐng)域發(fā)揮重大的作用。CNN在分析場景方面十分高效,它將場景分解為可識別的對象,直至場景中的物體、行人、汽車、卡車、路肩、路標(biāo)在攝像機(jī)系統(tǒng)中可以被識別。通過使用大量的訓(xùn)練數(shù)據(jù),卷積網(wǎng)絡(luò)可以“學(xué)習(xí)”在實(shí)時(shí)駕駛時(shí)如何從場景中進(jìn)行信息識別和提取。舉例來說,通過CNN的各個(gè)層,可以發(fā)現(xiàn)拐角/彎道,隨后是環(huán)路、路標(biāo),最后是路標(biāo)的含義。這些信息隨后傳遞給傳感器,并與其他傳感器如激光雷達(dá)或雷達(dá)中的數(shù)據(jù)進(jìn)行融合,這樣便可以理解更大的圖景,并通過多媒體交互系統(tǒng)發(fā)出閃光警告或控制剎車或轉(zhuǎn)向,以此對場景做出反應(yīng)。
CNN可以在CPU或使用GPU計(jì)算的設(shè)備上使用,這將更加有效(效率至少提升10倍),或者通過硬件加速,最終以最低的功耗和硅占用面積來獲得最高的性能。
醫(yī)療應(yīng)用
從本質(zhì)上來說,CNN非常善于發(fā)現(xiàn),這個(gè)特性使之非常適合醫(yī)療環(huán)境。正如在Nature.com發(fā)表的論文所討論的一樣,CNN可以有效地提高癌癥識別的準(zhǔn)確性,并已被應(yīng)用于檢測“原發(fā)性乳腺癌、神經(jīng)膠質(zhì)瘤及上皮與基質(zhì)分割”。高效率則意味著它們可以減少醫(yī)學(xué)專家的工作量。論文總結(jié)道,“深度學(xué)習(xí)”在“提高前列腺癌和乳腺癌分期診斷療效方面將具有巨大的潛力”。
同樣,康奈爾大學(xué)發(fā)表的論文指出,使用CNN協(xié)助乳腺癌篩查,當(dāng)采樣訓(xùn)練數(shù)據(jù)時(shí)可以影響圖像保真度,因此建議要保持圖像的分辨率,以確保性能最佳。
工業(yè)領(lǐng)域
如果您對計(jì)算機(jī)自我構(gòu)建有憂慮,那您的擔(dān)憂不無道理。半導(dǎo)體行業(yè)一直著眼于利用深度學(xué)習(xí)來輔助設(shè)計(jì)和制造先進(jìn)的集成電路。通常認(rèn)為,CNN解決某些制造問題十分適合。與識別癌癥相似的是,在光刻工藝過程中,CNN的識別模式可以得到充分的利用,極大地降低了制造缺陷,提高了生產(chǎn)產(chǎn)量。
CNN還被廣泛應(yīng)用于食品識別。有論文討論了利用CNN進(jìn)行自動(dòng)飲食識別,使專家能夠發(fā)現(xiàn)不健康的飲食模式。還有幾篇論文也對CNN的這種功能進(jìn)行過描述。它們指出,計(jì)算機(jī)“深度飲食”可以輔助飲食評估,改善人們的健康狀況、延長壽命。
社交媒體領(lǐng)域
讓數(shù)字圖像的顯示效果達(dá)到最佳,這是一項(xiàng)技能。許多人通過使用圖像修復(fù)工具并花費(fèi)了大量的精力以期達(dá)到這一理想的效果。來自Adobe和康奈爾大學(xué)的一項(xiàng)名為“深度照片風(fēng)格轉(zhuǎn)移”的實(shí)驗(yàn)正試圖通過應(yīng)用人工智能來達(dá)到這一效果。這款應(yīng)用可以以某種風(fēng)格拍攝一張照片,并自動(dòng)將此風(fēng)格應(yīng)用到另一張照片上,效果顯著。
CNN已被Facebook等網(wǎng)站廣泛應(yīng)用。Facebook描述了他們?nèi)绾卧谏疃任谋局惺褂肅NN,“深度文本”即“基于深度學(xué)習(xí)的文本理解引擎,可以以接近人類的準(zhǔn)確性,每秒理解幾千個(gè)帖子的文本內(nèi)容,并橫跨超過20種語言。”
總結(jié)
Imagination一直密切關(guān)注加速推理引擎使用的方法。它們一旦在數(shù)據(jù)集上進(jìn)行了全面的訓(xùn)練,就可以在設(shè)備上運(yùn)行CNN。正如我們?nèi)ツ臧l(fā)布的PowerVR Rogue GPU,相比CPU,其運(yùn)行效率已提升3倍,性能提升12倍。新發(fā)布的PowerVR Furian架構(gòu)的性能和功效將更強(qiáng)大。
在最近的博文中,我們突出呈現(xiàn)了這一領(lǐng)域的工作,以及我們?nèi)绾温氏仁褂肙penVX CNN擴(kuò)展,即計(jì)算機(jī)視覺的開源標(biāo)準(zhǔn)API。
我們將繼續(xù)從事該領(lǐng)域的工作。Imagination的保羅·布萊斯萊特最近在嵌入式視覺峰會發(fā)表了題為“訓(xùn)練CNN用于高效推理”的演講。在他的演講中,闡述了Imagination在硬件上運(yùn)行CNN以提升效率的方法。硬件功率和面積的限制是主要的關(guān)注點(diǎn),如移動(dòng)設(shè)備或全自動(dòng)駕駛汽車的硬件等。
-
計(jì)算機(jī)視覺
+關(guān)注
關(guān)注
8文章
1699瀏覽量
46050 -
卷積神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
4文章
367瀏覽量
11885
發(fā)布評論請先 登錄
相關(guān)推薦
評論