編者按:人工智能已成為國家級的戰(zhàn)略目標(biāo), 這激發(fā)了各行各業(yè)的AI熱潮。而目前AI人才的稀缺以及開發(fā)任務(wù)的繁重,限制了深度學(xué)習(xí)落地,因此AI產(chǎn)業(yè)迫切需要賦能平臺。中科視拓董事長山世光研究員,在2017鈦媒體T-EDGE年度國際盛典上,談深度學(xué)習(xí)生產(chǎn)線、以及中科視拓通用深度學(xué)習(xí)算法平臺SeeTaaS。
圖像識別或者人臉識別是今年以來AI實(shí)現(xiàn)最大爆發(fā)的領(lǐng)域。對于這些技術(shù)的實(shí)現(xiàn),中科院計(jì)算所研究員、中科視拓創(chuàng)始人、董事長兼CTO山世光,將其歸結(jié)為一個(gè)簡單的公式,那就是“A+B+C”。A是算法,B是Bigdata,C是Computing。
12月16日,在2017鈦媒體T-EDGE年度國際盛典上,山世光提到,2012年之后,因?yàn)榛ヂ?lián)網(wǎng)和物聯(lián)網(wǎng)的發(fā)展,我們有更多機(jī)會(huì)收集大量數(shù)據(jù),再加上GPU等高性能計(jì)算設(shè)備的普及,我們有機(jī)會(huì)完成大規(guī)模的機(jī)器訓(xùn)練。特別的,上面ABC三點(diǎn)中的A,即算法,最主要的就是指深度學(xué)習(xí)(Deep Learning)。
深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域,解決了或者推動(dòng)了一大類非線性的映射函數(shù)學(xué)習(xí)的問題。這樣的方式,使AI開發(fā)的方法論產(chǎn)生了極大變化。
但與此同時(shí),從落地角度來看,依賴于有標(biāo)注大數(shù)據(jù)的深度學(xué)習(xí)也還存在非常多問題。
首先,個(gè)性化需求非常多,可批量復(fù)制的“標(biāo)品”比較少。以巡邏機(jī)器人為例,可能需要開發(fā)塑料瓶子檢測系統(tǒng),也可能是塑料袋識別,甚至是爛白菜的識別,這么多不同的物體的識別是非常重的開發(fā)任務(wù)。
其次,從計(jì)算角度講,深度學(xué)習(xí)的計(jì)算成本比較高,端側(cè)的計(jì)算能力需求較大。而且AI技術(shù)的生產(chǎn)效率現(xiàn)在還比較低。如何加快生產(chǎn)效率,需要大量懂深度學(xué)習(xí)的專業(yè)算法人才,而現(xiàn)在并沒有這么多的人才儲(chǔ)備。
現(xiàn)階段,AI人才奇缺。行業(yè)的碩士畢業(yè)生大概30-50萬年薪,博士是50-80萬年薪。對比人才數(shù)量的稀缺,開發(fā)任務(wù)卻十分繁重,如果每個(gè)任務(wù)都做要3-5個(gè)月才能完成,這是"災(zāi)難性"的事情。
以下是中科視拓創(chuàng)始人董事長兼CTO山世光演講發(fā)言:
非常榮幸有機(jī)會(huì)來到鈦媒體今年的年度盛典給大家做一次分享。
如果說創(chuàng)業(yè),我是一個(gè)新兵。我在中科院系統(tǒng)工作了20年,從事基礎(chǔ)研究和應(yīng)用技術(shù)研發(fā)工作。我今天的分享有很多內(nèi)容跟技術(shù)相關(guān)。我演講的題目叫《計(jì)算機(jī)視覺技術(shù)現(xiàn)狀展望和產(chǎn)業(yè)化》。
首先,我們說計(jì)算機(jī)視覺是什么樣的學(xué)科,要做什么的事情?
很多人不了解這件事為什么那么難?如果看一下我們需要處理的對象,就會(huì)發(fā)現(xiàn)它確實(shí)是非常難的任務(wù)。
我們所謂的圖像是用攝像頭來捕捉物體表面反射的不同顏色的光,進(jìn)行采樣,每個(gè)點(diǎn)即像素都用紅綠藍(lán)三個(gè)不同的分量數(shù)值表示不同的顏色。所以,到了計(jì)算機(jī)里面,每幅圖像就是很多很多0-255之間的整數(shù)值。大家看這些數(shù)。相信沒有一個(gè)人在非常短的時(shí)間內(nèi),能夠通過觀察這些數(shù)告訴我圖像里的內(nèi)容是什么。計(jì)算機(jī)視覺要完成的就是這樣的任務(wù),通過對這些數(shù)的分析完成對圖像內(nèi)容的理解。
這次人工智能的浪潮,首先在語音識別和圖像識別領(lǐng)域取得了顯著的進(jìn)步,并進(jìn)一步引發(fā)了AI在更多領(lǐng)域的應(yīng)用。
從圖像識別或計(jì)算機(jī)視覺角度講,在2012年,深度學(xué)習(xí)首次在Imagnet評測數(shù)據(jù)集上應(yīng)用,一下子將分類錯(cuò)誤率降低了10個(gè)百分點(diǎn)。從圖像分類的角度來講,在2011年,圖像分類錯(cuò)誤率是26%,到了2012年,利用深度學(xué)習(xí)之后,下降到16%。到了2016年,隨著深度學(xué)習(xí)模型深度不斷加深,錯(cuò)誤率進(jìn)一步下降到了2.3%。也就是說,大概在5年時(shí)間里,圖像識別率的錯(cuò)誤率降低了10倍。
下面是其他五個(gè)深度學(xué)習(xí)帶來重要進(jìn)步的典型例子。
在物體檢測領(lǐng)域。所謂物體檢測就是提供給一張照片,把照片里不同的物體,如車、人等物體框出來。2013年,在Imagnet測試集上檢測正確率只有23%,到了2017年,正確率達(dá)到了73%,在視頻里尋找30類物體也達(dá)到80%的精度。
在視頻監(jiān)控領(lǐng)域,我們希望能夠?qū)θ恕④嚒⑽镞M(jìn)行檢測識別,利用深度學(xué)習(xí),現(xiàn)在很多系統(tǒng)包括中科視拓的技術(shù)都可以實(shí)現(xiàn)對人、車、騎行的準(zhǔn)確檢測、跟蹤以及對性別、車型等屬性的大致分類。
在圖像分割領(lǐng)域,例如為了實(shí)現(xiàn)自動(dòng)駕駛,給一幅圖像之后,我們希望算法能夠知道哪塊是道路、哪塊是樹木、哪塊是建筑,這是一個(gè)分割問題。從2013年到2017年,分割的準(zhǔn)確率也從50%提高到了86.9%。
還有一個(gè)任務(wù)從2015年左右才開始逐漸得到重視,即所謂的“看圖作文”,就是在提供一幅圖像之后,希望計(jì)算機(jī)能夠生成一句或一段文本描述圖像里的內(nèi)容。在過去兩三年里,這一技術(shù)得到了非常大的進(jìn)步,有些系統(tǒng)產(chǎn)生的文本描述已經(jīng)可以和人對這個(gè)圖像的描述媲美,甚至有些普通人已經(jīng)不能夠判斷到底是機(jī)器自動(dòng)生成的一段話,還是真人寫出來的一段話。實(shí)現(xiàn)這一任務(wù)采用的方法也是以深度學(xué)習(xí)為基礎(chǔ)的。
還有一些類似藝術(shù)創(chuàng)作的技術(shù)進(jìn)展,比如我們可以通過計(jì)算給一幅圖像轉(zhuǎn)化風(fēng)格,把一個(gè)人的頭發(fā)顏色改掉,加上一個(gè)劉海,或者加上眼鏡,所產(chǎn)生的圖像可以以假亂真;我們也可以把一副普通的圖像變成莫奈風(fēng)格的油畫,把馬變成斑馬,把冬天的照片變成夏天的照片。
上個(gè)月,iPhoneX的發(fā)布使我們進(jìn)一步對人臉識別應(yīng)用有了更加深刻的認(rèn)識。其實(shí)在人臉識別領(lǐng)域,過去兩到三年,也出現(xiàn)了2-4個(gè)數(shù)量級的錯(cuò)誤率下降。蘋果聲稱iPhone X所采用的FaceID錯(cuò)誤率大概在百萬分之一,意味著如果有一百萬個(gè)人撿到你的手機(jī),只有一個(gè)人可以冒充你解鎖成功。因?yàn)樗捎玫?a href="http://www.xsypw.cn/v/tag/117/" target="_blank">傳感器是RGBD相機(jī),里面不僅有彩色照片,還有深度信息、近紅外信息,同時(shí)在注冊階段也會(huì)捕捉你的多幅照片,以及在識別階段也是近距離進(jìn)場的識別等等,這些方式都使得iPhone X的FaceID識別任務(wù)成為人臉識別領(lǐng)域一個(gè)相對比較容易的任務(wù)。其實(shí)三星Note3幾年前就已經(jīng)可以用人臉識別解鎖,華為也在去年與我們合作將人臉識別應(yīng)用到了其榮耀Magic手機(jī)上去實(shí)現(xiàn)對手機(jī)的半解鎖。
其實(shí)人臉識別有非常多不同的應(yīng)用場景,手機(jī)的應(yīng)用只是其中之一,即使是一比一驗(yàn)證你是不是你的任務(wù),也有不同的應(yīng)用場景。比如,在機(jī)場、車站等應(yīng)用場景,用身份證中的卡內(nèi)人臉照片和持卡人人臉比對,在過去3-4年里錯(cuò)誤率大概下降了2-4個(gè)數(shù)量級,達(dá)到了萬分之一甚至更低的錯(cuò)誤率,即有一萬個(gè)人試圖冒充你,只有一個(gè)人可能成功,在這種情況下,本人持自己身份證可以有95%以上的正確識別率。企業(yè)員工刷卡后進(jìn)行人臉驗(yàn)證的正確率則可以高達(dá)99%。
對于這些技術(shù)背后的AI,如果我們用一個(gè)簡單的公式來表達(dá),那就是“A+B+C”。A是Algorithm即算法,B是Bigdata大數(shù)據(jù),C是算力Computing。我想這樣的公式或這樣的說法,最近一段時(shí)間大家都越來越熟悉了。這三者中,A即算法,最主要的就是指深度學(xué)習(xí)算法了。
所謂深度學(xué)習(xí)其實(shí)并不是新的技術(shù),在上世紀(jì)八十年代中后期的時(shí)候,理論、方法就基本成熟,但因?yàn)楫?dāng)時(shí)沒有大量數(shù)據(jù),沒有足夠強(qiáng)的計(jì)算能力,這就使在當(dāng)時(shí)我們不可能發(fā)揮它的作用。
2012年之后,因?yàn)榛ヂ?lián)網(wǎng)和物聯(lián)網(wǎng)的發(fā)展,使我們有更多機(jī)會(huì)收集大量數(shù)據(jù),再加上有GPU等平民化高性能計(jì)算設(shè)備的出現(xiàn),使我們有機(jī)會(huì)完成大規(guī)模的深度學(xué)習(xí)算法的訓(xùn)練。
深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域,解決了或者至少推動(dòng)了一大類非線性的映射函數(shù)學(xué)習(xí)的問題。換句話說,給我們一張照片,這些照片就是一些數(shù)值,形成輸入x,我們通過深度模型學(xué)習(xí)一個(gè)F函數(shù),用F作用于x,即F(x)得到我們想要得到的Y,這個(gè)Y可能是一個(gè)標(biāo)簽(比如貓,狗),也可能是我們想要分割的結(jié)果。
這樣的方式,使我們做AI的方法論產(chǎn)生了極大變化。從過去,我們大量依賴人類專家知識來設(shè)計(jì)算法,到現(xiàn)在,變成有大監(jiān)督大數(shù)據(jù)驅(qū)動(dòng)的方法為主。
以一個(gè)具體的應(yīng)用需求為例(從客戶那挖掘出來的案例)。
我們一個(gè)客戶做了小區(qū)巡邏機(jī)器人,物業(yè)希望這個(gè)機(jī)器人可以幫助解決小區(qū)管理中的一個(gè)痛點(diǎn)問題。小區(qū)里經(jīng)常有小狗亂拉屎,所以物業(yè)需要一個(gè)狗屎檢測系統(tǒng)。這樣的話,巡邏機(jī)器人可以及時(shí)發(fā)現(xiàn)這樣的垃圾,然后“報(bào)警”,由保潔及時(shí)來清除掉。
在沒有深度學(xué)習(xí)的時(shí)候,我們需要做的是:
第一步,收集一定量的包含狗屎的圖像數(shù)據(jù)。
第二步,人工設(shè)計(jì)或選擇一些特征。
第三步,選擇某種分類器在收集的數(shù)據(jù)集合上測試它,看它效果好不好。如果不夠好就回到第二步,不斷進(jìn)行反饋和調(diào)整。
這是一個(gè)人工設(shè)計(jì)特征的過程,這樣的方式非常耗時(shí),非常不高效。我們做人臉檢測花了20年,做行人車輛檢測大概花了10年,即使狗屎檢測相對容易,可能也需要至少一年。深度學(xué)習(xí)來了之后,整個(gè)過程變得很不一樣。如果我們采用眾包等方式,可能在一個(gè)月時(shí)間里就可以收集上萬張標(biāo)注了狗屎的照片,然后算法工程師可以根據(jù)經(jīng)驗(yàn)選擇一個(gè)深度學(xué)習(xí)算法,并設(shè)定一些超參數(shù),然后只需要讓機(jī)器在收集的數(shù)據(jù)集上進(jìn)行訓(xùn)練和學(xué)習(xí)就可以了,這個(gè)過程可以非常快速的完成,大概只需要三個(gè)月。從過去的數(shù)年到現(xiàn)在的數(shù)月,顯然大大提高了我們研發(fā)一項(xiàng)AI技術(shù)的效率。
這樣的方法論極大的提高了視覺技術(shù)的水平和落地效率。
我認(rèn)為很多場景下能看的AI才有真的智能。所以,視覺智能會(huì)有大量場景化需求,如果我們?nèi)ゼ?xì)看每一個(gè)領(lǐng)域,從公共安全、機(jī)器人、自動(dòng)駕駛、無人機(jī)到醫(yī)療,每個(gè)領(lǐng)域我們都可以非常輕易的發(fā)現(xiàn)視覺的用武之地。如果AI有一雙眼睛(也就是有攝像頭),我們背后有合適的算法,機(jī)器就可以更多的替換或者輔助人更好、更高效的做我們想要它做的事情。
但從落地角度來講,也存在非常多問題。
問題一:個(gè)性化需求非常多,可批量復(fù)制的“標(biāo)品”比較少。
以“狗屎”識別機(jī)器人為例,可能明天還需要一個(gè)塑料瓶子檢測,后天是塑料袋識別,再后天是白菜識別,這么多不同的物體,如果我們都采用前面說的那種開發(fā)方式,每種東西需要至少三個(gè)月,那么我們就會(huì)面臨非常重的開發(fā)任務(wù),關(guān)鍵是現(xiàn)在并沒有這么多人才可以去做這么多事。
從落地角度來看,誰來做、誰去買單、誰去開發(fā)算法,采用什么樣的商業(yè)模式和合作模式都是問題。
問題二:從計(jì)算力角度講,深度學(xué)習(xí)的計(jì)算成本相對比較高。最近很多的AI專用芯片市場就是在解決這類問題。
AI技術(shù)的生產(chǎn)效率現(xiàn)在是比較低的,我們要加快生產(chǎn)效率,就需要人力,需要高水平的AI算法人才。可是AI的人才奇缺。現(xiàn)在深度學(xué)習(xí)專業(yè)碩士畢業(yè)生可以拿到30-50萬年薪,博士則可以高達(dá)50-80萬年薪。在座的女孩們,如果沒有男朋友的話,到我們這個(gè)領(lǐng)域看一看。
相比可用的人才數(shù)量,這么多的視覺處理任務(wù),如果每個(gè)任務(wù)都要2個(gè)碩士博士做3-5個(gè)月才能完成,這將是災(zāi)難性的事情。
所以,未來我們需要新的方法論,從現(xiàn)在有監(jiān)督大數(shù)據(jù)驅(qū)動(dòng)的方法論,變成知識和數(shù)據(jù)聯(lián)合驅(qū)動(dòng)的方法論,為了完成這些事情,我們需要更強(qiáng)大的機(jī)器學(xué)習(xí)方法。使得我們在不同數(shù)據(jù)條件下也可以獲得穩(wěn)定、可靠的識別能力,這就體現(xiàn)在我們可能需要利用小數(shù)據(jù)、臟數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)。
此外,用來學(xué)習(xí)的數(shù)據(jù)還可能是半監(jiān)督的數(shù)據(jù)、弱監(jiān)督的數(shù)據(jù),比如給你一張照片告訴你其中有狗屎,但并沒有明確告訴你這個(gè)狗屎在什么位置,如果我們能有可以充分利用這些數(shù)據(jù)的更好的機(jī)器學(xué)習(xí)方法,我們才可能更加快速的開發(fā)AI技術(shù)。
這還不夠,我們還希望有更快捷的AI開發(fā)方法。比如我們希望開發(fā)一個(gè)安全帽檢測的引擎,這是實(shí)際需求。我們一旦把這個(gè)任務(wù)交給機(jī)器之后,希望AI生產(chǎn)平臺可以全自動(dòng)完成全部的開發(fā)過程。機(jī)器完成這個(gè)任務(wù)的可能流程是:首先,它會(huì)理解這是一個(gè)檢測任務(wù),檢測目標(biāo)是安全帽,然后機(jī)器自動(dòng)在百度上去搜索大量安全帽的圖像,然后在百度上搜索一些關(guān)于安全帽的知識描述,例如安全帽多數(shù)是圓的,顏色各異,經(jīng)常戴在人頭上等等。然后,算法就通過對這樣一些數(shù)據(jù)的自動(dòng)處理和學(xué)習(xí),以及知識的利用完成一個(gè)“安全帽檢測”AI引擎的開發(fā)。
遺憾的是,從算法的角度來講,以我對該領(lǐng)域?qū)W術(shù)前沿的了解,要達(dá)到這樣的目標(biāo)我們可能還需要5-10年,還不一定100%完全做到那種程度。
在此之前,工業(yè)界最靠譜的做法恐怕還是采用“數(shù)據(jù)暴力”來完成多數(shù)類似AI任務(wù)的研發(fā)。但我們?nèi)绾谓鉀Q缺少大量AI算法工程師的問題呢?我認(rèn)為我們需要一個(gè)更強(qiáng)大、更便捷的AI算法生產(chǎn)基礎(chǔ)設(shè)施。這樣的基礎(chǔ)設(shè)施,就像當(dāng)年從專業(yè)相機(jī)到傻瓜相機(jī)的歷史演變一樣。
為了讓我們有更多的人才可以開發(fā)AI,以滿足大量的視覺智能開發(fā)任務(wù),我們的AI生產(chǎn)工具要從Caffe,Mxnet和Tensorflow等只能昂貴的高端人才可以使用的開發(fā)工具發(fā)展到“傻瓜式”的AI開發(fā)平臺。這樣的平臺應(yīng)該使更多的中低端人才,即使不懂AI、不懂深度學(xué)習(xí),也可以經(jīng)過簡單的培訓(xùn),就可以利用自己的私有數(shù)據(jù),在這樣的軟硬建基礎(chǔ)設(shè)施平臺上,方便快捷的開發(fā)出自己所需要的AI技術(shù)引擎,并便捷的嵌入自己的業(yè)務(wù)系統(tǒng)中。
我作為主要?jiǎng)?chuàng)始人成立的中科視拓,自去年8月成立以來,不僅做了大量人臉識別、無人機(jī)視覺等計(jì)算機(jī)視覺技術(shù)服務(wù)項(xiàng)目,開發(fā)了多款人臉識別產(chǎn)品和解決方案。與此同時(shí),我們已經(jīng)研發(fā)了一個(gè)稱為SeeTaaS的深度學(xué)習(xí)算法開發(fā)平臺,這個(gè)平臺不但在我們公司內(nèi)部逐步得到了應(yīng)用,也已經(jīng)開始提供給我們的B端客戶,使他們也具備了用自己的私有數(shù)據(jù)訓(xùn)練自己所需的深度學(xué)習(xí)算法和引擎的能力。相信這個(gè)SeeTaaS平臺會(huì)越來越好用,最終實(shí)現(xiàn)我們“讓天下沒有難開發(fā)的AI”這一夢想!
謝謝大家!
-
AI
+關(guān)注
關(guān)注
87文章
30896瀏覽量
269110 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5503瀏覽量
121170 -
山世光
+關(guān)注
關(guān)注
0文章
1瀏覽量
978
原文標(biāo)題:山世光:AI產(chǎn)業(yè)需要賦能平臺
文章出處:【微信號:deeplearningclass,微信公眾號:深度學(xué)習(xí)大講堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論