4月18日,清華大學(xué)《人工智能前沿與產(chǎn)業(yè)趨勢》系列講座第四講,深睿醫(yī)療首席科學(xué)家、美國計(jì)算機(jī)協(xié)會(huì)杰出科學(xué)家、IEEE Fellow俞益洲為大家介紹了目前計(jì)算機(jī)視覺的應(yīng)用和落地,特別是在醫(yī)療影像方面的發(fā)展?fàn)顩r、遭遇的挑戰(zhàn)、以及克服挑戰(zhàn)的思路。最后和清華大學(xué)自動(dòng)化系副教授、博導(dǎo)魯繼文以及知名天使投資人、梅花創(chuàng)投創(chuàng)始合伙人吳世春一起對計(jì)算機(jī)視覺的落地機(jī)會(huì)進(jìn)行了暢想。
首先由清華大學(xué)海峽研究院大數(shù)據(jù)AI中心專家委員、百度七劍客之一、酷我音樂創(chuàng)始人雷鳴老師做開場,對計(jì)算機(jī)視覺方面的技術(shù)和應(yīng)用場景做了一個(gè)整體的解讀。
雷鳴講到在技術(shù)方面,目前計(jì)算機(jī)視覺可以大致分為圖像處理、人臉識(shí)別、圖像預(yù)測以及生成技術(shù)。單個(gè)照片的處理技術(shù)現(xiàn)在已日臻成熟,接下來正在大力發(fā)展3D影像和視頻流處理技術(shù)。在應(yīng)用領(lǐng)域,人臉識(shí)別被廣泛的應(yīng)用于多種場景例如酒店、安防、醫(yī)學(xué)影像、金融、工業(yè)以及農(nóng)業(yè)中。
接下來由深睿醫(yī)療首席科學(xué)家、美國計(jì)算機(jī)協(xié)會(huì)杰出科學(xué)家、IEEE Fellow俞益洲為大家?guī)怼队?jì)算機(jī)視覺的應(yīng)用與落地》。最后由雷鳴、俞益洲和清華大學(xué)自動(dòng)化系副教授、博導(dǎo)魯繼文以及知名天使投資人、梅花創(chuàng)投創(chuàng)始合伙人吳世春對計(jì)算機(jī)視覺方面的創(chuàng)業(yè)機(jī)會(huì)進(jìn)行了討論。
什么是計(jì)算機(jī)視覺?和圖像處理的區(qū)別在哪里?
圖像處理的輸入是圖像,輸出仍然是圖像。而計(jì)算機(jī)視覺則是在更高層面能夠?qū)斎氲膱D像進(jìn)行分析和理解,最終輸出的不一定是圖像,可能是數(shù)值或符號(hào),這些數(shù)值或符號(hào)構(gòu)成輸入圖像的描述。計(jì)算機(jī)視覺的主要任務(wù)包括圖像識(shí)別、運(yùn)動(dòng)分析、場景重建和圖像恢復(fù)等。
首先,圖像識(shí)別完成對圖像內(nèi)容的描述,如果和其他模態(tài)的信息匯總,就能夠得到對圖像的整體理解,進(jìn)而起到輔助決策的作用;其次,目前很多圖像都是以視頻的形式或動(dòng)態(tài)圖像的形式呈現(xiàn),對這類圖像的運(yùn)動(dòng)進(jìn)行分析可以得到更多的信息;場景重建是對輸入的二維圖像通過分析之后還原成真實(shí)世界里的三維物體;最后,雖然圖像恢復(fù)嚴(yán)格意義上不是視覺,但現(xiàn)在大家普遍將圖像處理作為視覺的一個(gè)分支來考慮,叫做底層計(jì)算機(jī)視覺。
基于深度學(xué)習(xí)的計(jì)算機(jī)視覺
俞益洲說,在計(jì)算機(jī)視覺里面用到的深度學(xué)習(xí),主要就是卷積神經(jīng)網(wǎng)絡(luò)(CNN)。CNN是Yann LeCun發(fā)明的一種具有特殊連接關(guān)系的神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)有很多種,包括單層和多層網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)特別的地方在于其卷積操作與信號(hào)處理里面的卷積操作相似,特別適合于對圖像進(jìn)行理解。
Yann LeCun最初把CNN應(yīng)用于手寫體郵編的自動(dòng)識(shí)別。在這個(gè)任務(wù)上CNN在80年代末90年代初就已經(jīng)達(dá)到了98%以上的準(zhǔn)確率。當(dāng)時(shí)能夠處理的圖片還很小, 直到2012年,另外一個(gè)機(jī)器學(xué)習(xí)先驅(qū)Hinton把原來的卷積神經(jīng)網(wǎng)絡(luò)推廣到更大尺寸的輸入圖像上。
同時(shí)訓(xùn)練圖像的數(shù)量也大幅上升,從原來的幾萬張圖像上升至2012年的100萬張ImageNet訓(xùn)練圖像。感謝GPU,原來耗時(shí)很長的模型訓(xùn)練也變得可以接受。但即使用GPU訓(xùn)練模型,當(dāng)時(shí)100萬張訓(xùn)練圖像也需要跑大約兩周。
在那以后大家繼續(xù)改進(jìn)神經(jīng)網(wǎng)絡(luò)的架構(gòu),到2015年在ImageNet上top-5的錯(cuò)誤率下降到了3.57%,已經(jīng)低于人在圖像識(shí)別方面的錯(cuò)誤率。卷積神經(jīng)網(wǎng)絡(luò)能達(dá)到這樣的性能是因?yàn)樗饘訉D像都有更深刻的理解。
計(jì)算機(jī)視覺的應(yīng)用
俞益洲說,第一個(gè)應(yīng)用場景是智能安防,它包括了大部分人臉識(shí)別的應(yīng)用場景,如機(jī)場、車站、出入境,也包括智慧交通,如車輛管理、車牌識(shí)別、智能紅綠燈等,通過這些技術(shù)可以追蹤車輛什么時(shí)候上的高速,什么時(shí)候下的高速。智能安防也包括視頻監(jiān)控,對人的行為和行蹤進(jìn)行跟蹤等等。
人臉識(shí)別包含兩個(gè)子問題,首先是一對一的身份驗(yàn)證,對比本人和身份證上的照片是不是同一個(gè)人,現(xiàn)在準(zhǔn)確率遠(yuǎn)遠(yuǎn)超過了99%;其次是一對多識(shí)別,比如門禁,如何識(shí)別出某個(gè)人是否是小區(qū)業(yè)主,現(xiàn)在準(zhǔn)確率還有提升空間,在十幾萬人中的識(shí)別準(zhǔn)確率還比較令人滿意,但是如果接近100萬人的話,準(zhǔn)確率就會(huì)明顯下降。
視頻監(jiān)控在跨攝像頭人物跟蹤方面解決得還不夠好。比如一個(gè)人從攝像頭A視野中消失后,進(jìn)入了裝在另一個(gè)地點(diǎn)的攝像頭B,因?yàn)榭赡芘牟坏饺四樁覂蓚€(gè)攝像頭捕捉到的圖像可能在視角,光線和成像質(zhì)量等方面存在多種差異,在識(shí)別的時(shí)候就會(huì)出現(xiàn)問題。所以這種跨攝像頭的人物跟蹤和識(shí)別仍是一個(gè)熱門的研究課題。
安防系統(tǒng)從功能上可以分為視頻監(jiān)控、出入口控制、樓宇門禁、防盜報(bào)警等,從應(yīng)用場景上分為平安城市、智能交通、智能樓宇+智能家居,以及其他應(yīng)用如金融、文教等。
俞益洲提到,安防市場規(guī)模巨大。全球安防市場到2020年有望達(dá)到3000多億美元規(guī)模,中國市場到明年有望達(dá)到1萬億人民幣,占全球安防市場將近50%。
計(jì)算機(jī)視覺的第二個(gè)應(yīng)用場景是自動(dòng)駕駛,包括道路檢測、車輛檢測、行人檢測、路標(biāo)指示牌識(shí)別、道路兩側(cè)的物體如建筑物識(shí)別等。因?yàn)榈缆飞嫌懈鞣N指示信息(比如指示牌、限速標(biāo)志、道路分叉等等),所以不僅要把這些指示牌檢測出來,同時(shí)也需要識(shí)別指示牌上的信息。
自動(dòng)駕駛是一項(xiàng)綜合技術(shù),不光涉及到計(jì)算機(jī)視覺,還需要用到激光雷達(dá)及其他傳感器,牽涉到運(yùn)動(dòng)規(guī)劃和車輛的運(yùn)動(dòng)控制等。根據(jù)麥肯錫調(diào)研,十年后自動(dòng)駕駛會(huì)超過現(xiàn)在的安防市場規(guī)模。
第三個(gè)應(yīng)用場景是增強(qiáng)現(xiàn)實(shí),跟內(nèi)容的合成有關(guān)系?,F(xiàn)在手機(jī)端有很多這方面的增強(qiáng)現(xiàn)實(shí)技術(shù),比如手機(jī)打開就可以化妝,或者在人臉上加一些實(shí)時(shí)的卡通元素。
俞益洲還提到以前做的一個(gè)項(xiàng)目:首先給校園里的建筑建模,然后將圖像里面的信息映射到三維模型上,就可以把虛擬的攝像頭移到任何你想去的地方。
從粗糙的三維模型合成非常逼真的照片,在當(dāng)時(shí)是一個(gè)實(shí)時(shí)的技術(shù),后來被別人用到了電影特效中。黑客帝國電影里最著名的躲子彈鏡頭,就是起源于這項(xiàng)技術(shù)。俞益洲提到,到2020年左右增強(qiáng)現(xiàn)實(shí)有望達(dá)到一千多億人民幣的市場規(guī)模。
第四個(gè)應(yīng)用場景是無人零售,從亞馬遜無人店開始,國內(nèi)很多企業(yè)也推出了自己的無人店、無人超市。無人零售需要很多計(jì)算機(jī)視覺技術(shù),需要用到行人檢測、定位跟蹤、人臉識(shí)別、手勢識(shí)別等,相當(dāng)于一個(gè)封閉環(huán)境內(nèi)的監(jiān)控系統(tǒng)。這是一個(gè)新興且處于上升階段的市場。據(jù)2018年新消費(fèi)崛起趨勢白皮書,無人零售市場規(guī)模將來有望超過萬億。
第五個(gè)應(yīng)用場景是智慧醫(yī)療,包括手術(shù)機(jī)器人、醫(yī)學(xué)影像的輔助診斷、機(jī)器人問診、臨床支持決策系統(tǒng)等。通過把基于人工智能的智慧醫(yī)療技術(shù)推廣到地方醫(yī)院可以幫助這些醫(yī)院提高診療水平,吸引更多的病人。
如果只考慮醫(yī)療影像,市場潛力仍然是巨大的。比如在中國最近幾年醫(yī)療影像市場規(guī)模就在4000億人民幣,每年還在繼續(xù)增加,近期有望達(dá)到6000到8000億人民幣,但是整個(gè)醫(yī)療的支出占GDP比重只有6%,還是遠(yuǎn)低于美國的水平(17%),所以還有很多上升空間。
我國醫(yī)療行業(yè)的現(xiàn)狀有很多改善的空間。三甲醫(yī)院數(shù)量最少但病人卻最多,地方醫(yī)院的病人則較少,這是一個(gè)不合理的分布。如果能夠引進(jìn)人工智能技術(shù),將醫(yī)學(xué)影像的輔助診斷、機(jī)器人問診推廣到地方醫(yī)院和??漆t(yī)院,就有可能把大部分病人吸引到這些醫(yī)院去治療,可以使病人在各級(jí)醫(yī)院的分布更加合理,促進(jìn)有效地利用各級(jí)醫(yī)療機(jī)構(gòu)的資源。三甲醫(yī)院則不必忙碌地治療各種常見病,而是把主要精力集中在疑難病癥上。
計(jì)算機(jī)視覺與醫(yī)學(xué)影像分析
俞益洲說,深度學(xué)習(xí)和計(jì)算機(jī)視覺中的圖像識(shí)別技術(shù)如果用于醫(yī)學(xué)影像分析,可以對醫(yī)學(xué)影像進(jìn)行輔助診斷?,F(xiàn)代醫(yī)學(xué)越來越依賴于醫(yī)學(xué)影像信息,去醫(yī)院看病,經(jīng)常被要求去拍各種醫(yī)學(xué)影像,如CT、核磁等,醫(yī)生則根據(jù)影像報(bào)告做最后的診斷,沒有醫(yī)學(xué)影像報(bào)告,他們一般不輕易下結(jié)論。
所以現(xiàn)在看來,80%的臨床問題需要影像檢查來得到最終的診斷結(jié)果。所以影像檢查就成為一個(gè)瓶頸,放射科醫(yī)生的工作負(fù)擔(dān)非常重,他們每天需要閱讀大量影像,讀完之后還要寫報(bào)告。
近年來隨著深度學(xué)習(xí)的快速發(fā)展,圖像識(shí)別和自然語言處理取得了很多突破性進(jìn)展。另一方面,在醫(yī)學(xué)影像中尋找病灶甚至判別它們的良惡性從本質(zhì)上來說就是圖像識(shí)別。所以很自然地就會(huì)想到把深度學(xué)習(xí)和圖像識(shí)別技術(shù)應(yīng)用于醫(yī)學(xué)影像分析,這種結(jié)合推動(dòng)醫(yī)學(xué)影像走向智能化。
圖像識(shí)別里面有幾個(gè)基本任務(wù),第一個(gè)是圖像分類,給一幅輸入圖像,決定圖像里面的物體屬于哪一類;接下來可能會(huì)關(guān)心定位,圖像里面的物體位置,可以用物體的包圍框表達(dá)出來。但這些問題主要針對只有單個(gè)物體的圖像而言,面對多個(gè)物體,需要解決幾個(gè)任務(wù),第一個(gè)是物體檢測,第二個(gè)是語義分割。
不論輸入圖像中有多少個(gè)物體,物體檢測需要把每個(gè)物體的位置都用包圍框的形式表達(dá)出來,然后對每個(gè)包圍框決定一個(gè)物體類別。與圖像分類相似,但是要在包圍框級(jí)別給出一個(gè)類別的信息。
語義分割則要求知道每個(gè)像素屬于哪個(gè)類別,也就是說,每個(gè)像素被哪個(gè)類別的物體覆蓋。這樣每個(gè)像素都有一個(gè)類別標(biāo)簽,是一種密集的圖像識(shí)別。
把物體檢測和語義分割結(jié)合起來,就得到最后一個(gè)任務(wù)叫做實(shí)例分割。實(shí)例分割要把具有同一個(gè)類別標(biāo)簽的多個(gè)物體分割開來,同時(shí)把每個(gè)物體的輪廓找出來。
圖像識(shí)別在醫(yī)療影像上已經(jīng)有很多成功案例,比如皮膚癌分類(Nature 2017)和糖尿病眼病檢測(JAMA 2016)屬于圖像分類任務(wù),肺結(jié)節(jié)檢出和乳腺腫塊檢測屬于物體檢測任務(wù),肝分割和腦白質(zhì)分割可以歸為語義分割任務(wù)。所以很多醫(yī)學(xué)影像分析任務(wù)都可以歸結(jié)為這些圖像識(shí)別的基本任務(wù)。
基于AI的醫(yī)學(xué)影像分析實(shí)例
俞益洲還介紹了深睿醫(yī)療在醫(yī)學(xué)影像分析方面的探索和成果。深睿醫(yī)療的主要業(yè)務(wù)是為各級(jí)醫(yī)療機(jī)構(gòu)提供基于人工智能和互聯(lián)網(wǎng)的醫(yī)療解決方案,在人工智能和深度學(xué)習(xí)方面積累了很多核心技術(shù)。
作為醫(yī)學(xué)影像分析實(shí)例,他介紹了深睿醫(yī)療在基于CT的肺結(jié)節(jié)良惡性判別、基于CT/MRI的腦卒中輔助診斷、胸部X光片的病灶檢測、兒童骨齡的輔助評估、基于鉬靶的乳腺癌診斷等方面的成果。
肺結(jié)節(jié)檢測是肺癌篩查的第一步,之后還需要判斷檢出的肺結(jié)節(jié)是良性還是惡性。深睿醫(yī)療在這方面有比較多的積累,其中一種方法根據(jù)肺結(jié)節(jié)形態(tài)方面的屬性來訓(xùn)練良惡性判別模型,這主要從醫(yī)生通常采用的以形態(tài)屬性為依據(jù)的診斷過程得到啟發(fā)。
我們可以訓(xùn)練網(wǎng)絡(luò),對許多種不同的屬性進(jìn)行識(shí)別,然后把識(shí)別出來的屬性做為中間表達(dá),再輸入到后面的分類網(wǎng)絡(luò),最后得到一個(gè)良惡性的判別。這種方法在公開數(shù)據(jù)集LIDC上可以達(dá)到97.58%的準(zhǔn)確性。此外,多種判別良惡性的方法可以整合起來做最終判別。
去年8月份,深睿醫(yī)療把AI的結(jié)果和江蘇省放射協(xié)會(huì)的126名不同職稱級(jí)別的醫(yī)生進(jìn)行對比。醫(yī)生分為高級(jí)、中級(jí)和初級(jí)職稱三個(gè)組,其中高級(jí)職稱組的平均AUC為0.779,平均準(zhǔn)確性為73.8%。而AI模型的AUC達(dá)到0.873,準(zhǔn)確性為85.0%。此后對AI模型進(jìn)行持續(xù)改進(jìn),目前它的AUC已經(jīng)達(dá)到0.927,準(zhǔn)確性達(dá)到86.0%。
第二個(gè)實(shí)例是腦出血的輔助診斷。診斷腦出血是一件爭分奪秒的事情,輔助診斷的主要任務(wù)是把大腦里的出血區(qū)域找出來,然后決定出血量。解決這個(gè)問題需要用到剛才提到的語義分割技術(shù)?;谏疃葘W(xué)習(xí)的語義分割算法對出血區(qū)域進(jìn)行分割,測量它的體積,估計(jì)出血量,各項(xiàng)性能指標(biāo)已經(jīng)達(dá)到了很高的準(zhǔn)確性。
第三個(gè)實(shí)例是基于X光的胸部病灶檢測。因?yàn)閄光片是三維的信息投影到二維空間上得到的結(jié)果,投影把很多三維信息疊加在一起,疊加之后用肉眼就比較難區(qū)分不同的病灶區(qū)域,至少對沒有訓(xùn)練過的人來說很難看出來。但是用深度學(xué)習(xí)就能檢測出這些病灶,只要圖像上面存在細(xì)微的差異,深度學(xué)習(xí)模型就有可能識(shí)別出來。
此外,也可以為兒童骨齡的輔助評估和乳腺鉬靶輔助診斷建立深度學(xué)習(xí)模型。俞益洲稱,深睿醫(yī)療針對這兩個(gè)問題研發(fā)的深度學(xué)習(xí)算法目前在行業(yè)內(nèi)處于領(lǐng)先水平。以乳腺鉬靶鈣化檢出為例,在不同誤報(bào)個(gè)數(shù)下的陽性召回率都明顯高于其它解決方案。
俞益洲還分享了醫(yī)學(xué)影像分析領(lǐng)域一些特有的挑戰(zhàn)。比如說在醫(yī)學(xué)影像方面訓(xùn)練樣本少,因?yàn)獒t(yī)學(xué)數(shù)據(jù)收集比較困難;數(shù)據(jù)標(biāo)注成本高,因?yàn)樾枰?jīng)驗(yàn)豐富的醫(yī)學(xué)專家進(jìn)行標(biāo)注,而且也只是相對來說比較準(zhǔn),無法做到100%準(zhǔn)確。不同醫(yī)生去標(biāo)注同一幅圖像,結(jié)果也可能會(huì)有比較明顯的差異,一致性相對比較差。
俞益洲也介紹了一些解決方案,比如針對數(shù)據(jù)標(biāo)簽的一致性,希望設(shè)計(jì)算法能夠在訓(xùn)練模型的同時(shí),對數(shù)據(jù)標(biāo)簽進(jìn)行修正。針對數(shù)據(jù)標(biāo)注成本高的問題,可以適當(dāng)降低數(shù)據(jù)標(biāo)注量,用半監(jiān)督或者混合監(jiān)督的形式訓(xùn)練模型。深睿醫(yī)療在胸部X光片診斷方面已經(jīng)做了一些研究,設(shè)計(jì)了一種混合監(jiān)督學(xué)習(xí)算法,能夠比較準(zhǔn)確地檢測病灶區(qū)域。
計(jì)算機(jī)視覺團(tuán)隊(duì)角色如何配置?
吳世春回答了雷鳴提出的“在投資中如何對團(tuán)隊(duì)進(jìn)行考量”的問題,他認(rèn)為團(tuán)隊(duì)里一定要有計(jì)算機(jī)視覺的大牛以及行業(yè)專家,需要考慮團(tuán)隊(duì)成員之間的互補(bǔ)性,對于行業(yè)的理解占第一位,然后第二位有這種視覺的專家,但不一定是活躍在學(xué)術(shù)圈的大牛,只要能夠把好的東西應(yīng)用過來就夠了。其次是工程人才和銷售人才,這4類人才是必不可缺的。
計(jì)算機(jī)視覺落地機(jī)會(huì)在哪里?
最后,幾位專家對計(jì)算機(jī)視覺技術(shù)落地進(jìn)行了暢想。
俞益洲提到人機(jī)交互以后會(huì)有較大的發(fā)展空間。多模態(tài)信息融合與理解的能力,可以應(yīng)用在服務(wù)行業(yè)、教育和動(dòng)作類游戲。
吳世春提到,首先可以應(yīng)用在選礦,區(qū)分有色金屬以及廢礦有沒有開采價(jià)值;其次,可以應(yīng)用在垃圾分類,可以極大地變廢為寶。
魯繼文提到,AI在手機(jī)領(lǐng)域會(huì)有很大的發(fā)展空間,可以想象新生代的年輕人每人都有一個(gè)便攜式自動(dòng)化小機(jī)器人;針對特定行業(yè)的自動(dòng)化例如農(nóng)業(yè)無人機(jī)。
雷鳴提到,娛樂和內(nèi)容方面AI也會(huì)有很大的發(fā)展機(jī)會(huì),特別在動(dòng)畫影視方面。
-
圖像處理
+關(guān)注
關(guān)注
27文章
1293瀏覽量
56768 -
人臉識(shí)別
+關(guān)注
關(guān)注
76文章
4012瀏覽量
81951 -
計(jì)算機(jī)視覺
+關(guān)注
關(guān)注
8文章
1698瀏覽量
46011
原文標(biāo)題:【清華AI公開課】俞益洲:計(jì)算機(jī)視覺應(yīng)用將達(dá)到8000億規(guī)模
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論