“我現(xiàn)在就在做一線的事情,防止(人工智能)冷下去?!碑敱粏柤把巯逻@一波人工智能熱潮是否會像歷史上的幾波一樣曇花一現(xiàn),國際人工智能理事會(IJCAI)主席、香港科技大學計算機科學與工程系主任楊強這樣告訴澎湃新聞記者。
在他看來,如今的人工智能雖已突破了計算能力和數(shù)據(jù)資源的瓶頸,但隱患埋伏在一個“偏”字上。例如學術(shù)研究方面,國內(nèi)高校雖然開始設(shè)立人工智能學院和專業(yè),五年內(nèi)有望培育出一批AI人才,但不少大學直接將機器學習等同于人工智能,邏輯學、神經(jīng)學等冷門領(lǐng)域研究和國外的差距很大。
類似地,人工智能產(chǎn)業(yè)發(fā)展迅速,卻過多地偏重計算機視覺在安防領(lǐng)域的布局,許多需求未得到充分挖掘。
近年來,楊強所做的就是超越深度學習專用于一個領(lǐng)域的框架,開拓出遷移學習、聯(lián)邦學習等在兩個或兩個以上的領(lǐng)域之間進行的機器學習方法。
他希望能讓多方在不泄露各自數(shù)據(jù)隱私的情況下實現(xiàn)數(shù)據(jù)的共享和模型的共建,打破數(shù)據(jù)割裂的孤島。在這樣的合作框架下,各方享有平等的地位和一定的“主權(quán)”,但走向“共同富?!保拖褚粋€聯(lián)邦國家。
楊強正與微眾銀行等機構(gòu)合作,試圖用聯(lián)邦學習打通人工智能應用的最后一公里,促進人工智能在金融、城市管理等領(lǐng)域的落地。“人工智能算法的數(shù)據(jù)得不到更新,就像一臺好車沒有汽油?!?/p>
這位1961年出生的計算機科學家是首位當選國際人工智能協(xié)會(AAAI)院士的華人。他似乎很擅長跳出主流偏重的視角來看問題。例如,當許多人在討論機器能否像人一樣實現(xiàn)無監(jiān)督的學習,楊強卻認為無監(jiān)督學習是一種假象,人類的監(jiān)督學習隱藏得很深。如果算法做得足夠好,就能像人類一樣從簡單的一張照片上提取到無數(shù)個標簽。
此外,人類的大腦“軟件”得到無數(shù)稱頌,但“硬件”優(yōu)勢卻往往被忽略。楊強注意到,人渾身上下都是精妙的傳感器,幫助人腦獲取信息。在硬件發(fā)展沒有跟上的情況下,光用算法實現(xiàn)通用的強人工智能只能是奢望。
“只不過大家現(xiàn)在都在摘比較低垂的果子,還沒有深入去想?!睏顝娬f道。
以下為澎湃新聞記者與楊強的對話實錄。
聯(lián)邦學習:人工智能應用的最后一公里
澎湃新聞:可以說從深度學習到遷徙學習、聯(lián)邦學習,存在一種遞進的關(guān)系?
楊強:遷移學習和聯(lián)邦學習之間的共性都是在兩個或兩個以上的領(lǐng)域之間進行,這和深度學習是截然不同的。深度學習和以前的各種學習都是在一個領(lǐng)域進行。
在兩個領(lǐng)域進行,第一層的考慮是知識的遷移共享,第二層考慮就是加密和安全。
比如說原來有一個保險公司,它對車險的定價基于一些很粗的維度,像駕駛員的年齡和車齡。為什么只能做這么粗的定價?因為它對用戶的了解非常少。如果有一個碼農(nóng)張三年紀很輕,但開車卻很小心,這一點它就無法了解,也無法進行個性化。
現(xiàn)在它可以和一個移動互聯(lián)網(wǎng)公司合作。運營商那邊有張三的行為數(shù)據(jù),但對保險領(lǐng)域并不了解。它們兩邊需要合作,但又不愿意把數(shù)據(jù)暴露給對方,以防失控和監(jiān)管不嚴的問題。
聯(lián)邦學習恰恰就是在這可以幫忙,不交換數(shù)據(jù),但可以在重疊的數(shù)據(jù)上建立一個更好的模型。
澎湃新聞:目前聯(lián)邦學習有哪些落地場景?
楊強:橫向聯(lián)邦學習的場景是各方都有一部分用戶數(shù)據(jù),這些用戶都不一樣,他們可以利用加密的共享共建模型來得到一個更好的模型。但是這個模型不必用到所有用戶的數(shù)據(jù),我們假設(shè)有1000萬的手機用戶,你可以在里面選比較有用的300萬,建立起橫向的模型,分散到上千萬的用戶。
還有一個是縱向聯(lián)邦學習,意思是兩個機構(gòu)同樣進入這個數(shù)據(jù),但是維護不一樣。比如一個收集用戶的年齡性別,另一方收集用戶的學習成績和平時的衣食住行。
具體到金融領(lǐng)域的案例,橫向聯(lián)邦學習的場景是很多家不同銀行的維度是一樣的,都了解信用、還款情況等信息,但用戶是不一樣的,因為它們位于不同的城市。
而縱向聯(lián)邦學習是同一個城市,同樣一個用戶,但是他在接受不同的金融服務。比如面對小微企業(yè)的貸款,我們需要了解這些企業(yè)的稅收情況和經(jīng)營情況,但銀行沒有這部分數(shù)據(jù)。我們就可以找一些專門處理發(fā)票的機構(gòu)來合作。
除此之外,我們也在探索一些非常不一樣的業(yè)務。舉個例子,我們跟一個深圳的公司合作,他們是做工地安全的視頻檢測,有沒有著火、工人有沒有戴帽子等等。但不同的工地、不同的公司不愿意交換這種數(shù)據(jù),就可以用聯(lián)邦學習來建立一個聯(lián)邦模型,這樣一個工具要比單獨的數(shù)據(jù)更靠譜。
澎湃新聞:從實驗室走向產(chǎn)業(yè)落地的困難主要有哪些?
楊強:聯(lián)邦學習是一個多方參與,所以首先要在機制設(shè)計上保證每個聯(lián)盟都覺得受益,才有參與的興趣。其次是大家各自數(shù)據(jù)的維度不同,大小不同,質(zhì)量也不一樣,做算法設(shè)計的時候就要考慮到異構(gòu)框架,比同構(gòu)框架更難。最后是要達成一個共識,就是什么才算成功?
這就像是從一個人打乒乓到五人團隊打籃球,我們希望能形成一個滾雪球的效果,可以說聯(lián)邦學習在算法上已經(jīng)鋪墊好了,關(guān)鍵要看多方的投入。
澎湃新聞:在AI賦能產(chǎn)業(yè)的過程中,聯(lián)邦學習會扮演一個怎樣的角色?
楊強:我管這個叫人工智能應用的最后一公里。最后一公里的意思是說,除非你能到用戶的那一段,不然你搭得再好最后還是沒有銜接上。那么什么東西沒有銜接上?就是數(shù)據(jù)。
人工智能算法都需要很多數(shù)據(jù),數(shù)據(jù)得不到更新,最后就像一臺好車沒有汽油。
所以在我看來,這最后一公里確實特別關(guān)鍵。只有通過這種合作的方式,才能把大數(shù)據(jù)真正建立起來。
無監(jiān)督學習是“假象”
澎湃新聞:人工智能是否有一天能做到舉一反三、融會貫通?
楊強:路還很長,但我們現(xiàn)在做的一些實驗證明是可以的。像遷移學習之前都是一些博士生、研究人員來設(shè)計,現(xiàn)在有個算法叫自動機器學習,和遷移學習結(jié)合就變成自動遷移學習。
自動遷移學習是怎樣的?比如在自然語言領(lǐng)域看到一個新的需求,它會把自己建好的模型和新的應用之間的差別變成一個目標函數(shù),從而設(shè)計算法。整個過程是可以自動化的。如果這個可以做,讓機器最終學會舉一反三是可能的,但路還很長。
澎湃新聞:針對現(xiàn)在大家比較關(guān)注的一些深度學習的瓶頸,你有什么看法?
楊強:其實現(xiàn)在大家比較關(guān)注的一個問題是可解釋性,因為深度學習是個黑箱。我覺得這個問題遲早會解決。為什么呢?你看人腦其實在某種程度上也在做深度學習,每個人的大腦都有好多神經(jīng)元在做肉體的深度學習,同時我們可以對自己的某些決策作解釋。醫(yī)生可以給病人解釋為什么開這個藥,老師也可以給學生解釋說錯在哪里。人有這個功能,我相信機器一定可以發(fā)展出類似的功能,只不過我們現(xiàn)在沒有找到路子。
除此之外,深度學習的穩(wěn)定性問題也是國際上的研究熱點,現(xiàn)在有很多人工智能可以通過假數(shù)據(jù)來欺騙,這說明現(xiàn)在人工智能的魯棒性還不是很好。
這是很自然的,一個技術(shù)出現(xiàn)后,大家就會開始關(guān)注魯棒性、可擴展性、透明性等非功能性性質(zhì),引起第二波研究。以前的數(shù)據(jù)庫和互聯(lián)網(wǎng)技術(shù)也是這樣。
澎湃新聞:有沒有可能實現(xiàn)無監(jiān)督的深度學習?
楊強:我覺得無監(jiān)督是一個假象。大家都在類比人會做無監(jiān)督學習,但我的觀點是人做的是有監(jiān)督學習,只不過監(jiān)督藏得很深。
比方說給人看一朵花,以后看到花都能認出來。這是因為這個例子里面其實包含了很多的信息,現(xiàn)在的算法只能從上面得到一個表面信息,但是還有一些深層的信息。
所以這是算法的不足。算法做好了以后,會看到所有的無監(jiān)督數(shù)據(jù)其實是有標簽的。包括小孩為什么學得很快?這是因為他父母之前做了預訓練,這和遷移學習的方式非常像。
我覺得以后一定可以從一幅圖像中找到很多深層信息,然后也能訓練個八九不離十。只不過大家現(xiàn)在都在摘比較低垂的果子,還沒有深入去想。
澎湃新聞:你對強人工智能有怎樣的展望?
楊強:強人工智能就是通用的,一個模型可以做N件事。人肯定是一個模型做N件事,但機器現(xiàn)在是一個模型只做一件事。我覺得強人工智能未來是可以實現(xiàn),但可能不是用我們現(xiàn)在這種方式。
為什么呢?現(xiàn)在的方式是我們準備很多數(shù)據(jù),然后去訓練出一個模型,這是人的運作方法。人渾身上下都是傳感器,這些傳感器比現(xiàn)在的物聯(lián)網(wǎng)要強很多。所以除非硬件到了這個程度,否則只談人工智能算法就是奢望?,F(xiàn)在的情況是硬件遠遠落后,要等那邊跟上來。
要去研究一些冷門領(lǐng)域
澎湃新聞:從學術(shù)到產(chǎn)業(yè),你對現(xiàn)在國內(nèi)的人工智能生態(tài)有哪些宏觀的觀察?
楊強:首先,我覺得國內(nèi)在人才培養(yǎng)上出現(xiàn)了非??上驳木置?,好多大學在建人工智能學院、人工智能專業(yè)。五年之后會涌現(xiàn)一大批人工智能從業(yè)者,可能會出現(xiàn)良莠不齊的情況,但沒關(guān)系,里面肯定會出現(xiàn)一些精英。其次,國內(nèi)人工智能產(chǎn)業(yè)發(fā)展也比較興旺,許多公司設(shè)立了人工智能部門,這些都是特別好的事。
但在比較冷門的研究領(lǐng)域,國內(nèi)和國外還有很大的差距。比如果很多國外的大學都有邏輯推理這方面的教授,但國內(nèi)一般就把機器學習等同于人工智能。另外,國內(nèi)研究神經(jīng)學和人工智能結(jié)合的也比國外少。在這些方面,我希望還是不要那么功利,要去研究一些眼下沒有大的進展、比較冷門、好奇心驅(qū)使的方向。
澎湃新聞:總體來說,眼下這一波人工智能熱潮會冷下去嗎?如果冷下去可能是因為哪些原因?
楊強:我現(xiàn)在就在做一線的事情,防止它們冷下去。過去冷下去有好幾個主要原因,一個是計算能力跟不上,一個是數(shù)據(jù)資源不夠?,F(xiàn)在計算資源和數(shù)據(jù)資源都有了,但案例制造還不夠。
比如說,現(xiàn)在計算機視覺主要還是用在政府安防等領(lǐng)域。其實產(chǎn)業(yè)里有大量的需求,但大家做得太偏了,沒有充分地挖掘。一個產(chǎn)業(yè)如果只有一個支柱,那么它是很危險的。人工智能如果只有視覺、或者政府安防這個支柱也很危險。
所以你說有沒有危險進入到另一個寒冬?是有的。下一個寒冬可能是大家一蜂窩做的那件事沒有真的做出來,這一批人可能就會很失望。但現(xiàn)在努力做不同的事情的,也許會有新的驚喜。
來源:澎湃新聞
評論
查看更多