劍橋2019年度《AI全景報告》出爐,全方位總結過去一年來AI領域的研究成果與突破、人才形勢、產業動態、政府政策,并作出未來預測。今年的報告額外關注中國,專門新設一章,介紹中國的AI技術、企業和應用的迅猛發展。
2019年即將過去一半,劍橋大學的兩位研究人員近日推出了本年度的State AI 2019全景報告。
本報告基本沿襲去年的大體框架,從產業、人才、政策、預測等方面對過去一年來AI領域的技術的新進步、產業格局的新變化、政府政策的新特點等方面進行了總結,并作出關于未來的預測。
報告地址:
https://www.slideshare.net/StateofAIReport/state-of-ai-report-2019-151804430
值得一提的是,與去年不同的是,2019年的報告為中國單列一章,介紹中國AI技術在日常消費、機器人、半導體等領域的進步。
本文重點對報告中的AI研究、AI人才以及中國三部分內容作出介紹。
AI研究與技術突破:游戲、NLP、醫療全面開花
強化學習開疆擴土:在多項競技性游戲中擊敗人類
目前已經被AI統治的游戲包括《蒙特祖瑪的復仇》、《星際爭霸2》、《雷神之錘3》,在DOTA2上游戲水平實現大幅進步。未來的游戲AI可能讓人類更加遙不可及了。
未來,研究人員有望利用強化學習訓練單個機器人來完成多個復雜任務,無需針對每個任務進行專門的再學習。
基于好奇心機制的探索:在獎勵稀疏或無獎勵機制的條件下,智能體可以依賴“好奇心”解決問題。
面向在線計劃學習動態模型:模型可從圖像中快速學習環境動態信息,準確預測數個時間段后的獎勵。
研究成果逐步進入實際生產環境:在眾多機器學習框架和工具的支持下,Facebook發布的開源端對端平臺Horizon,推進大規模生產環境下的系統優化,如信息聯想、視頻流質量、通知服務優化等。
生命科學中的新突破:AlphaFold精準預測蛋白質的折疊結構
NLP大豐收:預訓練語言模型大展身手
新的預訓練模型不斷涌現,各大數據集新紀錄常看常新。Google AI的BERT, 、Transformer,艾倫研究所的ELMo、OpenAI的Transformer、 Ruder和Howard的 ULMFiT、微軟的MT-DNN等爭奇斗艷。
神經機器翻譯:無需雙向文本
自然語言模型學會常識推理
對機器學習領域的數據隱私和保護越來越重視
醫學領域大展身手,診斷堪比人類專家
診斷眼疾
使用兩個階段機器學習方法,AI模型給出了專家級的眼疾診斷和治療參考建議
利用心電圖檢測心律不齊,達到人類醫生水平
超過60萬的X光片數據集已經被分享出來,但遠遠不夠
用于成像診斷的深度學習模型可以很好地擬合數據集,但是它們難以推廣到新的數據分布。盡管改進了這個新數據集的文檔,但標簽定義很淺
使用醫生筆記中的NLP提取標簽存在挑戰:容易出錯且容易受到影響。放射學報告中包含的信息不足,大多數標簽類別的錯誤率為5-15%
大量重復掃描,其中70%的掃描來自30%的患者。這減少了數據集的有效大小及其多樣性,影響訓練模型的普適性
研究人員從聽覺皮層的神經活動中重建語音
哥倫比亞大學的研究人員使用侵入性腦電圖來測量5名接受癲癇治療的患者在連續收聽語音時的神經活動
反過來使研究人員能夠通過大腦活動的聲碼器合成語音。通過聲碼器測試單個數字“口語”時,系統的準確度達到75%。與基線線性回歸方法相比,深度方法將語音的可懂度提高了65%
該研究表明,大腦計算機界面有可能恢復癱瘓患者的溝通
使用蒙特卡羅樹搜索神經網絡通過訓練1240萬個反應來解決逆向合成
一個由三個NN(3N-MCTS)構建的系統:
通過提出有限數量的自動提取轉換來指導向有希望的方向搜索
預測擬議的反應是否實際可行
估計位置值并迭代
這種方法比最先進的計算機輔助綜合計劃快得多。實際上,3N-MCTS解決了超過80%的分子測試集,每個目標分子的時間限制為5秒。
相比之下,一種稱為最佳第一搜索的方法,其中通過神經網絡學習函數可以解決40%的測試集。使用手動編碼啟發式功能設計的最佳首次搜索執行最差:它在5秒內解決了0%。
AutoML:神經網絡架構和超參數的進化算法
共同優化超參數,最大化網絡性能,同時最小化復雜性和大小
之前的AutoML工作使用RL單獨優化超參數或網絡架構。遺憾的是,RL系統要求用戶事先為算法定義適當的搜索空間以用作起點,可以針對每個層優化的超參數的數量也是有限的
此外,計算非常繁重。為了生成最終的最佳網絡,必須對數千個候選架構進行評估和訓練,這需要大約100k GPU小時
另一種選擇(Learning Evolutionary AI Framework:LEAF)是使用進化算法進行超參數和網絡架構優化,最終產生更小,更有效的網絡
例如,LEAF與手工制作的數據集特定網絡(CheXNet)的性能相匹配,用于胸部X射線診斷分類,并且優于Google的AutoML
AutoML:使用真實的設備性能反饋設計資源受限的網絡
基于CNN的自動化架構搜索的步伐正在加快:Facebook與谷歌的競爭加劇
谷歌展示了一種基于RL的多目標方法(MnasNet),可以在Google Pixel平臺上測量具有低實際推理延遲的高精度CNN模型。該系統在Pixel手機上達到74.0%的Top-1精度,延遲為76ms,比MobileNetV2快1.5倍
Facebook提出了一種可區分的神經架構搜索(DNAS)框架,該框架使用基于梯度的方法在分層搜索空間上優化CNN架構。FBNet-B實現了與MnasNet相同的Top-1精度,但延遲僅為23.1ms,搜索成本降低了420倍
GAN的最新技術水平在不斷發展:從顆粒到GANgsta
較大的模型和大批量訓練進一步提高了使用GAN生成的圖像的質量
GAN中的最新技術水平在不斷發展:從面部到全身
通過將面部與口語相匹配(左),電影只需設置一次,即可以不同語言生成相同的視頻。下一步是從頭到腳生成整個身體,目前用于零售目的(右)
在圖像和視頻操作之后出現逼真的語音合成
從單個圖像中學習對象的3D形狀
模型輸出10個不同類別(如汽車、摩托車、行人、交通錐等)的3D邊界框,類特定屬性(如汽車是否正在行駛或停車)并提供當前速度矢量。
AI人才:五大國雇傭了72% 專家,論文引用率只有中國增長
人才方面,以研究論文的產出衡量,谷歌是最具生產力的一個組織。上圖為在人工智能頂會NeurIPS 2018上,谷歌發表的論文最多,其次是MIT、斯坦福、CMU和加州大學伯克利分校。
在NeurIPS、ICML或ICLR上發表論文的4000名研究人員中,88%是男性。
另一方面,數據標簽工作也有了巨大的增長,尤其是在中國。這類工作的最低工資可低至每小時10元人民幣。
神經網絡的先驅、Yann LeCun、Geoffrey Hinton和YoshuaBengio獲得了圖靈獎,這是計算機科學的最高獎項。
歐洲發表的AI論文最多,但在平均引文率這個指標上,只有中國是增長的。
該領域論文的數量整體是增長的,不同地區論文的平均被引量表明,只有來自中國的論文變得更有影響力了。美國作者發表的論文被引用的次數比全球平均水平高出83%。
MIT在計算與人工智能領域新增10億美元投資。在3.5億美元捐贈的支持下,MIT新的計算學院將把MIT重新定位為向所有研究領域注入AI教育,提供了50個新的教職,使MIT在該領域的學術能力翻了一番。
大學里人工智能相關課程的注冊人數也在增長,中國的增長尤其快。
與2012年相比,清華大學和斯坦福大學的人工智能課程注冊人數分別增加了近16倍和5倍。
但人工智能課程中教授和學生的性別多樣性仍遠未達到平等。平均而言,80%教AI的教授是男性,75%的學AI的本科生是男生。
這造成的一個結果是,在美國,申請AI方面職位的人中71%是男性。
Element.AI 2019年進行的一項AI人才調查顯示:
對22400名個人作者在21個機器學習會議上發表的論文進行調查:只有19%的學術作者和16%的行業作者是女性。
44%的作者在美國獲得博士學位,11%來自中國,6%來自英國。
五大國家——美國、中國、英國、德國和加拿大——雇傭了72%的作者。圖上的圓圈表示每個國家在會議上發表論文的研究人員數量。
同樣是Element.AI,從AI人才流入和流出來看,加拿大、英國和瑞士都是“平臺國家”,既吸引外國人才,又輸出本土培養的人才。美國和中國的生態系統更為成熟——流入和流出都較低。
但雇傭AI研究人員進入公司的趨勢似乎正在放緩。據稱,科技巨頭凍結或減少了對AI研究人才的招聘。這可能是一個跡象,表明企業現在需要人才來將應用研究投入生產。
人工智能技術已經滲入中國企業
人臉識別已經成為日常消費付款方式。
養雞業:2016年,京東推出了一項“小雞快跑(running chicken)”計劃,幫助中國農業地區減少貧困。根據該計劃,該公司將購買任何自由放養的雞肉,只要其步數超過100萬步,且價格是當前市場價格的三倍。現在,京東已經擴展了該項目,將人工智能工具整合到畜牧工作流程中。這包括自動喂食、澆水和清除廢物。人工智能系統還將監測和識別雞的食物攝入量、排便情況和其他生理狀況,如發病情況。如果一只雞生病了,專家會在網上提供醫療服務和處方藥物。
養豬業:在Dekon集團、特區集團和阿里巴巴云的合作中,計算機視覺和語音識別系統被用來通過紋在豬腹部的數字來識別個體豬,還可以監測小豬發出的痛苦叫聲。到2020年,Dekon計劃每年飼養1000萬頭豬。
蟑螂養殖:好醫生集團在四川省每年生產60萬只蟑螂。他們利用人工智能系統收集和分析多達80種蟑螂的特征,如濕度、溫度和食物需求,這些特征可以刺激蟑螂的生長和繁殖速度。
中國企業的研發支出增長迅速但顯著落后于市場份額。美國企業仍占全球科技支出的61%。
中國半導體貿易逆差正(緩慢)上升。下圖反映了中國半導體銷售和采購的趨勢。
在過去的三年里,一些中國的工業企業已經自動化了40%的勞動力。這可能部分歸因于自2012年以來,中國每年的機器人安裝數量增長了500%(歐洲為112%)。然而,目前尚不清楚AI軟件在多大程度上在運行這些已安裝的機器人或者是否有助于它們的發展。中國工業自動化水平不斷提高,就業崗位不斷流失。
京東上海配送中心每天使用自動化倉庫機器人組織、挑選和運送20萬份訂單。這個設施由四名工人照管。京東的倉庫數量和表面積同比增長45%。
2018年,有33家中國企業在美國上市,同比增長2倍,接近2010年的歷史最高水平。
發明專利的審批過程充滿挑戰,一旦獲得批準,將獲得20年的保護。實用新型和外觀設計專利都有10年的使用壽命,不需要經過嚴格的審查,可以在不到1年內授予。這種雙重專利制度使中國在專利方面領先于其他國家。中國企業擁有的專利最多,但2017年“發明專利”僅占23%。
91%的5年設計專利(左)和61%的5年實用新型專利(右)被放棄。相比之下,美國5年歷史專利的維護費占85.6%。
中國目前出版的機器學習影響較大的學術研究現狀。
中國發表的ML研究已經超過美國。艾倫研究所(Allen Institute)最近的一項分析顯示,中國在質量方面的差距也在迅速縮小。
-
機器人
+關注
關注
211文章
28467瀏覽量
207351 -
ai技術
+關注
關注
1文章
1279瀏覽量
24338 -
nlp
+關注
關注
1文章
489瀏覽量
22051
原文標題:劍橋2019年度《AI全景報告》聚焦中國,盤點全球AI大勢
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論