人工智能領(lǐng)域發(fā)展迅速。距離2012年ImageNet競(jìng)賽的深度學(xué)習(xí)的現(xiàn)代時(shí)代僅僅8年了。自那時(shí)以來(lái),該領(lǐng)域的進(jìn)步令人震驚。不僅如此,今后五年內(nèi),人工智能領(lǐng)域?qū)⑴c今天大不相同。當(dāng)前被認(rèn)為是最先進(jìn)的方法將已經(jīng)過(guò)時(shí);剛剛出現(xiàn)或處于邊緣的方法或?qū)⒊蔀橹髁鳌?/p>
下一代人工智能將是什么樣子?哪種新穎的AI方法將釋放當(dāng)前在技術(shù)和業(yè)務(wù)方面難以想象的可能性?AI中的三個(gè)新興領(lǐng)域,將在未來(lái)的幾年中重新定義社會(huì)。
1.無(wú)監(jiān)督學(xué)習(xí)
當(dāng)今AI世界中最主要的范例是有監(jiān)督的學(xué)習(xí)。在監(jiān)督學(xué)習(xí)中,AI模型從數(shù)據(jù)集中學(xué)習(xí)人類根據(jù)預(yù)定義類別進(jìn)行策劃和標(biāo)記的過(guò)程。(術(shù)語(yǔ)“監(jiān)督學(xué)習(xí)”源于人類“監(jiān)督者”預(yù)先準(zhǔn)備數(shù)據(jù)的事實(shí)。)
在過(guò)去的十年中,盡管從無(wú)人駕駛汽車到語(yǔ)音助手,有監(jiān)督的學(xué)習(xí)已經(jīng)推動(dòng)了AI的顯著進(jìn)步,但它仍然存在著嚴(yán)重的局限性。
手動(dòng)標(biāo)記成千上萬(wàn)個(gè)數(shù)據(jù)點(diǎn)的過(guò)程可能非常昂貴且繁瑣。在機(jī)器學(xué)習(xí)模型提取數(shù)據(jù)之前,人們必須手動(dòng)標(biāo)記數(shù)據(jù)這一事實(shí)已成為AI的主要瓶頸。
在更深層次上,有監(jiān)督的學(xué)習(xí)代表了一種狹窄的,受限制的學(xué)習(xí)形式。受監(jiān)督的算法不僅無(wú)法探索和吸收給定數(shù)據(jù)集中的所有潛在信息,關(guān)系和含義,而且僅針對(duì)研究人員提前確定的概念和類別。相反,無(wú)監(jiān)督學(xué)習(xí)是一種AI方法,其中算法無(wú)需人工提供標(biāo)簽或指導(dǎo)即可從數(shù)據(jù)中學(xué)習(xí)。
許多AI領(lǐng)導(dǎo)者將無(wú)監(jiān)督學(xué)習(xí)視為人工智能的下一個(gè)前沿領(lǐng)域。用AI傳奇人物Yann LeCun的話說(shuō):“下一場(chǎng)AI革命將不會(huì)受到監(jiān)督?!?加州大學(xué)伯克利分校的教授吉滕達(dá)·馬利克(Jitenda Malik)更加生動(dòng)地說(shuō):“標(biāo)簽是機(jī)器學(xué)習(xí)研究人員的鴉片。”
無(wú)監(jiān)督學(xué)習(xí)如何工作?
簡(jiǎn)而言之,系統(tǒng)會(huì)根據(jù)世界的其他部分來(lái)了解世界的某些部分。通過(guò)觀察實(shí)體的行為,實(shí)體之間的模式以及實(shí)體之間的關(guān)系(例如,文本中的單詞或視頻中的人物),系統(tǒng)引導(dǎo)了對(duì)其環(huán)境的整體理解。一些研究人員用“從其他事物中預(yù)測(cè)所有事物”來(lái)概括這一點(diǎn)。
無(wú)監(jiān)督學(xué)習(xí)更緊密地反映了人類學(xué)習(xí)世界的方式:通過(guò)開放式探索和推理,不需要監(jiān)督學(xué)習(xí)的“訓(xùn)練輪”。它的基本優(yōu)點(diǎn)之一是,世界上總是會(huì)比未標(biāo)記的數(shù)據(jù)多得多(并且前者更容易獲得)。
用LeCun的話來(lái)說(shuō),他喜歡密切相關(guān)的術(shù)語(yǔ)“自我監(jiān)督學(xué)習(xí)”:“在自我監(jiān)督學(xué)習(xí)中,一部分輸入被用作監(jiān)視信號(hào),以預(yù)測(cè)輸入的其余部分??梢酝ㄟ^(guò)自我監(jiān)督學(xué)習(xí)而不是[其他AI范式]來(lái)學(xué)習(xí)有關(guān)世界結(jié)構(gòu)的知識(shí),因?yàn)閿?shù)據(jù)是無(wú)限的,每個(gè)示例提供的反饋量很大。”
無(wú)監(jiān)督學(xué)習(xí)已經(jīng)在自然語(yǔ)言處理中產(chǎn)生了變革性的影響。NLP得益于一種新的無(wú)監(jiān)督的學(xué)習(xí)架構(gòu),即Transformer,最近取得了令人難以置信的進(jìn)步,該架構(gòu)始于Google大約三年前。
將無(wú)監(jiān)督學(xué)習(xí)應(yīng)用于AI的其他領(lǐng)域的努力仍處于早期階段,但是正在取得快速進(jìn)展。舉個(gè)例子,一家名為Helm.ai的初創(chuàng)公司正在尋求利用無(wú)監(jiān)督學(xué)習(xí)來(lái)超越自動(dòng)駕駛汽車行業(yè)的領(lǐng)導(dǎo)者。
許多研究人員將無(wú)監(jiān)督學(xué)習(xí)視為開發(fā)人類級(jí)AI的關(guān)鍵。LeCun認(rèn)為,掌握無(wú)監(jiān)督學(xué)習(xí)是“未來(lái)幾年ML和AI面臨的最大挑戰(zhàn)?!?/p>
2.聯(lián)合學(xué)習(xí)
數(shù)字時(shí)代的主要挑戰(zhàn)之一是數(shù)據(jù)隱私。由于數(shù)據(jù)是現(xiàn)代人工智能的命脈,因此數(shù)據(jù)隱私問題在AI的發(fā)展軌跡中扮演著重要的角色(并且通常是限制性的)。
保持隱私的人工智能(使AI模型能夠從數(shù)據(jù)集中學(xué)習(xí)而不損害其隱私的方法)正變得日益重要。保持隱私的AI的最有前途的方法也許是聯(lián)合學(xué)習(xí)。
聯(lián)邦學(xué)習(xí)的概念最早由Google的研究人員于2017年初提出。在過(guò)去的一年中,對(duì)聯(lián)邦學(xué)習(xí)的興趣激增:到2020年的前六個(gè)月,發(fā)表了1,000多篇關(guān)于聯(lián)邦學(xué)習(xí)的研究論文,而只有180篇在所有2018年。
如今,構(gòu)建機(jī)器學(xué)習(xí)模型的標(biāo)準(zhǔn)方法是將所有訓(xùn)練數(shù)據(jù)收集到一個(gè)地方(通常在云中),然后在數(shù)據(jù)上訓(xùn)練模型。但是,這種方法對(duì)于世界上的許多數(shù)據(jù)都不可行,由于隱私和安全原因,這些數(shù)據(jù)無(wú)法移至中央數(shù)據(jù)存儲(chǔ)庫(kù)。這使其成為傳統(tǒng)AI技術(shù)的禁區(qū)。
聯(lián)合學(xué)習(xí)通過(guò)顛覆傳統(tǒng)的AI方法解決了這個(gè)問題。
聯(lián)合學(xué)習(xí)并不需要一個(gè)統(tǒng)一的數(shù)據(jù)集來(lái)訓(xùn)練模型,而是將數(shù)據(jù)保留在原處,并分布在邊緣的眾多設(shè)備和服務(wù)器上。取而代之的是,將模型的許多版本發(fā)送到一個(gè)帶有訓(xùn)練數(shù)據(jù)的設(shè)備,每個(gè)模型都在每個(gè)數(shù)據(jù)子集上進(jìn)行本地訓(xùn)練。然后將生成的模型參數(shù)(而不是訓(xùn)練數(shù)據(jù)本身)發(fā)送回云。當(dāng)所有這些“微型模型”匯總在一起時(shí),結(jié)果便是一個(gè)整體模型,其功能就像是一次在整個(gè)數(shù)據(jù)集上進(jìn)行訓(xùn)練一樣。
最初的聯(lián)合學(xué)習(xí)用例是針對(duì)分布在數(shù)十億移動(dòng)設(shè)備上的個(gè)人數(shù)據(jù)訓(xùn)練AI模型。正如這些研究人員總結(jié)的那樣:“現(xiàn)代移動(dòng)設(shè)備可以訪問大量適用于機(jī)器學(xué)習(xí)模型的數(shù)據(jù)。。.。但是,這些豐富的數(shù)據(jù)通常對(duì)隱私敏感,數(shù)量龐大或兩者兼而有之,因此可能無(wú)法登錄到數(shù)據(jù)中心……我們提倡一種替代方案,將培訓(xùn)數(shù)據(jù)保留在移動(dòng)設(shè)備上,并通過(guò)匯總本地計(jì)算的更新來(lái)學(xué)習(xí)共享模型?!?/p>
最近,醫(yī)療保健已成為聯(lián)邦學(xué)習(xí)應(yīng)用中特別有前途的領(lǐng)域。
不難理解原因。一方面,醫(yī)療保健中有大量有價(jià)值的AI用例。另一方面,醫(yī)療保健數(shù)據(jù),尤其是患者的個(gè)人可識(shí)別信息,非常敏感。像HIPAA這樣的法規(guī)叢書限制了它的使用和移動(dòng)。聯(lián)合學(xué)習(xí)可以使研究人員能夠開發(fā)挽救生命的醫(yī)療保健AI工具,而無(wú)需從源頭轉(zhuǎn)移敏感的健康記錄或使它們暴露于隱私泄露中。
涌現(xiàn)出許多初創(chuàng)公司,致力于醫(yī)療保健中的聯(lián)合學(xué)習(xí)。最有名的是總部位于巴黎的Owkin;早期階段的參與者包括Lynx.MD,F(xiàn)errum Health和Secure AI Labs。
除了醫(yī)療保健,聯(lián)邦學(xué)習(xí)有一天可能會(huì)在任何涉及敏感數(shù)據(jù)的AI應(yīng)用程序的開發(fā)中發(fā)揮中心作用:從金融服務(wù)到自動(dòng)駕駛汽車,從政府用例到各種消費(fèi)產(chǎn)品。與差分隱私和同態(tài)加密之類的其他隱私保護(hù)技術(shù)搭配使用,聯(lián)合學(xué)習(xí)可以提供釋放AI巨大潛力的關(guān)鍵,同時(shí)減輕數(shù)據(jù)隱私這一棘手的挑戰(zhàn)。
今天全球范圍內(nèi)頒布的數(shù)據(jù)隱私立法浪潮(從GDPR和CCPA開始,許多類似的法律即將出臺(tái))只會(huì)加速對(duì)這些隱私保護(hù)技術(shù)的需求。期望聯(lián)邦學(xué)習(xí)在未來(lái)幾年中將成為AI技術(shù)堆棧的重要組成部分。
3.變形金剛
我們已經(jīng)進(jìn)入了自然語(yǔ)言處理的黃金時(shí)代。
OpenAI發(fā)行的GPT-3是有史以來(lái)功能最強(qiáng)大的語(yǔ)言模型,今年夏天吸引了技術(shù)界。它為NLP設(shè)定了新的標(biāo)準(zhǔn):它可以編寫令人印象深刻的詩(shī)歌,生成有效的代碼,撰寫周到的業(yè)務(wù)備忘錄,撰寫有關(guān)自身的文章等等。
GPT-3只是一系列類似架構(gòu)的NLP模型(Google的BERT,OpenAI的GPT-2,F(xiàn)acebook的RoBERTa等)中最新的(也是最大的),它們正在重新定義NLP的功能。
推動(dòng)語(yǔ)言AI革命的關(guān)鍵技術(shù)突破是Transformer。
在2017年具有里程碑意義的研究論文中介紹了變壓器。以前,最新的NLP方法都基于遞歸神經(jīng)網(wǎng)絡(luò)(例如LSTM)。根據(jù)定義,遞歸神經(jīng)網(wǎng)絡(luò)按順序顯示數(shù)據(jù)-即一次顯示一個(gè)單詞。
變形金剛的一項(xiàng)偉大創(chuàng)新是使語(yǔ)言處理并行化:在給定文本主體中的所有標(biāo)記都是同時(shí)而不是按順序分析的。為了支持這種并行化,變形金剛嚴(yán)重依賴于稱為注意力的AI機(jī)制。注意使模型能夠考慮單詞之間的關(guān)系,而不論它們之間有多遠(yuǎn),并確定段落中的哪些單詞和短語(yǔ)對(duì)于“注意”最為重要。
為什么并行化如此有價(jià)值?因?yàn)樗筎ransformers的計(jì)算效率大大高于RNN,這意味著可以在更大的數(shù)據(jù)集上對(duì)它們進(jìn)行訓(xùn)練。GPT-3訓(xùn)練了大約5,000億個(gè)單詞,由1,750億個(gè)參數(shù)組成,這使現(xiàn)有的RNN顯得微不足道。
迄今為止,由于GPT-3等型號(hào)的成功應(yīng)用,變壓器幾乎只與NLP相關(guān)聯(lián)。但是就在本月,發(fā)布了一篇突破性的新論文,該論文成功地將Transformers應(yīng)用于計(jì)算機(jī)視覺。許多AI研究人員認(rèn)為,這項(xiàng)工作可以預(yù)示計(jì)算機(jī)視覺的新時(shí)代。
盡管像Google和Facebook這樣的領(lǐng)先AI公司已經(jīng)開始將基于Transformer的模型投入生產(chǎn),但大多數(shù)組織仍處于將該技術(shù)產(chǎn)品化和商業(yè)化的初期階段。OpenAI已宣布計(jì)劃通過(guò)API將GPT-3進(jìn)行商業(yè)訪問,這可能會(huì)為在其上構(gòu)建應(yīng)用程序的整個(gè)初創(chuàng)企業(yè)生態(tài)系統(tǒng)注入種子。
從自然語(yǔ)言開始,期望Transformers在未來(lái)的幾年中將成為整個(gè)新一代AI功能的基礎(chǔ)。過(guò)去十年來(lái)人工智能領(lǐng)域令人興奮,但事實(shí)證明,這僅僅是未來(lái)十年的前奏。
責(zé)任編輯:tzh
-
AI
+關(guān)注
關(guān)注
87文章
31402瀏覽量
269813 -
人工智能
+關(guān)注
關(guān)注
1793文章
47592瀏覽量
239497 -
自動(dòng)駕駛
+關(guān)注
關(guān)注
784文章
13915瀏覽量
166776
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論