近日,科技公司谷歌和微軟相繼在一份權(quán)威自然語言理解榜單中超越人類的表現(xiàn),微軟宣稱這“標(biāo)志著邁向通用人工智能的重要里程碑?!?/p>
自然語言理解(Natural Language Understanding,簡稱NLU)任務(wù)在人工智能領(lǐng)域歷史悠久,被譽(yù)為“人工智能皇冠上的明珠”。由于自然語言本身存在的歧義性或多義性,實現(xiàn)高質(zhì)量的自然語言理解有相當(dāng)?shù)碾y度。
為了衡量人工智能模型的自然語言理解能力,紐約大學(xué)、華盛頓大學(xué)、Facebook和DeepMind在2019年合作提出一個名為SuperGLUE的人工智能基準(zhǔn)測試。SuperGLUE由2018年GLUE演化而來,其語言理解任務(wù)難度更大,包括問答、自然語言推理、指代消解和詞義消歧等等。
在最近更新的SuperGLUE上,微軟的DeBERTa模型和谷歌的T5+Meena模型分列第一第二,超越人類基準(zhǔn)線(human baseline)。這是人工智能首次在SuperGLUE中表現(xiàn)超越人類。
盡管在SuperGLUE測試上取得令人滿意的結(jié)果,但微軟坦言,DeBERTa模型還沒有達(dá)到人類智能的自然語言理解水平。人類非常善于利用從不同任務(wù)中學(xué)到的知識來解決新的任務(wù),這是AI模型需要學(xué)習(xí)的地方。
排名第一的微軟模型DeBERTa共有15億個參數(shù)。在SuperGLUE測試中,單個DeBERTa模型的宏觀平均分(89.9分)超過了人類的表現(xiàn)(89.8分);模型整體得分(90.3分)也超過人類基準(zhǔn)線(89.8分),在SuperGLUE排名第一。排名第二的T5+Meena模型得分90.2,同樣超過人類基準(zhǔn)線(89.8分)。
在SuperGLUE測試中,人工智能模型被要求回答類似這樣的問題:
已知“這個孩子對疾病產(chǎn)生了免疫力”,問“這是由什么導(dǎo)致的?”請選擇:A.“他避免接觸這種疾病”;或B.“他接種了這一疾病的疫苗”。
這是一個簡單的因果推理任務(wù),人類很容易選出正確答案。但對人工智能模型而言,卻是不小的挑戰(zhàn)。為了得出正確答案,模型需要理解已知條件和選項之間的因果關(guān)系。
2021年1月6日,微軟在博客發(fā)文詳細(xì)介紹此次取得榜首的DeBERTa模型。
DeBERTa全稱Decoding-enhanced-BERT-with-disentangled attention,是一個基于Transformer架構(gòu)的神經(jīng)語言模型,采用自監(jiān)督學(xué)習(xí)方法對大量原始文本語料庫進(jìn)行預(yù)訓(xùn)練。DeBERTa的目標(biāo)是學(xué)習(xí)通用的語言表達(dá)形式,適用于各種自然語言理解任務(wù)。DeBERTa主要用到三種新技術(shù),分別是分離注意力機(jī)制、增強(qiáng)的掩碼解碼器和用于微調(diào)的虛擬對抗訓(xùn)練方法。
排名第二的T5+Meena技術(shù)來自谷歌。谷歌團(tuán)隊尚未詳細(xì)解釋其模型在SuperGLUE創(chuàng)紀(jì)錄的原因。但微軟在博客文章中評價稱,谷歌的T5模型由110億個參數(shù)組成,相比之下,15億參數(shù)的DeBERTa在訓(xùn)練和維護(hù)上更加節(jié)能,更容易壓縮并部署到各種程序中。
微軟正在將DeBERTa模型集成到下一代“圖靈自然語言生成模型”(Turing NLRv4)中。下一步,他們準(zhǔn)備向公眾公開15億參數(shù)的DeBERTa模型及其源代碼。
責(zé)任編輯:tzh
-
微軟
+關(guān)注
關(guān)注
4文章
6598瀏覽量
104066 -
人工智能
+關(guān)注
關(guān)注
1791文章
47279瀏覽量
238513 -
自然語言
+關(guān)注
關(guān)注
1文章
288瀏覽量
13350
發(fā)布評論請先 登錄
相關(guān)推薦
評論