近日,科技公司谷歌和微軟相繼在一份權(quán)威自然語(yǔ)言理解榜單中超越人類的表現(xiàn),微軟宣稱這“標(biāo)志著邁向通用人工智能的重要里程碑。”
自然語(yǔ)言理解(Natural Language Understanding,簡(jiǎn)稱NLU)任務(wù)在人工智能領(lǐng)域歷史悠久,被譽(yù)為“人工智能皇冠上的明珠”。由于自然語(yǔ)言本身存在的歧義性或多義性,實(shí)現(xiàn)高質(zhì)量的自然語(yǔ)言理解有相當(dāng)?shù)碾y度。
為了衡量人工智能模型的自然語(yǔ)言理解能力,紐約大學(xué)、華盛頓大學(xué)、Facebook和DeepMind在2019年合作提出一個(gè)名為SuperGLUE的人工智能基準(zhǔn)測(cè)試。SuperGLUE由2018年GLUE演化而來(lái),其語(yǔ)言理解任務(wù)難度更大,包括問(wèn)答、自然語(yǔ)言推理、指代消解和詞義消歧等等。
SuperGLUE榜單
在最近更新的SuperGLUE上,微軟的DeBERTa模型和谷歌的T5+Meena模型分列第一第二,超越人類基準(zhǔn)線(human baseline)。這是人工智能首次在SuperGLUE中表現(xiàn)超越人類。
盡管在SuperGLUE測(cè)試上取得令人滿意的結(jié)果,但微軟坦言,DeBERTa模型還沒(méi)有達(dá)到人類智能的自然語(yǔ)言理解水平。人類非常善于利用從不同任務(wù)中學(xué)到的知識(shí)來(lái)解決新的任務(wù),這是AI模型需要學(xué)習(xí)的地方。
排名第一的微軟模型DeBERTa共有15億個(gè)參數(shù)。在SuperGLUE測(cè)試中,單個(gè)DeBERTa模型的宏觀平均分(89.9分)超過(guò)了人類的表現(xiàn)(89.8分);模型整體得分(90.3分)也超過(guò)人類基準(zhǔn)線(89.8分),在SuperGLUE排名第一。排名第二的T5+Meena模型得分90.2,同樣超過(guò)人類基準(zhǔn)線(89.8分)。
在SuperGLUE測(cè)試中,人工智能模型被要求回答類似這樣的問(wèn)題:
已知“這個(gè)孩子對(duì)疾病產(chǎn)生了免疫力”,問(wèn)“這是由什么導(dǎo)致的?”請(qǐng)選擇:A.“他避免接觸這種疾病”;或B.“他接種了這一疾病的疫苗”。
這是一個(gè)簡(jiǎn)單的因果推理任務(wù),人類很容易選出正確答案。但對(duì)人工智能模型而言,卻是不小的挑戰(zhàn)。為了得出正確答案,模型需要理解已知條件和選項(xiàng)之間的因果關(guān)系。
責(zé)任編輯:PSY
2021年1月6日,微軟在博客發(fā)文詳細(xì)介紹此次取得榜首的DeBERTa模型。
DeBERTa全稱Decoding-enhanced-BERT-with-disentangled attention,是一個(gè)基于Transformer架構(gòu)的神經(jīng)語(yǔ)言模型,采用自監(jiān)督學(xué)習(xí)方法對(duì)大量原始文本語(yǔ)料庫(kù)進(jìn)行預(yù)訓(xùn)練。DeBERTa的目標(biāo)是學(xué)習(xí)通用的語(yǔ)言表達(dá)形式,適用于各種自然語(yǔ)言理解任務(wù)。DeBERTa主要用到三種新技術(shù),分別是分離注意力機(jī)制、增強(qiáng)的掩碼解碼器和用于微調(diào)的虛擬對(duì)抗訓(xùn)練方法。
排名第二的T5+Meena技術(shù)來(lái)自谷歌。谷歌團(tuán)隊(duì)尚未詳細(xì)解釋其模型在SuperGLUE創(chuàng)紀(jì)錄的原因。但微軟在博客文章中評(píng)價(jià)稱,谷歌的T5模型由110億個(gè)參數(shù)組成,相比之下,15億參數(shù)的DeBERTa在訓(xùn)練和維護(hù)上更加節(jié)能,更容易壓縮并部署到各種程序中。
微軟正在將DeBERTa模型集成到下一代“圖靈自然語(yǔ)言生成模型”(Turing NLRv4)中。下一步,他們準(zhǔn)備向公眾公開(kāi)15億參數(shù)的DeBERTa模型及其源代碼。
-
微軟
+關(guān)注
關(guān)注
4文章
6598瀏覽量
104066 -
谷歌
+關(guān)注
關(guān)注
27文章
6168瀏覽量
105393 -
自然語(yǔ)言
+關(guān)注
關(guān)注
1文章
288瀏覽量
13350
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論