來(lái)自:HyperAI超神經(jīng)
微軟的研究團(tuán)隊(duì)近日在 arxiv.org 發(fā)布了論文:《Domain-Specific Language Model Pretraining for BiomedicalNatural Language Processing生物醫(yī)學(xué)特定領(lǐng)域的語(yǔ)言模型預(yù)訓(xùn)練》,介紹并開(kāi)源了一個(gè)能夠用于生物醫(yī)學(xué)領(lǐng)域 NLP 基準(zhǔn),并命名為 BLURB。
BiomedicalLanguageUnderstanding andReasoningBenchmark 的首字母縮寫(xiě),即為 BLURB 的命名規(guī)則,翻譯為生物醫(yī)學(xué)語(yǔ)言理解和推理基準(zhǔn)。
醫(yī)學(xué) NLP 基準(zhǔn),BLURB 身負(fù)重任
BLURB 包括 13 個(gè)公開(kāi)可用的數(shù)據(jù)集,涉及 6 個(gè)不同的任務(wù)。
為了避免偏重多可用數(shù)據(jù)集的任務(wù),如命名實(shí)體識(shí)別(NER),BLURB 的報(bào)告和排名,將所有任務(wù)的宏觀平均數(shù)作為主要得分。
圖為 BLURB 中使用的數(shù)據(jù)集、以及
團(tuán)隊(duì)列出的訓(xùn)練、開(kāi)發(fā)和測(cè)試中的實(shí)例數(shù)量
BLURB 排行榜是不分模型的。任何能夠使用相同的訓(xùn)練和開(kāi)發(fā)數(shù)據(jù)產(chǎn)生測(cè)試預(yù)測(cè)的系統(tǒng)都可以參與。
團(tuán)隊(duì)表示 BLURB 的主要目標(biāo)是:降低生物醫(yī)學(xué)NLP的準(zhǔn)入門(mén)檻,幫助加快該領(lǐng)域的進(jìn)展,能對(duì)社會(huì)和人類(lèi)產(chǎn)生積極影響。
生物醫(yī)學(xué) NLP :必須使用域內(nèi)文本
研究已經(jīng)表明生物醫(yī)學(xué) NLP 可以在醫(yī)學(xué)領(lǐng)域提高數(shù)據(jù)集的準(zhǔn)確性。但是在跨學(xué)科的數(shù)據(jù)集中,準(zhǔn)確性又會(huì)大大降低。而由于不同醫(yī)學(xué)領(lǐng)域之間(Domain)跨度較大,所以對(duì)于 NLP 的預(yù)訓(xùn)練會(huì)花費(fèi)非常多的時(shí)間。
微軟研究人員為了提升 NLP 的訓(xùn)練速度,通過(guò)對(duì)預(yù)訓(xùn)練和特定任務(wù)的微調(diào),對(duì)生物醫(yī)學(xué) NLP 應(yīng)用的影響進(jìn)行了建模比較,從而評(píng)估最適合的預(yù)訓(xùn)練方法。
團(tuán)隊(duì)對(duì)域內(nèi)文本與混合域外文本進(jìn)行的對(duì)照
首先,團(tuán)隊(duì)創(chuàng)建了一個(gè)名為「生物醫(yī)學(xué)語(yǔ)言理解與推理基準(zhǔn)」(BLURB)的基準(zhǔn),該基準(zhǔn)側(cè)重于 PubMed 提供的出版物,涵蓋了相似問(wèn)題解答和文本提取之類(lèi)的任務(wù)。
實(shí)驗(yàn)證明,這種對(duì)比的方法能夠?qū)?NLP 訓(xùn)練的速度提升數(shù)倍。
同時(shí),為了鼓勵(lì)對(duì)生物醫(yī)學(xué) NLP 的研究,研究人員創(chuàng)建了以 BLURB 基準(zhǔn)為基準(zhǔn)的排行榜,還開(kāi)源了預(yù)訓(xùn)練模型。以求快速生物醫(yī)學(xué) NLP 能夠早日投入使用。
原文標(biāo)題:醫(yī)學(xué)AI又一突破,微軟開(kāi)源生物醫(yī)學(xué)NLP基準(zhǔn):BLURB
文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
責(zé)任編輯:haq
-
微軟
+關(guān)注
關(guān)注
4文章
6598瀏覽量
104063 -
AI
+關(guān)注
關(guān)注
87文章
30896瀏覽量
269087 -
生物醫(yī)學(xué)
+關(guān)注
關(guān)注
0文章
46瀏覽量
11168
原文標(biāo)題:醫(yī)學(xué)AI又一突破,微軟開(kāi)源生物醫(yī)學(xué)NLP基準(zhǔn):BLURB
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論