完美世界辰东,欢乐颂,魔天记忘语小说

Facebook AI Research、Google DeepMind、華盛頓大學和紐約大學合作，共同推出了SuperGLUE，這是一系列用來衡量現代高性能語言理解AI表現的基準測試任務，SuperGLUE針對的是已經達到挑戰上限的會話式AI深度學習模型，為其提供更難的挑戰，其比GLUE基準任務更負責，旨在構建能處理更加復雜和掌握更細微差別的語言模型。

目前NLP主要著眼在多任務學習和語言模型預訓練，從而孕育出各種模型，如BERT、Transformer、Elmo、MT-DNN、GPT-2等。為了評估這些模型的精準度，GLUE基準應運而生。

SuperGLUE正式上線：NLP模型們，來迎接挑戰吧！

GLUE全稱是通用語言理解評估（General Language Understanding Evaluation），基于已有的9種英文語言理解任務，涵蓋多種數據集大小、文本類型和難度。終極目標是推動研究，開發通用和強大的自然語言理解系統。

但隨著NLP模型狂飆似的發展速度，僅推出一年時間的GLUE基準，已經顯得有些力不從心。于是，Facebook AI研究院、谷歌DeepMind、華盛頓大學以及紐約大學4家公司和高校開始攜手打造進化版新基準：SuperGLUE！

近日，進化后的基準也正式宣布上線，可供大家使用了！

地址：

https://gluebenchmark.com

因為BERT在GLUE上是當前最成功的方法，所以SuperGLUE也使用BERT-LARGE-CASED variant.11作為模型性能基準。

什么是SuperGLUE？

如果你搜索SuperGLUE，出現在首頁的一定的各種膠水。這也是科技公司在給產品起名時特別喜歡玩兒的一個梗：利用命名的首字母縮寫成為一個十分普通、十分常見的英文單詞，這個單詞經常和實際的科技產品毫不相關。

實際上，我們今天要介紹的SuperGLUE，全稱是超（級）通用語言理解評估（Super General-Purpose Language Understanding Evaluation）。

據SuperGLUE團隊介紹，為了獲得更強悍的任務集，他們向各個NLP社區發出了征集令，并最終獲得一個包含約30種不同NLP任務的列表。隨后按照如下標準篩選：

任務本質：即測試系統理解英語的能力

任務難度：即超出當前最先進模型的能力

可評估性：具備自動評斷機制，同時還需要能夠準確對應人類的判斷或表現

公開數據：擁有可公開的數據

任務格式：提升輸入值的復雜程度，允許出現復雜句子、段落和文章等

任務許可：所用數據必須獲得研究和重新分發的許可

最終獲得一個包含7個任務的集合。然后，以這7個任務為基礎構建公開排行榜。

此外，SuperGLUE還包含基于已有數據的抽取、單個數值的表現指標，以及一套分析工具包jiant。下載地址： https://jiant.info/

相比GLUE有哪些變化？效果如何？

進化后的新基準，難度有了大幅提升，應對起當前這些發育迅猛的NLP模型更加得心應手，從而可以鼓勵構建能夠掌握更復雜，或具有更細微差別的語言的模型。

相比上一代GLUE，首先研究人員向原有的11項任務開刀，直接砍掉其中的9項，并對剩下的2項任務進行了升級，這兩項任務分別是識別文本蘊涵（RTE）和Winograd模式挑戰賽（WSC）。

之后，5項新的評估基準也被添加進來，用于測試模型在回答問題、指代消解和常識推理方面的能力。這5項新任務分別是：CB，COPA，GAP，MultiRC和WiC。

初始的SuperGLUE基準版本包含了人類水平估計結果，擴展了GLUE中的句子和句子的分類，還包含了共指消解、句子完成和問答。

SuperGLUE任務集合比較多樣化，為了幫助研究者能夠開發出統一的新方法，SuperGLUE團隊還貼心的為研究人員提供了一套基于PyTorch和AllenNLP、用來操作NLP的預訓練、多任務學習和遷移學習的模塊化建模工具包。

此外，因為考慮到公平性、信息的豐富性，管理SuperGLUE排行榜的規則也有很多地方和GLUE有所區別，以期能充分體現數據和任務創建者的貢獻。

研究人員用主流NLP模型對新基準進行了測試，效果如下圖：

任務示例：

值得一提的是，即使是當前最先進的BERT模型，量化后的綜合分數，比人類低了約16.8%。這樣的表現，恐怕只能勉強算過得去而已。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

語言模型

語言模型

+關注

關注
0

文章
524

瀏覽量
10277
數據集

數據集

+關注

關注
4

文章
1208

瀏覽量
24701
nlp

nlp

+關注

關注
1

文章
488

瀏覽量
22037

原文標題：超難NLP新基準SuperGLUE正式發布：橫掃SOTA模型BERT勉強過關

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關注！文章轉載請注明出處。

如何評估AI大模型的效果

評估AI大模型的效果是一個復雜且多維度的過程，涉及多個方面的考量。以下是一些關鍵的評估方法和步驟：一、基準測試（Benchmarking）使用標準數據集和任務來評估模型的性能，如GLUE

發表于 10-23 15:21 ?947次閱讀

AI大模型在自然語言處理中的應用

AI大模型在自然語言處理（NLP）中的應用廣泛且深入，其強大的語義理解和生成能力為NLP任務帶來了顯著的性能提升。以下是對AI大模型在NLP

發表于 10-23 14:38 ?458次閱讀

亞馬遜云科技上線Meta Llama 3.2模型

亞馬遜云科技近日宣布，Meta公司的新一代模型Llama 3.2已在其平臺上正式上線。該模型包括Meta首款多模態模型，現已在Amazon Bedrock和Amazon SageMak

發表于 10-11 18:08 ?460次閱讀

大模型發展下，國產GPU的機會和挑戰

電子發燒友網站提供《大模型發展下，國產GPU的機會和挑戰.pdf》資料免費下載

發表于 07-18 15:44 ?10次下載

大<b class='flag-5'>模型</b>發展下，國產GPU的機會和<b class='flag-5'>挑戰</b>

大語言模型的預訓練

能力，逐漸成為NLP領域的研究熱點。大語言模型的預訓練是這一技術發展的關鍵步驟，它通過在海量無標簽數據上進行訓練，使模型學習到語言的通用知識，為后續的任務微調奠定基礎。本文將深入探討大語言模型

發表于 07-11 10:11 ?434次閱讀

nlp邏輯層次模型的特點

NLP（自然語言處理）邏輯層次模型是一種用于理解和生成自然語言文本的計算模型。它將自然語言文本分解為不同的層次，以便于計算機更好地處理和理解。以下是對NLP邏輯層次

發表于 07-09 10:39 ?396次閱讀

nlp神經語言和NLP自然語言的區別和聯系

來改變我們的行為和情感。NLP的目標是幫助人們實現自我改進，提高溝通技巧，增強領導力和解決問題的能力。 NLP的主要組成部分包括：感知：了解我們如何接收和處理信息。語言：研究我們如何使用語言

發表于 07-09 10:35 ?779次閱讀

nlp自然語言處理基本概念及關鍵技術

、問答系統、文本摘要等眾多領域有著廣泛的應用。 1. NLP的基本概念 1.1 語言模型語言模型是NLP的基礎，它用于描述一個句子在自然語言中出現的概率。語言

發表于 07-09 10:32 ?611次閱讀

llm模型有哪些格式

LLM（Large Language Model，大型語言模型）是一種深度學習模型，主要用于處理自然語言處理（NLP）任務。LLM模型的格式多種多樣，以下是一些常見的LLM

發表于 07-09 09:59 ?624次閱讀

nlp自然語言處理模型怎么做

的進展。本文將詳細介紹NLP模型的構建過程，包括數據預處理、模型選擇、訓練與優化等方面。數據預處理數據預處理是NLP模型構建的第一步，其

發表于 07-05 09:59 ?636次閱讀

nlp自然語言處理模型有哪些

自然語言處理（Natural Language Processing，NLP）是計算機科學和人工智能領域的一個重要分支，旨在使計算機能夠理解、解釋和生成人類語言。以下是對NLP領域一些模型的介紹

發表于 07-05 09:57 ?736次閱讀

NLP技術在機器人中的應用

人類語言的能力，還使得機器人能夠以更加自然、流暢的方式與人類進行交互，從而在服務、教育、醫療、娛樂等多個領域展現出巨大的潛力和價值。本文將從NLP技術在機器人中的應用現狀、核心技術、應用場景、面臨的挑戰及未來發展趨勢等方面進行深入探討。

發表于 07-04 16:04 ?506次閱讀

NLP模型中RNN與CNN的選擇

在自然語言處理（NLP）領域，循環神經網絡（RNN）與卷積神經網絡（CNN）是兩種極為重要且廣泛應用的網絡結構。它們各自具有獨特的優勢，適用于處理不同類型的NLP任務。本文旨在深入探討RNN與CNN

發表于 07-03 15:59 ?539次閱讀

大模型，為什么非得和「弱智吧」過不去？

國產AI大模型訓練的出路或許不止「弱智吧」！

發表于 04-25 13:38 ?538次閱讀

臺灣晶圓代工廠世界先進預測2024年業績將優于2023年

關于競爭加劇問題，方略強調，由于其他企業連續擴大產量，這一點在成熟制程市場尤為明顯。然而，無論何時何地，競爭都是不可避免的，而世界先進正通過增強自身實力來迎接挑戰。此外，他還提到，考慮到員工們的辛勤付出，公司計劃在2024年繼續

發表于 01-12 10:01 ?568次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

SuperGLUE正式上線：NLP模型們，來迎接挑戰吧！

評論

如何評估AI大模型的效果

AI大模型在自然語言處理中的應用

亞馬遜云科技上線Meta Llama 3.2模型

大模型發展下，國產GPU的機會和挑戰

大語言模型的預訓練

nlp邏輯層次模型的特點

nlp神經語言和NLP自然語言的區別和聯系

nlp自然語言處理基本概念及關鍵技術

llm模型有哪些格式

nlp自然語言處理模型怎么做

nlp自然語言處理模型有哪些

NLP技術在機器人中的應用

NLP模型中RNN與CNN的選擇

大模型，為什么非得和「弱智吧」過不去？

臺灣晶圓代工廠世界先進預測2024年業績將優于2023年

搜索歷史

SuperGLUE正式上線：NLP模型們，來迎接挑戰吧！

評論

SuperGLUE正式上線：NLP模型們，來迎接挑戰吧！