在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

谷歌重磅發布自然問題數據集

電子工程師 ? 來源:cc ? 2019-01-28 15:27 ? 次閱讀

谷歌重磅發布自然問題數據集(Natural Questions),包含30萬個自然發生的問題和人工注釋的答案,16000個示例,并發起基于此數據集的問答系統挑戰賽。有望成為自然語言理解領域的SQuAD!

開放領域問題回答(QA)是自然語言理解(NLU)中的一項基準任務,它的目的是模擬人類如何查找信息,通過閱讀和理解整個文檔來找到問題的答案。

比如,給定一個用自然語言表達的問題“為什么天空是藍色的?”("Why is the sky blue?”),QA系統應該能夠閱讀網頁(例如“天空漫射”的維基百科頁面)并返回正確的答案,即使答案有些復雜和冗長。

然而,目前還沒有可以用于訓練和評估QA模型的大型、公開的自然發生問題(即由尋求信息的人提出的問題)和答案數據集。

這是因為構建用于QA任務的高質量數據集需要大量的真實問題來源,并且需要大量人力來為這些問題尋找正確答案。

為了促進QA領域的研究進展,谷歌今天發布自然問題數據集(Natural Questions, NQ),這是一個用于訓練和評估開放領域問答系統的新的、大規模語料庫,也是第一個復制人類查找問題答案的端到端流程的語料庫。

Natural Questions數據集

NQ的規模非常龐大,包含30萬個自然發生的問題,以及來自Wikipedia頁面的人工注釋答案,用于訓練QA系統。

此外,NQ語料庫還包含16000個示例,每個示例都由5位不同的注釋人提供答案(針對相同的問題),這對于***的QA系統的性能非常有用。

Natural Questions數據集中的示例

由于回答NQ中的問題比回答瑣碎問題(這些問題對計算機來說已經很容易解決)需要有更深入的理解,谷歌還發起了一項基于此數據集的挑戰賽,以幫助提高計算機對自然語言的理解。

NQ挑戰賽排行榜

NQ數據集包含307K訓練示例、8K開發示例和8K測試示例。

目前,NQ挑戰賽排行榜上只有谷歌的BERT模型和DecAtt-DocReader模型的成績。在論文中,谷歌證明在長答案選擇任務上的人類的最優成績為87% F1,在短答案選擇任務上人類的最優成績為76%。

來自谷歌搜索的真實問題

NQ是第一個使用自然發生的查詢創建的數據集,并專注于通過閱讀整個頁面來查找答案,而不是從一個短段落中提取答案。

為了創建NQ,我們從用戶提交給Google搜索引擎的真實、匿名、聚合的查詢開始。

然后,我們要求注釋者通過通讀整個維基百科頁面來找到答案,就好像這個問題是他們自己提出的一樣。注釋者需要找到一個長答案和一個短答案,長答案涵蓋推斷問題所需的所有信息,短答案需要用一個或多個實體的名稱簡潔地回答問題。

對NQ語料庫的注釋質量進行評估,顯示準確率達到90%。

注釋包含一個長答案和一個短答案

研究人員在論文《自然問題:問答研究的基準》(Natural Questions: a Benchmark for Question Answering Research)中對數據收集的過程進行了全面描述,論文已發表在《計算語言學協會會刊》(Transactions of the Association for computing Linguistics)。大家也可以在NQ網站上查看更多來自數據集的示例。

自然語言理解挑戰

NQ的目的是使QA系統能夠閱讀和理解完整的維基百科文章,其中可能包含問題的答案,也可能不包含問題的答案。

系統首先需要確定這個問題的定義是否足夠充分,是否可以回答——許多問題本身基于錯誤的假設,或者過于模糊,無法簡明扼要地回答。

然后,系統需要確定維基百科頁面中是否包含推斷答案所需的所有信息。我們認為,相比在知道長答案后在尋找短答案,長答案識別任務——找到推斷答案所需的所有信息——需要更深層次的語言理解。

我們希望NQ的發布以及相關的挑戰賽將有助于推動更有效、更強大的QA系統的開發。我們鼓勵NLU社區參與進來,并幫助縮小目前最先進方法的性能與人類上限之間的巨大差距。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 谷歌
    +關注

    關注

    27

    文章

    6171

    瀏覽量

    105491
  • 人工智能
    +關注

    關注

    1791

    文章

    47354

    瀏覽量

    238792

原文標題:NLP新基準!谷歌重磅發布開放問答數據集,30萬自然提問+人工注釋答案

文章出處:【微信號:aicapital,微信公眾號:全球人工智能】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    谷歌在芬蘭購地擴建云計算與數據中心

    谷歌公司近日發布聲明,宣布在芬蘭卡亞尼和穆霍斯兩地購買土地,作為其擴建云計算和數據中心基礎設施計劃的重要一步。此次購地行動標志著谷歌在芬蘭的投資進一步加深。 據芬蘭農業和林業部透露,
    的頭像 發表于 12-04 11:38 ?268次閱讀

    itel全品類創新產品重磅發布

    近日,itel 在印度尼西亞雅加達成功舉辦全品類新品發布會,以“Elegance in Excellence”為主題,重磅發布itel S25系列新品、itel首款Smart Ring、旗艦商務平板VistaTab 30Pro、
    的頭像 發表于 11-14 10:43 ?381次閱讀

    易華錄“基于北斗數據的高精度定位服務融合應用”入選案例

    近期,由開放群島開源社區牽頭撰寫,中國電子技術標準化研究院、清華大學互聯網產業研究院聯合發起的《2023-2024開放群島開源社區數實融合引領場景創新優秀案例重磅發布,涵蓋了三年行動計劃中涉及的十二個關鍵行業應用場景。易華錄
    的頭像 發表于 09-04 09:11 ?490次閱讀

    納雷路暢系列TCM873交通流量雷達重磅發布

    納雷路暢系列TCM873交通流量雷達重磅發布
    的頭像 發表于 08-13 11:04 ?537次閱讀
    納雷路暢系列TCM873交通流量雷達<b class='flag-5'>重磅</b><b class='flag-5'>發布</b>

    谷歌發布革命性AI天氣預測模型NeuralGCM

    在科技與自然科學的交匯點上,谷歌公司于7月23日宣布了一項重大突破——全新的人工智能天氣預測模型NeuralGCM。這一創新成果不僅融合了機器學習的前沿技術,還巧妙結合了傳統氣象學的精髓,其研究成果已在國際權威科學期刊《Nature》上
    的頭像 發表于 07-23 14:24 ?508次閱讀

    PyTorch如何訓練自己的數據

    PyTorch是一個廣泛使用的深度學習框架,它以其靈活性、易用性和強大的動態圖特性而聞名。在訓練深度學習模型時,數據是不可或缺的組成部分。然而,很多時候,我們可能需要使用自己的數據
    的頭像 發表于 07-02 14:09 ?1767次閱讀

    易來科得重磅發布ElectroderSIM?電極設計與工藝優化軟件

    易來科得電池研發軟件工具鏈中的全新產品ElectroderSIM?電極設計與工藝優化軟件重磅發布
    的頭像 發表于 05-29 09:29 ?986次閱讀
    易來科得<b class='flag-5'>重磅</b><b class='flag-5'>發布</b>ElectroderSIM?電極設計與工藝優化軟件

    請問NanoEdge AI數據該如何構建?

    我想用NanoEdge來識別異常的聲音,但我目前沒有辦法生成模型,我感覺可能是數據的問題,請問我該怎么構建數據?或者生成模型失敗還會有哪些原因?
    發表于 05-28 07:27

    谷歌發布多模態AI新品,加劇AI巨頭競爭

    在全球AI競技場上,谷歌與OpenAI一直穩居領先地位。近日,谷歌在I/O開發者大會上掀起了一股新的技術浪潮,發布了多款全新升級的多模態AI產品。
    的頭像 發表于 05-16 09:28 ?457次閱讀

    谷歌發布用于輔助編程的代碼大模型CodeGemma

    谷歌發布了用于輔助編程的代碼大模型 CodeGemma。CodeGemma 基于谷歌今年 2 月發布的輕量級開源大模型 Gemma,針對 Gemma 的兩個不同參數規模的版本 Gemm
    的頭像 發表于 04-17 16:07 ?708次閱讀
    <b class='flag-5'>谷歌</b><b class='flag-5'>發布</b>用于輔助編程的代碼大模型CodeGemma

    谷歌推出能制作旅行攻略的AI工具

    谷歌近日發布了一項令人矚目的新功能,它是一款能夠借助自然語言對話幫助用戶生成旅行行程和出游建議的AI工具。這款工具的推出,標志著谷歌在人工智能領域的又一重要突破。
    的頭像 發表于 03-29 11:08 ?676次閱讀

    谷歌發布開源AI大模型Gemma

    近日,谷歌發布了全新AI大模型Gemma,這款模型為各種規模的組織提供了前所未有的機會,以負責任的方式在商業應用中進行分發。
    的頭像 發表于 02-28 17:38 ?855次閱讀

    谷歌交互世界模型重磅發布

    谷歌模型
    北京中科同志科技股份有限公司
    發布于 :2024年02月28日 09:13:06

    谷歌推出AI擴散模型Lumiere

    近日,谷歌研究院重磅推出全新AI擴散模型Lumiere,這款模型基于谷歌自主研發的“Space-Time U-Net”基礎架構,旨在實現視頻生成的一次性完成,同時保證視頻的真實性和動作連貫性。
    的頭像 發表于 02-04 13:49 ?1046次閱讀

    自動駕駛領域的數據匯總

    發自動駕駛論文哪少的了數據,今天筆者將為大家推薦一篇最新的綜述,總結了200多個自動駕駛領域的數據,大家堆工作量的時候也可以找一些小眾的數據
    的頭像 發表于 01-19 10:48 ?1018次閱讀
    自動駕駛領域的<b class='flag-5'>數據</b><b class='flag-5'>集</b>匯總
    主站蜘蛛池模板: 免费观看黄色在线视频| 久久黄色影片| 亚洲成人三级| 欧美亚洲视频一区| 曰本aaaaa毛片午夜网站| 综合欧美一区二区三区| 一区二区三区四区在线不卡高清| 国产精品夜色7777青苹果| 日本特级黄录像片| 国产精品欧美一区二区三区不卡| 狠狠狠狠狠狠| 欧美巨大bbbb动漫| 六月色| 四虎网址| 日韩色网| 性做久久久久久久免费看| 色视频免费观看高清完整| www狠狠| 最新亚洲一区二区三区四区| 欧美亚洲视频一区| 一级毛片一片毛| 国产精品一区在线播放| 亚洲欧美日韩国产一区二区三区精品 | 新版天堂中文资源官网| 三级黄色在线视频中文| 噜噜影院无毒不卡| 欧美成人精品一区二三区在线观看| 免费a级网站| 躁天天躁中文字幕在线| 久久人人视频| 中文字幕第13亚洲另类| 一级毛片一级毛片一级毛片aa| 三级国产在线| 国产va在线观看| 好男人社区www在线观看| 一级片+国产| 亚洲黄色网址在线观看| 国产黄色录像视频| 国产精品久线观看视频| 狠狠干视频网| www.激情五月|