在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如果把中學生的英語閱讀理解選擇題讓AI來做,會做出什么水平?

DPVg_AI_era ? 來源:lp ? 2019-04-19 10:49 ? 次閱讀

如果把中學生的英語閱讀理解選擇題讓AI來做,會做出什么水平?近日,上交大團隊訓練的“雙向協同匹配網絡”(DCMN)取得了74%的正確率。盡管和人類學生相比只能算馬馬虎虎,但對AI來說,這已經達到了目前的最高水平。

目前,在英語考試的閱讀理解上,AI雖然無法擊敗更有能力的人類學生,但它仍然是衡量機器對語言理解能力的最佳量度之一。

近日,上海交通大學的趙海團隊對AI模型進行了超過25000次英語閱讀理解測試訓練。訓練材料和中國現行英語水平考試的閱讀理解形式類似,每篇文章大約200到300個詞,文后是一系列與文章內容相關的多項選擇題。這些測試來自針對12至18歲中國學生的英語水平考試。

雖然這些問題有些可以在文中找到答案,但其中一半以上的題目仍需要一定程度的推理。例如,有些問題會要求從四個選項中選出文章的“最佳標題”。在訓練結束后,AI參加了測試,其中包括1400次以前從未見過的考試。綜合得分為74分(百分制),優于之前的所有機器測試。

上交大的AI系統可以識別與問題相關的文章相關部分,然后選出在含義上和邏輯上最相似的答案。在測試中排名第二的是騰訊的AI系統,在同一次考試中得分為72分。騰訊的AI學會了比較每個選項中包含的信息,并將不同選項間的信息差異作為提示,在文章中尋找證據。

目前最厲害的AI,閱讀理解只能得個C+

盡管在測試中分數處于領先,趙海團隊仍在努力提高AI系統的能力。“如果從真人學生的視角來看,我們的AI的表現也就是一般水平,最多得個C+,”他說?!皩τ谀切┫脒M入中國優秀大學的學生來說,他們的目標是90分?!?/p>

為了提高分數,團隊將嘗試修改AI,以便理解嵌入在句子結構中的信息,并為AI提供更多數據,擴大其詞匯量。

如何理解人類的語言,一直是AI領域的一個主要問題,因為這種理解通常是不精確的,這個問題涉及機器難以掌握的隱含語境信息和社會線索問題。

卡內基梅隆大學的GuokunLai表示,目前我們仍不清楚AI在學習我們的語言時會遵循什么規則,“不過在閱讀了大量的句子和文章之后,AI似乎能夠理解我們的邏輯。”

該研究的相關論文已經發表在Arxiv上,以下是論文的主要內容:

讓AI做閱讀理解是一項具有挑戰性的任務,需要復雜的推理過程。AI需要從一組候選答案中選擇正確的答案。本文提出雙重協同匹配網絡(DCMN),該網絡可以雙向地模擬通道,問題和答案之間的關系。

與僅就問題感知或選擇性文章表示進行計算的現有方法不同,DCMN能夠計算文章感知問題表示和文章感知答案表示。為了證明DCMN模型的有效性,我們在大型閱讀理解數據集(即RACE)上評估了模型。結果表明,該模型達到了目前AI閱讀理解的最高水平。

機器閱讀理解和問答已經成為評估自然語言處理和理解領域人工智能系統進展的關鍵應用問題。計算語言學界對機器閱讀理解和問答的一般問題給予了極大的關注。

本文主要關注選擇題閱讀理解數據集,如RACE,該數據集中每個問題后都帶有一組答案選項。大多數問題的正確答案可能不會在原文中完全復現,問題類型和范圍也更加豐富和廣泛,比如涉及某一段落的提要和對文章作者態度的分析。

這需要AI能夠更深入地了解文章內容,并利用外部世界知識來回答這些問題。此外,與傳統的閱讀理解問題相比,我們需要充分考慮通過文章-問題-答案三者之間的關系,而不僅僅是問題-答案的配對。

新模型DCMN:在文章、問題、答案三者之間建立聯系

DCMN模型可以將問題-答案與給定文章內容進行雙向匹配,利用了NLP領域的最新突破——BERT進行上下文嵌入。在介紹BERT的原論文中提到,對應于第一輸入令牌(CLS)的最終隱藏向量被用作聚合表示,然后利用分類層計算標準分類損失。

我們認為這種方法太粗糙,無法處理文章-問題-答案的三者關系組合,因為這種方法只是粗略地將文章-問題的聯系作為第一序列,將問題作為第二序列,沒有考慮問題和文章內容之間的關系。因此,我們提出了一種新方法來模擬文章、問題和候選答案之間的關系。

使用BERT作為編碼層,分別得到文章、問題和答案選項的上下文表示。

構造匹配層以獲得文章-問題-答案三者之間匹配表示,對問題在文章中對應的位置信息與特定上下文匹配的候選答案進行編碼。

對從字級到序列級的匹配表示應用層次聚合方法,然后從序列級到文檔級應用。

我們的模型在BERT模型的基礎上,于RACE數據集上將當前最高得分提高了2.6個百分點,并使用大規模BERT模型進一步將得分提高了3個百分點。

實驗及測試結果

在RACE數據集上對模型進行了評估。這個數據集由兩個子集組成:RACE-M和RACE-H。RACE-M來自初中考試試題,RACE-H來自高中考試試題。RACE是這兩者的結合。我們將我們的模型與以下基線方法進行了比較:MRU(多范圍推理),DFN(動態融合網絡),HCM(等級協同匹配),OFT(OpenAI微調語言轉換模型),RSM(閱讀策略模型)。

我們還將我們的模型與BERT基線進行比較,并實現BERT原論文(2018)中描述的方法,該方法使用對應于第一個輸入標記([CLS])的最終隱藏向量作為聚合表示,然后是分類層,最后計算標準分類損失。測試結果如上表所示。

我們可以看到BERT基線模型的性能非常接近先前的最高水平,而大型BERT模型的表現甚至超過了之前SOTA水平3.7%。但是實驗結果表明,我們的DCMN模型更強大,將最高得分進一步分別提升了2.2%。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    31155

    瀏覽量

    269481
  • 人工智能
    +關注

    關注

    1792

    文章

    47442

    瀏覽量

    238991
  • 數據集
    +關注

    關注

    4

    文章

    1208

    瀏覽量

    24739

原文標題:最強AI挑戰中國英語閱讀理解:只得70多分,不如中等生

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    【「大模型啟示錄」閱讀體驗】對大模型更深入的認知

    閱讀《大模型啟示錄》這本書,我得說,它徹底顛覆了我對大模型的理解。作為一個經常用KIMI和豆包這類AI工具完成作業、整理資料的大學生,我原
    發表于 12-20 15:46

    【「大模型啟示錄」閱讀體驗】對本書的初印象

    很高興能夠申請到《大模型啟示錄》一書,作為一名在讀大學生,我深感榮幸。在日常生活中,人工智能(AI)的應用已經變得無處不在,它不僅幫助我們完成一些簡單的文本歸納任務,還能在代碼調試中指出錯誤,甚至
    發表于 12-16 14:05

    常見AI大模型的比較與選擇指南

    :由月之暗面科技有限公司開發,擅長中英文對話,能處理多種文件格式(TXT、PDF、Word、PPT、Excel等),還能閱讀理解用戶上傳的文件,并結合互聯網搜索結果來回答問題。 智普清言(智譜清言) :基于智譜AI自主研發的
    的頭像 發表于 10-23 15:36 ?948次閱讀

    如何選擇合適的AI云平臺

    選擇合適的AI云平臺是企業成功實施AI戰略的關鍵一步。通過深入分析業務需求、全面評估平臺功能、審慎考察技術架構、嚴格確保數據安全、合理控制成本并關注服務提供商的生態系統,企業可以更加科學地做出
    的頭像 發表于 10-14 10:06 ?191次閱讀

    AI for Science:人工智能驅動科學創新》第4章-AI與生命科學讀后感

    很幸運社區給我一個閱讀此書的機會,感謝平臺。 《AI for Science:人工智能驅動科學創新》第4章關于AI與生命科學的部分,為我們揭示了人工智能技術在生命科學領域中的廣泛應用和深遠影響。在
    發表于 10-14 09:21

    AI for Science:人工智能驅動科學創新》第二章AI for Science的技術支撐學習心得

    for Science的技術支撐”的學習心得,可以從以下幾個方面進行歸納和總結: 1. 技術基礎的深入理解閱讀第二章的過程中,我對于AI for Science所需的技術基礎有了更加深入的
    發表于 10-14 09:16

    【「大模型時代的基礎架構」閱讀體驗】+ 未知領域的感受

    再到大模型云平臺的構建,此書都有提及和講解,循序漸進,讀者可以由點及面,由面到體的認識大數據模型的體系架構。 前言中,作者通過提出幾個問題引導讀者閱讀思考——分布式
    發表于 10-08 10:40

    云知聲口語評測技術應用于教育領域

    日前,云知聲入選大連、丹東、本溪三地初中學水平考試英語聽力口語考試智能口語評測技術服務商,并以其專業可靠的口語評測,確保三地英語考試結果的公平、客觀、準確,為教育公平和
    的頭像 發表于 09-19 15:41 ?328次閱讀

    【「倉頡編程快速上手」閱讀體驗】+初步讀后感

    《倉頡編程快速上手》這本書給我留下了深刻的印象。 首先,書籍的排布清晰明了,章節劃分合理,人在閱讀過程中能夠輕松地找到所需內容。無論是按照順序閱讀還是選擇性地查閱特定部分,都十分
    發表于 09-10 11:09

    如何用PGA309溫度的校準?

    最近開始用PGA309溫度的校準,外部沒有接溫度傳感器。希望使用內部的溫度傳感器操作。 圖中是我對PGA309的配置,做出來的效果并不好。我想請問一下這個配置有沒有問題。 我自己的理解
    發表于 08-20 07:53

    如果把flash的地址改為別的大小,下載bin文件的地址如何設置?

    如果把flash的地址改為別的大小,下載bin文件的地址如何設置?可以自己分配嗎??
    發表于 07-12 11:08

    【《軟件開發珠璣》閱讀體驗】+ 心得

    合作、質量、過程和改進。第8章作為經驗教訓單獨成章你時刻牢記的經驗,助你前行。 正如書中所說:“需求是設計的目標?!蓖ㄟ^了解需求的不同功能,進行深入的分析,才能打好深厚的基礎,使我深刻理解了需求
    發表于 06-23 17:56

    谷歌AlphaGeometry系統已接近頂尖學生水平

    谷歌的人工智能部門再次證明了其卓越的技術實力,這次推出的AlphaGeometry系統在解決幾何問題上的能力已經達到了接近頂尖學生水平。這一系統由谷歌DeepMind開發,其在解決幾何問題上的出色表現幾乎與世界上最頂尖的學生
    的頭像 發表于 01-19 15:44 ?614次閱讀

    微軟發布面向學生AI生成式閱讀工具“閱讀教練”

    Reading Coach原屬于Microsoft Teams的一部分,為學習者推送定制化閱讀練習及即時語言反饋,便于教育者追蹤學習進度。如今,微軟已將其拆分為獨立應用,并增加豐富的功能。使用者可以選擇人物與場景,打造個人專屬的人工智能故事。
    的頭像 發表于 01-19 11:04 ?691次閱讀

    計算機視覺:AI如何識別與理解圖像

    計算機視覺是人工智能領域的一個重要分支,它致力于機器能夠像人類一樣理解和解釋圖像。隨著深度學習和神經網絡的發展,人們對于如何AI識別和理解
    的頭像 發表于 01-12 08:27 ?1485次閱讀
    計算機視覺:<b class='flag-5'>AI</b>如何識別與<b class='flag-5'>理解</b>圖像
    主站蜘蛛池模板: 日韩大胆| 国模人体一区二区三区| 亚洲youjizz| 亚洲ay| 色视频在线网站| 男人不识本站| 国产乱通伦| 4438全国最大成人免费高清| 性欧美hd| 亚洲人一区| 优优色综合| 日本成片免费高清| 婷婷色激情| 日本x色视频| 国产免费私拍一区二区三区 | xxxxxhd69日本护士| 亚洲一区二区三区四区在线观看| 美女扒开尿口给男人捅| 一级毛片在线看在线播放| 色播激情五月| 久久精品视频免费观看| www在线视频在线播放| 欧美又黄又嫩大片a级| 婷婷丁香啪啪| 在线观看视频你懂的| 日韩精品免费一级视频| 国语一级毛片私人影院| 天天射日日操| aa视频在线观看| 操操干| 亚洲成a人不卡在线观看| 亚洲免费资源| 婷婷色站| 国产专区视频| 日本加勒比高清一本大道| sese亚洲| 四虎现在的网址入口| 国产精品久久国产三级国不卡顿| 成人欧美精品久久久久影院| 天天爽天天色| 欧美激情αv一区二区三区|