由斯坦福大學發起的國際權威機器閱讀理解評測SQuAD(Stanford Question Answering Dataset),相信很多小伙伴已經并不陌生,從1.0、1.1再到2.0,比賽難度持續升級。在谷歌、微軟亞洲研究院、IBM研究院、阿里巴巴達摩院、平安科技、上海交通大學、復旦大學等眾多參賽的國內外知名研究機構和高校中,科大訊飛從2017年成為首次取得賽事榜首的中國本土研究機構起,已四次刷新比賽榜單第一。
就在最近,哈工大訊飛聯合實驗室(HFL)與河北省訊飛人工智能研究院聯合團隊再次在SQuAD 2.0挑戰賽中有了新突破:不僅再再再再再次登上榜單第一,還全球首次在全部兩項指標上都超過了人類平均水平,一舉創下比賽的全新紀錄。
科大訊飛在機器閱讀理解領域的實力已不言而喻,這次突破背后又有怎樣的故事,“秘籍”何在?當機器學會做閱讀理解,甚至比人類的答題水平還勝出一籌時,TA們能為我們帶來怎樣的改變和影響?
SQuAD 2.0好難一比賽!
要會答題,還要會拒絕答題
雖然之前已對SQuAD比賽有過幾次介紹,還是讓我們先復習一下這項比賽的關鍵信息:
TA是認知智能行業內公認的機器閱讀理解領域頂級水平測試,通過吸收來自維基百科的大量數據,構建了一個包含十多萬問題的大規模機器閱讀理解數據集。
參賽者提交的系統模型在閱讀完數據集中的一個篇章內容之后,回答若干個基于文章內容的問題,然后與人工標注的答案進行比對,得出精確匹配(Exact Match)和模糊匹配(F1-score)的結果。
精確匹配EM:機器給出的答案和人給出的一樣才算正確;模糊匹配F1:機器答案短語切成詞后與人給出的答案共同計算回歸率與準確性,就算沒有完全匹配也可以得分。
對于機器而言,存儲、運算,甚至圖像、語音的識別都已不在話下,但是想要讀懂文章內容并做出回答,沒有人類思維大腦的機器還是非常困難的。
SQuAD 2.0的比賽則在上面任務的基礎上,把難度再次提升:加入“不可回答的問題”。也就是說,參賽系統閱讀完篇章內容后再讀題,如果這個問題不能通過之前讀完的內容回答,要拒絕回答;如果判斷可以回答,那么再給出篇章中的某個連續片段作為答案。
雙指標超過人類水平!
訊飛答題有妙招
如此高難度的閱讀理解比賽,如果讓人類來答題,水平幾何呢?
人類的成績是:EM:86.831;F1:89.452
訊飛此次參賽系統的成績是:EM:87.147;F1:89.474
雖然差距不算太大,但已是全球首次在這兩項指標上都超過人類水平了!就在去年11月,哈工大訊飛聯合實驗室刷新SQuAD 2.0比賽榜單時的成績,還與人類認知水平在該數據集上的效果有一定差距。短短不到半年的時間,科大訊飛已經取得了彌足珍貴的進步。
首次超越人類水平的背后,得益于提交的“BERT + DAE + AoA”參賽模型,模型融合了業界領先自然語言語義表示模型BERT和團隊持續積累改進的層疊式注意力機制(Attention-over-Attention,AoA),在吸收業界最新前沿技術的同時又加入了已有的原創核心技術,將該評測的相關技術指標推向新的高度。
哈工大訊飛聯合實驗室參賽提交系統一覽
超越人類不是目的
汽車、司法都已助力
也許你會疑惑,機器在閱讀理解上的水平獲得這樣的突破與成績,難道是為了超越人類、成為做題機器?
核心技術評測中的積累,最終是為了將技術更好應用到實際產品中,讓人們親身體會到技術帶來的改變。閱讀理解技術其實已經在汽車、司法領域有所應用,例如一些車型中的車載電子說明書產品,通過機器閱讀汽車領域相關的材料,使機器深度理解并掌握對該車型的相關知識。用戶提出相關問題之后,產品不僅可以快速反饋相關的章節,還能利用閱讀理解技術進一步挖掘并反饋更精準的答案;這樣就能夠減少用戶的閱讀量,提高信息獲取的速度。
在司法領域,哈工大訊飛聯合實驗室出品的“法小飛”智能法律咨詢助手也應用了對話型閱讀理解技術,帶來優質快速的法律咨詢和相關服務,為用戶提供精準的答案,還提升了用戶的對話交互體驗。
技術探索的腳步還在涉足更廣的領域,目前科大訊飛還在積極探索其他類型的閱讀理解,例如基于知識、常識的閱讀理解,對話型閱讀理解以及基于綜合線索的閱讀理解等。
在比賽指標上超越人類水平并不是結束,對于機器閱讀理解的“能理解會思考”的終極目標來說,也許這仍是一個全新的開始。對自然語言的更深層次的歸納、總結、推理,一定是未來機器閱讀理解不可缺少的部分;落地應用,機器閱讀理解技術在產品的精準問答、開放域的問答都能起到有力的支撐作用,未來還會有怎樣的產品讓我們收獲更多驚喜,科大訊飛將全力以赴給出答案。
哈工大訊飛聯合實驗室
哈工大訊飛聯合實驗室(HFL)是科大訊飛針對“訊飛超腦”項目計劃,重點引進和布局的核心研發團隊之一,由科大訊飛AI研究院與哈爾濱工業大學社會計算與信息檢索研究中心(HIT-SCIR)共同創辦。根據聯合實驗室建設規劃,雙方將在語言認知計算領域進行長期、深入合作,具體開展閱讀理解、自動閱卷、類人答題、人機對話、語音識別后處理、社會輿情計算等前瞻課題的研究。重點突破深層語義理解、邏輯推理決策、自主學習進化等認知智能關鍵技術,支撐科大訊飛實現從“能聽會說”到“能理解會思考”的技術跨越,并圍繞教育、司法、人機交互等領域實現科研成果的規模化應用。
哈工大訊飛聯合實驗室不僅在核心技術上持續深耕,同時也積極關注和推動中文信息處理的研究發展。在2017年和2018年,哈工大訊飛聯合實驗室先后承辦了兩屆“訊飛杯”中文機器閱讀理解評測(CMRC)受到了業界廣泛關注和各界研究人員的積極參加,并且發布了相關中文數據集,進一步促進了中文機器閱讀理解研究。今年將繼續攜手中國中文信息學會計算語言學專業委員會(CIPS-CL)承辦相關中文機器閱讀理解評測活動,持續推動中文機器閱讀理解技術的研究發展。
所獲榮譽:
1. 多次榮登國際權威機器閱讀理解評測SQuAD 1.1榜首
2. 多次榮登國際權威機器閱讀理解評測SQuAD 2.0榜首
3. 2018年2月,榮獲國際語義評測SemEval 2018閱讀理解任務冠軍
4. 2018年12月,榮獲對話型閱讀理解評測CoQA冠軍
河北省訊飛人工智能研究院
科大訊飛河北省訊飛人工智能研究院,成立于2019年1月,是科大訊飛推動人工智能戰略落地,助力京津冀區域人工智能規模化應用和產業發展重要核心研發團隊之一。研究院重點聚焦人工智能中認知智能技術,實現認知基礎前沿技術、教育認知技術、司法認知技術等技術在政務、各公共服務等領域的應用。
-
人工智能
+關注
關注
1792文章
47442瀏覽量
238991 -
數據集
+關注
關注
4文章
1208瀏覽量
24739 -
科大訊飛
+關注
關注
19文章
809瀏覽量
61339
原文標題:全球首次!科大訊飛SQuAD 2.0比賽全部指標超越人類平均水平
文章出處:【微信號:iFLYTEK1999,微信公眾號:科大訊飛】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論