在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

關于三篇論文中自然語言研究進展與發展方向詳解

深度學習自然語言處理 ? 來源:復旦DISC ? 作者:姚倩媛 ? 2021-03-30 16:11 ? 次閱讀

引言

自然語言理解(Natural Language Understanding,NLU)是希望機器像人一樣,具備正常人的語言理解能力,是人機對話系統中重要的組成部分。NLU主要包括兩大任務,分別是意圖識別(Intent Detection)和槽填充(Slot Filling)。其中,意圖識別就是判斷用戶的意圖,是一個文本分類的問題;槽填充是識別句子中重要的語義成分,常建模成序列標注的任務。

本次分享EMNLP2020中的三篇和NLU相關的文章,介紹這個領域目前的研究進展和關注方向。

文章概覽

SlotRefine: A Fast Non-Autoregressive Model for Joint Intent Detection and Slot Filling

論文提出了一個非自回歸的意圖識別和槽填充聯合模型,該模型以Transformer為基本結構,使用兩階段迭代機制顯著地提高了模型性能和模型速度。

論文地址:https://www.aclweb.org/anthology/2020.emnlp-main.152

Incremental Processing in the Age of Non-Incremental Encoders: An Empirical Assessment of Bidirectional Models for Incremental NLU

論文提出了三種適用于增量NLU任務的評價指標,探究了目前非增量編碼器在增量系統中的模型性能。

論文地址:https://www.aclweb.org/anthology/2020.emnlp-main.26

End-to-End Slot Alignment and Recognition for Cross-Lingual NLU

論文提出了用于一種跨語言自然語言理解的端到端槽位標簽對齊和識別模型,該模型運用注意力機制將目標語言文本表示和源語言的槽位標簽軟對齊,并且同時預測意圖和槽標簽。

論文地址:https://www.aclweb.org/anthology/2020.emnlp-main.410/

1論文細節

f2488e5e-8e8e-11eb-8b86-12bb97331649.png

論文動機

以往的自然語言理解模型大多依賴于自回歸的方法(例如,基于RNN的模型或seq2seq的架構)來捕捉話語中的語法結構,并且在槽填充任務中常使用條件隨機場(CRF)模塊來確保序列標簽之間的合理性。然而本文作者發現,對于槽填充任務而言,從槽塊之間建模依賴關系就足以滿足任務需要,而使用自回歸的方法對整個序列的依賴關系建模會導致冗余計算和高延遲。因此作者使用非自回歸的方法來建模意圖識別和槽填充兩個任務,從而消除非必要的時間依賴,并且采用兩階段迭代機制來處理由于條件獨立性導致的槽標簽之間的不合理問題。

模型

模型主要包括兩個方面,分別是非自回歸的聯合模型以及兩階段改善機制。

非自回歸的聯合模型

模型使用了《Attention is all you need》(Vaswani等人, 2017)這篇論文中提出的Transformer模型的encoder部分作為本文模型編碼層的主要結構。與原始Transformer不同的是,作者將絕對位置編碼改為相對位置表示來建模文本序列信息

對于每個輸入的文本序列,都會在初始位置添加一個特殊的符號“CLS”來表示句子信息。文本序列的輸入為,經過Multi-Head Self Attention編碼后得到輸出向量為 。其中,向量將用于意圖分類,將和每個時刻的拼接用于對應的槽位預測。意圖識別和槽填充的計算公式如下:

聯合模型的任務目標是通過優化交叉熵損失函數來最大化條件概率分布:

與自回歸模型不同的是,這個模型中每個槽位預測可以并行優化,由此提高了模型速度。

兩階段改善機制

由于槽位標簽之間的條件獨立性,上述非自回歸聯合模型難以捕獲每個槽位塊之間的依賴關系,從而導致一些槽位標簽不合理現象。如下圖所示,根據BIO標簽規則,“I-song”并不能跟在“B-singer”后面。

f320fe4c-8e8e-11eb-8b86-12bb97331649.png

因此,作者提出兩階段的迭代機制,使用兩次槽位預測的方法來改善這個問題。模型的輸入除了文本信息之外,還有槽位標簽信息,初始化的槽位標簽均為“O”。在第一階段,模型的目標是預測每個槽塊的起始標簽“B-tags”,在第二階段,預測的“B-tags”將作為相應槽位標簽的輸入,由此,模型可以進一步預測出“B-tags”后面對應的標簽。兩階段的改善機制可以看作是自回歸與非自回歸之間的權衡,其中完整的馬爾可夫過程可以表示為:

其中,是第一階段的槽標簽預測結果。

實驗

實驗使用的數據集是NLU領域兩個經典的公開數據集:ATIS(Tur等人,2010)和Snips(Coucke等人,2018)。作者將本文模型與六種意圖識別和槽填充聯合模型進行了比較。結果如下:

f3b153ca-8e8e-11eb-8b86-12bb97331649.png

由上表可知,本文模型SlotRefine在ATIS數據集上取得了最佳效果,在槽填充F1值、意圖識別準確率和句子層面準確率三個指標上均超過了現有模型。在Snips數據集上,模型效果沒有Stack-Propagation好。從消融實驗結果看到,在非自回歸聯合模型上加入CRF層會有效提高槽填充任務的性能,但會降低意圖識別準確率和句子層面準確率,而本文提出的兩階段改善機制則可以顯著提高模型效果。

f42ef956-8e8e-11eb-8b86-12bb97331649.png

作者還比較了模型速度上的改進效果,由上表可知,在ATIS數據集上,與現有的最優模型Stack-Propagation相比,本文提出的模型SlotRefine的速度提高了4.31倍。由于每個槽標簽均可以并行計算,因此模型的推理延遲可以顯著減少。

f490a552-8e8e-11eb-8b86-12bb97331649.png

2論文動機

增量學習是指模型能夠不斷地處理現實世界中連續的信息流,在吸收新知識的同時保留甚至整合、優化舊知識的能力。在NLP領域,增量處理方式在認知上更加合理,并且在工程層面,一些實時應用(如自然語言理解、對話狀態追蹤、自然語言生成、語音合成和語音識別)要求在一定時間步長的部分輸入的基礎上必須提供部分輸出。雖然人類使用增量的方式處理語言,但目前在NLP中效果最好的語言編碼器(如BiLSTM和Transformer)并不是這樣的。BiLSTM和Transformer均假定編碼的整個序列是完全可用的,可以向前或向后處理(BiLSTM),也可以作為一個整體處理(Transformer)。本文主要想探究這些非增量模型在增量系統下的效果,作者在不同的NLU數據集上實驗了五個非增量模型,并使用三個增量評估指標比較它們的性能。

增量系統評價指標

增量系統可以通過添加、撤銷和替換輸出部分來編輯輸出。一個效果良好的增量系統應當能夠盡快產生準確的輸出,并且撤銷和替換要盡可能少。由此,本文提出三個評價指標:編輯開銷、校正時間和相對正確性。

編輯開銷(Edit Overhead,EO):不必要的編輯比例,范圍在0-1之間,越接近于0,說明編輯越少。

校正時間(Correction Time,CT):系統提交某一輸出內容的最終決策之前所花的時間,范圍在0-1之間,越接近于0,說明系統越快做出最終決策。

相對正確性(Relative Correctness,RC):輸出相對于非增量輸出時正確的比例,范圍在0-1之間,越接近于1表示系統的輸出大部分時刻下都是非增量輸出的正確前綴。

作者以詞性標注任務為例展示了三個評價指標的計算過程。如下圖所示:

f4edd3bc-8e8e-11eb-8b86-12bb97331649.png

模型

作者一共探究了五種非增量模型在增量系統中的表現,分別是:(a) LSTM模型;(b)BiLSTM模型;(c)LSTM+CRF;(d)BiLSTM+CRF;(e)BERT。其中,(a)、(b)、(e)模型同時用于序列標注和文本分類任務,(c)和(d)模型只用于序列標注任務。

本文探索了三種策略的效果,分別是截斷訓練、延遲輸出和語言:

截斷訓練(truncated training):去掉訓練集中每個句子的結尾來修改訓練機制。

延遲輸出(delayed output):允許模型在輸出當前時刻單詞的標簽之前觀察后續1-2個時刻的單詞。

語言(prophecies):使用GPT-2語言模型將每個時刻的輸入前綴作為左上下文,并由此生成一個持續到句子末尾的文本,創建一個假設的完整上下文,以滿足模型的非增量特性的需要。如下圖所示:

f5f0d408-8e8e-11eb-8b86-12bb97331649.png

實驗

作者一共在十個英文數據集上進行了實驗,六個數據集用于序列標注任務:組塊分析(Chunk)、槽填充(Slot Filling (ATIS)和Slot Filling (SNIPS))、命名實體識別(NER)、詞性標注(Part-of-Speech Tagging) 、語義角色標注(Semantic Role Labeling);四個數據集用于文本分類任務:意圖識別(Intent (ATIS)和Intent (SNIPS))、情感分析(Positive/Negative和Pros/Cons)。其中,Chunking、NER、SRL和Slot Filling均使用BIO標簽體系并且使用F1值進行評估,其他的任務使用準確率評價。

五種模型在上述數據集上的實驗結果如下所示,括號里代表使用了截斷訓練的結果。從中可知,大部分情況下BiLSTM比LSTM效果好;BERT可以提升所有任務性能;截斷訓練后模型性能都有所下降,但BERT仍優于其他所有模型。整體來說,目前的非增量編碼器可以適應在增量系統下使用,其性能產生不會有太大影響。

f64ab446-8e8e-11eb-8b86-12bb97331649.png

模型在三個增量系統的評價指標上的表現結果如下所示。從中可以發現,除BERT外,模型在序列標注任務的編輯開銷和校正時間均較低;在文本分類中,由于往往需要捕捉全局信息,編輯開銷和校正時間均較高;對于相對正確性這個指標,在序列標注任務中BERT比其他模型效果都差,在文本分類任務中性能差不多。

f6ba4888-8e8e-11eb-8b86-12bb97331649.png

作者還探究了不同策略的效果,從圖中可知,截斷訓練可以有效減少編輯開銷,提高相對正確性;預言對于文本分類任務有負面作用,但對于一些序列標注任務可能有效。BERT模型在增量評價指標上的缺陷可以通過這些策略得到一定緩解,從而使其在增量系統下的模型效果與其他模型一樣好。

f741cf60-8e8e-11eb-8b86-12bb97331649.png

3

f7adfbb8-8e8e-11eb-8b86-12bb97331649.png

論文動機

NLU可以將話語解析成特定的語義框架,以識別用戶的需求。雖然目前神經網絡模型在意圖檢測和槽填充方面取得了很高的準確性,在兩個公開的英文數據集上模型的效果已經達到95%以上,但如果使用一種新的語言訓練這樣的模型仍需要大量的數據和人工標注工作。因此考慮通過跨語言學習將模型從高資源語言遷移到低資源語言,從而減少數據收集和標注的工作量。

跨語言遷移學習主要有兩種方式:一種是使用多語言模型來實現語言的遷移,例如multilingual BERT;另一種是通過機器翻譯的方式先統一語言類型,雖然它在跨語言文本分類上取得了很好的效果,但在序列標注任務上存在一些挑戰,源語言的標簽需要映射到目標語言中,而如果兩個語言差別較大,則較難找到良好的映射關系。

目前跨語言NLU任務中存在一些挑戰:(1)可以使用的數據集(Multilingual ATIS)僅支持三種語言,語言類型不足;(2)現有的模型使用機器翻譯和槽標簽投影的方法將NLU系統擴展到新語言中,這種方法對標簽投影錯誤很敏感。

因此,這篇文章發布了一個新的跨語言NLU數據庫(MultiATIS++),探索了不同的跨語言遷移方法的效果,并且提出了一種新的端到端模型,該模型可以對目標語言槽標簽進行聯合對齊和預測,以實現跨語言遷移。

數據集

MultiATIS++數據集在Multilingual ATIS數據集基礎上新增了六種語言,共覆蓋九種語言,并對每種語言人工打上槽位標簽(使用BIO標簽體系)。數據集樣例和數據集的描述特征如下所示:

f81e3392-8e8e-11eb-8b86-12bb97331649.png

f880ac48-8e8e-11eb-8b86-12bb97331649.png

模型

f905679e-8e8e-11eb-8b86-12bb97331649.png

上圖為作者提出的端到端槽對齊和識別模型,使用Attention機制將目標語言表示與源語言槽標簽進行軟對齊,模型直接將編碼器模塊連接到意圖和槽分類層,對目標語言同時預測意圖和槽標簽。該模型使用額外的Attention層來同時完成槽標簽對齊和識別任務,不需要額外的槽標簽投影過程。

記為源語言文本序列,為目標語言文本序列,源語言文本經過Embedding之后得到向量表示,目標語言經過Embedding和Encoder后得到上下文表示,其中是額外添加的符號,用于表示目標語言句子表示。意圖識別任務的公式如下:

對于槽填充任務,先計算目標語言和源語言的注意力向量,然后再進行目標語言的槽位預測,其公式如下:

此外,作者還提出了一個重構模塊來提高目標語言和源語言的對齊效果:

意圖識別、槽填充和重構模塊的損失函數如下所示,模型的損失函數為三者相加:

實驗結果

Multilingual NLU

作者使用multilingual BERT預訓練模型作為encoder,并比較了僅使用目標語言進行NLU和使用全部的語言進行NLU時監督訓練的效果。如圖所示,BERT相比于LSTM在不同語言上均能顯著提高模型性能,并且多語言監督訓練能進一步提高模型性能。

f9a0b708-8e8e-11eb-8b86-12bb97331649.png

Cross-Lingual Transfer

作者比較了不同的跨語言遷移學習方法,其中源語言是英語,目標語言共有八種。實驗結果和模型速度如下所示:

fa584d82-8e8e-11eb-8b86-12bb97331649.png

fb170998-8e8e-11eb-8b86-12bb97331649.png

MT+soft-align是本文提出的模型,在八個目標語言數據集中,有五個語言本文模型相比于MT+fast-align的效果更好,并且在意圖識別和槽填充任務中本文模型的魯棒性更強。本文模型的速度明顯優于MT+TMP模型,在模型性能上,意圖識別任務中,本文模型在六個語言上表現更好,槽填充任務中,本文模型在四個語言上表現更佳。綜合模型性能和模型速度,端到端的槽標簽軟對齊和識別模型在跨語言NLU任務上具有一定優勢。

參考文獻

[1] Vaswani A , Shazeer N , Parmar N , et al. Attention Is All You Need[J]。 arXiv, 2017.

[2] Tur G , Hakkani-Tur D , Heck L 。 What is left to be understood in ATIS?[C]// Spoken Language Technology Workshop (SLT), 2010 IEEE. IEEE, 2011.

[3] Coucke A , Saade A , Ball A , et al. Snips Voice Platform: an embedded Spoken Language Understanding system for private-by-design voice interfaces. 2018.
編輯:lyn

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 識別模型
    +關注

    關注

    0

    文章

    5

    瀏覽量

    6754
  • 自然語言
    +關注

    關注

    1

    文章

    288

    瀏覽量

    13360

原文標題:【論文分享】EMNLP 2020 自然語言理解

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    自然語言處理與機器學習的關系 自然語言處理的基本概念及步驟

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能和語言學領域的一個分支,它致力于研究如何讓計算機能夠理解、解釋和生成人類語言。機器學習(Ma
    的頭像 發表于 12-05 15:21 ?526次閱讀

    語音識別與自然語言處理的關系

    在人工智能的快速發展中,語音識別和自然語言處理(NLP)成為了兩個重要的技術支柱。語音識別技術使得機器能夠理解人類的語音,而自然語言處理則讓機器能夠理解、解釋和生成人類語言。這兩項技術
    的頭像 發表于 11-26 09:21 ?453次閱讀

    ASR與自然語言處理的結合

    ASR(Automatic Speech Recognition,自動語音識別)與自然語言處理(NLP)是人工智能領域的兩個重要分支,它們在許多應用中緊密結合,共同構成了自然語言理解和生成的技術體系
    的頭像 發表于 11-18 15:19 ?446次閱讀

    自然語言處理與機器學習的區別

    在人工智能的快速發展中,自然語言處理(NLP)和機器學習(ML)成為了兩個核心的研究領域。它們都致力于解決復雜的問題,但側重點和應用場景有所不同。 1. 自然語言處理(NLP) 定義:
    的頭像 發表于 11-11 10:35 ?635次閱讀

    自然語言處理前饋網絡綜述

    多層感知器(MLP)和卷積神經網絡(CNN),在這一領域扮演著關鍵角色。以下是對自然語言處理前饋網絡的詳細闡述,包括其基本原理、在NLP中的應用、優勢、挑戰以及未來發展方向
    的頭像 發表于 07-12 10:10 ?329次閱讀

    用于自然語言處理的神經網絡有哪些

    自然語言處理(Natural Language Processing, NLP)是人工智能領域的一個重要分支,旨在讓計算機能夠理解和處理人類語言。隨著深度學習技術的飛速發展,神經網絡模型在NLP領域
    的頭像 發表于 07-03 16:17 ?1290次閱讀

    自然語言處理技術有哪些

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能領域的一個分支,它致力于使計算機能夠理解、解釋和生成人類語言自然語言處理技術的發展已經取得
    的頭像 發表于 07-03 14:30 ?1202次閱讀

    自然語言處理模式的優點

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能領域的一個重要分支,它致力于使計算機能夠理解、生成和處理人類語言。隨著技術的發展自然語言
    的頭像 發表于 07-03 14:24 ?810次閱讀

    自然語言處理技術的核心是什么

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能領域的一個重要分支,其核心目標是使計算機能夠理解、生成和處理人類語言。NLP技術的發展已經取得了顯著的
    的頭像 發表于 07-03 14:20 ?792次閱讀

    自然語言處理是什么技術的一種應用

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能和語言學領域的一個分支,它涉及到使用計算機技術來處理、分析和生成自然語言文本。自然語言處理技
    的頭像 發表于 07-03 14:18 ?987次閱讀

    自然語言處理包括哪些內容

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能領域的一個重要分支,它涉及到計算機與人類語言之間的交互。NLP的目標是讓計算機能夠理解、生成和處理人類語言
    的頭像 發表于 07-03 14:15 ?982次閱讀

    自然語言處理屬于人工智能的哪個領域

    之間的交互,旨在使計算機能夠理解、生成和處理自然語言自然語言處理:人工智能的皇冠上的明珠 引言 人工智能作為一門跨學科的研究領域,涵蓋了計算機科學、數學、心理學、語言學等多個學科。
    的頭像 發表于 07-03 14:09 ?1400次閱讀

    什么是自然語言處理 (NLP)

    自然語言處理(Natural Language Processing, NLP)是人工智能領域中的一個重要分支,它專注于構建能夠理解和生成人類語言的計算機系統。NLP的目標是使計算機能夠像人類一樣
    的頭像 發表于 07-02 18:16 ?1216次閱讀

    自然語言處理技術的原理的應用

    自然語言處理(Natural Language Processing, NLP)作為人工智能(AI)領域的一個重要分支,旨在使計算機能夠理解和處理人類自然語言。隨著互聯網的普及和大數據技術的發展
    的頭像 發表于 07-02 12:50 ?544次閱讀

    神經網絡在自然語言處理中的應用

    自然語言處理(NLP)是人工智能領域中的一個重要分支,它研究的是如何使計算機能夠理解和生成人類自然語言。隨著人工智能技術的飛速發展,神經網絡在自然語
    的頭像 發表于 07-01 14:09 ?529次閱讀
    主站蜘蛛池模板: 色播六月| 欧洲一级鲁丝片免费| 2015xxxx欧美| www.午夜色| ⅹxxxx68日本老师hd| 91成人在线免费视频| 亚洲一区在线视频观看| 亚洲国产精品丝袜在线观看| 欧美a欧美| 福利三区| 天天摸日日添狠狠添婷婷| 色妞色综合久久夜夜| 欧美性猛交xxxxbbbb| 国模最新私拍视频在线观看| 成人xxxxx| 亚洲精品mv在线观看| 日韩基地1024首页| www射com| 欧美午夜寂寞影院安卓列表| 亚洲电影二区| 人人插人人爱| 很狠操| 亚洲视频在线视频| 久草福利在线播放| 68日本xxxxxxxxx| 亚洲综合天堂网| 日本免费的一级绿象| 国产卡1卡2卡三卡网站免费| 天天射天天射天天射| 奇米影视亚洲春色77777| 玖玖国产在线观看| 四虎影院在线免费播放| 黄色一级片播放| 天天添天天射| 免费视频h| 亚洲人与牲动交xxxxbbbb| 欧美日韩国产另类一区二区三区| 丁香午夜| 国产小视频在线高清播放| 亚洲 欧洲 日产 韩国在线| 天天色综合久久|