在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

自然語言的語義表示學習方法與應用

MqC7_CAAI_1981 ? 來源:lp ? 2019-03-08 14:33 ? 次閱讀

引言

近年來,以深度學習為代表的表示學習技術在語音識別、圖像分析和自然語言處理(NLP)領域獲得了廣泛關注。表示學習旨在將研究對象的語義信息表示為低維稠密實值向量。表示學習得到的低維向量表示是一種分布式表示,孤立地看向量中的每一維,都沒有明確對應的含義;而綜合各維形成一個向量,則能夠表示對象的語義信息。

與更簡單的獨熱(one-hot)表示方法相比,表示學習的向量維度較低,有助于提高計算效率,同時能夠充分利用對象間的語義信息,從而有效緩解數據稀疏問題。由于表示學習的這些優點,最近出現了大量關于單詞、短語、實體、句子、文檔和社會網絡的表示學習研究。

1

自然語言的詞表示方法

在NLP 中,文本表示是一個極為關鍵的問題。最初,詞袋模型是最常用的文本表示模型之一。隨著深度神經網絡的興起,人們提出了一種新的獲得詞向量的詞嵌入(Word Embedding)方法[1-3],以解決詞匯表過大帶來的“維度爆炸”問題。詞和句子的嵌入已成為所有基于深度學習的NLP系統的重要組成部分,它們在固定長度的稠密向量中編碼單詞和句子,從而大幅度提高神經網絡處理文本數據的能力。詞向量的獲取方式可以大體分為基于統計的方法(例如基于共現矩陣、SVD)和基于語言模型[4-5] 的方法兩類。2013 年,Google 團隊發表了基于語言模型獲取詞向量的word2vec工具[6]。它的核心思想是通過詞的上下文得到詞的向量化表示,包括CBOW(通過附近詞預測中心詞)和Skip-gram(通過中心詞預測附近詞)兩種方法,以及負采樣和層次softmax 兩種近似訓練法。word2vec 的詞向量可以較好地表達不同詞之間的相似和類比關系,自提出后被廣泛應用在NLP任務中。進一步地,由于word2vec 的詞向量是固定不變的,不能有效地解決多義詞的問題,產生了根據上下文隨時變化詞向量的ELMO 模型[7]。該模型從深層的雙向語言模型的內部狀態學習得到詞的表示,能夠處理單詞用法中的復雜特性,以及這些用法在不同的語言上下文中的變化,從而解決了多義詞的問題。

2

自然語言的結構表示方法

在獲取句子或文檔的語義表示時,一段話的語義由其各組成部分的語義,以及它們之間的組合方法所確定[8]。由此,一些工作開始嘗試根據輸入的結構設計模型的結構。比如卷積神經網絡(CNN)以n-gram作為基本單位建立句子表示[9-10]。而遞歸神經網絡(Recursive Neural Network) 則根據輸入的樹結構構建句子的表示[11-12]。此外,循環神經網絡(RNN)及各種改進(如長短時記憶網絡(LSTM))被證明是有效的句子級別表示方法[13]。在此基礎上,一些更為優越的結構增強型LSTM 和之前模型的各種組合的方法也在之后被提出。事實上,LSTM 引入一個近似線性依賴的記憶單元來存儲遠距離的信息,以解決簡單RNN 的長期依賴問題。記憶單元的存儲能力和其大小有關,增加記憶單元的大小將導致網絡參數的增加。針對這種情況,產生了注意力機制和外部記憶的改進方法。其中注意力機制[14] 是近年來在NLP 任務中被廣泛應用的一種十分有效的技術,在諸多領域都展示出了其優越性。進一步地,產生了一種只基于注意力機制對序列進行表示的Transformer 結構[15]。它摒棄了固有的定式,沒有使用任何CNN 或者RNN 的結構。Transformer 可以綜合考慮句子兩個方向的信息,而且有很好的并行性質,可以大大減少訓練時間。

3

預訓練在NLP 中的應用

值得一提的是,很多自然語言特征表示方法及詞表示方法都采用一種兩階段的訓練方法,即首先在無標記數據上通過預訓練學習特征或者詞的表示;再以這些表示作為特征,在標記數據上進行監督訓練。前文所提到的word2vec 和ELMO 方法就經常被用于詞向量的預訓練。隨著深度學習在表示學習領域成為主流方法,以及Transformer等序列表示模型的發展,自然語言的表示學習從特征和詞的粒度被推廣到了更大的粒度,如短語和句子。這些深度學習模型也同樣受益于這種兩階段的訓練方法。在ELMO 之后,新的語言表征預訓練模型GPT 使用Transformer 來編碼[16], 克服了ELMO 使用LSTM 作為語言模型而帶來的并行計算能力差的缺點。而BERT 模型在采用Transformer 進行編碼的同時雙向綜合地考慮上下文特征來對詞進行預測[17]。與word2vec 和ELMO 不同,GPT 和BERT 在進行第一階段的預訓練之后只需要根據第二階段的任務對模型結構進行改造,精加工(fine-tuning)模型進行監督訓練,使之適用于具體的任務。BERT 具有很強的普適性,幾乎所有 NLP 任務都可以套用這種兩階段解決思路,并且獲得效果的明顯提升。

4

其他NLP 表示學習方法與應用

除了上文中通用的NLP 表示學習方法,自然語言仍存在很多性質需要進行深入研究。例如,漢語具有部首共享和漢字共享的特殊性質,即幾個漢字共同的部首通常是它們之間的核心語義關聯;相應地,一個漢語詞的意思可以通過其包含的漢字來表達。如圖1所示,基于部首感知和注意力機制的四粒度模型RAFG[18] 對這兩種性質加以挖掘和利用,并將這些特征系統地融入到中文文本分類的任務中,從而實現對中文文本更為準確的語義表示。

圖1:RAFG 獲得中文文本四個粒度特征的說明

此外,語言所處的環境信息(如圖像)會對語言的語義產生影響。進一步地,圖像所包含的信息可能與句子語義的不同的粒度表示有關聯。為此,如圖2所示,圖像增強的層次化句子語義表示網絡IEMLRN[19]利用圖像信息從不同粒度來增強句子的語義理解與表示,實現了更為準確的句子語義表示,以及句子對的語義關系分類。

圖2:圖像增強的層次化句子語義表示網絡IEMLRN結構

最后,語義表示技術的發展使得多媒體信息的有效建模與語義表示成為可能,進而為推薦、檢索等實際應用場景提供支撐。近年來,多媒體共享平臺取得了突飛猛進的發展。其中一種叫做“彈幕”的視頻實時評論愈發流行。為了有效理解視頻片段的內容,如圖3 所示,基于深度神經網絡的彈幕語義表征方法[20] 通過利用彈幕與視頻情節之間的關聯性,對彈幕進行表示學習,實現了對視頻片段的標注。這種方法突破了常規視頻推薦/ 檢索系統只關注整段視頻的局限性,可以滿足細粒度的要求。

圖3:基于彈幕語義表征的視頻片段標注框架會對語言的語義產生影響

5

結束語

自然語言的語義表示學習方法的發展為各種NLP 任務帶來了更多的可能性。新型網絡結構的出現使我們可以得到更加有效的語義表征。而兩階段的預訓練方法可以把大量的無標注文本利用起來,對大量的通用語言學知識進行抽取與表示,從而提升NLP 下游任務的效果。

自然語言的語義表示學習方法取得了令人矚目的成就,但在很多方面都仍值得繼續研究。無論是更強的特征抽取器還是引入大量數據中包含的語言學知識,對更加精確的語義表示都有著重要作用。盡管現有的很多NLP 任務還無法達到人類的水平, 但相信對自然語言語義表征的不斷研究、新技術的不斷出現,會創造出更豐富的成果。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 語音識別
    +關注

    關注

    38

    文章

    1739

    瀏覽量

    112659
  • 圖像分析
    +關注

    關注

    0

    文章

    82

    瀏覽量

    18679
  • 自然語言
    +關注

    關注

    1

    文章

    288

    瀏覽量

    13350

原文標題:學會原創 | 自然語言的語義表示學習方法與應用

文章出處:【微信號:CAAI-1981,微信公眾號:中國人工智能學會】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    python自然語言

    學和人工智能,但同樣受到諸如機器學習,計算統計學和認知科學這些相對新興的學科影響。python下面只要安裝自然語言工具包nltk,下面版主開始正式進入學習。Natural Language
    發表于 05-02 13:50

    NLPIR語義分析是對自然語言處理的完美理解

    和邏輯表示語義分析就是對信息所包含的語義的識別,并建立一種計算模型,使其能夠像人那樣理解自然語言語義分析是
    發表于 10-19 11:34

    自然語言處理怎么最快入門?

    `本文整理自知乎上的一個問答,分享給正在學習自然語言處理的朋友們!一、自然語言處理是什么?自然語言處理說白了,就是讓機器去幫助我們完成一些
    發表于 11-28 10:02

    語義理解和研究資源是自然語言處理的兩大難題

    兩方面,語義理解和資源問題。 語義理解包括對自然語言知識和常識的學習,如果只是要學習機器的知識,對于人類來說并不難,但是如果讓機器掌握人的思
    發表于 09-19 14:10

    自然語言處理的分詞方法

    自然語言處理——75 自動分詞基本算法
    發表于 03-19 11:46

    自然語言處理的詞性標注方法

    自然語言處理——78 詞性標注方法
    發表于 04-21 11:38

    自然語言處理之66參數學習

    自然語言處理——66參數學習
    發表于 07-16 09:43

    什么是自然語言處理

    什么是自然語言處理?自然語言處理任務有哪些?自然語言處理的方法是什么?
    發表于 09-08 06:51

    什么是自然語言處理_自然語言處理常用方法舉例說明

    自然語言處理是計算機科學領域與人工智能領域中的一個重要方向。它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法自然語言處理是一門融
    發表于 12-28 16:56 ?1.8w次閱讀
    什么是<b class='flag-5'>自然語言</b>處理_<b class='flag-5'>自然語言</b>處理常用<b class='flag-5'>方法</b>舉例說明

    閑談深度學習自然語言處理領域的5大關鍵優勢

    自然語言處理領域,深度學習將給予最大的幫助,深度學習方法主要依靠一下這五個關鍵優勢,閱讀本文將進一步了解自然語言處理的重要深度學習方法和應
    發表于 01-12 16:00 ?4381次閱讀

    采用深度學習自然語言處理進行分類

    用深度學習自然語言處理(NLP)進行分類
    的頭像 發表于 11-05 06:51 ?3230次閱讀

    如何學習自然語言處理NLP詳細學習方法說明

    這篇文章是一名自然語言處理(nlp)的初學者,在nlp里摸爬滾打了許久的一些心得,推薦了nlp的學習路線和資料合集,本站極力推薦。
    的頭像 發表于 03-03 11:05 ?5712次閱讀

    自然語言處理(NLP)的學習方向

    自然語言處理(Natural Language Processing,NLP)是計算機科學領域與人工智能領域中的一個重要方向。它研究人與計算機之間用自然語言進行有效通信的理論和方法。融語言
    的頭像 發表于 07-06 16:30 ?1.3w次閱讀

    一窺AMR圖譜在自然語言處理中的應用

    TreeBank 作為自然語言語法的結構化表示可謂廣為人知,其實在語義層面也有一種類似的結構化方法——抽象語義
    的頭像 發表于 09-05 14:22 ?1845次閱讀

    自然語言處理與機器學習的關系 自然語言處理的基本概念及步驟

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能和語言學領域的一個分支,它致力于研究如何讓計算機能夠理解、解釋和生成人類語言。機器學習(Ma
    的頭像 發表于 12-05 15:21 ?483次閱讀
    主站蜘蛛池模板: 爱爱欧美| 久久久久久人精品免费费看| 久久久福利| 亚洲视频一区二区三区| 日韩中文字幕电影| www亚洲一区| 色爱区综合激情五月综合激情| 亚洲欧美成人综合久久久| 黄色地址| 操操操插插插| 新激情五月| 2022第二三四天堂网| jdav视频在线观看| 色视频欧美| 午夜视频免费| 视频在线观看一区二区三区| 欧美一级特黄aaaaaaa在线观看| 午夜免费片在线观看不卡| 亚洲免费毛片| 美国激情ap毛片| 国内精品久久久久久久久野战| 在线网站你懂| 国产三级免费观看| 狼狼鲁狼狼色| 人人干视频| wwwwwww色| 国产成人精品高清在线| 欧美乱xxxxxxxxx| 人阁色第四影院在线观看| 久久美女视频| 午夜免费视频福利集合100| 天天视频一区二区三区| 男女网站在线观看| 九色视频在线看| 四虎影视网站| 天天爱天天插| 亚洲2020天天堂在线观看| 中文网丁香综合网| 狠狠色噜噜噜噜狠狠狠狠狠狠奇米| 狠狠色依依成人婷婷九月| 黄色网在线|