在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NLP:序列標注

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:CS的陋室 ? 2021-01-13 09:46 ? 次閱讀

0 小系列初衷

自己接觸的項目大都是初創,沒開始多久的項目,從0到1的不少,2020年快結束,感覺這個具有一定個人特色的技術經驗可以在和大家分享一下。

計劃篇章:

(已完成)文本分類篇。針對NLP文本分類任務。

序列標注(NER)篇。針對命名實體識別、序列標注任務。

文本匹配篇。針對語義相似度計算、向量匹配等問題。

人工特征學習篇。針對多特征的機器、深度學習方案。

1 序列標注的場景

文本分類是對整個句子的把握,而NER就是深入到句子內部,對句子的局部進行深入分析,這個粒度的分析往往更為精準詳盡,當然難度也會更高,下面列舉幾個比較常見的場景:

搜索、對話的實體、關系抽取。

搜索的關鍵詞抽取,詞權重問題。

糾錯的錯誤檢測

總而言之,只要是抽取局部信息,那其實就可以抽象為序列標注了。

嚴謹起見,來個專業點的定義吧:

給定一個序列(含特征),預測一組和序列一一對應的結果,這種預測就是序列標注。

2 方案選型——通用方法

之所以把序列標注放一起,是因為問題類似,既然問題類似,那其實就可以找到通式通法來解決,所以先給大家說一些比較通用的方法。大家也把序列標注問題帶入來分析計算,其實很多的解法很類似。

2.1 非模型操作

常見的兩個非模型操作,直接通過規則或者詞典的模式:

通過配置句式,用正則表達式的方式來抽取。

運用詞典,用最大逆向匹配來完成。之前寫過文章:NLP.TM[29] | ner自動化打標方法

當然了這種非模型操作的優缺點點也是很明顯,之前也聊過不少了:

優點:

高準確。

方便快捷。

缺點:

召回低,泛化能力弱。

2.2 模型操作

模型往往是泛化能力較強的,規則和模板無法滿足召回的情況下,我們就需要模型來處理了。序列標注需要對序列依賴要求很高,所以比較推薦大家用抽取序列特征的模型來處理。

HMM、CRF。序列標注的經典操作,有關CRF,我之前還寫過長文討論過:NLP.TM[19] | 條件隨機場知識整理(超長文!)。

BiLSTM-CRF,之前也提到過,能上深度的情況下,這個的基線效果還是比較強的。NLP.TM | 命名實體識別基線 BiLSTM+CRF(上),NLP.TM | 命名實體識別基線 BiLSTM+CRF(下)

Bert-CRF。超級大的模型,整體效果是還不錯的。

和上次一樣,也是介紹3個,只要數據質量足夠好,準招七八十是沒什么大問題的,如果效果不好,往往是因為數據之類的原因導致的,此時我們該做的就是精煉數據集,只有足夠數量和質量的數據,模型的效果才會好。

而相比文本分類任務,NER的樣本往往更加難得,但是小樣本還是可以通過人工標注、挖掘等方式獲取,然后通過數據增強的方式來拓展出更多有代表性的query。

當然了,序列標注是一個很廣義的問題,有一些特異的任務需要有特異的方法。

2.3 關鍵詞抽取

有關關鍵詞抽取,其實我在原來的文章就講過,文章在這里:NLP.TM[20] | 詞權重問題,這里可以考慮這幾個方案:

預訓練的IDF詞典,例如jieba的。

很多關鍵詞抽取的任務都有場景特色,jieba那種通用的不適合,根據自己的數據自己訓一個,可能是最簡單的,自己手寫也不太累的模型訓練了。

如果數據和特征夠多,學美團的方案(前沿重器[2] | 美團搜索理解和召回)自己訓一個機器學習模型或者用深度學習整一個關鍵詞抽取的序列標注模型。

2.4 糾錯的錯誤檢測

在現在比較前沿的技術里,糾錯其實已經是一整個完整的模塊,被拆分為錯誤檢測、候選召回、召回排序三步,其中的錯誤檢測就是為了找到句子中可能出錯的部分,這里其實就可以抽象為序列標注問題,當然用模型的方式來處理肯定是可以的,不過這同樣需要大量的標注數據才能解決,相比之下,獲取一批正常的語料還是很簡單的,這些預料可以訓練語言模型,通過語言模型來判斷句子中是否存在通順程度異常的位點,這塊詳情大家可以看看我之前的文章,尤其是第一篇。

NLP.TM[33] | 糾錯:pycorrector的錯誤檢測

NLP.TM[34] | 糾錯:pycorrector的候選召回

NLP.TM[35] | 糾錯:pycorrector的候選排序

NLP.TM[37] | 深入討論糾錯系統

3 效果調優

有關效果調優,上面其實多多少少聊了很多,這里簡單總結一下吧。

無監督方案還是要多用,畢竟有監督方法需要足量,無論是數量還是質量,的數據。

如果實在需要有監督模型,但受限于數據,可以通過數據增強的方式挖掘到一批質量還行的數據。NLP.TM[32] | 淺談文本增強技術

從關鍵詞抽取和糾錯的錯誤檢測中其實可以看到,解決序列標注的思路還是很豐富的,大家要注意多積累。

4 其他想說的

在這次總結里,一方面是仍然強烈感受到對方案和數據把控的重要性,尤其在序列標注這個問題下,足量的標注數據是模型使用的先決條件,因此對數據的管理和優化非常重要。另外,序列標注需要對句子中的每個字/詞都要標注,這個標注數據是真的不好拿,因此需要我們對無監督、非模型的方法也有足夠的了解,如果排期足夠,這種無監督非模型的方案是可以作為有監督模型數據的標注的,沒有時間,無監督非模型的方法也可以作為基線直接上線,這個也很好。最后一點事,我感覺我對前沿方案的把控還需要提升,這一輪輸出完成后,我可能要開始對前沿方案重新調研升級,從而升級自己的武器庫。

責任編輯:xj

原文標題:任務方案思考:序列標注(NER)篇

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 序列
    +關注

    關注

    0

    文章

    70

    瀏覽量

    19581
  • 自然語言處理

    關注

    1

    文章

    619

    瀏覽量

    13599
  • nlp
    nlp
    +關注

    關注

    1

    文章

    489

    瀏覽量

    22064

原文標題:任務方案思考:序列標注(NER)篇

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    AI自動圖像標注工具SpeedDP將是數據標注行業發展的重要引擎

    AI大浪潮下,許多企業都在不斷借助AI來提升自己的行業競爭力,數據標注企業也不例外,傳統人工標注效率不足的弊端困擾了多年,如今新的“引擎”就在眼前,他們當然不會放過這個機會。針對這樣的需求,慧視光電
    的頭像 發表于 01-02 17:53 ?146次閱讀
    AI自動圖像<b class='flag-5'>標注</b>工具SpeedDP將是數據<b class='flag-5'>標注</b>行業發展的重要引擎

    標貝數據標注在智能駕駛訓練中的落地案例

    標貝科技深耕AI數據服務多年,在無人駕駛、自動駕駛等智能駕駛領域擁有豐富的合作案例。多次采用點云標注以及3D&2D融合等標注方式為智能駕駛領域客戶提供環境感知、決策策劃、車道線標注、障礙物監測、道路標志牌
    的頭像 發表于 12-24 15:17 ?524次閱讀
    標貝數據<b class='flag-5'>標注</b>在智能駕駛訓練中的落地案例

    淺析基于自動駕駛的4D-bev標注技術

    4D-bev標注技術是指在3D空間中以時間作為第四個維度進行標注的過程。4D-bev通常在地場景較為復雜的自動駕駛場景中使用,其可以通過精準地跟蹤和記錄動態對象的運動軌跡、姿勢變化以及速度等信息,全面理解和分析動態對象在連續的時間序列
    的頭像 發表于 12-06 15:01 ?1272次閱讀
    淺析基于自動駕駛的4D-bev<b class='flag-5'>標注</b>技術

    【「時間序列與機器學習」閱讀體驗】全書概覽與時間序列概述

    Series)與自然語言處理(Natural Language Processing,NLP)別屬于不同的研究領域,但是二者有著一定的相似之處,見下表。時間序列分析與自然語言處理、計算機視覺在許多方面都有聯系
    發表于 08-07 23:03

    nlp邏輯層次模型的特點

    層次是NLP邏輯層次模型的最底層,主要關注單個詞匯的意義和用法。在這個層次上,模型需要識別和理解詞匯的基本屬性,如詞性、詞義、詞形變化等。詞匯層次的特點包括: a. 詞性標注:識別文本中每個詞匯的詞性,如名詞、動詞、形容詞等。
    的頭像 發表于 07-09 10:39 ?427次閱讀

    nlp神經語言和NLP自然語言的區別和聯系

    神經語言(Neuro-Linguistic Programming,NLP) 神經語言是一種心理學方法,它研究人類思維、語言和行為之間的關系。NLP的核心理念是,我們可以通過改變我們的思維方式和語言
    的頭像 發表于 07-09 10:35 ?816次閱讀

    nlp自然語言處理框架有哪些

    自然語言處理(Natural Language Processing,簡稱NLP)是計算機科學和人工智能領域的一個重要分支,它致力于使計算機能夠理解和處理人類語言。隨著技術的發展,NLP領域出現了
    的頭像 發表于 07-09 10:28 ?594次閱讀

    nlp自然語言處理的主要任務及技術方法

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能和語言學領域的一個分支,它研究如何讓計算機能夠理解、生成和處理人類語言。NLP技術在許多領域都有廣泛
    的頭像 發表于 07-09 10:26 ?1250次閱讀

    nlp自然語言處理模型怎么做

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能領域的一個重要分支,它涉及到計算機對人類語言的理解和生成。隨著深度學習技術的發展,NLP領域取得了顯著
    的頭像 發表于 07-05 09:59 ?675次閱讀

    nlp自然語言處理的應用有哪些

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能領域的一個分支,它致力于使計算機能夠理解和生成自然語言。隨著技術的發展,NLP已經在許多領域得到了廣泛
    的頭像 發表于 07-05 09:55 ?2720次閱讀

    NLP技術在機器人中的應用

    在人工智能的廣闊領域中,自然語言處理(NLP)技術作為連接人類語言與機器智能的橋梁,正逐漸滲透到我們日常生活的方方面面,其中機器人技術便是一個尤為突出的應用領域。NLP技術不僅賦予了機器人理解
    的頭像 發表于 07-04 16:04 ?538次閱讀

    NLP技術在人工智能領域的重要性

    在自然語言處理(Natural Language Processing, NLP)與人工智能(Artificial Intelligence, AI)的交織發展中,NLP技術作為連接人類語言與機器
    的頭像 發表于 07-04 16:03 ?625次閱讀

    NLP模型中RNN與CNN的選擇

    在自然語言處理(NLP)領域,循環神經網絡(RNN)與卷積神經網絡(CNN)是兩種極為重要且廣泛應用的網絡結構。它們各自具有獨特的優勢,適用于處理不同類型的NLP任務。本文旨在深入探討RNN與CNN
    的頭像 發表于 07-03 15:59 ?581次閱讀

    什么是自然語言處理 (NLP)

    自然語言處理(Natural Language Processing, NLP)是人工智能領域中的一個重要分支,它專注于構建能夠理解和生成人類語言的計算機系統。NLP的目標是使計算機能夠像人類一樣
    的頭像 發表于 07-02 18:16 ?1266次閱讀

    led發光模塊的地線可以標注為什么

    LED發光模塊是一種常見的電子元件,用于將電能轉化為光能。地線是模塊中一個重要的接線點,起到連接模塊與地面的作用,以確保電路的正常工作。本文將詳細介紹LED發光模塊的地線標注的原因和意義,以及
    的頭像 發表于 01-24 14:53 ?829次閱讀
    主站蜘蛛池模板: 欧美 亚洲 国产 精品有声| 亚洲免费观看在线视频| 天天做天天爱天天一爽一毛片| 亚洲aa| 亚洲一区 在线播放| 黄网页在线观看| 在线精品国产成人综合第一页| 日本欧美一区二区三区免费不卡| 精品成人毛片一区二区视| 2o18国产大陆天天弄| 婷婷六月丁香午夜爱爱| 天天色成人网| 亚洲人xx视频| 日日噜噜噜夜夜爽爽狠狠图片| 免费视频久久看| 成人av在线电影| 天天爱天天插| 在线观看免费午夜大片| 男女一进一出无遮挡黄| 天天色综合久久| 看片地址| 天天摸天天干天天操| 宅宅午夜亚洲精品| 日本xxxxbbbb| 日本人xxxxxxxxxⅹ69| 国产成人毛片亚洲精品不卡| 午夜免费的国产片在线观看| 伊人蕉久| 日本特黄特色| 第九色| 久久黄色录像| 精品免费视在线视频观看| 黄色大秀| 亚洲国产成人久久一区久久| 欧美色图俺去了| 777777777妇女亚洲| 国产精品青草久久久久福利99 | 欧美一区二区三区大片| 欧美色a电影精品aaaa| 国产精品国产主播在线观看| 欧美一级免费|