在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

自然語言基礎(chǔ)技術(shù)之命名實(shí)體識(shí)別相對(duì)全面的介紹

8g3K_AI_Thinker ? 來源:lp ? 2019-04-17 10:12 ? 次閱讀

本文對(duì)自然語言基礎(chǔ)技術(shù)之命名實(shí)體識(shí)別進(jìn)行了相對(duì)全面的介紹,包括定義、發(fā)展歷史、常見方法、以及相關(guān)數(shù)據(jù)集,最后推薦一大波 Python 實(shí)戰(zhàn)利器,并且包括工具的用法。

01

定義

先來看看維基百科上的定義:Named-entity recognition (NER) (also known as entity identification, entity chunking and entity extraction) is a subtask of information extraction that seeks to locate and classify named entity mentions in unstructured text into pre-defined categories such as the person names, organizations, locations, medical codes, time expressions, quantities, monetary values, percentages, etc.

命名實(shí)體識(shí)別(Named Entity Recognition,簡(jiǎn)稱NER),又稱作“專名識(shí)別”,是指識(shí)別文本中具有特定意義的實(shí)體,主要包括人名、地名、機(jī)構(gòu)名、專有名詞等。簡(jiǎn)單的講,就是識(shí)別自然文本中的實(shí)體指稱的邊界和類別。

02

發(fā)展歷史

命名實(shí)體識(shí)別這個(gè)術(shù)語首次出現(xiàn)在 MUC-6(Message Understanding Conferences),這個(gè)會(huì)議關(guān)注的主要問題是信息抽取(Information Extraction),第六屆 MUC 除了信息抽取評(píng)測(cè)任務(wù)還開設(shè)了新評(píng)測(cè)任務(wù)即命名實(shí)體識(shí)別任務(wù)。

除此之外,其他相關(guān)的評(píng)測(cè)會(huì)議包括CoNLL(Conference on Computational Natural Language Learning)、ACE(Automatic Content Extraction)和IEER(Information Extraction-Entity Recognition Evaluation)等。

在MUC-6之前,大家主要是關(guān)注人名、地名和組織機(jī)構(gòu)名這三類專業(yè)名詞的識(shí)別。自MUC-6起,后面有很多研究對(duì)類別進(jìn)行了更細(xì)致的劃分,比如地名被進(jìn)一步細(xì)化為城市、州和國(guó)家,也有人將人名進(jìn)一步細(xì)分為政治家、藝人等小類。

此外,一些評(píng)測(cè)還擴(kuò)大了專業(yè)名詞的范圍,比如CoNLL某年組織的評(píng)測(cè)中包含了產(chǎn)品名的識(shí)別。一些研究也涉及電影名、書名、項(xiàng)目名、研究領(lǐng)域名稱、電子郵件地址、電話號(hào)碼以及生物信息學(xué)領(lǐng)域的專有名詞(如蛋白質(zhì)、DNA、RNA等)。甚至有一些工作不限定“實(shí)體”的類型,而是將其當(dāng)做開放域的命名實(shí)體識(shí)別和分類。

03

常見方法

早期的命名實(shí)體識(shí)別方法基本都是基于規(guī)則的。之后由于基于大規(guī)模的語料庫的統(tǒng)計(jì)方法在自然語言處理各個(gè)方面取得不錯(cuò)的效果之后,一大批機(jī)器學(xué)習(xí)的方法也出現(xiàn)在命名實(shí)體類識(shí)別任務(wù)。宗成慶老師在統(tǒng)計(jì)自然語言處理一書粗略的將這些基于機(jī)器學(xué)習(xí)的命名實(shí)體識(shí)別方法劃分為以下幾類:

有監(jiān)督的學(xué)習(xí)方法:這一類方法需要利用大規(guī)模的已標(biāo)注語料對(duì)模型進(jìn)行參數(shù)訓(xùn)練。目前常用的模型或方法包括隱馬爾可夫模型、語言模型、最大熵模型、支持向量機(jī)、決策樹和條件隨機(jī)場(chǎng)等。值得一提的是,基于條件隨機(jī)場(chǎng)的方法是命名實(shí)體識(shí)別中最成功的方法。

半監(jiān)督的學(xué)習(xí)方法:這一類方法利用標(biāo)注的小數(shù)據(jù)集(種子數(shù)據(jù))自舉學(xué)習(xí)。

無監(jiān)督的學(xué)習(xí)方法:這一類方法利用詞匯資源(如 WordNet)等進(jìn)行上下文聚類。

混合方法:幾種模型相結(jié)合或利用統(tǒng)計(jì)方法和人工總結(jié)的知識(shí)庫。

值得一提的是,由于深度學(xué)習(xí)在自然語言的廣泛應(yīng)用,基于深度學(xué)習(xí)的命名實(shí)體識(shí)別方法也展現(xiàn)出不錯(cuò)的效果,此類方法基本還是把命名實(shí)體識(shí)別當(dāng)做序列標(biāo)注任務(wù)來做,比較經(jīng)典的方法是 LSTM+CRF、BiLSTM+CRF。

04

相關(guān)數(shù)據(jù)集

1. CCKS2017 開放的中文的電子病例測(cè)評(píng)相關(guān)的數(shù)據(jù)。

評(píng)測(cè)任務(wù)一:

https://biendata.com/competition/CCKS2017_1/

評(píng)測(cè)任務(wù)二:

https://biendata.com/competition/CCKS2017_2/

2. CCKS2018 開放的音樂領(lǐng)域的實(shí)體識(shí)別任務(wù)。

評(píng)測(cè)任務(wù):

https://biendata.com/competition/CCKS2018_2/

3. (CoNLL 2002)Annotated Corpus for Named Entity Recognition。

地址:

https://www.kaggle.com/abhinavwalia95/entity-annotated-corpus

4. NLPCC2018 開放的任務(wù)型對(duì)話系統(tǒng)中的口語理解評(píng)測(cè)。

地址:

http://tcci.ccf.org.cn/conference/2018/taskdata.php

5. 一家公司提供的數(shù)據(jù)集,包含人名、地名、機(jī)構(gòu)名、專有名詞。

下載地址:

https://bosonnlp.com/dev/resource

05

工具推薦

1. Stanford NER

斯坦福大學(xué)開發(fā)的基于條件隨機(jī)場(chǎng)的命名實(shí)體識(shí)別系統(tǒng),該系統(tǒng)參數(shù)是基于 CoNLL、MUC-6、MUC-7 和 ACE 命名實(shí)體語料訓(xùn)練出來的。

地址:

https://nlp.stanford.edu/software/CRF-NER.shtml

Python 實(shí)現(xiàn)的 Github 地址:

https://github.com/Lynten/stanford-corenlp

2 .MALLET

麻省大學(xué)開發(fā)的一個(gè)統(tǒng)計(jì)自然語言處理的開源包,其序列標(biāo)注工具的應(yīng)用中能夠?qū)崿F(xiàn)命名實(shí)體識(shí)別。

官方地址:

http://mallet.cs.umass.edu/

3. Hanlp

HanLP 是一系列模型與算法組成的 NLP 工具包,由大快搜索主導(dǎo)并完全開源,目標(biāo)是普及自然語言處理在生產(chǎn)環(huán)境中的應(yīng)用。支持命名實(shí)體識(shí)別。

Github 地址:

https://github.com/hankcs/pyhanlp

官網(wǎng):

http://hanlp.linrunsoft.com/

4. NLTK

NLTK 是一個(gè)高效的 Python 構(gòu)建的平臺(tái),用來處理人類自然語言數(shù)據(jù)。

Github 地址:

https://github.com/nltk/nltk

官網(wǎng):

http://www.nltk.org/

5. SpaCy

工業(yè)級(jí)的自然語言處理工具,遺憾的是不支持中文。

Gihub 地址:

https://github.com/explosion/spaCy

官網(wǎng):https://spacy.io/

6. Crfsuite

可以載入自己的數(shù)據(jù)集去訓(xùn)練 CRF 實(shí)體識(shí)別模型。

文檔地址:

https://sklearn-crfsuite.readthedocs.io/en/latest/?badge=latest

代碼已上傳:

https://github.com/yuquanle/StudyForNLP/blob/master/NLPbasic/NER.ipynb

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:一文讀懂命名實(shí)體識(shí)別

文章出處:【微信號(hào):AI_Thinker,微信公眾號(hào):人工智能頭條】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    python自然語言

    最近,python自然語言是越來越火了,那么什么是自然語言。自然語言(Natural Language )廣納了眾多技術(shù),對(duì)自然或人類
    發(fā)表于 05-02 13:50

    自然語言處理技術(shù)介紹

    ,包括:分詞、詞性標(biāo)注、句法分析、命名實(shí)體識(shí)別,以及信息抽取領(lǐng)域的實(shí)體關(guān)系抽取等。2.1.分詞分詞是自然語言處理技術(shù)的基礎(chǔ)構(gòu)成之一,并且是其
    發(fā)表于 09-27 09:57

    hanlp漢語自然語言處理入門基礎(chǔ)知識(shí)介紹

    人工智能。自然語言處理涉及的幾個(gè)層次:作為輸入一共有兩個(gè)來源,語音與文本。所以第一級(jí)是語音識(shí)別和OCR或分詞(事實(shí)上,跳過分詞雖然理所當(dāng)然地不能做句法分析,但字符級(jí)也可以直接做不少應(yīng)用)。接下來是形態(tài)學(xué)
    發(fā)表于 01-02 14:43

    HanLP分詞命名實(shí)體提取詳解

    名、地名等都稱之為實(shí)體。在工程領(lǐng)域,招投標(biāo)文件里的這些實(shí)體信息至關(guān)重要。利用自然語言處理技術(shù)從形式各異的文件中提取出這些實(shí)體,能有效提高工作
    發(fā)表于 01-11 14:32

    HanLP-命名實(shí)體識(shí)別總結(jié)

    的中國(guó)人名自動(dòng)識(shí)別研究》,大家可以百度一下看看 地名識(shí)別 理論指導(dǎo)文章為:《基于層疊隱馬爾可夫模型的中文命名實(shí)體識(shí)別》 機(jī)構(gòu)名識(shí)別 機(jī)構(gòu)名的
    發(fā)表于 07-31 13:11

    【推薦體驗(yàn)】騰訊云自然語言處理

    `相信大家對(duì)NLP自然語言處理的技術(shù)都不陌生,它是計(jì)算機(jī)科學(xué)領(lǐng)域和AI領(lǐng)域中的一個(gè)分支,它與計(jì)算機(jī)和人類之間使用自然語言進(jìn)行交互密切相關(guān),而NLP的最終目標(biāo)是使計(jì)算機(jī)能夠像人類一樣理解語言
    發(fā)表于 10-09 15:28

    什么是自然語言處理

    什么是自然語言處理?自然語言處理任務(wù)有哪些?自然語言處理的方法是什么?
    發(fā)表于 09-08 06:51

    基于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在命名實(shí)體識(shí)別中應(yīng)用的分析與總結(jié)

    近年來,基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法在自然語言處理領(lǐng)域已經(jīng)取得了不少進(jìn)展。作為NLP領(lǐng)域的基礎(chǔ)任務(wù)—命名實(shí)體識(shí)別(Named Entity Recognition,NER)也不例外,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在
    的頭像 發(fā)表于 01-18 09:24 ?4662次閱讀
    基于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在<b class='flag-5'>命名實(shí)體</b><b class='flag-5'>識(shí)別</b>中應(yīng)用的分析與總結(jié)

    思必馳中文命名實(shí)體識(shí)別任務(wù)助力AI落地應(yīng)用

    數(shù)據(jù)集基于清華大學(xué)開源的文本分類數(shù)據(jù)集THUCTC[2],選出部分進(jìn)行細(xì)粒度命名實(shí)體標(biāo)注。原數(shù)據(jù)來源于Sina News RSS[3]。這項(xiàng)測(cè)評(píng)是中文自然語言處理領(lǐng)域的大規(guī)模賽事,有眾多知名企業(yè)同臺(tái)競(jìng)技
    的頭像 發(fā)表于 02-22 18:27 ?1887次閱讀

    命名實(shí)體識(shí)別的遷移學(xué)習(xí)相關(guān)研究分析

    命名實(shí)體識(shí)別(NER)是自然語言處理的核心應(yīng)用任務(wù)之一。傳統(tǒng)和深度命名實(shí)體識(shí)別方法嚴(yán)重依賴于大量具有相同分布的標(biāo)注訓(xùn)練數(shù)據(jù),模型可移植性差。
    發(fā)表于 04-02 15:15 ?8次下載
    <b class='flag-5'>命名實(shí)體</b><b class='flag-5'>識(shí)別</b>的遷移學(xué)習(xí)相關(guān)研究分析

    基于字語言模型的中文命名實(shí)體識(shí)別系統(tǒng)

    造成的數(shù)據(jù)稀缺問題,以及傳統(tǒng)字向量不能解決的一字多義問題,文中使用在大規(guī)模無監(jiān)督數(shù)據(jù)上預(yù)訓(xùn)練的基于上下文相關(guān)的字向量,即利用語言模型生成上下文相關(guān)字向量以改進(jìn)中文NER模型的性能。同時(shí),為解決命名實(shí)體識(shí)別中的未登
    發(fā)表于 04-08 14:36 ?14次下載
    基于字<b class='flag-5'>語言</b>模型的中文<b class='flag-5'>命名實(shí)體</b><b class='flag-5'>識(shí)別</b>系統(tǒng)

    關(guān)于邊界檢測(cè)增強(qiáng)的中文命名實(shí)體識(shí)別

    引言 命名實(shí)體識(shí)別(Named Entity Recognition,NER)是自然語言處理領(lǐng)域的一個(gè)基礎(chǔ)任務(wù),是信息抽取等許多任務(wù)的子任務(wù),旨在識(shí)別非結(jié)構(gòu)化文本中屬于預(yù)先定義的類別的
    的頭像 發(fā)表于 09-22 16:05 ?3119次閱讀

    自然語言列舉法描述法各自的特點(diǎn)

    自然語言文本。在自然語言處理中,列舉法和描述法是兩種常見的方法。 列舉法 列舉法是一種基于規(guī)則的方法,它通過列舉所有可能的情況來解決問題。在自然語言處理中,列舉法通常用于詞性標(biāo)注、命名實(shí)體
    的頭像 發(fā)表于 07-03 14:13 ?1065次閱讀

    nlp自然語言處理的主要任務(wù)及技術(shù)方法

    自然語言處理(Natural Language Processing,簡(jiǎn)稱NLP)是人工智能和語言學(xué)領(lǐng)域的一個(gè)分支,它研究如何讓計(jì)算機(jī)能夠理解、生成和處理人類語言。NLP技術(shù)在許多領(lǐng)域
    的頭像 發(fā)表于 07-09 10:26 ?1131次閱讀

    圖像識(shí)別技術(shù)包括自然語言處理嗎

    圖像識(shí)別技術(shù)自然語言處理是人工智能領(lǐng)域的兩個(gè)重要分支,它們?cè)诤芏喾矫嬗兄芮械穆?lián)系,但也存在一些區(qū)別。 一、圖像識(shí)別技術(shù)
    的頭像 發(fā)表于 07-16 10:54 ?834次閱讀
    主站蜘蛛池模板: 亚洲成网777777国产精品| 色吧视频| 女人18毛片水多| 中文字幕自拍| 四虎永久免费地ww4hu57| 亚洲 成人 欧美 自拍| 久久夜色精品国产噜噜小说| 天天看片网站| 欧美特级午夜一区二区三区| 欧洲无线区一二区| 天天干天天插天天射| 日本不卡视频一区二区三区| 欧美天堂在线观看| 天堂在线最新资源| 一级特黄高清完整大片| 欧美网站在线| 四大名著成人高h肉版| 91在线电影| 久久天天综合| 一级一级特黄女人精品毛片| 国产在线视频你懂的| 中国性猛交xxxx乱大交| 四虎影院在线观看免费| 在线好吊色视频98gao| 亚洲网站免费看| 欧美色欧| 精品国产理论在线观看不卡| 亚洲怡红院在线观看| 国产高清一区二区| 黄色h网站| 欧美日韩在线成人看片a| 理论片亚洲| 婷婷在线综合| 天天碰夜夜| 伊人欧美在线| 97人人爱| 国产精品久久久久乳精品爆| 国产毛片一区二区三区精品| 2020欧美极品hd18| 久久久成人影院| 六月丁香激情|