如何发布网络小说,欢乐颂小说txt,好看的历史书籍推荐

本文對(duì)自然語言基礎(chǔ)技術(shù)之命名實(shí)體識(shí)別進(jìn)行了相對(duì)全面的介紹，包括定義、發(fā)展歷史、常見方法、以及相關(guān)數(shù)據(jù)集，最后推薦一大波 Python 實(shí)戰(zhàn)利器，并且包括工具的用法。

定義

先來看看維基百科上的定義：Named-entity recognition (NER) (also known as entity identification, entity chunking and entity extraction) is a subtask of information extraction that seeks to locate and classify named entity mentions in unstructured text into pre-defined categories such as the person names, organizations, locations, medical codes, time expressions, quantities, monetary values, percentages, etc.

命名實(shí)體識(shí)別（Named Entity Recognition，簡(jiǎn)稱NER），又稱作“專名識(shí)別”，是指識(shí)別文本中具有特定意義的實(shí)體，主要包括人名、地名、機(jī)構(gòu)名、專有名詞等。簡(jiǎn)單的講，就是識(shí)別自然文本中的實(shí)體指稱的邊界和類別。

發(fā)展歷史

命名實(shí)體識(shí)別這個(gè)術(shù)語首次出現(xiàn)在 MUC-6（Message Understanding Conferences），這個(gè)會(huì)議關(guān)注的主要問題是信息抽取（Information Extraction），第六屆 MUC 除了信息抽取評(píng)測(cè)任務(wù)還開設(shè)了新評(píng)測(cè)任務(wù)即命名實(shí)體識(shí)別任務(wù)。

除此之外，其他相關(guān)的評(píng)測(cè)會(huì)議包括CoNLL（Conference on Computational Natural Language Learning）、ACE（Automatic Content Extraction）和IEER（Information Extraction-Entity Recognition Evaluation）等。

在MUC-6之前，大家主要是關(guān)注人名、地名和組織機(jī)構(gòu)名這三類專業(yè)名詞的識(shí)別。自MUC-6起，后面有很多研究對(duì)類別進(jìn)行了更細(xì)致的劃分，比如地名被進(jìn)一步細(xì)化為城市、州和國(guó)家，也有人將人名進(jìn)一步細(xì)分為政治家、藝人等小類。

此外，一些評(píng)測(cè)還擴(kuò)大了專業(yè)名詞的范圍，比如CoNLL某年組織的評(píng)測(cè)中包含了產(chǎn)品名的識(shí)別。一些研究也涉及電影名、書名、項(xiàng)目名、研究領(lǐng)域名稱、電子郵件地址、電話號(hào)碼以及生物信息學(xué)領(lǐng)域的專有名詞（如蛋白質(zhì)、DNA、RNA等）。甚至有一些工作不限定“實(shí)體”的類型，而是將其當(dāng)做開放域的命名實(shí)體識(shí)別和分類。

常見方法

早期的命名實(shí)體識(shí)別方法基本都是基于規(guī)則的。之后由于基于大規(guī)模的語料庫的統(tǒng)計(jì)方法在自然語言處理各個(gè)方面取得不錯(cuò)的效果之后，一大批機(jī)器學(xué)習(xí)的方法也出現(xiàn)在命名實(shí)體類識(shí)別任務(wù)。宗成慶老師在統(tǒng)計(jì)自然語言處理一書粗略的將這些基于機(jī)器學(xué)習(xí)的命名實(shí)體識(shí)別方法劃分為以下幾類：

有監(jiān)督的學(xué)習(xí)方法：這一類方法需要利用大規(guī)模的已標(biāo)注語料對(duì)模型進(jìn)行參數(shù)訓(xùn)練。目前常用的模型或方法包括隱馬爾可夫模型、語言模型、最大熵模型、支持向量機(jī)、決策樹和條件隨機(jī)場(chǎng)等。值得一提的是，基于條件隨機(jī)場(chǎng)的方法是命名實(shí)體識(shí)別中最成功的方法。

半監(jiān)督的學(xué)習(xí)方法：這一類方法利用標(biāo)注的小數(shù)據(jù)集（種子數(shù)據(jù)）自舉學(xué)習(xí)。

無監(jiān)督的學(xué)習(xí)方法：這一類方法利用詞匯資源（如 WordNet）等進(jìn)行上下文聚類。

混合方法：幾種模型相結(jié)合或利用統(tǒng)計(jì)方法和人工總結(jié)的知識(shí)庫。

值得一提的是，由于深度學(xué)習(xí)在自然語言的廣泛應(yīng)用，基于深度學(xué)習(xí)的命名實(shí)體識(shí)別方法也展現(xiàn)出不錯(cuò)的效果，此類方法基本還是把命名實(shí)體識(shí)別當(dāng)做序列標(biāo)注任務(wù)來做，比較經(jīng)典的方法是 LSTM+CRF、BiLSTM+CRF。

相關(guān)數(shù)據(jù)集

1. CCKS2017 開放的中文的電子病例測(cè)評(píng)相關(guān)的數(shù)據(jù)。

評(píng)測(cè)任務(wù)一：

https://biendata.com/competition/CCKS2017_1/

評(píng)測(cè)任務(wù)二：

https://biendata.com/competition/CCKS2017_2/

2. CCKS2018 開放的音樂領(lǐng)域的實(shí)體識(shí)別任務(wù)。

評(píng)測(cè)任務(wù)：

https://biendata.com/competition/CCKS2018_2/

3. (CoNLL 2002)Annotated Corpus for Named Entity Recognition。

地址：

https://www.kaggle.com/abhinavwalia95/entity-annotated-corpus

4. NLPCC2018 開放的任務(wù)型對(duì)話系統(tǒng)中的口語理解評(píng)測(cè)。

地址：

http://tcci.ccf.org.cn/conference/2018/taskdata.php

5. 一家公司提供的數(shù)據(jù)集,包含人名、地名、機(jī)構(gòu)名、專有名詞。

下載地址：

https://bosonnlp.com/dev/resource

工具推薦

1. Stanford NER

斯坦福大學(xué)開發(fā)的基于條件隨機(jī)場(chǎng)的命名實(shí)體識(shí)別系統(tǒng)，該系統(tǒng)參數(shù)是基于 CoNLL、MUC-6、MUC-7 和 ACE 命名實(shí)體語料訓(xùn)練出來的。

地址：

https://nlp.stanford.edu/software/CRF-NER.shtml

Python 實(shí)現(xiàn)的 Github 地址：

https://github.com/Lynten/stanford-corenlp

2 .MALLET

麻省大學(xué)開發(fā)的一個(gè)統(tǒng)計(jì)自然語言處理的開源包，其序列標(biāo)注工具的應(yīng)用中能夠?qū)崿F(xiàn)命名實(shí)體識(shí)別。

官方地址：

http://mallet.cs.umass.edu/

3. Hanlp

HanLP 是一系列模型與算法組成的 NLP 工具包，由大快搜索主導(dǎo)并完全開源，目標(biāo)是普及自然語言處理在生產(chǎn)環(huán)境中的應(yīng)用。支持命名實(shí)體識(shí)別。

Github 地址：

https://github.com/hankcs/pyhanlp

官網(wǎng)：

http://hanlp.linrunsoft.com/

4. NLTK

NLTK 是一個(gè)高效的 Python 構(gòu)建的平臺(tái),用來處理人類自然語言數(shù)據(jù)。

Github 地址：

https://github.com/nltk/nltk

官網(wǎng)：

http://www.nltk.org/

5. SpaCy

工業(yè)級(jí)的自然語言處理工具，遺憾的是不支持中文。

Gihub 地址：

https://github.com/explosion/spaCy

官網(wǎng)：https://spacy.io/

6. Crfsuite

可以載入自己的數(shù)據(jù)集去訓(xùn)練 CRF 實(shí)體識(shí)別模型。

文檔地址：

https://sklearn-crfsuite.readthedocs.io/en/latest/?badge=latest

代碼已上傳：

https://github.com/yuquanle/StudyForNLP/blob/master/NLPbasic/NER.ipynb

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8418

瀏覽量
132635
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1208

瀏覽量
24701
自然語言處理

自然語言處理

+關(guān)注

關(guān)注
1

文章
618

瀏覽量
13561

原文標(biāo)題：一文讀懂命名實(shí)體識(shí)別

文章出處：【微信號(hào)：AI_Thinker，微信公眾號(hào)：人工智能頭條】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

python自然語言

最近，python自然語言是越來越火了，那么什么是自然語言。自然語言（Natural Language ）廣納了眾多技術(shù)，對(duì)自然或人類

發(fā)表于 05-02 13:50

自然語言處理技術(shù)介紹

，包括：分詞、詞性標(biāo)注、句法分析、命名實(shí)體識(shí)別，以及信息抽取領(lǐng)域的實(shí)體關(guān)系抽取等。2.1.分詞分詞是自然語言處理技術(shù)的基礎(chǔ)構(gòu)成之一，并且是其

發(fā)表于 09-27 09:57

hanlp漢語自然語言處理入門基礎(chǔ)知識(shí)介紹

人工智能。自然語言處理涉及的幾個(gè)層次：作為輸入一共有兩個(gè)來源，語音與文本。所以第一級(jí)是語音識(shí)別和OCR或分詞（事實(shí)上，跳過分詞雖然理所當(dāng)然地不能做句法分析，但字符級(jí)也可以直接做不少應(yīng)用）。接下來是形態(tài)學(xué)

發(fā)表于 01-02 14:43

HanLP分詞命名實(shí)體提取詳解

名、地名等都稱之為實(shí)體。在工程領(lǐng)域，招投標(biāo)文件里的這些實(shí)體信息至關(guān)重要。利用自然語言處理技術(shù)從形式各異的文件中提取出這些實(shí)體，能有效提高工作

發(fā)表于 01-11 14:32

HanLP-命名實(shí)體識(shí)別總結(jié)

的中國(guó)人名自動(dòng)識(shí)別研究》，大家可以百度一下看看地名識(shí)別 理論指導(dǎo)文章為：《基于層疊隱馬爾可夫模型的中文命名實(shí)體識(shí)別》機(jī)構(gòu)名識(shí)別 機(jī)構(gòu)名的

發(fā)表于 07-31 13:11

【推薦體驗(yàn)】騰訊云自然語言處理

`相信大家對(duì)NLP自然語言處理的技術(shù)都不陌生，它是計(jì)算機(jī)科學(xué)領(lǐng)域和AI領(lǐng)域中的一個(gè)分支，它與計(jì)算機(jī)和人類之間使用自然語言進(jìn)行交互密切相關(guān)，而NLP的最終目標(biāo)是使計(jì)算機(jī)能夠像人類一樣理解語言

發(fā)表于 10-09 15:28

什么是自然語言處理

什么是自然語言處理？自然語言處理任務(wù)有哪些？自然語言處理的方法是什么？

發(fā)表于 09-08 06:51

基于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在命名實(shí)體識(shí)別中應(yīng)用的分析與總結(jié)

近年來，基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法在自然語言處理領(lǐng)域已經(jīng)取得了不少進(jìn)展。作為NLP領(lǐng)域的基礎(chǔ)任務(wù)—命名實(shí)體識(shí)別（Named Entity Recognition，NER）也不例外，神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在

發(fā)表于 01-18 09:24 ?4662次閱讀

思必馳中文命名實(shí)體識(shí)別任務(wù)助力AI落地應(yīng)用

數(shù)據(jù)集基于清華大學(xué)開源的文本分類數(shù)據(jù)集THUCTC[2]，選出部分進(jìn)行細(xì)粒度命名實(shí)體標(biāo)注。原數(shù)據(jù)來源于Sina News RSS[3]。這項(xiàng)測(cè)評(píng)是中文自然語言處理領(lǐng)域的大規(guī)模賽事，有眾多知名企業(yè)同臺(tái)競(jìng)技

發(fā)表于 02-22 18:27 ?1887次閱讀

命名實(shí)體識(shí)別的遷移學(xué)習(xí)相關(guān)研究分析

命名實(shí)體識(shí)別（NER）是自然語言處理的核心應(yīng)用任務(wù)之一。傳統(tǒng)和深度命名實(shí)體識(shí)別方法嚴(yán)重依賴于大量具有相同分布的標(biāo)注訓(xùn)練數(shù)據(jù)，模型可移植性差。

發(fā)表于 04-02 15:15 ?8次下載

基于字語言模型的中文命名實(shí)體識(shí)別系統(tǒng)

造成的數(shù)據(jù)稀缺問題，以及傳統(tǒng)字向量不能解決的一字多義問題，文中使用在大規(guī)模無監(jiān)督數(shù)據(jù)上預(yù)訓(xùn)練的基于上下文相關(guān)的字向量，即利用語言模型生成上下文相關(guān)字向量以改進(jìn)中文NER模型的性能。同時(shí)，為解決命名實(shí)體識(shí)別中的未登

發(fā)表于 04-08 14:36 ?14次下載

關(guān)于邊界檢測(cè)增強(qiáng)的中文命名實(shí)體識(shí)別

引言 命名實(shí)體識(shí)別（Named Entity Recognition，NER）是自然語言處理領(lǐng)域的一個(gè)基礎(chǔ)任務(wù)，是信息抽取等許多任務(wù)的子任務(wù)，旨在識(shí)別非結(jié)構(gòu)化文本中屬于預(yù)先定義的類別的

發(fā)表于 09-22 16:05 ?3119次閱讀

自然語言列舉法描述法各自的特點(diǎn)

自然語言文本。在自然語言處理中，列舉法和描述法是兩種常見的方法。列舉法列舉法是一種基于規(guī)則的方法，它通過列舉所有可能的情況來解決問題。在自然語言處理中，列舉法通常用于詞性標(biāo)注、命名實(shí)體

發(fā)表于 07-03 14:13 ?1065次閱讀

nlp自然語言處理的主要任務(wù)及技術(shù)方法

自然語言處理（Natural Language Processing，簡(jiǎn)稱NLP）是人工智能和語言學(xué)領(lǐng)域的一個(gè)分支，它研究如何讓計(jì)算機(jī)能夠理解、生成和處理人類語言。NLP技術(shù)在許多領(lǐng)域

發(fā)表于 07-09 10:26 ?1131次閱讀

圖像識(shí)別技術(shù)包括自然語言處理嗎

圖像識(shí)別技術(shù)與自然語言處理是人工智能領(lǐng)域的兩個(gè)重要分支，它們?cè)诤芏喾矫嬗兄芮械穆?lián)系，但也存在一些區(qū)別。一、圖像識(shí)別技術(shù)與

發(fā)表于 07-16 10:54 ?834次閱讀