盗墓笔记txt全集下载,完美世界有声小说,小说阅读器

本文將討論文本預處理的基本步驟，旨在將文本信息從人類語言轉換為機器可讀格式以便用于后續處理。此外，本文還將進一步討論文本預處理過程所需要的工具。

當拿到一個文本后，首先從文本正則化（text normalization）處理開始。常見的文本正則化步驟包括：

將文本中出現的所有字母轉換為小寫或大寫

將文本中的數字轉換為單詞或刪除這些數字

刪除文本中出現的標點符號、重音符號以及其他變音符號

刪除文本中的空白區域

擴展文本中出現的縮寫

刪除文本中出現的終止詞、稀疏詞和特定詞

文本規范化（text canonicalization）

下面將詳細描述上述文本正則化步驟。

將文本中出現的字母轉化為小寫

示例1：將字母轉化為小寫

Python 實現代碼：

input_str=”The5biggestcountriesbypopulationin2017areChina,India,UnitedStates,Indonesia,andBrazil.”input_str=input_str.lower()print(input_str)

輸出：

the5biggestcountriesbypopulationin2017arechina,india,unitedstates,indonesia,andbrazil.

刪除文本中出現的數字

如果文本中的數字與文本分析無關的話，那就刪除這些數字。通常，正則化表達式可以幫助你實現這一過程。

示例2：刪除數字

Python 實現代碼：

importreinput_str=’BoxAcontains3redand5whiteballs,whileBoxBcontains4redand2blueballs.’result=re.sub(r’d+’,‘’,input_str)print(result)

輸出：

BoxAcontainsredandwhiteballs,whileBoxBcontainsredandblueballs.

刪除文本中出現的標點

以下示例代碼演示如何刪除文本中的標點符號，如[!”#$%&’()*+,-./:;<=>?@[]^_`{|}~] 等符號。

示例3：刪除標點

Python 實現代碼：

importstringinput_str=“This&is[an]example?{of}string.with.?punctuation!!!!”#Samplestringresult=input_str.translate(string.maketrans(“”,””),string.punctuation)print(result)

輸出：

Thisisanexampleofstringwithpunctuation

刪除文本中出現的空格

可以通過 strip()函數移除文本前后出現的空格。

示例4：刪除空格

Python 實現代碼：

input_str=“ astringexample “input_str=input_str.strip()input_str

輸出：

‘astringexample’

符號化（Tokenization）

符號化是將給定的文本拆分成每個帶標記的小模塊的過程，其中單詞、數字、標點及其他符號等都可視為是一種標記。在下表中（Tokenization sheet），羅列出用于實現符號化過程的一些常用工具。

刪除文本中出現的終止詞

終止詞（Stop words）指的是“a”，“a”，“on”，“is”，“all”等語言中最常見的詞。這些詞語沒什么特別或重要意義，通常可以從文本中刪除。一般使用Natural Language Toolkit（NLTK）來刪除這些終止詞，這是一套專門用于符號和自然語言處理統計的開源庫。

示例7：刪除終止詞

實現代碼：

input_str=“NLTKisaleadingplatformforbuildingPythonprogramstoworkwithhumanlanguagedata.”stop_words=set(stopwords.words(‘english’))fromnltk.tokenizeimportword_tokenizetokens=word_tokenize(input_str)result=[iforiintokensifnotiinstop_words]print(result)

輸出：

[‘NLTK’,‘leading’,‘platform’,‘building’,‘Python’,‘programs’,‘work’,‘human’,‘language’,‘data’,‘.’]

此外，scikit-learn也提供了一個用于處理終止詞的工具：

fromsklearn.feature_extraction.stop_wordsimportENGLISH_STOP_WORDS

同樣，spaCy也有一個類似的處理工具：

fromspacy.lang.en.stop_wordsimportSTOP_WORDS

刪除文本中出現的稀疏詞和特定詞

在某些情況下，有必要刪除文本中出現的一些稀疏術語或特定詞。考慮到任何單詞都可以被認為是一組終止詞，因此可以通過終止詞刪除工具來實現這一目標。

詞干提取（Stemming）

詞干提取是一個將詞語簡化為詞干、詞根或詞形的過程（如books-book，looked-look）。當前主流的兩種算法是Porter stemming算法（刪除單詞中刪除常見的形態和拐點結尾）和Lancaster stemming算法。

示例8：使用 NLYK 實現詞干提取

實現代碼：

fromnltk.stemimportPorterStemmerfromnltk.tokenizeimportword_tokenizestemmer=PorterStemmer()input_str=”Thereareseveraltypesofstemmingalgorithms.”input_str=word_tokenize(input_str)forwordininput_str:print(stemmer.stem(word))

輸出：

Therearesevertypeofstemalgorithm.

詞形還原（Lemmatization）

詞形還原的目的，如詞干過程，是將單詞的不同形式還原到一個常見的基礎形式。與詞干提取過程相反，詞形還原并不是簡單地對單詞進行切斷或變形，而是通過使用詞匯知識庫來獲得正確的單詞形式。

當前常用的詞形還原工具庫包括：NLTK（WordNet Lemmatizer），spaCy，TextBlob，Pattern，gensim，Stanford CoreNLP，基于內存的淺層解析器（MBSP），Apache OpenNLP，Apache Lucene，文本工程通用架構（GATE），Illinois Lemmatizer和DKPro Core。

示例 9：使用 NLYK 實現詞形還原

實現代碼：

fromnltk.stemimportWordNetLemmatizerfromnltk.tokenizeimportword_tokenizelemmatizer=WordNetLemmatizer()input_str=”beenhaddonelanguagescitiesmice”input_str=word_tokenize(input_str)forwordininput_str:print(lemmatizer.lemmatize(word))

輸出：

behavedolanguagecitymouse

詞性標注（POS）

詞性標注旨在基于詞語的定義和上下文意義，為給定文本中的每個單詞（如名詞、動詞、形容詞和其他單詞）分配詞性。當前有許多包含POS標記器的工具，包括NLTK，spaCy，TextBlob，Pattern，Stanford CoreNLP，基于內存的淺層分析器（MBSP），Apache OpenNLP，Apache Lucene，文本工程通用架構（GATE），FreeLing，Illinois Part of Speech Tagger和DKPro Core。

示例 10：使用 TextBlob 實現詞性標注

實現代碼：

input_str=”Partsofspeechexamples:anarticle,towrite,interesting,easily,and,of”fromtextblobimportTextBlobresult=TextBlob(input_str)print(result.tags)

輸出：

[(‘Parts’,u’NNS’),(‘of’,u’IN’),(‘speech’,u’NN’),(‘examples’,u’NNS’),(‘an’,u’DT’),(‘article’,u’NN’),(‘to’,u’TO’),(‘write’,u’VB’),(‘interesting’,u’VBG’),(‘easily’,u’RB’),(‘and’,u’CC’),(‘of’,u’IN’)]

詞語分塊（淺解析）

詞語分塊是一種識別句子中的組成部分（如名詞、動詞、形容詞等），并將它們鏈接到具有不連續語法意義的高階單元（如名詞組或短語、動詞組等）的自然語言過程。常用的詞語分塊工具包括：NLTK，TreeTagger chunker，Apache OpenNLP，文本工程通用架構（GATE），FreeLing。

示例 11：使用 NLYK 實現詞語分塊

第一步需要確定每個單詞的詞性。

實現代碼：

input_str=”AblacktelevisionandawhitestovewereboughtforthenewapartmentofJohn.”fromtextblobimportTextBlobresult=TextBlob(input_str)print(result.tags)

輸出：

[(‘A’,u’DT’),(‘black’,u’JJ’),(‘television’,u’NN’),(‘and’,u’CC’),(‘a’,u’DT’),(‘white’,u’JJ’),(‘stove’,u’NN’),(‘were’,u’VBD’),(‘bought’,u’VBN’),(‘for’,u’IN’),(‘the’,u’DT’),(‘new’,u’JJ’),(‘apartment’,u’NN’),(‘of’,u’IN’),(‘John’,u’NNP’)]

第二部就是進行詞語分塊

實現代碼：

reg_exp=“NP:{

?*}”rp=nltk.RegexpParser(reg_exp)result=rp.parse(result.tags)print(result) 輸出： (S(NPA/DTblack/JJtelevision/NN)and/CC(NPa/DTwhite/JJstove/NN)were/VBDbought/VBNfor/IN(NPthe/DTnew/JJapartment/NN)of/INJohn/NNP) 也可以通過result.draw(）函數繪制句子樹結構圖，如下圖所示。 命名實體識別（Named Entity Recognition） 命名實體識別（NER）旨在從文本中找到命名實體，并將它們劃分到事先預定義的類別（人員、地點、組織、時間等）。 常見的命名實體識別工具如下表所示，包括：NLTK，spaCy，文本工程通用架構（GATE） -- ANNIE，Apache OpenNLP，Stanford CoreNLP，DKPro核心，MITIE，Watson NLP，TextRazor，FreeLing等。 示例12：使用TextBlob實現詞性標注 實現代碼： fromnltkimportword_tokenize,pos_tag,ne_chunkinput_str=“BillworksforApplesohewenttoBostonforaconference.”printne_chunk(pos_tag(word_tokenize(input_str))) 輸出： (S(PERSONBill/NNP)works/VBZfor/INApple/NNPso/INhe/PRPwent/VBDto/TO(GPEBoston/NNP)for/INa/DTconference/NN./.) 共指解析Coreference resolution（回指分辨率anaphora resolution） 代詞和其他引用表達應該與正確的個體聯系起來。Coreference resolution在文本中指的是引用真實世界中的同一個實體。如在句子“安德魯說他會買車”中，代詞“他”指的是同一個人，即“安德魯”。常用的Coreference resolution工具如下表所示，包括Stanford CoreNLP，spaCy，Open Calais，Apache OpenNLP等。 搭配提取（Collocation extraction） 搭配提取過程并不是單獨、偶然發生的，它是與單詞組合一同發生的過程。該過程的示例包括“打破規則break the rules”，“空閑時間free time”，“得出結論draw a conclusion”，“記住keep in mind”，“準備好get ready”等。 示例 13：使用ICE實現搭配提取 實現代碼： input=[“heandChazzduelwithallkeysontheline.”]fromICEimportCollocationExtractorextractor=CollocationExtractor.with_collocation_pipeline(“T1”,bing_key=“Temp”,pos_check=False)print(extractor.get_collocations_of_length(input,length=3)) 輸出： [“ontheline”] 關系提取（Relationship extraction） 關系提取過程是指從非結構化的數據源（如原始文本）獲取結構化的文本信息。嚴格來說，它確定了命名實體（如人、組織、地點的實體）之間的關系（如配偶、就業等關系）。例如，從“昨天與Mark和Emily結婚”這句話中，我們可以提取到的信息是Mark是Emily的丈夫。 總結 本文討論文本預處理及其主要步驟，包括正則化、符號化、詞干化、詞形還原、詞語分塊、詞性標注、命名實體識別、共指解析、搭配提取和關系提取。還通過一些表格羅列出常見的文本預處理工具及所對應的示例。在完成這些預處理工作后，得到的結果可以用于更復雜的NLP任務，如機器翻譯、自然語言生成等任務。