在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

文本數據預處理的方法

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-04-11 16:44 ? 次閱讀

文本數據分析(一):基本框架

在文本數據分析基本框架中,我們涉及到了六個步驟:

數據收集

數據預處理

數據挖掘和可視化

模型構建

模型評估

雖然框架需要迭代,但是我們先將其看作是一個線性的過程:

修正過的文本數據處理框架(依然很簡單……)

很顯然,文本數據預處理位于框架的第二步,這一步所包含的詳細步驟有以下兩個:

在原始文本語料上進行預處理,為文本挖掘或NLP任務做準備

數據預處理分為好幾步,其中有些步驟可能適用于給定的任務,也可能不適用。但通常都是標記化、歸一化和替代的其中一種(tokenization, normalization, substitution)。

通常,我們會選取一段預先準備好的文本,對其進行基本的分析和變換,遺留下更有用的文本數據,方便之后更深入、更有意義的分析任務。接下來將是文本挖掘或自然語言處理工作的核心工作。

所以再次重復以便,文本預處理的三個主要組成部分:

標記化(tokenization)

歸一化(normalization)

替換(substitution)

在下面介紹預處理方法的過程中,我們需要時刻牢記這三個概念。

文本預處理框架

接下來,我們將介紹這個框架的概念,而不涉及工具。在下一篇文章中我們會降到這些步驟的安裝過程,看看它們是如何在Python中實現的。

文本數據預處理框架

1.標記化(Tokenization)

標記化是將文本中的長字符串分割成小的片段或者tokens的過程。大段文字可以被分割成句子,句子又可以被分割成單詞等等。只有經過了tokenization,才能對文本進行進一步的處理。Tokenization同樣被稱作文本分割或者詞法分析。有時,分割(segmentation)用來表示大段文字編程小片段的過程(例如段落或句子)。而tokenization指的是將文本變為只用單詞表示的過程。

這一過程聽起來很直接,但事實并非如此。在較大的文本中如何識別句子?你的第一反應一定是“用標點符號”。

的確,下面的句子用傳統的分割方法很容易理解:

The quick brown fox jumps over the lazy dog.

但是下面這句呢:

Dr. Ford did not ask Col. Mustard the name of Mr. Smith’s dog.

還有這個:

“What is all the fuss about?” Asked Mr. Peters.

上面的都只是簡單的句子,那么單詞又怎樣呢?

This full-time student isn’t living in on-campus housing, and she’s not wanting to visit Hawai’i.

我們應該意識到,許多策略不只是針對句子分割,而是針對分割的邊界確定之后應該做什么。例如,我們可能會采用一種分割策略,它能夠(正確地)將單詞“she’s”的tokens之間特定邊界標識識別為撇號(單獨用空格標記的策略不足以識別這一點)。但是我們可以從多種策略中選擇,例如是將標點符號保留在單詞的某一部分中或是一同舍棄。其中一種方法似乎是正確的,并且似乎不會構成實際的問題。但是仔細想想,在英語中我們還需要考慮其他特殊情況。

即,當我們將文本分割成句子時,是否應該保留句末分隔符?我們是否在意句子在哪里結束?

2.歸一化(Normalization)

再進一步處理之前,文本需要進行歸一化。歸一化指的是一系列相關的任務,能夠將所有文本放在同一水平區域上:將所有文本轉化成同樣的實例,刪除標點,將數字轉換成相應的文字等等。對文本進行歸一化可以執行多種任務,但是對于我們的框架,歸一化有3個特殊的步驟:

詞干提取(stemming)

詞形還原(lemmatizatiion)

其他

詞干提取

詞干提取是刪除詞綴的過程(包括前綴、后綴、中綴、環綴),從而得到單詞的詞干。

詞形還原

詞形還原與詞干提取相關,不同的是,詞形還原能夠捕捉基于詞根的規范單詞形式。

例如,對“better”一詞進行詞干提取,可能無法生成另一個詞根的詞。然而對其進行詞形還原,就得到:

其他

詞形還原和詞干提取是文本預處理的主要部分,所以這兩項一定要認真對待。他們不是簡單地文本操作,而要依賴語法規則和對規則細致的理解。

然而,還有許多其他步驟可以幫助處理文本,讓它們變成平等的地位,其中有一些只是簡單地替換或刪除。其他重要的方法包括:

將所有字母變成小寫

刪除數字(或者將數字換成對應的文字)

刪除標點(者通常是tokenization的一部分,但是仍然需要在這一步做)

刪除空白格

刪除默認停止詞

停止詞是那些在對文本進一步與處理之前需要過濾掉的單詞,因為這些單詞并不影響整體意義。例如“the”、“and”、“a”這些詞。下面的例子就表明,即使刪除停止詞,句子的意思也很容易理解。

刪除特定的停止詞

刪除稀疏的特定詞語(盡管不是必須的)

在這里,我們應該清除文本預處理很大程度上依賴于預先建立的詞典、數據庫和規則。在我們下一篇用Python進行預處理的文章中,你會發現這些支持工具會非常有用。

3.噪聲清除

噪聲消除延續了框架的替代任務。雖然框架的前兩個主要步驟(標記化和歸一化)通常適用于幾乎任何的文本或項目,噪聲去除是預處理框架中一個更加具體的部分。

再次記住,我們的處理過程并不是線性的,其中的過程必須以特定的順序進行,視具體情況而定。因此,噪聲消除可以發生在上述步驟之前或之后,或者是某個時刻。

具體來說,假設我們從網上獲取了一個語料庫,并且以原始的web格式存儲,那么我們可以認為文本很大程度上可能有HTML或XML標簽。盡管這種對元數據的思考可以作為文本收集或組裝的過程中的一部分,但它取決于數據是如何獲取和收集的。在上一篇文章中,我簡單講述了如何從維基百科中獲取原始數據并搭建語料庫。由于我們控制了數據收集的過程,因此在這時處理噪聲也是可行的。

但情況并非總是如此。如果你正在使用的語料庫很嘈雜,你必須處理它。數據分析的效果80%都在于數據的準備。

好消息是,此時可以用到模式匹配:

刪除文件標題、頁腳

刪除HTML、XML等標記和元數據

從其他格式(如JSON)或數據庫中提取有價值的數據

如果你害怕正則表達式,這可能會成為文本預處理的一部分

噪聲消除和數據收集之間的界限很模糊,因此噪聲消除必須在其他步驟之前進行。例如,從JSON結構中獲取的文本顯然要在tokenization之前消除噪音。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據收集
    +關注

    關注

    0

    文章

    72

    瀏覽量

    11214
  • 噪聲消除
    +關注

    關注

    0

    文章

    9

    瀏覽量

    8116
  • python
    +關注

    關注

    56

    文章

    4805

    瀏覽量

    84926

原文標題:文本數據分析(二):文本數據預處理的方法

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    labview樹形控件讀取子文本數據(child text)

    各位大神好!我想讀取已編輯好的樹形控件的第0列之后的子文本數據(child text,或稱屬性),該如何實現?
    發表于 07-14 16:38

    如何讀取TXT文本數據并生成波形

    文本數據如圖片所示,求大神幫忙!
    發表于 05-14 23:06

    從一個文本數據的文件夾中,怎樣實現數據的連續提取

    比如 文本數據中有很多關于物體的信息,比如位置(經度和緯度),移動速度,時間信息,而我只需要(進度和緯度)的數據,這些經度和緯度信息怎樣從文本文件夾中實現連續采集,重要的是連續采集,該怎么做呢
    發表于 11-03 19:00

    Python數據預處理方法

    機器學習-Python實踐Day3(特征工程--數據預處理2)
    發表于 06-03 15:55

    C預處理與C語言基本數據類型

    嵌入式系統設計師學習筆記二十九:嵌入式程序設計④——C預處理預處理指令表:(編碼規范:GB/T 28169-2011)關于宏定義 #denfine 詳解可點擊連接查看博主的另一篇文章 預定義宏預處理
    發表于 12-21 08:29

    LabVIEW操作Excel報表時會丟失所有的非文本數據

    LabVIEW操作Excel報表時會丟失所有的非文本數據在Report Generation Toolkit中打開我的*.xls文件,進行操作并保存。當我再次使用Excel打開時,所有的非文本數據
    發表于 05-09 21:24

    文本數據分析:文本挖掘還是自然語言處理?

    自然語言處理(NLP)關注的是人類的自然語言與計算機設備之間的相互關系。NLP是計算機語言學的重要方面之一,它同樣也屬于計算機科學和人工智能領域。而文本挖掘和NLP的存在領域類似,它關注的是識別文本數據中有趣并且重要的模式。
    的頭像 發表于 04-10 14:58 ?1.8w次閱讀
    <b class='flag-5'>文本數據</b>分析:<b class='flag-5'>文本</b>挖掘還是自然語言<b class='flag-5'>處理</b>?

    機器學習的特征預處理問題討論

    本文我們來討論特征預處理的相關問題。主要包括特征的歸一化和標準化,異常特征樣本清洗與樣本數據不平衡問題的處理。
    的頭像 發表于 03-15 17:14 ?935次閱讀

    textCNN論文與原理——短文本分類

    處理圖片的torchvision,而處理文本的少有提及,快速處理文本數據的包也是有的,那就是torchtext[1]。下面還是結合上一個案
    的頭像 發表于 12-31 10:08 ?2554次閱讀
    textCNN論文與原理——短<b class='flag-5'>文本</b>分類

    異構文本數據轉換過程中解析XML文本方法對比

    對異構文本數據轉換過程中解析XML文本的DOM、SAX、JOM4J方法進行對比研究,以解析時間、內存堆占用空間、CPU占用率為評價指標來判定4種解析方法的優劣。該評價
    發表于 03-25 11:12 ?9次下載
    異構<b class='flag-5'>文本數據</b>轉換過程中解析XML<b class='flag-5'>文本</b>的<b class='flag-5'>方法</b>對比

    PyTorch文本分類任務的基本流程

    文本分類是NLP領域的較為容易的入門問題,本文記錄文本分類任務的基本流程,大部分操作使用了**torch**和**torchtext**兩個庫。 ## 1. 文本數據預處理
    的頭像 發表于 02-22 14:23 ?1140次閱讀

    問答對話文本數據:解鎖智能問答的未來

    在日常生活中,我們經常面臨各種問題和需求,而智能問答系統作為一種人機交互工具,為我們提供了便捷的問題解答和信息獲取方式。而問答對話文本數據作為推動智能問答系統發展的關鍵資源,扮演著重要角色。 問答
    的頭像 發表于 07-13 14:19 ?562次閱讀

    大型模型的重要基石與洞察力之源之文本數據

    在當今數字化時代,文本數據已成為人類活動的主要載體,無處不在的信息交流塑造著我們的社會、經濟和文化。而正是這些海量的文本數據,為大型模型的訓練和應用提供了豐富的資源,成為其重要的基石與洞察力之源
    的頭像 發表于 08-14 10:06 ?583次閱讀

    Minitab 數據清理與預處理技巧

    Minitab是一款功能強大的統計分析和質量管理軟件,在數據分析過程中,數據清理與預處理是至關重要的環節。以下是一些在Minitab中進行數據清理與
    的頭像 發表于 12-02 16:06 ?490次閱讀

    如何使用自然語言處理分析文本數據

    媒體、新聞報道、用戶評論等)收集你感興趣的文本數據。 數據清洗 :去除無關字符(如HTML標簽、特殊符號等),確保文本數據干凈且一致。 2. 預處理 分詞 :將
    的頭像 發表于 12-05 15:27 ?376次閱讀
    主站蜘蛛池模板: 高清欧美日本视频免费观看| 国产高清色视频免费看的网址 | 日日操免费视频| 天天摸天天躁天天添天天爽| 日夜夜操| 美女国产在线观看免费观看| 久久综合九色综合欧洲| 色老头·com| 欧美视频精品在线| 激情五月综合婷婷| 7m视频精品凹凸在线播放| 天天干夜夜爽| 午夜逼逼| 精品久久香蕉国产线看观看亚洲| 有没有免费的视频在线观看| 国产一二精品| 一级特黄aaaaaa大片| 成人欧美一区二区三区的电影| 午夜影院视频| 国产美女一级高清免费观看| 91操视频| 亚洲香蕉视频| 一级毛片免费全部播放| 色九| 国产亚洲精品成人a在线| 一级特黄a 大片免费| 国产午夜精品久久久久九九| 黄色午夜剧场| 757福利影院合集3000| 在线a网站| 欧美大狠狠大臿蕉香蕉大视频| 国产gaysexchina男同men1068| 台湾一级毛片| 中文字幕亚洲一区| 亚洲地址一地址二地址三| 免费大秀视频在线播放| 免费国产网站| 亚洲精品精品一区| 日本三级11k影院在线| 国产成人啪精品午夜在线播放| 网站在线播放|