在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

文本糾錯是自然語言處理的第一道坎

深度學習自然語言處理 ? 來源:老劉說NLP ? 作者:劉煥勇 ? 2022-03-30 16:10 ? 次閱讀

文本糾錯是自然語言處理的一個重要任務,也是文本處理的第一道坎,一個錯誤的文本表述可能會引起后續語義的錯誤表達,并對后續的效果產生影響。

例如,以常見的輸入錯誤為例,十分豐富多彩,常見錯誤類型包括:

1、少字:微信跳一->微信跳一跳
2、多字:微信跳一跳跳->微信跳一跳
3、錯字:微信挑一挑->微信跳一跳
4、拼音:tiaoyitiao ->跳一跳
5、中英文混拼:held住-> hold住
6、中文拼音混拼:跳yi跳->跳一跳
7、知識錯誤:南山平安金融中心->福田平安金融中心
8、音轉:灰機->飛機
9、諧音字詞,如配副眼睛-配副眼鏡
10、混淆音字詞,如流浪織女-牛郎織女
11、字詞順序顛倒,如伍迪艾倫-艾倫伍迪
12、字詞補全,如愛有天意-假如愛有天意
13、形似字錯誤,如高梁-高粱
14、中文拼音全拼,如xingfu-幸福
15、中文拼音縮寫,如sz-深圳

而這些錯誤又可以進一步區分為有意或者無意兩種,無有意的錯誤可能是為了反識別或者惡意營銷等灰色產業服務。

因此,文本糾錯這塊就有諸多應用場景。

例如,寫作輔助上,在內容寫作平臺上內嵌糾錯模塊,可在作者寫作時自動檢查并提示錯別字情況。從而降低因疏忽導致的錯誤表述,有效提升作者的文章寫作質量,同時給用戶更好的閱讀體驗。

又如,搜索糾錯上,用戶經常在搜索時輸入錯誤,通過分析搜索query的形式和特征,可自動糾正搜索query并提示用戶,進而給出更符合用戶需求的搜索結果,有效屏蔽錯別字對用戶真實需求的影響。

再如,語音識別對話糾錯上,將文本糾錯嵌入對話系統中,可自動修正語音識別轉文本過程中的錯別字,向對話理解系統傳遞糾錯后的正確query,能明顯提高語音識別準確率,使產品整體體驗更佳。

而就技術而言,實際上可以對應的變成變體或者錯誤體的生成以及還原兩者,前者研究如何快速生成盡可能豐富的變體,后者研究如何返回正確的文本,十分有趣。

因此,本文主要圍繞NLP糾錯技術,做第一篇論述,從工業場景中的文本糾錯、魯棒性過濾以及惡意短信變體字還原大賽三個比賽進行介紹,并使用最簡單的編輯距離操作生成變體,供大家一起參考。

一、自然語言處理技術創新大賽—中文文本糾錯比賽

賽題背景:文本校對任務主要是針對文本中出現的錯誤進行檢測和糾正,屬于綜合性的自然語言處理研究子方向,能夠比較全面體現了自然語言處理的技術水平。過往文本校對相關評測使用的都是外國語言學習者撰寫的文本,這些文本的錯誤大多數都是一些中文母語寫作者不會犯的一些錯誤。

對于政務公文、新聞出版等行業來說,一款針對以中文為母語的用戶所使用的校對系統將會有更大的幫助。因此,本賽題主要選擇互聯網上中文母語寫作者撰寫的網絡文本作為校對評測數據,從拼寫錯誤、語法錯誤、語病錯誤等多個方面考察機器的認知智能能力。

賽題任務:賽題選擇網絡文本作為校對數據,從中檢測并糾正錯誤,實現中文文本校對系統。即給定一段文本,校對系統從中檢測出錯誤字詞、錯誤類型,并進行糾正。具體的輸入、輸出及錯誤類型為:

輸入:輸入文件包含若干行文本,每行文本對應句子ID和相應的待校對句。

輸出:輸出文件每行對應句子ID及相應的校對結果。校對結果中每處錯誤需包含錯誤位置、錯誤類型、錯誤字詞及正確字詞,每處錯誤及多處錯誤間均以英文逗號分隔。

錯誤類型:拼寫錯誤,包括別字及別詞;語法錯誤,包括冗余、缺失、亂序;語病錯誤,包括語義重復及句式雜糅。

舉例如下:

4a78cab4-afe8-11ec-aa7f-dac502259ad0.png

地址:https://2021aichina.caai.cn/track?id=5

二、中國人工智能大賽魯棒性過濾算法

第三屆中國人工智能大賽,重點聚焦算法治理、深度偽造音視頻檢測、網絡安全等方向,希望以競賽方式解決現實場景中需求問題。

賽題背景:構建魯棒的過濾算法在網絡空間內容治理領域具有重要的實際價值。信息產生、獲取、消費等環節的算法魯棒性欠缺,會嚴重影響正常的社會秩序。因此,算法魯棒性在算法安全治理中屬于非常重要的指標。

在信息生成和獲取的環節,過濾算法扮演著安全護衛的作用,把守網絡信息安全的第一關。過濾算法是指將用戶產生的特定信息進行自動識別和過濾的算法。目前,特定信息變換各種形式出現在互聯網中,這對于現有的過濾算法無疑是一個挑戰。

例如,中國人工智能大賽魯棒性過濾算法賽道過濾出了這樣一道賽題:

4a96feb2-afe8-11ec-aa7f-dac502259ad0.png

賽題任務:主辦方將收集上千條含特定信息和同比例正常信息的短文本,用以評價選手的過濾模型。測試文本根據所包含特定信息的變種難度不同設置相應的難度分數。本賽題將以參賽選手過濾模型識別出的特定信息樣本以及該樣本對應難度的積作為主要評價指標。

地址:https://ai.xm.gov.cn/competition/project-detail.html?id=e813904b755a439da1a6c5749bcf9b60&competeId=a8e0c40dbb2347fba8b3c9a6294efa5b

三、面向黑灰產治理的惡意短信變體字還原

賽題背景:惡意短信一直是黑灰產引流的重要渠道,信息中攜帶的微信號、QQ號、網址更是非法信息傳播的主要入口,業界通常做法是利用違法或不良信息檢測引擎在手機終端實現自動攔截。然而不法分子為逃避檢測,通過使用變體字發送惡意短信繞過攔截規則的情況越來越多。

由于變體字變換方式多,變換速度快,單純通過規則進行變體詞發現的效果有限,配套人工審核成本高且具有滯后性。如何精準和高效地還原變體字文本,提高非法信息的抽取能力,以及新型變體字還原的泛化性和時效性,就成為了解決這一難題的“關鍵之鑰”。

賽題任務:參賽團隊通過設計算法,實現對惡意短信中變體字的還原。參賽團隊需要對訓練集中的短信樣本進行分析,采用深度學習建模的方法將測試集中新出現的短信變體字還原為正常信息文本,即不含有變體字、干擾字符,所有變體字部分應使用常見簡體漢字、字符來表示,同時需要保證不包含變體字的正常文本不受影響。

例子如下;

變體句子:噂儆的碦戸:其鎃祝冊茺贈鎬888葒笣!禛朲對弈佰捆任你選!嶺:http://url.cn/5aLeqP2

還原后:尊敬的客戶:棋牌注冊充贈高888紅包!真人對弈百款任你選!領:url.cn5aLeqP2

4ab07766-afe8-11ec-aa7f-dac502259ad0.png

地址:https://beta-www.datafountain.cn/competitions/508

四、基于編輯距離生成變體小測試

實際上,基于編輯距離來生成的變體是最快速且簡單的方式,下面做了一個快速實現:

#詞典庫
vocab=set([line.rstrip()forlineinopen('vocab.txt')])
#print(vocab)
#生成所有的候選集合
defgenerate_edit_one(word):
"""
#假設使用26個字符
letters='abcdefghijklmnopqrstuvwxyz'
splits=[(word[:i],word[i:])foriinrange(len(word)+1)]
#inserts操作
inserts=[L+c+RforL,Rinsplitsforcinletters]
#delete操作
deletes=[L+R[1:]forL,RinsplitsifR]
#replace操作
replaces=[L+c+R[1:]forL,RinsplitsifRforcinletters]
candidates=set(inserts+deletes+replaces)
#過濾掉不存在詞典庫里的單詞
return[wordforwordincandidatesifwordinvocab]

defgenerate_edit_two(str):
"""
給定一個字符串,生成編輯距離不大于2的字符串
"""
return[e2fore1ingenerate_edit_one(str)fore2ingenerate_edit_one(e1)ife2invocab]
print('給定一個字符串,生成編輯距離為1的字符串','
',generate_edit_one('apple'))
print('給定一個字符串,生成編輯距離不大于2的字符串','
',generate_edit_two("apple"))

執行后,我們可以產生如下變體結果:

4ac4e7a0-afe8-11ec-aa7f-dac502259ad0.png


審核編輯 :李倩


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模塊
    +關注

    關注

    7

    文章

    2725

    瀏覽量

    47610
  • 文本
    +關注

    關注

    0

    文章

    118

    瀏覽量

    17098
  • 自然語言處理

    關注

    1

    文章

    619

    瀏覽量

    13599

原文標題:NLP糾錯 | 惡意短信變體字還原、魯棒性過濾與文本糾錯競賽概述與簡單變體實現

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    如何優化自然語言處理模型的性能

    優化自然語言處理(NLP)模型的性能是個多方面的任務,涉及數據預處理、特征工程、模型選擇、模型調參、模型集成與融合等多個環節。以下是些具
    的頭像 發表于 12-05 15:30 ?608次閱讀

    如何使用自然語言處理分析文本數據

    使用自然語言處理(NLP)分析文本數據是個復雜但系統的過程,涉及多個步驟和技術。以下是個基本的流程,幫助你理解如何使用NLP來分析
    的頭像 發表于 12-05 15:27 ?342次閱讀

    自然語言處理與機器學習的關系 自然語言處理的基本概念及步驟

    Learning,簡稱ML)是人工智能的個核心領域,它使計算機能夠從數據中學習并做出預測或決策。自然語言處理與機器學習之間有著密切的關系,因為機器學習提供了種強大的工具,用于從大
    的頭像 發表于 12-05 15:21 ?585次閱讀

    語音識別與自然語言處理的關系

    在人工智能的快速發展中,語音識別和自然語言處理(NLP)成為了兩個重要的技術支柱。語音識別技術使得機器能夠理解人類的語音,而自然語言處理則讓機器能夠理解、解釋和生成人類
    的頭像 發表于 11-26 09:21 ?503次閱讀

    ASR與自然語言處理的結合

    。以下是對ASR與自然語言處理結合的分析: 、ASR與NLP的基本概念 ASR(自動語音識別) : 專注于將人類的語音轉換為文字。 涉及從聲音信號中提取特征,并將這些特征映射到文本
    的頭像 發表于 11-18 15:19 ?469次閱讀

    使用LLM進行自然語言處理的優缺點

    自然語言處理(NLP)是人工智能和語言學領域的個分支,它致力于使計算機能夠理解、解釋和生成人類語言。大型
    的頭像 發表于 11-08 09:27 ?547次閱讀

    nlp自然語言處理模型怎么做

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能領域的個重要分支,它涉及到計算機對人類語言的理解和生成。隨著深度學習技術的發展,NLP領域
    的頭像 發表于 07-05 09:59 ?675次閱讀

    自然語言處理技術有哪些

    ,以下是些主要的自然語言處理技術: 詞法分析(Lexical Analysis):詞法分析是自然語言處理
    的頭像 發表于 07-03 14:30 ?1253次閱讀

    自然語言處理模式的優點

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能領域的個重要分支,它致力于使計算機能夠理解、生成和處理人類
    的頭像 發表于 07-03 14:24 ?827次閱讀

    自然語言處理技術的核心是什么

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能領域的個重要分支,其核心目標是使計算機能夠理解、生成和處理人類
    的頭像 發表于 07-03 14:20 ?826次閱讀

    自然語言處理是什么技術的種應用

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能和語言學領域的個分支,它涉及到使用計算機技術來處理
    的頭像 發表于 07-03 14:18 ?1052次閱讀

    自然語言處理包括哪些內容

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能領域的個重要分支,它涉及到計算機與人類語言之間的交互。NLP的目標是讓計算機能夠理解、生成
    的頭像 發表于 07-03 14:15 ?1063次閱讀

    什么是自然語言處理 (NLP)

    自然語言處理(Natural Language Processing, NLP)是人工智能領域中的個重要分支,它專注于構建能夠理解和生成人類語言的計算機系統。NLP的目標是使計算機能
    的頭像 發表于 07-02 18:16 ?1266次閱讀

    自然語言處理技術的原理的應用

    自然語言處理(Natural Language Processing, NLP)作為人工智能(AI)領域的個重要分支,旨在使計算機能夠理解和處理人類
    的頭像 發表于 07-02 12:50 ?591次閱讀

    神經網絡在自然語言處理中的應用

    自然語言處理(NLP)是人工智能領域中的個重要分支,它研究的是如何使計算機能夠理解和生成人類自然語言。隨著人工智能技術的飛速發展,神經網絡在自然語
    的頭像 發表于 07-01 14:09 ?550次閱讀
    主站蜘蛛池模板: 久久99色| 黄网站色视频大全免费观看| 欧美三级影院| 久久99热精品这里久久精品| 最新sss华人| 天天澡天天干| 四虎h789fcom| 免费黄色成人| 我不卡老子影院午夜伦我不卡四虎| 色综合图片二区150p| 欧美午夜精品| 日本人xxxxxxxxx69| 亚洲欧美视频一区二区| 黄色的视频网站在线观看| 理论片亚洲| 88av免费| 日本一区二区三区不卡在线视频| 欧美二级| 亚洲hhh| 一级毛片美国一级j毛片不卡| 国产精品久久久香蕉| 日本免费一区二区视频| 伊人久久综合网站| 老师在办公室被躁得舒服小说| 国产精品久久自在自2021| 性 色 黄 一级| 明日花绮罗snis-862在线播放| 色狠狠色综合久久8狠狠色| 亚洲人毛茸茸bbxx| 在线成人aa在线看片| 国产成人精品高清免费| 无遮挡高清一级毛片免费| 天天视频色版| 五月婷婷六月爱| 麻豆国产一区二区在线观看| 又长又大又粗又硬3p免费视频| 久久久久久国产精品mv| 亚洲网站免费观看| 日韩综合图区| 久久视频免费| 国产三级香港三级人妇|