在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

北大語言計算與機器學習研究組推出一套全新中文分詞工具包pkuseg

MqC7_CAAI_1981 ? 來源:lq ? 2019-01-11 15:55 ? 次閱讀

日前,北京大學語言計算與機器學習研究組研制推出一套全新中文分詞工具包 pkuseg,這一工具包有如下三個特點:

高分詞準確率。相比于其他的分詞工具包,當使用相同的訓練數據和測試數據,pkuseg 可以取得更高的分詞準確率。

多領域分詞。不同于以往的通用中文分詞工具,此工具包同時致力于為不同領域的數據提供個性化的預訓練模型。根據待分詞文本的領域特點,用戶可以自由地選擇不同的模型。而其他現有分詞工具包,一般僅提供通用領域模型。

支持用戶自訓練模型。支持用戶使用全新的標注數據進行訓練。

各項性能對比如下:

與 jieba、THULAC 等國內代表分詞工具包進行性能比較:

考慮到 jieba 分詞和 THULAC 工具包等并沒有提供細領域的預訓練模型,為了便于比較,開發團隊重新使用它們提供的訓練接口在細領域的數據集上進行訓練,用訓練得到的模型進行中文分詞。他們選擇 Linux 作為測試環境,在新聞數據(MSRA)、混合型文本(CTB8)、網絡文本(WEIBO)數據上對不同工具包進行了準確率測試。在此過程中,他們使用第二屆國際漢語分詞評測比賽提供的分詞評價腳本,其中 MSRA 與 WEIBO 使用標準訓練集測試集劃分,CTB8 采用隨機劃分。對于不同的分詞工具包,訓練測試數據的劃分都是一致的;即所有的分詞工具包都在相同的訓練集上訓練,在相同的測試集上測試。

以下是在不同數據集上的對比結果:

同時,為了比較細領域分詞的優勢,開發團隊比較了他們的方法和通用分詞模型的效果對比。其中 jieba 和 THULAC 均使用了軟件包提供的、默認的分詞模型:

從結果上來看,當用戶了解待分詞文本的領域時,細領域分詞可以取得更好的效果。然而 jieba 和 THULAC 等分詞工具包僅提供了通用領域模型。

目前,該工具包已經在 GitHub 開源,編譯、安裝和使用說明如下。

編譯和安裝

1. 通過 pip 下載(自帶模型文件)

pip install pkuseg之后通過 import pkuseg 來引用

2. 從 github 下載(需要下載模型文件,見預訓練模型)

將 pkuseg 文件放到目錄下,通過 import pkuseg 使用模型需要下載或自己訓練。

使用方式

1. 代碼示例

代碼示例1 使用默認模型及默認詞典分詞import pkusegseg = pkuseg.pkuseg() #以默認配置加載模型text = seg.cut('我愛北京***') #進行分詞print(text)

代碼示例2 設置用戶自定義詞典import pkuseglexicon = ['北京大學', '北京***'] #希望分詞時用戶詞典中的詞固定不分開seg = pkuseg.pkuseg(user_dict=lexicon) #加載模型,給定用戶詞典text = seg.cut('我愛北京***') #進行分詞print(text)

代碼示例3import pkusegseg = pkuseg.pkuseg(model_name='./ctb8') #假設用戶已經下載好了ctb8的模型并放在了'./ctb8'目錄下,通過設置model_name加載該模型text = seg.cut('我愛北京***') #進行分詞print(text)

代碼示例4import pkusegpkuseg.test('input.txt', 'output.txt', nthread=20) #對input.txt的文件分詞輸出到output.txt中,使用默認模型和詞典,開20個進程

代碼示例5import pkusegpkuseg.train('msr_training.utf8', 'msr_test_gold.utf8', './models', nthread=20) #訓練文件為'msr_training.utf8',測試文件為'msr_test_gold.utf8',模型存到'./models'目錄下,開20個進程訓練模型

2. 參數說明

pkuseg.pkuseg(model_name='ctb8', user_dict=[])model_name 模型路徑。默認是'ctb8'表示我們預訓練好的模型(僅對pip下載的用戶)。用戶可以填自己下載或訓練的模型所在的路徑如model_name='./models'。user_dict 設置用戶詞典。默認不使用詞典。填'safe_lexicon'表示我們提供的一個中文詞典(僅pip)。用戶可以傳入一個包含若干自定義單詞的迭代器。

pkuseg.test(readFile, outputFile, model_name='ctb8', user_dict=[], nthread=10)readFile 輸入文件路徑outputFile 輸出文件路徑model_name 同pkuseg.pkuseguser_dict 同pkuseg.pkusegnthread 測試時開的進程數

pkuseg.train(trainFile, testFile, savedir, nthread=10)trainFile 訓練文件路徑testFile 測試文件路徑savedir 訓練模型的保存路徑nthread 訓練時開的進程數

預訓練模型

分詞模式下,用戶需要加載預訓練好的模型。開發團隊提供了三種在不同類型數據上訓練得到的模型,根據具體需要,用戶可以選擇不同的預訓練模型。以下是對預訓練模型的說明:

MSRA: 在MSRA(新聞語料)上訓練的模型。新版本代碼采用的是此模型。

下載地址:https://pan.baidu.com/s/1twci0QVBeWXUg06dK47tiA

CTB8: 在CTB8(新聞文本及網絡文本的混合型語料)上訓練的模型。

下載地址:https://pan.baidu.com/s/1DCjDOxB0HD2NmP9w1jm8MA

WEIBO: 在微博(網絡文本語料)上訓練的模型。

下載地址:https://pan.baidu.com/s/1QHoK2ahpZnNmX6X7Y9iCgQ

開發團隊預訓練好其它分詞軟件的模型可以在如下地址下載:

jieba: 待更新

THULAC: 在 MSRA、CTB8、WEIBO、PKU 語料上的預訓練模型,下載地址:https://pan.baidu.com/s/11L95ZZtRJdpMYEHNUtPWXA,提取碼:iv82

其中 jieba 的默認模型為統計模型,主要基于訓練數據上的詞頻信息,開發團隊在不同訓練集上重新統計了詞頻信息。對于 THULAC,他們使用其提供的接口進行訓練(C++版本),得到了在不同領域的預訓練模型。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器學習
    +關注

    關注

    66

    文章

    8428

    瀏覽量

    132834
  • 數據集
    +關注

    關注

    4

    文章

    1208

    瀏覽量

    24748

原文標題:學界 | 北大開源中文分詞工具包 pkuseg

文章出處:【微信號:CAAI-1981,微信公眾號:中國人工智能學會】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    恩智浦車規級深度學習工具包使新代汽車應用性能提高30倍

    恩智浦半導體推出汽車車規級深度學習工具包eIQ Auto,擴展了公司eIQ機器學習產品系列。該工具包
    發表于 11-06 11:46 ?766次閱讀

    Facebook推出ReAgent AI強化學習工具包

    Facebook近日推出ReAgent強化學習(reinforcement learning)工具包,首次通過收集離線反饋(offline feedback)來實現策略評估(policy evaluation)。
    發表于 10-19 09:38 ?1591次閱讀

    PIC 語言工具包問題

    大家好,PIC 我是新手,有個簡單的問題請教下,就是我導入個mcp的,mplab會報語言工具包不對,這個要如何處理,因我導的是網上下下
    發表于 04-19 14:00

    Python人工智能學習工具包+入門與實踐資料集錦

    ,之后漸漸成為我工作中的第輔助腳本語言,雖然開發語言是C/C++,但平時的很多文本數據處理任務都交給了Python。這些年來,接觸和使用了很多Python工具包,特別是在文本處理,科
    發表于 11-22 14:46

    目前常用的自然語言處理開源項目/開發包大匯總

    中文詞法分析工具包,具有中文分詞和詞性標注功能。開發語言:網址:THULAC:個高效的
    發表于 11-26 10:31

    求LabVIEW2014 機器學習工具包

    有哪位大神有labview2014 機器學習工具包啊,分享下,急需!!非常感謝!
    發表于 03-15 23:08

    中文分詞研究難點-詞語切分和語言規范

    學習模型學習詞語切分的規律(稱為訓練),從而實現對未知文本的切分。隨著大規模語料庫的建立,統計機器學習方法的研究和發展,基于統計的
    發表于 09-04 17:39

    愛特梅爾推出全新的汽車應用開發工具包ATAPMxx

    愛特梅爾公司 (Atmel Corporation) 宣布推出全新的汽車應用開發工具包ATAPMxx,這是用于愛特梅爾現有和未來汽車產品的單開發平臺。
    發表于 10-31 07:43 ?928次閱讀

    Google Kubernetes機器學習工具包Kubeflow發布0.1版

    Google自家推出的Kubernetes機器學習工具包Kubeflow終于發布了0.1版。 Google表示,雖然該項目僅成立5個多月,但是目前在GitHub上,已經有超過3,000
    發表于 05-17 08:17 ?1813次閱讀

    Python網頁爬蟲,文本處理,科學計算機器學習和數據挖掘工具

    本文檔的主要內容詳細介紹的是Python工具包合集包括了:網頁爬蟲工具集,文本處理工具集,Python科學計算工具包,Python
    發表于 09-07 17:14 ?37次下載
    Python網頁爬蟲,文本處理,科學<b class='flag-5'>計算</b>,<b class='flag-5'>機器</b><b class='flag-5'>學習</b>和數據挖掘<b class='flag-5'>工具</b>集

    北大開源了中文分詞工具包,名為——PKUSeg

    多領域分詞:不同于以往的通用中文分詞工具,此工具包同時致力于為不同領域的數據提供個性化的預訓練模型。根據待
    的頭像 發表于 01-16 10:29 ?6783次閱讀
    <b class='flag-5'>北大</b>開源了<b class='flag-5'>一</b>個<b class='flag-5'>中文</b><b class='flag-5'>分詞</b><b class='flag-5'>工具包</b>,名為——<b class='flag-5'>PKUSeg</b>

    ToolKit是一套應用于嵌入式系統的通用工具包

    ToolKit是一套應用于嵌入式系統的通用工具包,可靈活應用到有無RTOS的程序中,采用C語言面向對象的思路實現各個功能,盡可能最大化的復用代碼,目前為止工具包包含:循環隊列、軟件定時
    的頭像 發表于 04-17 10:04 ?2951次閱讀

    搭建一套優秀的嵌入式軟件框架必備的通用工具包

    ToolKit是一套應用于嵌入式系統的通用工具包,可靈活應用到有無RTOS的程序中,采用C語言面向對象的思路實現各個功能,盡可能最大化的復用代碼,目前為止工具包包含:循環隊列、軟件定時
    的頭像 發表于 04-18 09:34 ?1020次閱讀

    Microchip 推出 MPLAB? 機器學習開發工具包,助力開發人員輕松將機器學習集成到 MCU 和 MPU中

    開發工具包,提供一套完整的集成工作流程來簡化機器學習模型開發。這款軟件工具包可用于Microchip的各類單片機 (MCU) 和微處理器 (
    的頭像 發表于 09-11 15:55 ?603次閱讀

    Microchip(微芯)推出MPLAB機器學習開發工具包

    機器學習(ML)正成為嵌入式設計人員開發或改進各種產品的標準要求。為滿足這需求,Microchip(微芯)近日推出全新的MPLAB?
    的頭像 發表于 09-12 18:26 ?1065次閱讀
    Microchip(微芯)<b class='flag-5'>推出</b>MPLAB<b class='flag-5'>機器</b><b class='flag-5'>學習</b>開發<b class='flag-5'>工具包</b>
    主站蜘蛛池模板: 午夜美女影院| 欧美久操| 调教双性学霸美人| 免费看黄视频| 久久久久久免费观看| www.你懂的| 999色综合| 天天搞天天色| 黄色网址免费在线| 欧美性猛交xxxx乱大交中文| 中文字字幕码一二区| 免费看黄的视频网站| 在线99热| 黄网站免费视频| 亚洲一区二区三区不卡视频| 日本丝瓜着色视频| 亚洲天堂爱爱| 国产99在线| 日韩精品卡4卡5卡6卡7卡| 性夜影院爽黄e爽在线观看| 狼色网| 国产三级观看久久| 四虎影院黄色| 久久综合欧美成人| 美女视频黄.免费网址| 国产精品免费观看网站| 四虎永久在线观看免费网站网址| 四虎影音在线观看| 毛片综合| 亚洲视频国产| 国产精品久久久久久久久免费 | 日韩综合图区| 亚洲成人三级电影| 日本色午夜| 淫欲高三| 色视频在线| 国产精品你懂得| 艹逼免费视频| 999av视频| 午夜免费小视频| 4hc44四虎www在线影院男同|