在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NLP大模型必備-FudanNLP開源中文圖書集合CBook-150K

深度學習自然語言處理 ? 來源:FudanNLP ? 2023-04-25 11:41 ? 次閱讀

為了助力大模型研究,復旦大學自然語言處理實驗室開源了中文圖書數據集合CBook-150K,包含15萬本中文圖書的下載和抽取方法,涵蓋人文、教育、科技、軍事、政治等眾多領域。

當前很多研究表明,高質量數據對于訓練大規模語言模型具有至關重要的作用。圖書中的內容在質量、專業水準、可靠性等方面遠高于互聯網數據。OpenAI在訓練GPT 3時,也使用了大量圖書資源。但是目前還缺乏大規模的中文圖書開放集合。此外,由于絕大多數電子書籍的保存方式為PDF格式,從其中抽取文本內容也需要分析工具支持。復旦大學自然語言處理實驗室結合此前自主開發的相關PDF分析工具,開源了中文語料圖書集合CBook-150K。

復旦大學自然語言處理實驗室,自2019年起,自研了PDF處理工具DocAI,針對非掃描件PDF,具有能夠處理復雜格式、高效、高準確率、可私有化部署等特點。DocAI在全CPU解決方案下,單核CPU處理100頁文檔僅需10秒。提取字符準確率100%,結構分析準確率95%。DocAI智能文檔解析系統支持對DOC、PDF等常見電子文檔進行智能解析,對文檔中的標題、段落、表格等半結構化數據進行結構化分析還原。該應用場景具有文件類型多,格式復雜,兼容性要求高等特點,特別是對于跨頁表格,多欄排版等復雜場景的支持。是目前支持段落、表格融合識別的為數不多的智能文檔解析工具之一。DodAI不依賴第三方資源,支持離線環境下的私有化部署和使用,確保文檔隱私與安全。

b3e29316-dce4-11ed-bfe3-dac502259ad0.png

b3fa4fe2-dce4-11ed-bfe3-dac502259ad0.png

結合DocAI工具以及搜索引擎,復旦大學自然語言處理實驗室從互聯網中篩選了大量中文圖書資源鏈接,并構造了內容抽取算法,助力廣大學者NLP大模型研究,同時也在實踐與操作中不斷迭代更新,完善大型語料庫的部署。

下載鏈接:

https://github.com/FudanNLPLAB/CBook-150K

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 開源
    +關注

    關注

    3

    文章

    3381

    瀏覽量

    42604
  • 自然語言處理

    關注

    1

    文章

    619

    瀏覽量

    13599
  • nlp
    nlp
    +關注

    關注

    1

    文章

    489

    瀏覽量

    22064

原文標題:NLP大模型必備-FudanNLP開源中文圖書集合CBook-150K

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    開源模型在多個業務場景的應用案例

    在人工智能發展浪潮中,大模型開源與閉源之爭一直是業內的熱點話題。隨著技術的不斷進步和應用場景的日益豐富,如何降低大模型的使用門檻,讓更多人能夠便捷地應用于實際業務場景,成為了推動行業發展的關鍵所在。而
    的頭像 發表于 12-30 10:16 ?204次閱讀

    開源AI模型庫是干嘛的

    開源AI模型庫是指那些公開源代碼、允許自由訪問和使用的AI模型集合。這些模型通常經過訓練,能夠執
    的頭像 發表于 12-14 10:33 ?223次閱讀

    阿里通義千問代碼模型全系列開源

    近日,阿里云通義大模型團隊宣布了一項重大決策:將通義千問代碼模型全系列正式開源。此次開源模型系列共包含6款Qwen2.5-Coder
    的頭像 發表于 11-14 15:26 ?386次閱讀

    科技云報到:假開源真噱頭?開源模型和你想的不一樣!

    查看、修改、分發。開源自此深刻影響了互聯網行業的每一個角落。 在大模型和GenAI崛起的當下,開源再次成為業界關注焦點,對于開源和閉源的爭論也久久未能平息。然而,大
    的頭像 發表于 11-03 10:46 ?253次閱讀

    Llama 3 與開源AI模型的關系

    在人工智能(AI)的快速發展中,開源AI模型扮演著越來越重要的角色。它們不僅推動了技術的創新,還促進了全球開發者社區的合作。Llama 3,作為一個新興的AI項目,與開源AI模型的關系
    的頭像 發表于 10-27 14:42 ?401次閱讀

    nlp邏輯層次模型的特點

    NLP(自然語言處理)邏輯層次模型是一種用于理解和生成自然語言文本的計算模型。它將自然語言文本分解為不同的層次,以便于計算機更好地處理和理解。以下是對NLP邏輯層次
    的頭像 發表于 07-09 10:39 ?428次閱讀

    nlp神經語言和NLP自然語言的區別和聯系

    神經語言(Neuro-Linguistic Programming,NLP) 神經語言是一種心理學方法,它研究人類思維、語言和行為之間的關系。NLP的核心理念是,我們可以通過改變我們的思維方式和語言
    的頭像 發表于 07-09 10:35 ?817次閱讀

    nlp自然語言處理基本概念及關鍵技術

    、問答系統、文本摘要等眾多領域有著廣泛的應用。 1. NLP的基本概念 1.1 語言模型 語言模型NLP的基礎,它用于描述一個句子在自然語言中出現的概率。語言
    的頭像 發表于 07-09 10:32 ?685次閱讀

    llm模型有哪些格式

    LLM(Large Language Model,大型語言模型)是一種深度學習模型,主要用于處理自然語言處理(NLP)任務。LLM模型的格式多種多樣,以下是一些常見的LLM
    的頭像 發表于 07-09 09:59 ?688次閱讀

    nlp自然語言處理模型怎么做

    的進展。本文將詳細介紹NLP模型的構建過程,包括數據預處理、模型選擇、訓練與優化等方面。 數據預處理 數據預處理是NLP模型構建的第一步,其
    的頭像 發表于 07-05 09:59 ?677次閱讀

    nlp自然語言處理模型有哪些

    自然語言處理(Natural Language Processing,NLP)是計算機科學和人工智能領域的一個重要分支,旨在使計算機能夠理解、解釋和生成人類語言。以下是對NLP領域一些模型的介紹
    的頭像 發表于 07-05 09:57 ?805次閱讀

    NLP模型中RNN與CNN的選擇

    在自然語言處理(NLP)領域,循環神經網絡(RNN)與卷積神經網絡(CNN)是兩種極為重要且廣泛應用的網絡結構。它們各自具有獨特的優勢,適用于處理不同類型的NLP任務。本文旨在深入探討RNN與CNN
    的頭像 發表于 07-03 15:59 ?584次閱讀

    通義千問推出1100億參數開源模型

    通義千問近日震撼發布1100億參數的開源模型Qwen1.5-110B,這一舉措標志著通義千問在AI領域邁出了重大步伐。該模型成為通義千問全系列首個千億級參數開源
    的頭像 發表于 05-06 10:49 ?606次閱讀

    模型開源開放評測體系司南正式發布

    近日,大模型開源開放評測體系司南(OpenCompass2.0)正式發布,旨在為大語言模型、多模態模型等各類模型提供一站式評測服務。Open
    的頭像 發表于 02-05 11:28 ?1093次閱讀

    機器人基于開源的多模態語言視覺大模型

    ByteDance Research 基于開源的多模態語言視覺大模型 OpenFlamingo 開發了開源、易用的 RoboFlamingo 機器人操作模型,只用單機就可以訓練。
    發表于 01-19 11:43 ?431次閱讀
    機器人基于<b class='flag-5'>開源</b>的多模態語言視覺大<b class='flag-5'>模型</b>
    主站蜘蛛池模板: 综合网激情五月| 高h肉肉视频在线播放观看| 在线成人看片| 伊人久久大香线蕉观看| 真人一级一级特黄高清毛片| 在线观看你懂的网址| 亚洲开心激情网| 色婷婷网| 两性色午夜视频免费国产| 狠狠狠狠狠狠| 最近高清在线视频观看免费| 天天插一插| 成人影院在线观看| zsvdy午夜片| 97人人揉人人捏人人添| 香港澳门a级三级三级全黄| 日韩三级一区| 九色国产在视频线精品视频| bt天堂网在线资源www| 奇米影视婷婷| 黄色在线观看国产| 99热成人精品热久久669| 四虎国产精品4hu永久| 你懂的在线视频播放| 国产handjob手交在线播放| 午夜国产理论| 成人午夜小视频手机在线看| 特黄aa级毛片免费视频播放| 天天摸天天做天天爽水多| 嫩草影院网站入口| 在线免费看片| 国产美女视频黄a视频免费全过程 国产美女视频黄a视频全免费网站 | 国产一级特黄一级毛片| 777国产精品永久免费观看| 久久综合爱| 视频二区中文字幕| 色综合久久综合欧美综合图片| 九九99久久精品午夜剧场免费| 夜色福利视频| 欧美另类高清| 五月天婷婷在线视频|