雪鹰领主,古风名字,欢乐颂第二季

為了助力大模型研究，復旦大學自然語言處理實驗室開源了中文圖書數據集合CBook-150K，包含15萬本中文圖書的下載和抽取方法，涵蓋人文、教育、科技、軍事、政治等眾多領域。

當前很多研究表明，高質量數據對于訓練大規模語言模型具有至關重要的作用。圖書中的內容在質量、專業水準、可靠性等方面遠高于互聯網數據。OpenAI在訓練GPT 3時，也使用了大量圖書資源。但是目前還缺乏大規模的中文圖書開放集合。此外，由于絕大多數電子書籍的保存方式為PDF格式，從其中抽取文本內容也需要分析工具支持。復旦大學自然語言處理實驗室結合此前自主開發的相關PDF分析工具，開源了中文語料圖書集合CBook-150K。

復旦大學自然語言處理實驗室，自2019年起，自研了PDF處理工具DocAI，針對非掃描件PDF，具有能夠處理復雜格式、高效、高準確率、可私有化部署等特點。DocAI在全CPU解決方案下，單核CPU處理100頁文檔僅需10秒。提取字符準確率100%，結構分析準確率95%。DocAI智能文檔解析系統支持對DOC、PDF等常見電子文檔進行智能解析，對文檔中的標題、段落、表格等半結構化數據進行結構化分析還原。該應用場景具有文件類型多，格式復雜，兼容性要求高等特點，特別是對于跨頁表格，多欄排版等復雜場景的支持。是目前支持段落、表格融合識別的為數不多的智能文檔解析工具之一。DodAI不依賴第三方資源，支持離線環境下的私有化部署和使用，確保文檔隱私與安全。