一種新聞關鍵信息的提取算法
大小:0.87 MB 人氣: 2017-12-13 需要積分:0
標簽:提取算法(6816)
針對網頁正文提取算法缺乏通用性,以及對新聞網頁的提取缺乏標題、時間、來源信息的問題,提出一種新聞關鍵信息的提取算法newsExtractor。該算法首先通過預處理將網頁轉換成行號和文本的集合,然后根據字數最長的一句話出現在新聞正文的概率極高的特點,從正文中間開始向兩端尋找正文的起點和終點提取新聞正文,根據最長公共子串算法提取標題,構造正則表達式并以行號輔助判斷提取時間,根據來源的格式特點并輔以行號提取來源;最后構造了數據集與國外開源軟件newsPaper進行提取準確率的對比實驗。實驗結果表明,newsExtractor在正文、標題、時間、來源的平均提取準確率上均優于newsPaper,具有通用性和魯棒性。
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%
下載地址
一種新聞關鍵信息的提取算法下載
相關電子資料下載
- 分享一種基于深度圖像梯度的線特征提取算法download 1001
- 面板AOI檢測之ROI自動提取算法解析 3373
- 面向SLAM魯棒應用提出了基于RGB特征點提取算法 949
- 折疊缺陷檢測提取算法 989
- 剖析彩色視頻運動目標自適應在線聚類提取算法 1307
- 一種使用快速行進水平集方法進行距離變換的三維中軸提取算法 2348
- 基于視頻速度應用在FPGA上實現的結構光中心線提取算法 1254
- HanLP 關鍵詞提取算法分析 374
- FPGA二值圖像邊界提取算法實現 3732
- HOG特征以及提取算法的實現過程 17599