TF-IDF算法的改進及在語義檢索中應用
大?。?/span>0.78 MB 人氣: 2018-01-02 需要積分:3
標簽:語義檢索(6106)
針對傳統的TF-IDF算法、K-means算法、自適應遺傳算法在網絡檢索結果中含有大量不相關數據、語義檢索準確性不高的問題,研究了TF-IDF算法的改進及其在語義檢索中的應用。將正則表達式和語義分析技術相結合,從而實現對TF-IDF算法的改進。利用語義庫對搜索主題進行描述,根據正則原予語義的重要性和在網頁標簽中的不同位置進行加權計算,得到正則原子在文檔中的相似度。通過空間向量模型對文檔相似度和主題模型進行余弦運算,從而獲取最終的搜索結果。最后,將改進的TF-IDF算法、傳統的TF-IDF算法、K-means算法和自適應遺傳算法運用于聚焦主題網絡爬蟲中,對其檢索結果進行了對比分析。計算結果表明,在聚焦主題網絡爬蟲語義分析的垂直搜索中,改進TF-IDF算法的相似度準確率比傳統的TF-IDF算法檢索準確率提高了17.1個百分點,遺漏率降低了7.76個百分點;比K-means算法檢索準確率提高6個百分點;比自適應遺傳算法檢索準確率提高了8.1個百分點。總之,改進的TF-IDF算法可以有效地提高文檔相似度檢測的準確率,很好地改善聚焦主題網絡爬蟲在語義分析中的缺陷。
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%