作者:米硕; 孙瑞彬; 明晓; 赵汝程text文本相似度特征词提取
摘要:本文针对文本相似度计算中的核心问题建立了基于TF-IDF算法的特征词提取模型。由于文本的特征选择的基本单位是词,需要对文本进行预处理之后进行特征词提取。本文在文本预处理基础上构建特征词提取模型。分别使用Text Rank算法和TF-IDF算法对测试集进行处理,分别得出相应的特征词,权重及特征向量,经过对比计算后发现,TF-IDF算法无论是实际结果或是时间复杂度上都更加优良。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社