HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于TF-IDF算法的文本特征词提取模型

作者:米硕; 孙瑞彬; 明晓; 赵汝程text文本相似度特征词提取

摘要:本文针对文本相似度计算中的核心问题建立了基于TF-IDF算法的特征词提取模型。由于文本的特征选择的基本单位是词,需要对文本进行预处理之后进行特征词提取。本文在文本预处理基础上构建特征词提取模型。分别使用Text Rank算法和TF-IDF算法对测试集进行处理,分别得出相应的特征词,权重及特征向量,经过对比计算后发现,TF-IDF算法无论是实际结果或是时间复杂度上都更加优良。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

中国战略新兴产业

《中国战略新兴产业》(CN:10-1156/F)是一本有较高学术价值的周刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《中国战略新兴产业》是面向国内外战略性新兴产业市场,以新闻报道、信息交流、咨询服务、论坛活动、搭建市场评级认证为核心内容的期刊。

杂志详情