HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于改进TF-IDF的百度百科词语相似度计算

作者:杨欣; 郭建彬百度百科词语相似度词语代表性

摘要:基于百度百科对词语相似度计算进行研究,结合TF-IDF算法和词条百度百科内容,提出一种基于改进TF-IDF的百度百科词语相似度计算方法。TF-IDF算法对文本中词语权重进行计算时,面临部分代表性较好的词语权重较低的问题,通过引进百科词条中词语分布的类别信息,包括词语在类内、类间分布对词语权重的影响改进词语权重计算,此外,根据词语在全集中出现的频率定义词语的代表性,通过计算百科词条中词语的权重因子,构建词条的相关向量,根据向量之间余弦值计算词语相似度。实验表明,相对于不使用TF-IDF方法计算权重和基于经典TF-IDF方法计算权重,结合类别信息的TF-IDF方法和定义代表性的TF-IDF方法提高了词语相似度计算的准确性。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

甘肃科学学报

《甘肃科学学报》(双月刊)创刊于1989年,由甘肃省科学院主管,甘肃省科学院;中国科学院资源环境科学信息中心主办,CN刊号为:62-1098/N,自创刊以来,颇受业界和广大读者的关注和好评。 《甘肃科学学报》主要刊登论文、实验报告及研究简报、专题评述等,涉及学科主要为数、理、化、新能源、生物、地质、灾害防治、自动控制等。

杂志详情