HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

一种嵌入分布信息的Web文档相似性度量

作者:孙春红 杨明web网页的相似性度量vsm分布信息web网页分类

摘要:Web文档间的相似性度量是Web文本分类的关键,有效的相似性度量策略可改进Web文本分类的精度.经典的向量空间模型(VSM)仅考虑网页中单词的出现频率,未有效利用单词的分布信息,因而影响了网页的分类精度.论文计算了网页中单词分布位置的均值和方差,并将之引入到网页的相似性计算中,提出了一种直接嵌入分布信息的新的网页相似性度量方法.该方法因合理利用单词的出现频率及其分布信息,可有效改进和拓展经典的网页相似性度量策略.实验结果表明,该网页相似性度量方法是有效可行的.

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

南京师范大学学报·工程技术版

《南京师范大学学报·工程技术版》(季刊)创刊于2001年,由江苏教育厅主管,南京师范大学主办,CN刊号为:32-1684/T,自创刊以来,颇受业界和广大读者的关注和好评。 《南京师范大学学报·工程技术版》主要刊登电气工程、电子工程、动力工程、控制科学与工程、化学工程与技术、材料科学与工程、环境科学与工程、生物医学工程等领域的学术研究、技术研究和应用研究论文。为及时报导我校工程技术学科的新技术、新工艺、新进展,本刊还设置了“研究简报”专栏。

杂志详情