作者:魏晶晶 杨定达 廖祥文搜索引擎主题网络爬虫相似度向量空间模型html标签
摘要:主题网络爬虫是垂直搜索引擎的重要组成部分,传统主题爬虫的网页内容相似度算法只考虑词频,忽略了关键词的位置信息。本文在分析基于网页内容相似度的主题爬虫的基础之上,提出利用网页HTML标签的特点改进相似度的计算方法。实验结果表明,改进算法抓取的平均准确率为64.99%,相比原始方法提高了15.37%。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社
《计算机与现代化》(CN:36-1137/TP)是一本有较高学术价值的大型月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《计算机与现代化》自创刊以来,以理论联系实际、促进应用开发为宗旨,主要刊登计算机专业方面的新理论、新技术及其在各个领域中应用成果的论文,设有系统分析与设计、软件工程、网络与通讯、过程控制、辅助设计、中文信息技术、人工智能、综合述评、应用与实践等栏目,既有相当的学术水平,又有现实的指导作用。
部级期刊
人气 850681 评论 75
人气 229062 评论 65
人气 212545 评论 35
省级期刊
人气 211818 评论 71