作者:关慧芬 师军 马继红主题爬虫遗传算法主题相关度本体语义
摘要:针对目前主题搜索策略的不足,提出了基于遗传算法的主题爬行策略,提高了链接于内容相似度不高的网页之后的页面被搜索的机会,扩大了相关网页的搜索范围。同时,在网页相关度分析方面,引入了基于本体语义的主题过滤策略。实验结果表明,基于遗传算法的主题爬虫抓取网页中的主题相关网页数量多,在合理选择种子集合时,能够抓取大量的主题相关度高的网页。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社
《计算机与数字工程》(CN:42-1372/TP)是一本有较高学术价值的大型月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《计算机与数字工程》始终秉承:"坚持理论联系实际;坚持实事求是的学风;坚持以应用为主,提高与普及并重;坚持创新;坚持以刊登国内外计算机方面的新理论,新技术,新工艺,新成果研究为主;以学术性,技术性为办刊宗旨。
省级期刊
人气 252898 评论 66
部级期刊
人气 231019 评论 65
人气 216821 评论 35
人气 214113 评论 71