HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

引入主题链接块因子的候选链接搜索策略研究

作者:周雪; 刘乃文网页分块链接结构主题链接块

摘要:网页主题爬取过程中,需要计算网页中出现的url权重,不断填充待爬行队列,以满足爬行条件,如何发现与主题最相关的链接,同时又不会导致"主题漂移"问题是关键。针对链接的锚文本较短小,不能很好地表明链接指向页面与主题的相关性的问题,论文在Shark-search算法的基础上引入相关链接块权重,利用块中子链接的锚文本进行块的权重计算,通过对比实验验证了改进算法可以更好地区分处于同一页面中的链接的相关度评分,提高爬虫的查准率,同时缓和"主题漂移"的问题。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

计算机与数字工程

《计算机与数字工程》(CN:42-1372/TP)是一本有较高学术价值的大型月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《计算机与数字工程》始终秉承:"坚持理论联系实际;坚持实事求是的学风;坚持以应用为主,提高与普及并重;坚持创新;坚持以刊登国内外计算机方面的新理论,新技术,新工艺,新成果研究为主;以学术性,技术性为办刊宗旨。

杂志详情