HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于时效性的爬虫调度

作者:韩瑞昕搜索引擎爬虫调度回归预测随机森林

摘要:搜索引擎作为互联网信息获取的入口,实现高效、准确的信息获取非常重要,爬虫作为搜索引擎的上游,其重要性不言而喻,特别是大数据时代信息更新频繁,如何在第一时间获取新闻是实现爬虫时效性的重要因素。为了充分利用有限资源,提升带宽利用率,设计一种基于历史数据预测的爬虫调度算法。该算法通过抓取网站历史,更新频次积累数据,使用随机森林回归建立模型,并在系统中实现爬虫调度。实验结果表明,该策略在抓取新链的命中率上提升了46%,平均成本降低了11%,平均抓取延时降低了14%。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

软件导刊

《软件导刊》(CN:42-1671/TP)是一本有较高学术价值的大型月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《软件导刊》是关于软件开发与管理的学术期刊,以服务于软件的提供者与应用者、增强产业发展能力为宗旨,及时向读者传递软件行业的主流技术、研究热点、企业管理理念和项目管理模式,准确反映行业动态与最新发展趋势,为政府和企业信息化提供服务;总结软件应用中的经验和问题,探讨软件管理与技术人才培养的教育模式,积极促进软件科技成果产业化,为软件行业提供技术...

杂志详情