作者:卫锋 刘烜 苏庆华海量urlweb爬虫爬行策略系统构建系统模块
摘要:海量的URL快速文件系统建立的目标就是提供高速的处理机制,此时以高性能的web爬虫为基础的系统可以帮助实现这个目标。为了实现这个快速目标,URL往往将被保存在一个专业数据库中,但数据量的增加会给爬虫技术带来巨大的压力,关系数据库往往不能满足爬虫对海量URL的存储需求。本文所研究的是数据规模增加是如何打破web爬虫的技术瓶颈,从而使得系统获得更加优化的利用效果与速度的。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社