作者:曾凯网页内容识别数据采集宽度优先遍历算法内存数据库布隆过滤器多线程技术多核并行编程技术
摘要:本文介绍了医药科研信息抓取系统中用到的数据抓取方法.为了高效地抓取网页内容,该方法采用带偏好的宽度优先遍历方式访问网页,将待访问的网址存放于高效的内存数据库BerKeley DB中,用布隆过滤器过滤已经抓取过的网址.通过Delphi xe7开发系统提供的WebBrowser控件和微软公司的MSHTML组件获取网页文本,将待提取数据文本划分成数据行,将数据行及相应的链接存入到对象数组中,用关键字在对象数组中匹配搜索时可实现精确和模糊搜索两种方式.并利用计算机的多线程技术提高网页抓取速度,利用多核优势带来的并行编程技术提高对网页内容中关键字的搜索速度.以万方医学网和中国知网为实际案例,阐述了数据抓取过程及结果,并提供了简化的Delphi xe7示例程序,结果表明,该方法能有效方便地应用于医药科研信息的采集.
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社