医药科研信息网络抓取方法研究

作者：曾凯网页内容识别数据采集宽度优先遍历算法内存数据库布隆过滤器多线程技术多核并行编程技术

摘要：本文介绍了医药科研信息抓取系统中用到的数据抓取方法.为了高效地抓取网页内容,该方法采用带偏好的宽度优先遍历方式访问网页,将待访问的网址存放于高效的内存数据库BerKeley DB中,用布隆过滤器过滤已经抓取过的网址.通过Delphi xe7开发系统提供的WebBrowser控件和微软公司的MSHTML组件获取网页文本,将待提取数据文本划分成数据行,将数据行及相应的链接存入到对象数组中,用关键字在对象数组中匹配搜索时可实现精确和模糊搜索两种方式.并利用计算机的多线程技术提高网页抓取速度,利用多核优势带来的并行编程技术提高对网页内容中关键字的搜索速度.以万方医学网和中国知网为实际案例,阐述了数据抓取过程及结果,并提供了简化的Delphi xe7示例程序,结果表明,该方法能有效方便地应用于医药科研信息的采集.

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

学术咨询在线咨询

网络安全技术与应用

《网络安全技术与应用》（CN：11-4522/TP）是一本有较高学术价值的大型月刊，自创刊以来，选题新奇而不失报道广度，服务大众而不失理论高度。颇受业界和广大读者的关注和好评。《网络安全技术与应用》读者定位侧重于政府有关各部门领导、干部、专业工作者，企事业、军队、公安部门和国家安全机关，国家保密系统、金融证券部门、民航铁路系统、信息技术科研单位从事网络工作的人员和大专院校师生，信息安全产品厂商、系统集成商、网络公司职员及其他直接从事或热心于信息安全技术应用的人士。

杂志详情

服务推荐

网络安全技术与应用相关期刊

医药科研信息网络抓取方法研究

服务推荐

在线咨询

杂志订阅

期刊推荐

山东工业技术

数字技术与应用

养殖技术顾问

中国高新技术企业