HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于WebMagic爬取技术的电力事故信息获取

作者:党佩; 阎光伟电力事故网络爬虫webmagic数据抓取

摘要:当前国民经济正处于迅猛发展的大好时期,也是电力工业体制改革的关键时期,对电力的需求十分紧迫,所以,电力系统的安全稳定运行及人员的安全管理日益成为影响电力工业发展的关键要素。近年来,各类电力事故依旧时有发生,全面调查事故发生原因是非常必要的,因此,进行事故信息的收集、管理和分析成为关键的一步。采用传统的方式,人工使用搜索引擎搜索信息,费时费力,而随着互联网技术的不断发展,网络爬虫技术已日渐成熟,应用网络爬虫技术可以快速获取这类事故信息。文中主要应用WebMagic爬虫技术,利用XPath和正则表达式指定信息的抽取规则,从电力安全管理网上抓取有关于电力事故信息的新闻,匹配符合要求的事故描述信息,下载到本地并实现数据存储进数据库,为之后进行事故信息分析提供数据基础。实验结果显示,该技术能够准确、迅速地获取数据,且爬虫程序简单易维护。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

计算机技术与发展

《计算机技术与发展》(CN:61-1450/TP)是一本有较高学术价值的大型月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《计算机技术与发展》在国内外有广泛的覆盖面,国内读者遍布全国32个省(市、自治区)以及港、澳、台地区,境外读者分布在北美、西欧、韩国、日本等38个国家和地区。

杂志详情