HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于Scrapy的深层网络爬虫研究

作者:刘宇; 郑成焕深展网网絡爬虫scrapypython

摘要:随着大数据时代的到来,网絡爬虫已经成为很普遍的技术,无论是做项目、科研、创业或者写论文, 获得大量数据并且对数据进行分析都是必不可少的.但是目前存在深层网( Deep Web) 的数据量是表层网( Surface Web)数据量的数百倍,乃至上千倍.传统的爬虫对表层网数据进行获取已经无法满足我们的需求,同时因为深层 网数据通常没有各种复杂的标签结构等,使得其本身更加清晰,干净,故而我们深入研究深层网络爬虫是非常有必 要的.本文将会通过Python的Scrapy爬虫框架,对深层网絡爬虫进行研究,通过分析深层网络特点制定合适的Scrapy 爬虫策略,最后通过实际操作,对指定的爬虫策略进行验证.

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

软件

《软件》(CN:12-1151/TP)是一本有较高学术价值的大型月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《软件》注重刊登反映计算机应用和软件技术开发应用方面的新理论、新方法、新技术以及创新应用的文章。

杂志详情