HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于Python的网络爬虫技术的关键性问题探索

作者:唐琳; 董依萌; 何天宇python网络爬虫技术网站结构crawlercookiesgoogledom树

摘要:0引言随着网络的不断发展,大量数据以文本形式、图片甚至视频的形式存储,通过网络爬虫(Crawler)获取网络数据是一种非常流行的方法。本文将基于Python的网络爬虫技术的关键性问题以及一些相应的解决方法进行讨论。1相关性问题介绍数据爬取任务通常是基于Robots协议进行,再分析网站DOM树爬取所需要的数据。在解析过程中主要使用正则表达式进行筛选和匹配,针对网站的反爬取机制采取一些措施和手段。下面分别针对这些具体知识点和解决方案进行介绍:1.1 Robots协议Robots协议的全称是网络爬虫排除标准(即Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。它是Web站点和搜索引擎爬虫交互的一种方式,并不是一个规范,所以并不能保证网站隐私。在互联网世界中,每天都有不计其数的爬虫在日夜不息地爬取数据,其中恶意爬虫的数量甚至高于非恶意爬虫。遵守Robots协议的爬虫才是好爬虫,但是并不是每个爬虫都会主动遵守Robots协议。1.2分析网站DOM树爬取数据网站结构分析是进行数据采集的必备技能,在编写爬虫之前我们需要知道数据所在的位置,之后才能通过遍历节点树或查找子节点找到目标数据。Google浏览器的开发者模式就是分析网站结构的强力工具,利用好这个工具就可以轻松分析出目标数据的位置,还能获取渲染内容、cookies等信息。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

电子世界

《电子世界》(CN:11-2086/TN)是一本有较高学术价值的大型半月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《电子世界》全方位推崇E时代大众电子科学意识,传播电子与信息领域的新知识、新技术,发表最新科研成果和展示技术进展状况,始终注重扶持学术新人,尤其关注广大青年科技工作者,优先发表理工科青年教师和研究生中的优秀学术稿件。

杂志详情