作者:徐雁飞; 刘渊; 吴文鹏python微博api模拟登录网络爬虫采集器融合策略
摘要:随着社交网络的快速发展,对其研究也逐步深入。显然,社交网络基础数据的获取对研究具有非常重要的意义。针对目前已有的数据采集方案,根据新浪授权标准以及最新的微博加密方式,研究了两种采集方案:1)经OAuth2.0认证后,通过微博API接口获取数据;2)在RSA2加密方式下模拟登录微博,再通过网络爬虫抓取数据。同时,还研究了通过网页采集器针对微博编写适当的采集规则进而实现对数据的获取。3种数据采集方案都能有效地对数据进行采集且各具特点,针对数据的采集需求,提出融合不同的栗集方案的策略。经实验研究,方案的融合策略可快速、高效地实现大数据量的采集。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社