作者:石磊数据挖掘网络爬虫新浪api获取数据
摘要:微博是近几年来兴起的一种社会化网络,类似于国外的twitter和facebook等社交网络,随着社交网络的发展,产生了大量的用户数据。如何有效的从这些大量的数据中提取到我们感兴趣的知识,成为数据挖掘领域重要的问题。由于单独使用网络爬虫或者新浪API接口获取新浪微博中电商用户数据,无法一次性完成获取数据的任务。所以,本文主要介绍一种基于新浪API接口和网络爬虫相集合的方法获取新浪微博中用户数据的方法,设计方法中主要解决了新浪API接口的访问频率限制和网络爬虫需要下载大量页面的问题,并且结合了两种方法的优点。最后,采用统计性试验,对本文新提出的方法和传统的方法进行比较研究。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社