作者:陈政伊; 袁云静; 贺月锦; 武瑞轩大数据新浪微博数据挖掘python爬虫模拟登陆
摘要:随着大数据时代到来,爬虫的需求呈爆炸式增长,以新浪微博为代表的一系列社交应用蕴含着巨大的数据资源。以新浪微博为研究对象,利用Python语言实现模拟登陆和网页解析技术,将获取的用户信息存为文档进行分析。文章分析了新浪微博模拟登陆时的加密方法,研究了验证码识别的实现方法,对挖掘的数据使用TF-IDF算法进行分析,提出了新的微博数据挖掘方向,论述了爬虫的国内外研究现状及开发难题。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社