HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于Python的微博爬虫系统研究

作者:陈政伊; 袁云静; 贺月锦; 武瑞轩大数据新浪微博数据挖掘python爬虫模拟登陆

摘要:随着大数据时代到来,爬虫的需求呈爆炸式增长,以新浪微博为代表的一系列社交应用蕴含着巨大的数据资源。以新浪微博为研究对象,利用Python语言实现模拟登陆和网页解析技术,将获取的用户信息存为文档进行分析。文章分析了新浪微博模拟登陆时的加密方法,研究了验证码识别的实现方法,对挖掘的数据使用TF-IDF算法进行分析,提出了新的微博数据挖掘方向,论述了爬虫的国内外研究现状及开发难题。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

大众科技

《大众科技》(CN:45-1235/N)是一本有较高学术价值的大型月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《大众科技》主要刊发科学研究、工程技术、科学管理等方面的文章,目标定位为"成果的阵地、技术推广的窗口,信息交流的平台"。

杂志详情