HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于Hadoop云计算平台的新浪微博数据聚类分析算法研究

作者:段庆伟; 铁木巴干云计算hadoop分布式文本聚类潜在狄利克雷分配模型变分贝叶斯推断

摘要:近年来,随着Web2.0的兴起,互联网信息更加丰富,数据规模日益增加,传统数据挖掘技术难以满足需要。云计算为解决这一问题提出了一种新方法。本文首先对开源的云计算技术Hadoop进行介绍,然后,对分布式进行了设计。本文将聚类过程分为三个步骤,分别对TF-IDF关键词提取、LDA模型训练和K-means聚类过程进行MapReduce的实现,并使用公共微博数据集进行了聚类实验,并与传统聚类方法进行对比,结果表明,本文所使用LDA建模的分布式算法对中文微博数据聚类效果较好。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

辽宁科技学院学报

《辽宁科技学院学报》(CN:21-1522/Z)是一本有较高学术价值的大型双月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《辽宁科技学院学报》以宣传党的教育方针,实施“科教兴国”的战略为宗旨,主要介绍学校教学、科研以及各项工作中的实际经验和成果,提倡不同学术观点的争鸣,注重反映科研、教学前沿学术动态。

杂志详情