基于Hadoop云计算平台的新浪微博数据聚类分析算法研究

作者：段庆伟; 铁木巴干云计算hadoop分布式文本聚类潜在狄利克雷分配模型变分贝叶斯推断

摘要：近年来,随着Web2.0的兴起,互联网信息更加丰富,数据规模日益增加,传统数据挖掘技术难以满足需要。云计算为解决这一问题提出了一种新方法。本文首先对开源的云计算技术Hadoop进行介绍,然后,对分布式进行了设计。本文将聚类过程分为三个步骤,分别对TF-IDF关键词提取、LDA模型训练和K-means聚类过程进行MapReduce的实现,并使用公共微博数据集进行了聚类实验,并与传统聚类方法进行对比,结果表明,本文所使用LDA建模的分布式算法对中文微博数据聚类效果较好。

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

学术咨询在线咨询

辽宁科技学院学报

《辽宁科技学院学报》（CN：21-1522/Z）是一本有较高学术价值的大型双月刊，自创刊以来，选题新奇而不失报道广度，服务大众而不失理论高度。颇受业界和广大读者的关注和好评。《辽宁科技学院学报》以宣传党的教育方针，实施“科教兴国”的战略为宗旨，主要介绍学校教学、科研以及各项工作中的实际经验和成果，提倡不同学术观点的争鸣，注重反映科研、教学前沿学术动态。

杂志详情

服务推荐

辽宁科技学院学报相关期刊

基于Hadoop云计算平台的新浪微博数据聚类分析算法研究

服务推荐

在线咨询

杂志订阅

期刊推荐

科技资讯

科技创新与应用

中小企业管理与科技

科技风