作者:万新贵; 李玲娟; 马可数据流聚类分布式质心距离密度网格storm
摘要:为了提高数据流聚类算法的效率,设计并提出了基于质心距离和密度网格的数据流聚类算法-CDD-Stream,并通过对其中网格结构的更新实施了并行化策略,进而设计并提出了一种分布式数据流聚类算法-DCD-Stream(Distributed Centroid Distance D-Stream)。该算法分为在线和离线两个部分,在线部分实时接收数据流,利用局部节点和全局节点实现了网格结构更新的并行化,完成了整体网格结构的增量更新;离线部分基于网格结构的更新结果进行全局聚类,并存储网格帧,供用户查询历史簇。充分利用Storm快速实时处理数据流并显著提高数据流挖掘算法性能的优势,设计并实现了基于Storm的DCD—Stream算法实现方案。该方案通过内存数据库Redis和消息中间件Kafka的应用对DCD—Stream算法的拓扑进行了合理部署与实现。对比验证实验结果表明,相对于其他算法,DCD-Stream算法在数据流对象上有相当高的聚类精度和更好的时效性,基于Storm的DCD—Stream算法实现方案是可行且有效的。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社