HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

一种基于密度峰值的高效分布式聚类算法

作者:何仝; 徐蔚鸿; 马红华; 曾水玲聚类密度峰值大数据局部敏感哈希spark

摘要:基于密度峰值的聚类算法(DPC)是最近提出的一种高效密度聚类算法。该算法可以对非球形分布的数据聚类,有待调节参数少、聚类速度快等优点,但在计算每个数据对象的密度值和高密度最邻近距离时,需要进行距离度量,其时间复杂度为。在大数据时代,尤其是处理海量高维数据时,该算法的效率会受到很大的影响。为了提高该算法的效率和扩展性,利用Spark在内存计算以及迭代计算上的优势,提出一种高效的基于E2LSH分区的聚类算法ELSDPC(an efficient distributed density peak clustering algorithm based on E2LSH partition with spark)。算法利用DPC算法的局部特性,引入局部敏感哈希算法LSH实现将邻近点集划分到一个区域。通过实验分析表明:该算法可在满足较高准确率的同时有效提高聚类算法的扩展性和时间效率。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

计算技术与自动化

《计算技术与自动化》(CN:43-1138/TP)是一本有较高学术价值的大型季刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《计算技术与自动化》坚持理论与实践相结合的方针,跟踪世界最新科技动态,以其前沿的报道和新颖实用的内容,迅速向社会各界传递技术信息,为企业和科研院所架起联系的纽带和桥梁。

杂志详情