作者:牟雁超 李红燕 王腾蛟封闭数据立方体大数据树结构mapreduce并行化计算
摘要:完全数据立方体是一种需要在数据集上对属性列进行上卷聚集运算的复杂模型,而封闭数据立方体是一种对应的高效压缩模型.近年来海量数据管理系统的发展使得在大数据上进行数据立方体的计算成为可能,但是大数据环境中的数据可能稀疏也可能密集,因此,要求在不同的数据稀疏程度下算法都要有稳定的表现.面对这样的要求,提出了一种基于大数据环境的封闭数据立方体并行化方法,首先通过构造2种树结构进行本地封闭数据子立方体的构造,然后利用位运算的方式在遍历树结构的同时进行封闭数据立方体的判断和聚集运算,最后经过合并得到查询的最终结果.并且通过在大数据中进行对比实验证明混合并行封闭数据立方体(parallel hybrid closed cubing,PHCC)算法能够满足在稀疏数据变化的数据中进行稳定聚集运算的条件.
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社