作者:谭海中; 刘玉春大数据流行度关联规则聚类请求流时间局部性跟踪
摘要:综合考虑请求流的流行度和时间局部性对系统性能的影响,提出一种关联规则聚类更新过程,通过每个目标的时间间隔精确生成跟踪的流行度和时间局部性。对文件请求流进行建模,每个源工作负载一次;分析程序,为聚类提取特征;利用关联规则聚类找到相似的目标,利用数据处理工具获得每个聚类分布;生成合成跟踪,根据一个特定模型可以生成多个跟踪。仿真实验采用Yahoo Apache Hadoop聚类的跟踪数据,运行Hadoop分布式文件系统(HDFS)产生4100多个节点聚类,实验结果验证了该方法的有效性,合成结果非常接近真实负载。更新过程不要求模型适应于特定的时间间隔分布或特定的流行度分布。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社