HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于Spark Streaming的实时数据采集分析系统设计

作者:党寿江; 刘学; 王星凯; 刘春梅基数计算实时数据分析spark流式处理不重复计数

摘要:大数据量的实时数据分析系统,需要快速的处理和响应。为了实现实时数据分析,本文设计了基于Spark Streaming的实时数据采集分析系统,并对有状态计算操作的基数计算的精确计算方法和估算方法进行了比较分析。实验表明,基于HyperLogLog++的基数估算方法在处理时间和存储占用空间上有明显优势,而计算偏差基本可以忽略不计,更适于大数据的基数估算。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

网络新媒体技术

《网络新媒体技术》(CN:10-1055/TP)是一本有较高学术价值的大型双月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。

杂志详情