Spark平台中Kafka偏移量的读取管理与设计

作者：高宗宝; 刘丽美; 张家铭; 宋国兴kafkaoffsetsparkstreaming数据准确性

摘要：随着移动互联网技术的大规模发展,创新型互联网公司和迭代型各行各业应用产品层出不穷,门户访问、好友互动等操作产生的大规模日志记录,对大数据处理的实时性、准确性和高可用性发起了挑战。Kafka是一种高吞吐量分布式订阅消息系统,其在高并发数据读写方面优势明显,但其提供的数据消费方式存在数据丢失和重复的风险。本文首先介绍Kafka架构及其Offset管理,介绍了新型流式数据处理框架SparkStreaming与Kafka的结合,并说明了Kafka数据消费方面存在的缺陷,最后提出了一种基于SparkStreaming读取Kafka的近似ExactlyOnce方案实现。通过搭建实验环境进行对比测试,验证了该设计可以在保证数据读取效率的前提下确保数据的准确性。

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

学术咨询在线咨询

软件

《软件》（CN：12-1151/TP）是一本有较高学术价值的大型月刊，自创刊以来，选题新奇而不失报道广度，服务大众而不失理论高度。颇受业界和广大读者的关注和好评。《软件》注重刊登反映计算机应用和软件技术开发应用方面的新理论、新方法、新技术以及创新应用的文章。

杂志详情

服务推荐

软件相关期刊

Spark平台中Kafka偏移量的读取管理与设计

服务推荐

在线咨询

杂志订阅

期刊推荐

计算机光盘软件与应用

计算机应用与软件

电子技术与软件工程

软件导刊