HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

NTCI-Flow:一种可扩展的高速网络流量处理框架

作者:王煜骢; 陈兴蜀; 罗永刚; 王岳包抓取大数据分布式storm流重组

摘要:针对当前基于软/硬件的流导出技术存在的数据失真、不易扩展等问题,本文提出一种准确、通用、易扩展的高速网络流量处理框架NTCI-Flow。首先,基于PF_RING DNA实现了高性能的网络包抓取,采用基于网络包五元组的负载均衡策略对网络包进行分组分发,并利用批处理、无锁队列、多线程等技术将多个网络包封装为单条大消息并行发送,改进与优化网络包转发性能;然后,采用Kafka消息系统作为中间件接收并缓存网络包,从而实现网络包的分布式导入;接着,基于Storm搭建实时流处理平台,开发并部署分布式流重组应用,实现从Kafka中读取网络包,解析并抽取五元组、包大小、时间戳等信息后重组成网络流;最后,增加Hive流数据导入模块,将导出的网络流数据以Parquet格式实时存入HDFS,利用Hive Metastore存储并管理元数据,同时采用基于时间的动态分区机制以减少按时间检索时不必要的磁盘IO。实验结果表明:网络流量采集模块可实现万兆流量的准确采集与转发,即使在万兆流量均为最小包(60字节)的情况下,仍可保证仅有0.03%的丢包率;网络流量导入模块吞吐率与磁盘写入性能相关,在使用7块硬盘缓存数据时吞吐率可达775 MB/s;分布式流重组模块具有良好的通用性及扩展性,通过简单配置即可达到1.26×107包/s的吞吐率。目前,NTCI-Flow已用于采集与处理某机构的出口流量,该机构平均流量约3.5 Gbps,峰值带宽为6 Gbps,每秒包数最高可达百万级。在该实际应用中,NTCI-Flow运行情况良好,由其得到的流量数据比Net Stream更准确。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

工程科学与技术

《工程科学与技术》(双月刊)创刊于1957年,由中华人民共和国教育部主管,四川大学主办,CN刊号为:51-1773/TB,自创刊以来,颇受业界和广大读者的关注和好评。 《工程科学与技术》主要刊登水利与土木工程、化学与化学工程、材料科学与工程、机械工程、信息工程、电气工程、环境科学与工程、应用物理等工程学科方面研究、开发以及应用的有创造性的学术论文。优先刊登科学与技术领域中探索研究的新成果以及得到自然科学基金资助或重大攻关项目的科研成果。读者对象为高等院校理工类师生、科研人员和工程技术人员。 

杂志详情