作者:陈军等值连接元组过滤数据倾斜shuffle
摘要:等值连接是数据分析中最常用、价值最高的操作之一,既广泛运用于传统关系型数据库的查询中,也是大数据分析处理的重要基础性环节。然而分布式平台由于存在多个节点,存储和计算都是分布式的,一些传统等值连接优化方法在分布式平台中难以实现,或时间代价、内存消耗、网络资源占用巨大。因此针对分布式平台特点,对等值连接问题进行研究十分必要。从分布式平台等值连接中元组过滤、数据倾斜处理两个大的方面对当下的研究技术及其适用场景进行分析,对根据数据的特征选择适合的等值连接优化方案提供参考。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社