分类导航

Spark源码分析之分区器的作用

发布时间：2017年07月05日作者： IT网络文摘 (该文来自笔记，点击查看原文)

最近因为手抖，在Spark中给自己挖了一个数据倾斜的坑。为了解决这个问题，顺便研究了下Spark分区器的原理，趁着周末加班总结一下~

数据倾斜是指Spark中的RDD在计算的时候，每个RDD内部的分区包含的数据不平均。比如一共有5个分区，其中一个占有了90%的数据，这就导致本来5个分区可以5个人一起并行干活，结果四个人不怎么干活，工作全都压到一个人身上了。遇到这种问题，网上有很多的解决办法：

但是如果是底层数据的问题，无论怎么优化，还是无法解决数据倾斜的。

比如你想要对某个rdd做groupby，然后做join操作，如果分组的key就是分布不均匀的，那么真样都是无法优化的。因为一旦这个key被切分，就无法完整的做join了，如果不对这个key切分，必然会造成对应的分区数据倾斜。

不过，了解数据为什么会倾斜还是很重要的，继续往下看吧！