mapTask并行度的决定机制
一个job的map阶段并行度由客户端在提交job时决定,而客户端对map阶段并行度的规划的基本逻辑为:将待处理数据执行逻辑切片(即按照一个特定切片大小,将待处理数据划分成逻辑上的多个split),然后每一个split分配一个mapTask并行实例处理。
FileInputFormat切片机制
原文和作者一起讨论:http://www.cnblogs.com/intsmaze/p/6733968.html
微信:intsmaze(非诚勿扰)
1、默认切片定义在InputFormat类中的getSplit()方法
2、FileInputFormat中默认的切片机制:<