分类导航

【Spark2.0源码学习】-10.Task执行与回馈

发布时间：2017年06月09日作者： IT网络文摘 (该文来自笔记，点击查看原文)

通过上一节内容，DriverEndpoint最终生成多个可执行的TaskDescription对象，并向各个ExecutorEndpoint发送LaunchTask指令，本节内容将关注ExecutorEndpoint如何处理LaunchTask指令，处理完成后如何回馈给DriverEndpoint，以及整个job最终如何多次调度直至结束。

一、Task的执行流程

承接上一节内容，Executor接受LaunchTask指令后，开启一个新线程TaskRunner解析RDD，并调用RDD的compute方法，归并函数得到最终任务执行结果

Android培训,安卓培训,手机开发培训,移动开发培训,云培训培训

ExecutorEndpoint接受到LaunchTask指令后，解码出TaskDescription,调用Executor的launchTask方法
Executor创建一个TaskRunner线程，并启动线程，同时将改线程添加到Executor的成员对象中，代码如下：

private val runningTasks = new ConcurrentHashMap[Long, TaskRunner]
runningTasks.put(taskDescription.taskId, taskRunner)

TaskRunner

首先向DriverEndpoint发送任务最新状态为RUNNING
从TaskDescription解析出Task，并调用Task的run方法

Task

如果Task实例为ShuffleMapTask：解析出RDD以及ShuffleDependency信息，调用RDD的compute()方法将结果写Writer中（Writer这里不介绍，可以作为黑盒理解，比如写入一个文件中），返回MapStatus对象
如果Task实例为ResultTask：解析出RDD以及合并函数信息，调用函数将调用后的结果返回
创建TaskContext以及CallerContext（与HDFS交互的上下文对象）
执行Task的runTask方法

TaskRunner将Task执行的结果序列化，再次向DriverEndpoint发送任务最新状态为FINISHED

二、Task的回馈流程

TaskRunner执行结束后，都将执行状态发送至DriverEndpoint，DriverEndpoint最终反馈指令CompletionEvent至DAGSchedulerEventProcessLoop中

Android培训,安卓培训,手机开发培训,移动开发培训,云培训培训

分类导航

【Spark2.0源码学习】-10.Task执行与回馈

延伸阅读

我想了解如何学习