PM问:“Vic,现在ETL Job跑到哪一个Package了,正在执行哪个Task?”,第一次遇到这个问题时,一下就懵逼了,只能硬着头皮说:“我看看”。

在做项目开发时,这个问题很常见,但是,被很多ETL开发工程师忽略了,可能是因为,这不是一个直接可以给出答案的命题。

在做大数据处理时,ETL Package开发工程师经常会用到管理者模式(Manager Mode)设计Package,也就是说,管理者Package调用子Package,通过优先约束控制子Package的并发调用和执行顺序,这种模式在管理大量Package的ETL工程时十分有用。当使用该模式的Packages被部署到SQL Server时,开发人员只需要创建一个Job,设置调度(Schedule),那么大管家(Agent)就会自动调用Package,完成数据的处理,高枕无忧。

除了部署方便之外,管理者模式也能缩短ETL整体运行的时间。在ETL Package调度的设计上,经常会使用并发执行模式:Task 并发执行,Package并发执行。对于Package的并发执行模式,实现方式是:在SSIS Server上部署Package Job,每个Job Step执行一个Manager Package ,该Manager Package 以并发方式调用Execute Package Task,因此,在同一时间存在多个Child Packages同时运行,每一个子Package都是一个Executable文件,并发执行的Executable的最大值是CPU的数量。

通常情况下,查看Job的执行情况,都会使用Job Activity Monitor,但是,只能看到单个Job的执行的历史消息,当Package 运行出现异常时,开发人员单纯通过Monitor,看不到当前正在运行的Package和其他更底层的消息。那么,在Job运行的过程中,如何查看正在运行的Package呢? 答案是通过SSISDB记录的消息。在Project 部署模式下,在任何一个Package执行时,SSIS引擎都会记录Executable(Task,Container)在执行过程中产生的历史消息,因此,可以通过SSIS记录的operation message 和 executable 名字来判断当前正在运行的Package。

SSIS 执行引擎使用SSISDB存储Package执行的历史消息,SSIS引擎把Package的执行抽象成一个操作(opertion),operation的类型主要是Project的部署,package执行和消息的清理(cleanup)。每次执行Package,SSIS执行引擎都会创建operation_type=200的operation,使用catalog.operations记录对Package执行的operation,使用catalog.operation_messages视图,记录每个Package在执行过程中产生的历史消息,消息描述的对象是Executable,每一个Executable是Package中的一个可执行组件,主要是Task和Container,通过Executable的名字,事件名称,以及创建消息的时间,能够推断出当前正在执行的Executable,进而推断出当前正在执行的Package。

如果有人看过我之前的博客,应该记得catalog.executables视图,但是,从该视图中,只能推断出已经执行完成(Executed)的Executable,而不能推断出正在执行(Executing)的Executable,所以,没有捷径直接得出结论,那我们就按部就班,上干货,代码多,文章有点枯燥,还请手下留情。

1,查看正在运行的operation

Integration Service Catalogs中Package执行的任何操作,都会记录在 catalog.operations 视图中,该视图的关键字段是: