基于Hadoop分布式集群YARN模式下的TensorFlowOnSpark平台搭建

发布时间：2017年04月26日作者：IT网络文摘

1. 介绍

　　在过去几年中，神经网络已经有了很壮观的进展，现在他们几乎已经是图像识别和自动翻译领域中最强者^[1]。为了从海量数据中获得洞察力，需要部署分布式深度学习。现有的DL框架通常需要为深度学习设置单独的集群，迫使我们为机器学习流程创建多个程序（见Figure 1）。拥有独立的集群需要我们在它们之间传递大型数据集，从而引起不必要的系统复杂性和端到端的学习延迟。

iOS培训,Swift培训,苹果开发培训,移动开发培训

　　TensorFlow是Google公司刚刚发布不久一款用于数值计算和神经网络的深度学习框架。

　　TensorFlowOnSpark是yahoo今年刚开源的一个项目，目的就是充分发掘TensorFlow在现有的大数据集群上进行高效深度学习的能力，利用TensorFlowOnSpark，数据科学家和工程师们可以直接利用运行于CPU/GPU架构上的Spark或者Hadoop做分布式模型训练。该库支持把现有的TensorFlow程序切换到新的API，同时实现了模型训练的性能提升。

　　在开源公告里，雅虎说明了TensorFlowOnSpark想解决的问题，比如在深度神经网络训练中管理Spark数据管线之外的其他集群带来的运维负载，以网络I/O为瓶颈的数据集在训练集群的传入和传出，令人讨厌的系统复杂性，以及端到端的整体学习时延。TensorFlowOnSpark的工作和雅虎之前开源的CaffeOnSpark相似。现有的对TensorFlow和Spark的集成所做的努力，有DataBricks的TensorFrame，以及Amp Lab 的SparkNet，这些对于雅虎来说都是在正确方向上的迈进，但是在允许TensorFlow进程之间直接通信方面还是有所欠缺。雅虎的目标之一，是让TensorFlowOnSpark成为一个完全对Spark兼容的API，在一个Spark处理工作流里，其集成能力能跟SparkSQL、MLib以及其他Spark核心库一样好。
　　在架构上，它把给定TensorFlow算法和TensorFlow core放在一个Spark Executor中，并让TensorFlow任务能够通过TensorFlow的文件阅读器和QueueRunners直接获取HDFS数据，这是一种有着更少网络I/O以及“把计算带给数据”的方案。TensorFlowOnSpark在语义上就支持对执行

分类导航

基于Hadoop分布式集群YARN模式下的TensorFlowOnSpark平台搭建

1. 介绍

网友评论

更多精彩分享