UDN-企业互联网技术人气社区

板块导航

浏览  : 1315
回复  : 0

[其它] TensorFlow 生态系统:与多种开源框架的融合

[复制链接]
瞌睡虫的头像 楼主
发表于 2016-11-7 10:03:16 | 显示全部楼层 |阅读模式
本帖最后由 瞌睡虫 于 2016-11-7 10:10 编辑

  项目地址:https://github.com/tensorflow/ecosystem

  内容:

  • Docker-Docker 配置用来在 cluster managers 上运行 TensorFlow

  • kubernetes-用来在 kubernetes 上运行分布式 TensorFlow 的模板

  • marathon-使用 Marathon 用来运行分布式 TensorFlow 的模板,在 Mesos 上部署

  • hadoop-为 Hadoop MapReduce 和 Spark 备录 InputFormat/OutputFormat 的 TFRecord 文件

  分布式训练的常见设置

  每个分布式训练项目都有一些常见设置。首先,定义 flags,以便于该 worker 知道其他 works 在分布式训练中扮演的角色:
1.PNG

      然后,开始自己的 server。因为 worker 和 parameter servers(ps jobs)通常共享常见的程序,parameter servers 应该在此停顿,所以他们和该 server 可以结合。


2.PNG


     之后,代码的不同由你打算做的分布式训练的形式所决定。最常见的形式是图间复制(between-graph replication)。
      Between-graph Replication
      在此模式中,每个 worker 独立构建同一图。然后每个 worker 独立运行该图,只和 parameter servers 共享梯度。该设置可又下图进行解释,注意每个虚线框表示一个任务。
581d83411cde9.png

在为该训练模式构建图之前,你必须明令设置此设备。下面的代码显示了该设置:
3.PNG


运行这些样例的需求

为了运行这些样例,Jinja 模板必须被安装:

4.PNG


Jinja 是用作模板的扩展。还有其他的特定框架需求,请阅读 README 文件查看每个框架的需求。
  来源:机器之心




相关帖子

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关于我们
联系我们
  • 电话:010-86393388
  • 邮件:udn@yonyou.com
  • 地址:北京市海淀区北清路68号
移动客户端下载
关注我们
  • 微信公众号:yonyouudn
  • 扫描右侧二维码关注我们
  • 专注企业互联网的技术社区
版权所有:用友网络科技股份有限公司82041 京ICP备05007539号-11 京公网网备安1101080209224 Powered by Discuz!
快速回复 返回列表 返回顶部