UDN-企业互联网技术人气社区
登录
注册
搜索
本版
文章
帖子
用户
搜索
本版
文章
帖子
用户
移动下载
试试手气
每日签到
首页
论坛
开发者大赛2020
资源工具
云品秀
学习认证
赛事竞猜
云平台
YonBuilder_低代码开发平台
云品秀
数字化建模(业务中台)
云原生架构(技术中台)
数据中台
智能服务
开放连接
伙伴专区
云服务
YonBip
YonSuite
NCCloud
U8Cloud
管理软件
NC
U8
U9
企业互联网产品
开放平台
YonBuilder
友企联
通用技术
HTML5|CSS3
JavaScript
数据库
Docker|云计算
J2EE技术
DevOps
开源
招聘面试
社区服务
论坛事务区
IT资讯
板块导航
UDN每周精选
HTML5
UAP工具下载
营改增
主数据平台
前端开发
用友研发员工必备
UDN 企业互联网技术社区
»
论坛
›
通用技术:Docker|云计算
›
分布式深度学习系统-容器化资源调度
返回
发表新主题
浏览 :
2998
回复 :
0
[资源分享]
分布式深度学习系统-容器化资源调度
[复制链接]
胭脂粉
发布主题
回复的帖子
26370
积分
威望
活力
U币
发消息
当前离线
楼主
发表于 2016-10-21 10:54:53
|
显示全部楼层
|
阅读模式
资源
一.为什么希望使用容器来作为深度学习系统的调度单元
容器拉取/启动快速。隔离资源效果好。抽象来看,可以将容器的image作为job的一部分分发调度执行。但是容器化后会引入gpu,网络等性能的代价。nvidiagpu对
Docker
提供了支持,nvidia-Docker代替Docker执行create和run操作。cuda和cudnn镜像在这里
nvidia-Docker架构
二.kubernetes(k8s)
kubernetes作为google开源的容器编排工具,发展十分迅速。最近release的版本是v1.4.1,已经十分稳定。
kubernetes架构
说明
每个node下面
Dockerengine:负责下载运行镜像
kubelet:管理pod已经里面的container
kube-proxy:服务发现的proxy,代理网络流量
kubernetes控制中心
etcd:持久化支持观察者模式的配置中心,etcd高可用十分重要
API
Server:操作的接口
Scheduler:调度pods(container的小集合)到指定node运行,这个实际可以替换使用Mesos
KubernetesControllerManagerServer:管理如保持副本个数等功能
Kubernetes与mesos的区别@stackoverflow
Kubernetesisagreatplacetostartifyouarenewtotheclusteringworld;itisthequickest,easiestandlightestwaytokickthetiresandstartexperimentingwithclusterorienteddevelopment.Itoffersaveryhighlevelofportabilitysinceitisbeingsupportedbyalotofdifferentproviders(Microsoft,IBM,RedHat,CoreOs,MesoSphere,VMWare,etc).
Ifyouhaveexistingworkloads(Hadoop,Spark,Kafka,etc),Mesosgivesyouaframeworkthatlet'syouinterleavethoseworkloadswitheachother,andmixinasomeofthenewstuffincludingKubernetesapps.
MesosgivesyouanescapevalveifyouneedcapabilitiesthatarenotyetimplementedbythecommunityintheKubernetesframework.
Kubernetes可以代替Marathon,在Mesos之上搭建cluster的工具
三.openai的分布式深度学习系统
openai科学家们的训练日常需求
小数据量,小模型的实验,快速尝试,一般需要几小时完成一次实验
大数据量,大模型。一般需要几天完成一次实验
日志对于分析定位十分重要,应该被持久化和更好的展示
一般使用的工具箱
python2.7,一般使用Anaconda
使用tensorflow或者之上更高级的apiKeras
分布式深度学习关键技术
使用物理gpu机器和aws提供的cpu机器搭建混合集群
使用kubernetes编排容器
自定义组件来支持不同job动态扩容/缩容的需求,kubernetes-ec2-autoscaler
使用 Terraform构建每个机器的基础环境,使用Chef统一服务器配置。
四.tensorflow的分布式架构
tensorflow从V0.8开始支持分布式训练,目前稳定的版本是r0.11。详细的分布式训练的方案在这里。
几个主要的概念
Cluster
Cluser由一组Server组成,Server的功能可以是Worker也可以是PS。Worker中被client用session连接的作为master,提供协调,记录,checkpoint的功能
Job
Job包含多个Task,Job的典型角色是Worker或者PS
Masterservice
实现接口tensorflow::Session功能,协调worker工作。每个server都有实现
TensorFlowserver
每个server都实现了"masterservice"和"workerservice"
文章来源:简书
文章作者:skywalker
相关帖子
•
动态创建script标签实现跨域资源访问的方法介绍
•
寻找资源正在进行中,好心人帮助一下?邮箱:
•
Intel对Nervana深度学习优势资源战略整合的背后
•
科大讯飞胡郁:没有巨头资源没关系 AI时代都可能抓住机会
•
来自一线开发者的Swift学习资源推荐
•
WEB-INF目录知多少
•
登录后首页消息资源
•
实现前端资源增量式更新的一种思路
•
学 [数据结构、算法] 的资源推荐
•
Tomcat是如何响应静态资源的?
使用道具
举报
回复
提升卡
置顶卡
变色卡
返回
发表新主题
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
用微信扫一扫
互动赢积分
关于我们
网站简介
友链交换
免责声明
联系我们
电话:010-86393388
邮件:
udn@yonyou.com
地址:北京市海淀区北清路68号
移动客户端下载
安卓客户端
苹果客户端
关注我们
微信公众号:yonyouudn
扫描右侧二维码关注我们
专注企业互联网的技术社区
版权所有:用友网络科技股份有限公司82041
京ICP备05007539号-11
京公网网备安1101080209224
Powered by Discuz!
快速回复
返回列表
返回顶部