请选择 进入手机版| 继续访问电脑版
开启辅助访问 切换到窄版

容器服务深度学习解决方案

[复制链接]
作者:hanhongwen 
版块:
大数据智能解决方案 行业大数据安全解决方案 发布时间:2018-4-21 23:05:17
4990
hanhongwen 发表于 2018-4-21 23:05:17 | 显示全部楼层 |阅读模式
一、简介
利用容器技术全面支持GPU和CPU异构资源集群统一管理和调度,与阿里云其他资源服务深度整合,支持机器学习计算的完整生命周期,提供低门槛、开放、高效的深度学习解决方案。

二、整体架构图

技术架构
1.png


技术特色
CPU、GPU等异构资源的高效利用与统一管理。
支持主流开源框架、用户自有计算框架。
可快速构建模型开发、训练和预测的运行环境。
统一容器化管理,多维度监控告警和运维平台。
轻松集成,深度整合阿里云资源与服务。
基于大规模GPU集群的经验,提供端到端的最佳实践。

三、方案业务场景及优势

1、大规模围棋离线训练
2.png


如何最小化搭建深度学习环境
1 高效计算力: 强大GPU计算能力快速反馈训练结果,并且可以根据框架和网络特点调整参数,达到最优训练性能。
2 强大存储: 将训练前后的数据存放在共享存储服务中,一键上传、直接调用;还可以选择备份阶段性数据和训练模型。
3 无缝整合 :无缝对接阿里云资源,支持深度学习能力服务化,与云上应用的轻松集成。

2、GPU调度与运维管理
3.png


GPU监控运维
1 通过解决方案的控制台,提供资源管理一致的体验。
2 多维度的监控、告警和运维平台。
3 增强资源类型抽象、GPU监控和调度能力。
4 配合容器镜像服务,高效管控。

3、深度整合阿里云
4.png


快捷而完整的方案
可快速构建模型开发、训练和预测的运行环境。
集成各种阿里云资源,如存储、网络、负载均衡、弹性、监控、日志、镜像和EMR大数据处理等。
提供运行环境搭建、分布式调度、训练任务历史管理、数据存储服务集成等非算法相关的工作支持。

四、全周期覆盖

1、环境搭建及底层准备
方案提供运行环境搭建、分布式调度、训练任务历史管理、数据存储服务集成等非算法相关的工作支持。
一致的配置:一样的方式配置GPU和CPU资源。
一键化部署:无需逐个部署,一键完成整个集群构建。
简单且高效:无需手动安装TensorFlow、MXNet、Keras深度学习框架及Python工具,并且自动化统一管理和调度。
数据科学家和算法工程师不必关心底层GPU、CPU的管理、调度和运维。
无需手动记录与管控,无需Make、Bazel、pip或者容器镜像安装,无需通过SSH登录到每台机器上手工部署,无需手动记录管理或整机分配,告别低使用效率。

2、 数据准备
高效便捷的数据管理
数据共享和管理:可存储在阿里云OSS中一键上传、直接调用。
数据加载效率:可将用户数据集准换成Tensorflow推荐的TFRecord格式。
无需手动拷贝数据到每台机器上。 无需手动调整格式。

3、模型开发
支持主流开发模式
开发环境:最常用的方式 开发模型训练代码,包括自动启动Jupyter和Tensorboard开发工具。
调试方式:使用Tensorflow提供的tfdbg进行模型调试。
模型确定:在模型训练使用的集群中快速发布、更新、同步训练代码。
支持Tensorflow / MXNet + Jupyter 开发 + Tensorboard 训练监控 + SSH。大众最常用开发模式,不再需要更改习惯,不再需要手动安装。

4、模型训练
全方位适配模型训练
多模式支持:支持单机和分布式(单机多卡,多机多卡)。
极简更新:通过修改配置的方式更新训练集群环境(包括软件版本、数据存储、集群拓扑)。
实时监控:通过修改配置的方式使用基于tensorboard的模型训练监控能力,以实时了解训练状态、及时调整集群配置。
数据保存:最终模型数据自动保存,以备后用和共享;还可以选择备份阶段性数据和训练模型 ,下次使用时再恢复模型状态并继续训练。
问题诊断:通过查看日志,了解训练过程。
支持基于TensorFlow serving 的模型滚动更新、蓝绿发布,负载均衡和弹性伸缩。集成了阿里云OSS,NAS,HDFS等数据服务来存储训练数据集、模型、checkpoint。

5、模型预测
易用、稳定、高效的预测服务
发布预测:可以选择特定版本到特定集群,以支持不同体验需求。
调整控制:实时且记录监控预测集群资源使用状况和预测服务的健康状况,提供控制台管理服务及服务实例状态。
易用稳定:支持统一域名访问,访问可以做到负载均衡、自动扩容。
高效运行:支持batching prediction,以提高预测服务执行效率和资源使用率。
按版本导出对应的预测程序,并保存在阿里云OSS中,这样用户可以基于不同目标进行预测。用户还可以根据状况及时调整和管控,享受易用、稳定、高效的预测服务。



如需架构咨询,点击与我交谈,祝你成功

↓↓↓


    15561578755
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表