任务式建模简介
任务式建模提供通过向导式的训练任务提交方式进行模型构建,支持基于多种算法来源进行训练任务提交,可直接通过代码包绑定主流训练框架启动训练任务,快速使用主流高性能及分布式训练框架提交训练任务。下面将由一个简单的 PyTorch MPIJob 演示如何使用任务式建模快速创建任务。
数据准备
数据集
代码包
上传数据到 COS 对象存储中
操作步骤
新建任务第一步
1. 进入训练工坊 > 任务式建模,单击新建,开始进入向导式训练任务创建。
2. 在基本信息页,填写如下信息:
任务名称:mnist_train
训练镜像选择:内置镜像 / PyTorch / torch1.9-py3.8-cuda11.1-gpu
训练模式:MPI
计费模式:按量计费
算力规格:8C40G V100*1
节点数量:1个
标签和描述:无需填写
新建任务第二步
在任务配置页,填写如下信息:
1. 数据配置:选择 COS 数据
本地存储路径:填写 train
数据所在路径:单击选择文件,在弹出的COS对话框中,选择需要使用的存储桶,单击左下方上传文件夹,将数据集解压后的文件夹ti-images上传,上传完成后选中文件夹路径,如下图所示:
?
?2. 代码包:
单击选择文件,在弹出的 COS 对话框中,选择需要使用的存储桶,单击左下方上传文件夹将准备好的代码包(需要先解压)文件夹mnist.pytorch上传至COS存储桶中,并选定代码包所在路径。
?
?3. 启动命令:填写 sh start.sh
4. 训练输出:单击选择文件,在弹出的COS对话框中,选择需要使用的存储桶,选择训练输出数据需要保存的路径,如下图所示:
?
?5. 调优参数:无
6. 私有化网络:无
7. CLS 日志:选择不投递
配置完成后,可在页面底部查看本次训练任务的每小时收费价格,单击确定,即完成任务提交。
查看和监控任务
1. 提交成功后,可在任务列表页面看到任务记录。
2. 点击任务名称,可进入任务详情页查看日志和监控信息,例如下图所示:
?
?
?