使用ECS抢占式实例训练模型 需要先在ACK中创建节点池 并给节点池打标。然后在Arena提交训练任务时 通过--selector 参数指定把训练任务调度到抢占式实例上。
操作步骤如下
在ACK控制台 点击左侧菜单节点管理 - 节点池 进入节点池页面。首次创建节点池 需要先点击页面右上角集群自动弹性伸缩配置按钮 根据提示完成配置。然后点击页面最下方的显示高级选项。
在展开的配置项中 节点标签部分 为节点添加标签 这样节点池中的所有抢占式实例都被打上了instance spot的标签。
最后指定节点池中实例规格和数量 点击确认配置 完成节点池创建。
arena \ submit \ tfjob \ --gpus 1 \ --selector instance spot \ --name tf-standalone-test-with-git \ --env TEST_TMPDIR code/tensorflow-sample-code/ \ --sync-mode git \ --sync-source https://github.com/happy2048/tensorflow-sample-code.git \ --logdir /training_logs \ --image registry.cn-beijing.aliyuncs.com/ai-samples/tensorflow:1.5.0-devel-gpu \ python code/tensorflow-sample-code/tfjob/docker/mnist/main.py --max_steps 5000
执行上面的命令 注意其中的--selector instance spot参数 通过设置该参数就可以把训练任务调度到抢占式实例上。
12月30日 山东师范大学-阿里云高校认证中心成立暨揭牌仪式于长清湖校区文昌楼108...
技术一号位系列文章介绍 研发人员经过一段时间的成长和积累 3-5年 往往需要带领...
TOP云 (west.cn)9月5日消息,9月2日,北京世萱堂披露已获得盛日融旺集团1.5亿...
本次 Meetup 杭州站由阿里云和 Elastic 联合举办,邀请了来自滴滴、安恒信息、阿...
01 导入Matplotlib 如果你安装了完整的Python Anaconda,那么你已经安装了Matplo...
数据核心原理从流程核心到数据核心 大数据时代,计算模式也发生了转变,从流程核...
什么网站买 域名 不需要实名?实际上,域名是否实名认证跟网站类型是没有多大关...
TOP云 (west.cn)6月15日消息,据namepros消息,近日海外又曝出不少 域名交易 ...
编者按:本文源自阿里云云效团队出品的《阿里巴巴DevOps实践指南》,扫描上方二...
toc JVM 垃圾回收 本文导火索 当需要排查各种内存溢出问题、当垃圾收集成为系统...