有奖捉虫:行业应用 & 管理与支持文档专题 HOT

操作场景

本文介绍如何通过云服务器控制台,为实例配置 HARP 分布式训练环境。

操作步骤

绑定弹性网卡

弹性网卡数量等于 GPU 卡的数量,例如8卡训练机器则需要绑定8张弹性网卡(加主网卡共9张网卡)。具体步骤如下:
1. 登录 云服务器控制台,选择实例 ID 进入详情页面。
2. 在实例详情页中,选择弹性网卡页签,并单击绑定弹性网卡。如下图所示:
?
?
3. 在弹出的绑定弹性网卡窗口中,选择弹性网卡,单击确认即可。

配置并验证环境

2. 执行以下命令,执行配置脚本。
curl -s -L http://mirrors.tencent.com/install/GPU/taco/taco_setup.sh | sudo bash
返回结果如下图所示:
?
?
?
3. 执行以下命令,重启实例。
sudo reboot
4. 依次执行以下命令,检查是否配置成功。
检查大页内存是否配置成功:
cat /proc/meminfo | grep HugePages_Total
返回如下结果,表示配置成功。
HugePages_Total: 50
检查是否产生了配置文件:
ls -l /usr/local/tfabric/tools/config/ztcp*.conf
返回结果如下图所示,表示已产生配置文件。
?
?
http://www.vxiaotou.com