您可以通过E-HPC创建HPC混合云集群,利用本地的HPC集群在阿里云扩容计算资源,统一调度云上资源和您的本地资源进行高性能计算。
前提条件
集群的调度结点(头节点),域账号管理节点都在本地,您可以通过以下方式进行本地和云上的节点通信。
提供本地HPC集群调度节点信息:hostname、ip。
提供本地域账号节点信息:hostname、ip、账号域名(domain name)。
关于如何搭建VPN网关和建立连接,请参见建立VPC到本地数据中心的连接。如果本地网关使用strongswan,具体操作,请参见strongSwan配置。
本地网关需要允许UDP端口500和4500连入, strongswan对外监听端口是500和4500。本地网关需要允许域账号系统以及HPC集群头结点相关服务监听的端口接入。
环境要求
本地HPC集群管理节点的环境要求如下:
操作系统: Linux CentOS 6.8、6.9 、 7.2、7.3、7.4
调度集群类型:PBSPro 18.1.1、Slurm 17.2.4
账号管理类型:nis 2.31、ldap 2.4
操作步骤
E-HPC支持如下两种方式创建混合云集群
本地集群已经存在,那么本地集群节点不需要做额外的配置。
本地集群还不存在,E-HPC会自动安装配置本地集群调度节点和域账号节点。
调用CreateHybridCluster创建一个混合云集群,更多信息,请参见CreateHybridCluster。
Nodes:json格式的字符串,内容包含本地集群的调度节点以及账号节点的信息,可以参照以下的例子。
[ {"Role":"AccountManager", "HostName":"account", "IpAddress":"...", "AccountType":"nis"}, {"Role":"ResourceManager", "HostName":"scheduler","IpAddress":"...","SchedulerType":"pbs"} ]
登录弹性高性能计算控制台。
在顶部菜单栏左上角处,选择地域。
在左侧导航栏,单击集群,查看所创建的集群是否安装中。
调用GetHybridClusterConfig获取集群配置信息,更多信息,请参见GetHybridClusterConfig。
登录本地集群调度节点和域账号管理节点,执行如下命令:
echo -e "集群配置信息" > /root/ehpc.conf
配置E-HPC agent。
账号节点和调度节点为两个节点时:
登录本地域账号管理节点运行如下命令安装配置 E-HPC agent。
curl -O http://e-hpc-hangzhou.oss-cn-hangzhou.aliyuncs.com/packages/deploy_ehpc_agent.sh chmod +x deploy_ehpc_agent.sh ./deploy_ehpc_agent.sh -r AccountManager -i -r: # 指定节点角色 -i: # 如果本地集群是已经存在的,指定这个选项就会跳过安装配置域账号服务
登录本地集群调度节点运行如下命令安装配置E-HPC agent。
# 下载或者从以上域账号节点拷贝部署脚本 curl -O http://e-hpc-hangzhou.oss-cn-hangzhou.aliyuncs.com/packages/deploy_ehpc_agent.sh chmod +x deploy_ehpc_agent.sh ./deploy_ehpc_agent.sh -r ResourceManager -i -r: # 指定节点角色 -i: # 如果本地集群是已经存在的,指定这个选项就会跳过安装配置HPC集群调度服务
账号节点和调度节点为同一个节点时:
登录本地集群节点运行如下命令安装配置E-HPC agent
curl -O http://e-hpc-hangzhou.oss-cn-hangzhou.aliyuncs.com/packages/deploy_ehpc_agent.sh chmod +x deploy_ehpc_agent.sh ./deploy_ehpc_agent.sh -r AccountManager,ResourceManager -i -r: #指定节点角色 -i: #如果本地集群是已经存在的,指定这个选项就会跳过安装配置HPC集群调度服务
本地管理节点部署之后,通过E-HPC控制台可以查看集群基本信息,集群状态会转变为“运行中”。
调用AddNodes增加节点。
管理本地节点
调用AddLocalNodes增加本地计算节点到E-HPC集群。更多信息,请参见AddLocalNodes。
调用GetHybridClusterConfig获取新增加的节点配置信息。
注意请求参数
Node
必须设置为本地节点的hostname
,登录本地计算节点运行如下命令安装配置E-HPC agent。
# 设置节点配置 echo -e "节点配置信息" > /root/ehpc.conf # 下载或者从以上域账号节点拷贝部署脚本 curl -O http://e-hpc-hangzhou.oss-cn-hangzhou.aliyuncs.com/packages/deploy_ehpc_agent.sh chmod +x deploy_ehpc_agent.sh ./deploy_ehpc_agent.sh -r ComputeNode -i -r: # 指定节点角色 -i: # 如果本地计算节点已经安装配置好,指定这个选项就会跳过安装配置HPC集群调度相关服务好,指定这个选项就会跳过安装配置HPC集群调度相关服务