批量计算支持自动化搭建 Sun Grid Engine(SGE)集群,批量计算使用的是 CentOS 自带的 SGE 版本,请参考 SGE 。
批量计算提供了名为 BatchCompute SGE 的公共镜像,使用该镜像可快速、可靠的构建 SGE 集群,具体的流程如下:
请在云市场 搜索关键字 BatchCompute SGE 了解该镜像,它完全免费使用,使用流程请参考 如何通过镜像创建实例 。
本步骤可选,如对镜像没有特殊需求,可直接进入下一步。如果需要在此系统镜像基础上安装软件,必须基于 BatchCompute SGE 制作自定义镜像,请参考 自定义镜像 。
- 必须在 BatchCompute SGE 镜像基础上制作新镜像。
- 制作镜像过程中,请务必不要执行任何有关 SGE 和 bcc 工具的命令,并且不要更新 python。
请指定某 ECS VM 作为 SGE 系统的 Master 节点,它负责管理整个集群,也可以充当提交作业的节点。如果采用自定义镜像,在启动 VM 时要选用自定义镜像,否则选用 BatchCompute SGE 镜像。
配置参数,请参考 创建 Linux 实例。
由于 Master 节点需要长期稳定运行,建议在启动 VM 时选用包年包月的付费方式;如果是测试,建议使用按量方式。
详细步骤如下:
如果您需要使用已经存在的 VPC ,可以跳过这一步。
打开 ECS 官方控制台,点击专有网络 VPC 进入 VPC 控制台,然后点击”专有网络”菜单。
创建专有网络。在本示例中,设置专用网络 CIDR 为 192.168.0.0/16,而交换机 CIDR 为 192.168.0.0/24。
批量计算提供了命令行工具 bccluster(bcc) 来帮助您管理 SGE 集群,该工具预装到 BatchCompute SGE 镜像中。
使用 ssh 命令登录到 Master 节点,务必使用 root 用户。
ssh root@<外网IP>
然后,输入购买 ECS 时设置的密码.
bccluster(bcc) 工具用来管理 SGE 集群,包括启动、扩容和停止等操作。如果第一次登入 Master 节点,请先更新 bccluster 工具,然后执行以下命令来配置 region, accessKeyId 和 accessKeySecret。其中的 region 必须与 Master 虚拟机所在的 region 相同。
pip install -U batchcompute-sge #如果命令执行出错,重试该命令就可以了。
bcc login <region> <accessKeyId> <accessKeySecret>
启动worker节点。
bcc start -n 2 -t ecs.sn2.medium -i img-sge --vpc_cidr_block=192.168.1.0/24
参数:
bcc t
命令可以列举可用的实例类型。运行完该命令, 启动指令提交成功, 因为 worker 节点启动有一段时间, 还不能立即使用该集群,需要等待一段时间。
SGE 集群只能运行在 vpc 网络中,因此必须指定 —vpc_cidr_block;cidr_block必须在创建master ECS实例设置的CIDR范围内,如本例创建master ecs时选的vpc cidr为 192.168.0.0/16,所以cidr_block可选范围在192.168.0.0/16-192.168.0.0/24
bcc status
该命令可以查看集群状态, worker 节点启动情况等。
qhost
尝试运行qhost
命令,看看 SGE 集群是否完全启动。
如果不再使用 worker 节点,请使用 stop 命令停止所有的 worker 节点。如果 master 节点也不再使用,可以通过控制台删除掉 master 节点。
bcc stop
注意:必须先停止 worker 节点,然后才能释放 master。
使用 bcc 工具可以轻松挂载 NAS,示例如下:
bcc start -n 2 -t ecs.sn1.medium -i img-sge --vpc_cidr_block=192.168.1.0/24 -m nas://a/b/c:/home/nas/
运行 bcc start
命令时, 增加 option: —group_num 4 # 表示创建 4 个 group。
bcc start -n 2 -t ecs.sn2.medium -i img-sge --vpc_cidr_block=192.168.1.0/24 option: --group_num 4
bcc update --help
。bcc resize --help
。注意: group 个数在 start 后不能变更,如需变更 group 数量,必须 stop 集群后后再重新 start。
请按照前面的步骤,启动一个 SGE master 节点,然后登入并初始化 bcc 工具(更新并且 login);登录到阿里云工单系统提交工单联系运维工程师做包年包月集群的配置处理。
注意:包年包月集群创建后不支持删除,只能等到包月时间点到之后才能释放集群;测试场景建议使用按量使用模式,待准备工作完成后再开通包月集群;
bcc start
命令不支持创建包年包月的 SGE 集群。
注意,在上面第 6 步中,一定要确认“项目”,“集群”,“实例组”这三个选项。
在命令行中,执行如下命令:
bcc attach <your_cluster_id>
执行成功后,就完成了包年包月的 SGE 集群的创建。
操作场景 管理检测与响应完成后,用户会收到短信通知信息。用户可在收到短信通知...
操作场景 通过创建安全组,您可以将VPC中的云服务器划分成不同的安全域,以提升...
本文转载自微信公众号「新钛云服」,作者祝祥 。转载本文请联系新钛云服公众号。...
本文介绍了 SmartNews 利用 Flink 加速 Hive 日表的生产,将 Flink 无缝地集成到...
本文转载自微信公众号「程序员内点事」,作者程序员内点事 。转载本文请联系程序...
弹性容器实例 ECI提供以下相关API接口。 表 1. 地域 API 描述 DescribeRegions ...
云原生不是一个产品,而是一套技术体系和一套方法论,技术的变革,一定是思想先...
作为一个开发人员每天必不可少要提交代码,但是你真的懂代码提交吗?这篇文章带...
前言 大数据及移动互联网时代,每一个使用移动终端的人无时无刻不在生产数据,而...
第一个趋势是,全体IT巨头将重兵布局AI云服务,AI-a-a-S,意思是人工智能即服务...