本文介绍如何创建以CPFS(Cloud Paralleled File System)为共享存储的高性能计算集群。为您提供一个高IOPS、高吞吐、低时延的计算集群。
背景信息
CPFS是一种高性能并行文件存储系统,专为AI训练和E-HPC等高性能计算场景打造,最大支持数十GB/s吞吐能力。CPFS的数据存储在集群中的多个数据节点,并可由多个客户端同时访问,从而能够为大型E-HPC提供高IOPS、高吞吐、低时延的数据存储服务。更多信息,请参见什么是文件存储CPFS。
以CPFS为共享存储的E-HPC集群适合动画渲染、生命科学、气象预报、能源勘探等需要超高吞吐的应用场景。
使用限制
一个CPFS文件系统只能供一个E-HPC集群使用。
CPFS客户端仅支持Linux(CentOS 7)操作系统。
扩容CPFS集群时,只能选择创建集群时的自定义镜像对集群进行扩容。
前提条件
步骤一:创建自定义镜像
创建一台ECS实例,具体操作,请参见使用向导创建实例。
在配置参数时,您需要注意以下几点:
vCPU和内存:选择最少包含2个CPU、4 GiB内存的ECS实例,确保CPFS客户端软件正常运行。
镜像:选择CPFS客户端支持的Linux(CentOS 7)操作系统。
登录ECS实例,具体操作,请参见通过密码或密钥认证登录Linux实例。
安装客户端和依赖包。
运行以下命令,下载并解压RPM(Red Hat Package Manager)包。
mkdir /tmp/rpms wget https://gpfs-rpms.oss-cn-beijing.aliyuncs.com/centos7-rpms.tar.gz tar xvfz centos7-rpms.tar.gz
运行以下命令,安装CPFS客户端的依赖软件。
yum install -y cpp gcc gcc-c++ binutils ksh elfutils elfutils-devel rpm-build
运行以下命令,安装CPFS客户端。
cd /tmp/rpms/centos7-rpms yum install -y gpfs.adv-5.0.5-0.x86_64.rpm gpfs.base-5.0.5-0.x86_64.rpm gpfs.callhome-ecc-client-5.0.5-0.noarch.rpm gpfs.compression-5.0.5-0.x86_64.rpm gpfs.docs-5.0.5-0.noarch.rpm gpfs.gpl-5.0.5-0.noarch.rpm gpfs.gskit-8.0.55-12.x86_64.rpm gpfs.gss.pmsensors-5.0.5-0.el7.x86_64.rpm gpfs.java-5.0.5-0.x86_64.rpm gpfs.kafka-5.0.5-0.x86_64.rpm gpfs.librdkafka-5.0.5-0.x86_64.rpm gpfs.license.dm-5.0.5-0.x86_64.rpm gpfs.msg.en_US-5.0.5-0.noarch.rpm
运行以下命令,构建系统。
/usr/lpp/mmfs/bin/mmbuildgpl --build-package cd /root/rpmbuild/RPMS/x86_64/ yum install -y gpfs.gplbin-3.10.0-957.21.3.el7.x86_64-5.0.5-0.x86_64.rpm
在ECS实例的/etc/hosts文件中增加CPFS管理节点的Quorum和Contact内容 。
登录CPFS管理节点,获取/etc/hosts文件中的相关内容。
将获取的内容增加到ECS实例的/etc/hosts文件中。
172.**.**.87 cpfs-contact-node1 #CPFS_172_**_**_87_MAGIC 172.**.**.88 cpfs-contact-node2 #CPFS_172_**_**_88_MAGIC 172.**.**.89 cpfs-contact-node3 #CPFS_172_**_**_89_MAGIC 172.**.**.90 cpfs-0****a6-000001-qr-001 #CPFS_172_**_**_90_MAGIC 172.**.**.91 cpfs-0****a6-000001-qr-002 #CPFS_172_**_**_91_MAGIC 172.**.**.92 cpfs-0****a6-000001-qr-003 #CPFS_172_**_**_92_MAGIC
在CPFS管理节点,获取CPFS客户端节点的免密钥登录文件。
修改CPFS管理节点的/etc/ssh/ssh_config文件中的如下配置。
StrictHostKeyChecking=no
运行以下命令,将公钥信息拷贝至制作自定义镜像的ECS实例。
ssh-copy-id -i ~/.ssh/id_rsa.pub root@192.**.**.169
使用ECS实例创建自定义镜像。具体操作,请参见使用实例创建自定义镜像。
步骤二:创建集群
登录弹性高性能计算控制台。
在顶部菜单栏左上角处,选择地域。
在左侧导航栏,选择集群。
在集群页面,单击创建集群。
在创建集群页面,完成填写集群配置信息。更多信息,请参见创建集群。
在配置参数时,您需要注意以下几点:文件系统类型:选择CPFS。
文件系统ID和挂载点:选择您已经创建的CPFS文件系统ID和挂载点。
镜像类型:选择自定义镜像。
镜像:选择您制作的自定义镜像,创建集群时会自动安装CPFS客户端和对应的登录文件。