本实践作为kubeflow在华为云CCE上部署、使用的流程说明,介绍了kubeflow的详细部署过程,使用kubeflow构建简单的tensorflow训练任务,并对比了GPU单卡/多卡场景下不同的训练性能。
本实践部署过程参考https://bbs.huaweicloud.com/blogs/413d1821c1a211e89fc57ca23e93a89f以及官方文档https://www.kubeflow.org/docs/started/getting-started/。
可在https://github.com/ksonnet/ksonnet/releases/中查看最新版本,当前最新版本v0.13.1,安装过程如下:
export KS_VER=0.13.1 export KS_PKG=ks_${KS_VER}_linux_amd64 wget -O /tmp/${KS_PKG}.tar.gz https://github.com/ksonnet/ksonnet/releases/download/v${KS_VER}/${KS_PKG}.tar.gz mkdir -p ${HOME}/bin tar -xvf /tmp/$KS_PKG.tar.gz -C ${HOME}/bin cp ${HOME}/bin/$KS_PKG/ks /usr/local/bin
执行如下命令:
mkdir ${KUBEFLOW_SRC} cd ${KUBEFLOW_SRC} export KUBEFLOW_TAG=v0.4.1 curl https://raw.githubusercontent.com/kubeflow/kubeflow/${KUBEFLOW_TAG}/scripts/download.sh | bash
由于本次测试在华为云华东区,因国内网络原因,部分镜像无法拉取下来,这里采用给容器所在的节点上的docker配置proxy的方式来下载这些镜像。
mkdir -p /etc/systemd/system/docker.service.d vi /etc/systemd/system/docker.service.d/http-proxy.conf [Service] Environment="HTTP_PROXY=http://proxy.example.com:80/" "HTTPS_PROXY=http://proxy.example.com:80/"
这里的地址{proxy.example.com:80}需要改为实际可用的代理地址,退出vi后执行如下命令使代理生效:
systemctl daemon-reload systemctl restart docker
执行如下命令确认docker代理生效:
systemctl show --property=Environment docker
执行如下命令:
${KUBEFLOW_SRC}/scripts/kfctl.sh init ${KFAPP} --platform none cd ${KFAPP} ${KUBEFLOW_SRC}/scripts/kfctl.sh generate k8s ${KUBEFLOW_SRC}/scripts/kfctl.sh apply k8s
执行完毕后可以通过kubectl get po -n kubeflow查看相关资源是否正常启动。由于存储还未配置,所以存在部分Pod仍未running,下面将详细说明。
Kubeflow v0.4.1的运行依赖于如下存储的创建:
因此需要在CCE的存储管理页面选择指定集群clusterA,创建如下三个存储,创建时需选择命名空间kubeflow。
创建完毕后,修改如下三个deployment的volume-name字段。
kubectl edit deploy minio –nkubeflow :%s/minio-pv-claim/cce-sfs-kubeflow-minio/g :wq!
kubectl edit deploy mysql –nkubeflow :%s/mysql-pv-claim/cce-sfs-kubeflow-mysql/g :wq!
kubectl edit deploy vizier-db –nkubeflow :%s/katib-mysql/cce-sfs-kubeflow-katib/g :wq
等待一段时间后,可以看到所有的Pod均为running的状态。
本文转载自公众号读芯术(ID:AI_Discovery)。 机器学习是数据科学领域最重要的子...
企业发展到一定规模都会搭建单独的BI平台来做数据分析,即OLAP(联机分析处理),...
1. 接口描述 接口请求域名: cvm.tencentcloudapi.com 。 本接口 (ResetInstance...
在银行业中使用数据科学不仅仅是一种趋势,它已成为保持竞争的必要条件。 银行必...
如果由于库存不足等原因导致可用区之间ECS实例的数量不均衡,您可以执行再均衡分...
4月27日,甘肃省陇南市中西医结合医院开工仪式在陇南市武都区举行,陇南市相关领...
实例配额按照实例的地域可用区、实例规格、付费类型和网络类型等因素来进一步明...
本文转载自微信公众号「程序喵大人」,作者程序喵大人。转载本文请联系程序喵大...
来源 | 阿里巴巴云原生公众号 2021 年,由中国开源软件推进联盟 COPU 牵头发布了...
对于IT来说,夸大其功效的炒作越多,外界对其的误解也会越大,数据分析当然也不...