前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >专有云稳定性又双叒叕得奖了!

专有云稳定性又双叒叕得奖了!

作者头像
腾讯专有云
发布2023-12-28 10:35:39
1770
发布2023-12-28 10:35:39
举报
文章被收录于专栏:腾讯专有云腾讯专有云

2023年12月27日,由中国信息通信研究院、中国通信标准化协会主办的2023系统稳定性与精益软件工程大会在北京举行。腾讯专有云《基于AZ内故障演练的专有云服务风险隐患排查》荣获第二届云系统稳定安全运行优秀案例-混沌工程实践优秀案例,《专有云机房断电恢复应急处置实践案例》荣获云系统运行故障应急处理实践优秀案例。

稳定稳健是客户基础和核心需求

云服务的不稳定可能导致数据丢失、应用中断、性能下降等问题,给企业带来巨大的损失。腾讯专有云交付面临多行业和海量服务的批量交付,从用户分类来看,约80%的客户属于金融客户,金融客户对云平台可用性要求相比其他行业更高。在海量交付的背景下,风险隐患排查在专有云稳定性体系建设中十分重要,因为任何一个风险都可能在多个客户局点爆发。

云系统架构复杂,系统内的各个产品互相依赖,一旦发生机房掉电故障,会导致机房内大面积宕机,恢复服务不仅需要恢复电力、网络等基础的硬件环境,还需要能够及时有效地恢复云系统中的服务。

腾讯专有云的稳定性建设之路

因此,腾讯专有云持续完善稳定性体系,大力发展混沌演练、容灾切换、机房掉电恢复等核心能力并积极推动实战演练,力保客户服务的稳定运行。

腾讯专有云通过对历史上数次掉电恢复的流程进行梳理,抽象出通用流程,采用平台化的思路实现了故障应急处理平台,紧扣提升服务恢复效率的目标,对之前手工掉电恢复的耗时点进行深度分析,提出了服务开机自启动、分批次启动服务、进度实时大屏播报等平台能力,降低了故障对客户业务的影响,将恢复故障的耗时由之前手工方式的数小时缩短到30分钟以内,并在多个私有化交付场景中落地。

我们基于历史故障根因、触发环境以及故障反映出的系统架构缺陷,设计合理的AZ内故障场景以验证复杂系统和单个应用的稳定性。通过混沌工程演练平台对云平台及云产品进行AZ内故障自动化演练,从而进行风险隐患排查,提高云平台及其云产品的稳定性和可靠性,为用户提供更加安全、稳定的云服务。该方案还为云产品设计了严格的混沌成熟度标准,配合周期性的红蓝对抗演练来进行评分,进一步推动风险整改,累计发现并解决问题,以及产品、交付工艺、低阶网络设计等优化几十项。

最终,腾讯专有云凭借其在混沌工程、机房断电恢复能力上的建设以及实践效果,获得第二届云系统稳定安全运行优秀用例。

目前腾讯专有云TCE和TCS已经在金融、零售、政务、政法、交通、出行、广电、地产、制造等众多行业取得大量成功案例落地,在业界获得了广泛的认可。

未来,腾讯专有云将持续建设稳定性体系,优化混沌、容灾、掉电恢复的平台能力并大力推动在产品、机房、地域维度的演练实践,建设成为让客户安全可信赖的云服务商。

本文参与?腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-12-27,如有侵权请联系?cloudcommunity@tencent.com 删除

本文分享自 腾讯专有云 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与?腾讯云自媒体分享计划? ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
金融专有云开发测试平台
金融专有云开发测试平台(Financial Private Cloud Research and Design Test Platform,FPCRDTP)为用户提供一套由腾讯云运行维护的小型化专有云环境,方便用户进行开发和测试,降低维护成本,提升效率。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
http://www.vxiaotou.com