首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

携手湖南移动,浩鲸科技获信通院首届“云系统稳定安全运行”优秀案例

近日,由中国信通院主办的首届“云系统稳定安全运行案例评选”结果揭晓,浩鲸科技携手中国移动通信集团湖南有限公司(以下简称“湖南移动”)联合申报的案例成果“基于混沌工程持续提升湖南移动某系统稳定性”荣获云系统稳定安全运行案例评选混沌工程优秀实践案例,为数字化转型中的企业开展稳定可靠、安全可信、可持续发展的云服务提供最佳实践参考。

随着业务量和云上客户业务类型的飞速发展,日常运行的高请求量和大用户量,对湖南移动研发运营某系统的高可用和稳定性体系提出了更高的要求。浩鲸科技结合其业务需求和痛点,以混沌工程理念为依托,基于“WhaleDI 故障演练平台”极大的保障系统企业级高可用和业务“零”中断,节约服务资源成本。

业务系统稳定运行,是企业全面云化的基本诉求。基于浩鲸科技多年锤炼和产品经验持续积累演进,?“WhaleDI 故障演练平台”可为企业提供稳定性建设效果验证和稳定性建设方法论,以及故障注入、演练用例管理、演练流程标准化管控、演练成效分析、产品稳定性提升建设等核心能力,帮助客户提高产品、服务和系统的韧性、可靠性,保障上好云、用好云、管好云,支撑服务稳定可靠、安全可信、可持续发展。

作为服务省级宽带用户的线上实时服务平台,浩鲸科技为湖南移动某系统稳定性建设,提供基于 “WhaleDI 故障演练平台”便捷有效的稳定性验证方式,其应用实践主要体现在以下几个方面:

1 基于经验库提前挖掘演练场景,规避生产风险

“WhaleDI故障演练平台”经过持续的演练已经积累了丰富的经验库,本次应用实践结合经验库和湖南移动该业务系统的架构特征,为业务系统匹配了多条演练场景,并在测试环境和预发环境实施了故障演练,将问题暴露在研发测试环节,极大提高了湖南移动在生产环境的稳定性。

2 服务强弱依赖关系挖掘,提前发现不稳定因子

“WhaleDI 故障演练平台”支持服务架构中依赖组件的故障演练,本次应用实践为湖南移动某系统梳理和发掘了核心依赖组件的强弱关系,为系统的强依赖组件解耦提供了优化建议,强化了系统在组件依赖关系上的稳定性建设。

3 监控告警有效性验证,增强故障发现的机制

“WhaleDI 故障演练平台”支持实施系统级、容器级、k8s级、应用级等多维度的故障,可模拟的故障类型覆盖了>90%的监控告警场景,本次应用实践为湖南移动某系统验证了已建设的监控告警指标,提高了监控告警指标的有效性,让系统的故障感知能力极大提升。

4 回顾历史故障,形成周期性演练,沉淀稳定性文档和能力

“WhaleDI 故障演练平台”支持周期演练计划,本次应用实践为湖南移动某系统持续性按月/季度周期性演练和形成稳定性评估报告,利用演练经验不断完善产品的高可用设计规范文档、产品变更规范文档,积累了系统丰富的故障演练场景,形成了供业务系统日常验证高可用特性的“混沌靶场”。

5 开展红蓝对抗,提高人员应急响应能力

本次应用实践中借助“WhaleDI 故障演练平台”为湖南移动某系统开展了多次红蓝对抗,让系统和运维人员无准备的应对蓝军随机攻击,检查系统的稳定性和健壮性。通过一次次的对抗,运维人员对系统的故障感知方式不断升级,故障感知和定位时长不断缩短,故障恢复方式也逐步实现自动化处理。在过程中持续完善和修正了故障操作文档,极大地提升了系统运维人员的应急响应能力。

有信通院的权威认证和持续探索业界最佳实践的加持,浩鲸科技将不断夯实技术实力,在云系统稳定性领域持续发力,为客户带来更稳定的系统,助力更多企业加速实现业务智能和数字化转型升级,全力服务数字经济高质量发展。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20230426A0274L00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券
http://www.vxiaotou.com