容灾切换演练,是一项将管理与技术相互紧密结合系统工程,容灾系统能在紧急时刻保障业务连续性,但企业在容灾演练准备、容灾演练切换等过程中存在诸多隐患;如何发现隐患、消除隐患所带来的风险,是需要我们讨论的问题,以下梳理了五种隐患,抛砖引玉,欢迎大家继续提出,以消除我们在容灾演练工作中的各类隐患。
容灾团队需要有一个包括决策组、执行组、行政组的完整组织机构。需要有团队组织和完成日常管理、预警、演练、测试、培训等工作。
但很多企业建成容灾中心后,维护的工作量增加很多。但却忽视了要增加相应的维护人力资源,致使系统切换的执行人员保障不到位;再者,当发生灾难时,由于决策成员对于容灾中心的关注度不够,无法做出决策;行政组更是形同虚设,诸如人员调配、信息发布和公共关系等工作,都只能由技术部门完善。
隐患之二:缺乏预警流程
企业当面对灾难时,很难严格按照预警流程执行,往往各个部门乱作一团,缺乏响应的预警流程机制,使容灾系统无法起到应有的作用。
结合演练工作将预警流程可以分为以下几个主要步骤:风险上报--风险评估--风险决策--风险告知--发起系统切换。
1、风险上报主要包括风险信息获知、收集、上报。风险获知后,应验证风险的真实性,完整性。
2、风险评估需要容灾团队根据上报资料做出全面评估,必要时形成评估报告,应包括造成灾难的几率、影响程度、发展趋势等。
3、风险决策需要领导组根据风险评估报告决定后续的处理,包括是否提前启动切换,进入风险警备状态。
4、风险告知需要行政管理组将有关风险的信息及时对内对外发布,保持消息沟通顺畅。
5、系统切换过程是在领导组在做出切换系统的决策后,按照应急预案和相关操作手册直接进入灾难恢复启动步骤。
隐患之三:容灾演练流于形式
企业没有建立起完善的容灾演练机制,容灾演练利于形式,没有形成针对各灾难场景行之有效的演练模式。
容灾演练不仅要检验灾难恢复流程的有效性,而且也要验证容灾系统是否能够实现正常的切换和回切。容灾演练的主要步骤应至少包括:制定演练计划、审批、演练启动、消息发布、演练切换、业务验证、演练回切、总结等。
在容灾演练切换过程中,应详细记录各个重要环节的时间点,并分析切换演练是否能够达到容灾系统和生产系统的各项指标。在演练后应及时总结经验,对发现的问题应及时解决,修改或优化演练的应急流程,完善演练应急预案。
隐患之四:容灾测试不及时
如果对容灾系统的数据、功能、性能等方面没有充分的测试验证,就难以保证容灾系统实现数据保护和业务接管的功能。
进行测试时,尽可能采用测试脚本,避免人为误操作。测试环境尽可能与生产系统隔离。在不发生系统变更时,***每月测试一次,否则须即时测试。
隐患之五:没有做好容灾培训
通过容灾培训,可确保相关人员及时准确地了解容灾系统结构,熟悉测试、演练、灾难恢复流程,明确自身职责,使沟通、协作顺畅,提高工作技能和灾难应对能力。
培训计划由执行组与人力资源部门共同制订和执行。培训内容主要包括:容灾基础培训、容灾流程培训、容灾技术培训等。
以上所述的五个方面的隐患,任何一个环节的缺失都可能致使容灾中心形同虚设。养兵千日,用兵一时。所以任何一个环节都不能忽视。
云计算技术髙速转型至今,被视为将要更改网站开发、全渠道工作代管的局势。将云...
作为一名资深(fu xiu)的程序猿来说,一直不想向IDEA低头可能是我对MyEclipse最大...
2018年年底,微软云宣布其云连接服务产品ExpressRoute在中国东部 2 及中国北部 2...
图片来自 Pexels 这么多年过去了,这句话或深或浅地影响了我的技术选择,以至于...
工信部印发了《工业互联网专项工作组2020年工作计划》。计划提出了提升基础设施...
前言 日常开发中,秒杀下单、抢红包等等业务场景,都需要用到分布式锁。而Redis...
SAN(存储区域网络)和NAS(网络附加存储)都是存储系统的基本结构,虽然它们看起来...
2018年10月16日,曙光对外发布了全球首款闭式循环一体液冷八路服务器I980-G30。...
1.世上最痛苦的事,不是永恒的孤寂,而是明明看见温暖与生机,我却无能为力。世...
在托管方面,许多企业只熟悉共享主机和云服务器。虽然这些解决方案适用于小到中...