本文介绍了ECS本地盘实例发生系统事件时,相关阿里云运维流程和用户最佳实践。

常见运维场景

本地盘实例常见的底层故障运维场景有如下三类。

  • 场景一:所宿物理机软件问题导致实例异常
    • 影响:通常原所宿物理机可以重启恢复,您的实例经历的是非预期重启。
    • 用户后续动作:无。
  • 场景二:本地盘损坏导致实例异常
    • 影响:通常原所宿物理机可以重启恢复,已损坏本地盘不可恢复。
    • 用户后续动作:您需要选择更换本地盘的方式。
  • 场景三:所宿物理机硬件损坏导致实例异常
    • 影响:通常原所宿物理机需要下线维修。
    • 用户后续动作:重新部署本地盘实例,为实例更换所宿物理机。按需同步数据,恢复实例和本地盘可用性。

以下为本地盘实例三种运维场景的流程图。

本地盘实例常见的运维场景流程图

本地盘实例系统事件

本地盘实例系统事件指发生本地盘损坏时,带有本地存储的ECS实例采用的运维流程。块存储事件代码为ErrorDetected。在事件窗口期内,您可以选择以下两种处理方式:
解决方法 说明 实例事件代码 操作文档
迁移实例 如需快速恢复本地盘可用性,并能够接受清空本地盘数据,您可以选择迁移实例到其他物理机恢复全部的数据盘容量,重新挂载和格式化数据盘。
  • SystemMaintenance.Redeploy
  • SystemFailure.Redeploy
重新部署本地盘实例
隔离坏盘 阿里云会尽快更换被隔离的受损本地盘,并在维护操作完成后,向您发送实例重启并更换受损本地盘的系统事件,您可以在事件窗口期内响应事件。
  • 如果返回以下事件代码,则流程中无需重启实例:
    • SystemMaintenance.IsolateErrorDisk
    • SystemMaintenance.ReinitErrorDisk
  • 如果返回以下事件代码,则流程中需要重启实例:
    • SystemMaintenance.RebootAndIsolateErrorDisk
    • SystemMaintenance.RebootAndReinitErrorDisk
隔离损坏的本地盘
其中,隔离坏盘的业务流程和对应的事件状态变化如下图所示。隔离坏盘的业务流程和对应的事件状态变化

相关链接

  • 弹性裸金属服务器实例可以安装插件xdragon_hardware_detect_plugin,定期检测弹性裸金属服务器实例上的本地盘设备的健康状态。详细步骤请参见安装监控插件
  • 有关云服务器ECS提供的本地盘种类,请参见本地盘
  • 有关云服务器ECS提供的支持本地存储的实例规格族,请参见实例规格族