实例健康诊断功能是一种自助诊断方式,您可以随时对实例的系统状态、网络状态、磁盘状态等进行全方位的诊断,帮助您了解实例健康情况,及时发现并解决常见的问题。本文介绍该功能支持的诊断项,并提供了详细的诊断范围与结果供您参考。

诊断项

实例健康诊断功能支持以下诊断:

实例服务健康诊断

诊断项(控制台) 诊断项(API) 描述 诊断范围
实例申请资源异常 Instance.ResourceNotEnough 因CPU或内存资源不足,导致实例无法正常启动。 检查该实例所需要的CPU或内存等物理资源是否充足。如果因为库存不足使得物理资源不足,将导致实例无法启动。您可以等待几分钟后重新尝试开机,或者更换地域或可用区重新开机。
实例系统检查超时 Instance.CheckTimeOut 实例系统管控通道检查超时。 检查该实例底层虚拟化层相关组件的状态是否存在超时现象。如果超时,可能会导致实例当前命令执行失败。您需要重新尝试该命令。
实例系统异常 Instance.SystemException 实例系统出现了内核错误(kernel panic)、OOM异常或内部宕机等故障。 检查该实例的操作系统Guest OS内部是否存在内核panic、OOM异常或内部宕机等故障。这些故障可能是由于Guest OS内的用户程序或实例配置不当而导致,您可以尝试通过重启实例进行恢复。
实例虚拟化异常 Instance.VirtException 实例在运行中出现崩溃或出现异常暂停。 检查该实例底层虚拟化层核心服务是否出现异常。如果出现异常可能会导致实例崩溃或出现异常暂停。您可以尝试通过重启实例进行恢复。
实例所在宿主机告警 Instance.HostDownAlert 实例所在的物理设备出现故障告警。 检查该实例所在的底层物理机是否有故障。如果该物理机存在故障,则可能会影响实例的运行状态或性能。您可以尝试通过重启实例进行恢复。
实例性能受限 Instance.PerfRestrict 积分型实例当前处于性能受限模式。 检查突发性能实例的CPU积分余额,是否足够支付当前性能所需积分。如果积分不够,则该实例在业务高峰时只能使用基准性能,而无法启动突发性能。
实例CPU异常 Instance.CPUException 实例因CPU争抢而出现异常,或者独享型实例的CPU绑定失败。 检查共享型实例底层是否存在CPU争抢,导致该实例无法获得CPU或出现其他异常。您可以尝试通过重启实例进行恢复。
实例管控系统异常 Instance.ControllerError ECS实例后台管控系统发生异常。 检查该实例的后台管控系统是否正常工作。如果该系统未正常工作,可能导致本实例运行异常。您可以尝试通过重启实例进行恢复。

实例配置管理诊断

诊断项(控制台) 诊断项(API) 描述 诊断范围
实例启动异常 Instance.BootFailure 实例无法被管控系统正常启动。 检查该实例的boot操作是否能正常执行加载,如果实例无法正常boot,您需要创建一个新的实例。
实例核心操作异常 Instance.OperationFailure 您对实例进行管理控制的操作执行失败。 检查您对该实例最近执行的管理操作,例如开机、关机、升配等是否执行成功。如果执行失败,您需要重新发起该操作。
实例镜像加载异常 Instance.ImageLoadFailure 实例所使用的镜像无法正常加载。 检查该实例在启动时所使用的镜像是否能正常加载。镜像可能因为系统原因、镜像问题等加载失败。您可以尝试通过重启实例进行恢复。

实例磁盘健康诊断

诊断项(控制台) 诊断项(API) 描述 诊断范围
实例磁盘IOHang Instance.IOHang 云盘IO hang,导致云盘无法读写。 检查该实例的系统盘是否存在IO hang的情况(即磁盘内的文件系统因读写IO延迟过高导致系统不稳定或宕机)。如果出现IO hang,云盘无法进行读写操作。建议您查看云盘的性能指标,具体操作请参见查看云盘监控信息。如果您使用的是Alibaba Cloud Linux 2操作系统,可以参见检测文件系统和块层的IO hang来检测IO hang。
实例磁盘加载异常 Instance.DiskLoadFailure 创建或挂载云盘时出现错误。 检查该实例在启动时云盘是否能正常挂载。如果挂载失败,则会导致实例无法正常启动。请停止实例后再次启动实例,或重新挂载云盘,进行恢复。挂载云盘的操作请参见挂载数据盘
实例云盘读写受限 Instance.DiskLimit 云盘IO延迟过长,或达到该云盘类型的IO上限。 检查该实例系统盘的读写IO是否存在延迟,以及读写的IOPS是否超过了该云盘的IOPS上限。如果云盘读写IOPS超过上限,则云盘读写将被限制,您可以参见查看云盘监控信息查看云盘指标。

为避免该情况再次发生,请您降低磁盘的读写频率或升级为更高性能的云盘类型。各类云盘的读写性能指标请参见块存储性能

实例磁盘扩缩容异常 Instance.ResizeFsFailure 云盘扩缩容后,文件系统的大小调整失败。 检查该实例的系统盘在扩容后,云盘上的文件系统是否也调整成功。如果文件系统未成功调整,表示云盘容量因资源不足或其他原因导致扩容失败,新扩容的磁盘无法使用。请重新发起扩容操作。不同操作系统的扩容方法与限制,请参见扩容概述

实例网络健康诊断

诊断项(控制台) 诊断项(API) 描述 诊断范围
实例链路层异常 Instance.ArpPingError 实例网卡链路层出现异常。 检查该实例的底层链路层是否出现ARP ping不通的情况。如果ARP ping不通,将影响实例的网络连通性。您可以尝试通过重启实例进行恢复。
实例网络加载异常 Instance.NetworkLoadFailure 实例的网卡加载异常。 检查该实例的网卡是否能正常加载。如果网卡无法正常加载,将影响实例的网络连通性,例如实例无法远程连接。您可以尝试通过重启实例进行恢复。
实例设备丢包 Instance.PacketDrop 网卡入方向或出方向存在丢包现象。 检查该实例的网卡入方向或出方向是否存在丢包现象。如果存在,将影响实例的网络连通性或网络吞吐,例如导致实例无法远程连接,或网速过慢。您可以尝试通过重启实例进行恢复。
网络会话异常 Instance.NetworkSessionError 网卡会话无法正常建立,或会话数超过上限。 检查该实例的网卡是否能正常建立会话。如果网卡无法建立会话或已建立的会话超过限制,将影响实例的网络连通性或网络吞吐,例如导致实例无法远程连接,或网速过慢。您可以尝试通过重启实例进行恢复。
ICMP ping不通 Instance.ICMPPingError ICMP ping不通。 检查该实例的底层链路层是否出现ICMP ping不通的情况。如果出现ICMP ping不通,会影响实例的网络连通性。您可以尝试通过重启实例进行恢复。

实例费用诊断

诊断项(控制台) 诊断项(API) 描述 诊断范围
检查包年包月实例是否已到期 Instance.ExpirationStop 检查以包年包月方式购买的实例是否已到期。 如果该实例是包年包月的计费方式,检查实例是否已到期。到期后,实例将被关机停服,实例无法访问。到期后资源状态变化请参见包年包月。您需要续费来恢复服务。
检查按量实例是否因为欠费导致停服 Instance.AccountUnbalancedStop 检查以按量付费方式购买的实例是否因为欠费导致停服。 如果该实例是按量付费的计费方式,检查账号是否欠费。欠费后,实例将被关机停服,实例无法访问。账号欠费后资源状态变化请参见按量付费。您需要充值后手动进行重开机才能恢复实例。
检查实例的组件是否已欠费 Instance:AccountUnbalancedPerformanceImpact 检查实例的云盘或网络带宽是否因账号欠费而无法正常使用。 检查实例关联的按量付费云盘或网络带宽是否因账号欠费而无法正常使用。实例组件欠费被停服后,实例的访问也将收到影响。您需要充值进行恢复。

实例关联安全组诊断

诊断项(控制台) 诊断项(API) 描述 诊断范围
实例关联的安全组入方向常用端口放开状态 Instance.SGIngress 实例关联的安全组入方向常用端口放开状态。 检查该实例关联的安全组常见端口的放开状态。如果常见端口未放行,可能会导致部分服务无法正常运行或实例无法访问。检查放行的常见端口如下:
  • 入方向SSH端口(22),需放行
  • 入方向RDP端口(3389),需放行