本文列出了对象存储OSS各项监控指标。

根据用户使用场景,OSS的指标分为用户层级和Bucket(存储空间)层级。为了更好地观察监控数据以及匹配计费策略,除了一般监控项的时间序指标外,OSS对现有的监控指标项进行统计分析,提供了一段时间内的统计指标,如请求状态分布统计和当月计量统计。
说明 除了计量指标和统计指标,所有的指标(时间序指标)都是分钟级别的数据汇总(如求和、求最大值或者求均值等等)。而计量指标是按小时的数据进行汇总的时间序指标。

用户层级指标

用户层级指标是指从用户的账户级别对OSS系统使用的总体情况进行监控的指标信息,是对该账户下的所有的Bucket相关监控数据的汇总。其中包括当月计量统计、服务监控总览和请求状态详情三个方面。
  • 服务监控总览

    服务监控总览指标属于基础服务指标,具体指标项详见下表。注意,下面所有的指标都是在用户层级监控的。

    服务监控总览指标名称 单位 描述
    可用性 % 存储服务的系统可用性衡量指标。通过公式 1 - 服务端错误请求(返回状态码为5xx)占总请求的百分比获取
    有效请求率 % 有效请求占总请求数的百分比
    总请求数 次数 被OSS服务端接收并处理的请求总数
    有效请求数 次数 返回状态码为2xx和3xx的请求总数
    公网流出流量 字节 通过互联网网络的下行流量
    公网流入流量 字节 通过互联网网络的上行流量
    内网流出流量 字节 通过服务系统内部网络的下行流量
    内网流入流量 字节 通过服务系统内部网络的上行流量
    cdn流出流量 字节 开通cdn加速服务之后,通过cdn产生的下行流量,即回源流量
    cdn流入流量 字节 开通cdn加速服务之后,通过cdn产生的上行流量
    跨区域复制流出流量 字节 开通跨区域复制功能之后,数据复制过程产生的下行流量
    跨区域复制流入流量 字节 开通跨区域复制功能之后,数据复制过程产生的上行流量

    除了以上具体的监控指标,还提供一段时间内的请求状态分布统计,主要是根据返回的状态码或者OSS错误码进行分类的请求的统计信息(被观察时间段内的请求次数总和以及占比),相关的监控指标项信息详见以下请求状态详情的介绍。

  • 请求状态详情

    请求状态详情指标是指根据请求返回状态码或者OSS错误码进行分类的请求的监控信息,属于基础服务指标,具体指标项详见下表。注意,下面所有的指标都是在用户层级监控的。

    请求状态详情指标名称 单位 描述
    服务端错误请求总数 次数 返回状态码为5xx的系统级错误请求总数
    服务端错误请求占比 % 服务端错误请求总数占总请求数的百分比
    网络错误请求总数 次数 HTTP状态码为499的请求总数
    网络错误请求占比 % 网络错误请求数占总请求数的百分比
    客户端授权错误请求总数 次数 返回状态码403的请求总数
    客户端授权错误请求占比 % 授权错误请求数占总请求数的百分比
    客户端资源不存在错误请求总数 次数 返回状态码为404的请求总数
    客户端资源不存在错误请求占比 % 资源不存在错误请求数占总请求数百分比
    客户端超时错误请求总数 次数 返回状态码为408或者返回的OSS错误码为RequestTimeout的请求总数
    客户端超时错误请求占比 % 客户端超时错误请求总数占总请求数的百分比
    客户端其他错误请求总数 次数 除了以上提到的客户端错误请求之外的其他返回状态码为4xx的请求总数
    客户端其他错误请求占比 % 客户端其他错误请求数占总请求数的百分比
    成功请求总数 次数 返回状态码为2xx的请求总数
    成功请求占比 % 成功请求数占总请求数的百分比
    重定向请求总数 次数 返回状态码为3xx的请求总数
    重定向请求占比 % 重定向请求数占总请求数的百分比
  • 当月计量统计

    当月计量统计指标是指从当月的1号0点开始,到当月计量采集截止时间为止,这段时间内计量指标的统计数据。

    目前统计的计量指标如下:

    当月计量统计指标名称 单位 描述
    存储大小 字节 在计量采集截止时间前属于该用户的所有Bucket占用的存储总大小
    公网流出流量 字节 从本月1号0点开始累积到计量采集截止时间为止,用户所使用的所有公网流出流量的总和。
    Put类请求数 次数 从本月1号0点开始累积到计量采集截止时间为止,用户所使用的所有Put类请求的总和。
    Get类请求数 次数 从本月1号0点开始累积到计量采集截止时间为止,用户所使用的所有Get类请求的总和。

Bucket层级指标

Bucket层级指标是指对具体的存储空间的OSS操作情况进行监控的指标信息,具有更强的业务场景,所以除了类似从用户层面可以监控的服务监控总览和请求状态详情这些基础服务指标项和当月计量统计之外,还有计量参考、延时和成功请求操作分类等计量指标和性能指标。
  • 服务监控总览

    监控项指标含义同用户层级的服务监控总览,从具体的Bucket进行监控。

  • 请求状态详情

    监控项指标含义同用户层级的请求状态详情,从具体的Bucket进行监控。

  • 当月计量统计

    统计方式同用户层级的当月计量统计,从具体的Bucket资源使用情况进行统计。

    当月计量统计指标名称 单位 描述
    存储大小 字节 在计量采集截止时间前该Bucket占用的存储大小
    公网流出流量 字节 从本月1号0点开始累积到计量采集截止时间为止,该Bucket的公网流出流量的总和。
    Put类请求数 次数 从本月1号0点开始累积到计量采集截止时间为止,该Bucket的所有Put类请求的总和。
    Get类请求数 次数 从本月1号0点开始累积到计量采集截止时间为止,该Bucket的所有Get类请求的总和。
  • 计量参考

    计量指标的时间序监控,具体如下:

    当月计量统计指标名称 单位 描述
    存储大小 字节 该Bucket每小时使用的平均存储大小
    公网流出流量 字节 该Bucket每小时的公网流出流量的总和
    Put类请求数 次数 该Bucket每小时的Put类请求的总和
    Get类请求数 次数 该Bucket每小时的Get类请求的总和
  • 延时

    请求延时是系统性能的直观反映。监控服务提供了分钟级别的平均延时和最大延时两类指标,分别反映系统平均响应能力和系统抖动情况。并且根据OSS API请求操作类型进行分类,更细粒度地反应系统应对不同操作的性能状况。目前只对关于Bucket的操作并且涉及数据操作(不包含对meta操作)的API进行监控。

    另外,延时监控指标分别从E2E和服务器两条不同的链路进行收集,便于分析性能热点以及环境问题,其中:

    • E2E延时是指向OSS系统发出的成功请求的端到端滞后时间,包括在OSS系统中读取请求、发送响应以及接受响应确认所需的处理时间。
    • 服务器延时是指OSS系统成功处理请求所使用的滞后时间,不包括E2E延时中的网络滞后时间。

    注意,性能相关指标都是对成功请求(返回状态码为2xx)进行的监控。

    具体的监控指标项如下表:

    延时指标名称 单位 描述
    GetObject请求平均E2E延时 毫秒 请求API为GetObject的成功请求的平均端到端延时
    GetObject请求平均服务器延时 毫秒 请求API为GetObject的成功请求的平均服务器延时
    GetObject请求最大E2E延时 毫秒 请求API为GetObject的成功请求的最大端到端延时
    GetObject请求最大服务器延时 毫秒 请求API为GetObject的成功请求的最大服务器延时
    HeadObject请求平均E2E延时 毫秒 请求API为HeadObject的成功请求的平均端到端延时
    HeadObject请求平均服务器延时 毫秒 请求API为HeadObject的成功请求的平均服务器延时
    HeadObject请求最大E2E延时 毫秒 请求API为HeadObject的成功请求的最大端到端延时
    HeadObject请求最大服务器延时 毫秒 请求API为HeadObject的成功请求的最大服务器延时
    PutObject请求平均E2E延时 毫秒 请求API为PutObject的成功请求的平均端到端延时
    PutObject请求平均服务器延时 毫秒 请求API为PutObject的成功请求的平均服务器延时
    PutObject请求最大E2E延时 毫秒 请求API为PutObject的成功请求的最大端到端延时
    PutObject请求最大服务器延时 毫秒 请求API为PutObject的成功请求的最大服务器延时
    PostObject请求平均E2E延时 毫秒 请求API为PostObject的成功请求的平均端到端延时
    PostObject请求平均服务器延时 毫秒 请求API为PostObject的成功请求的平均服务器延时
    PostObject请求最大E2E延时 毫秒 请求API为PostObject的成功请求的最大端到端延时
    PostObject请求最大服务器延时 毫秒 请求API为PostObject的成功请求的最大服务器延时
    AppendObject请求平均E2E延时 毫秒 请求API为AppendObject的成功请求的平均端到端延时
    AppendObject请求平均服务器延时 毫秒 请求API为AppendObject的成功请求的平均服务器延时
    AppendObject请求最大E2E延时 毫秒 请求API为AppendObject的成功请求的最大端到端延时
    AppendObject请求最大服务器延时 毫秒 请求API为AppendObject的成功请求的最大服务器延时
    UploadPart请求平均E2E延时 毫秒 请求API为UploadPart的成功请求的平均端到端延时
    UploadPart请求平均服务器延时 毫秒 请求API为UploadPart的成功请求的平均服务器延时
    UploadPart请求最大E2E延时 毫秒 请求API为UploadPart的成功请求的最大端到端延时
    UploadPart请求最大服务器延时 毫秒 请求API为UploadPart的成功请求的最大服务器延时
    UploadPartCopy请求平均E2E延时 毫秒 请求API为UploadPartCopy的成功请求的平均端到端延时
    UploadPartCopy请求平均服务器延时 毫秒 请求API为UploadPartCopy的成功请求的平均服务器延时
    UploadPartCopy请求最大E2E延时 毫秒 请求API为UploadPartCopy的成功请求的最大端到端延时
    UploadPartCopy请求最大服务器延时 毫秒 请求API为UploadPartCopy的成功请求的最大服务器延时
  • 成功请求操作分类

    配合延时监控,成功请求的监控一定程度上反应了系统处理访问请求的能力。目前只监控关于Bucket的操作中涉及数据操作的API。详细的指标项如下:

    成功请求操作分类指标名称 单位 描述
    GetObject成功请求数 次数 请求API为GetObject的成功请求数
    HeadObject成功请求数 次数 请求API为HeadObject的成功请求数
    PutObject成功请求数 次数 请求API为PutObject的成功请求数
    PostObject成功请求数 次数 请求API为PostObject的成功请求数
    AppendObject成功请求数 次数 请求API为AppendObject的成功请求数
    UploadPart成功请求数 次数 请求API为UploadPart的成功请求数
    UploadPartCopy成功请求数 次数 请求API为UploadPartCopy的成功请求数
    DeleteObject成功请求数 次数 请求API为DeleteObject的成功请求数
    DeleteObjects成功请求数 次数 请求API为DeleteObjects的成功请求数