大数据系统稳定性

原创

平常心

修改于 2021-04-23 10:43:26

1.7K0

修改于 2021-04-23 10:43:26

文章被收录于专栏：个人总结系列个人总结系列

一. 前言

计算公式：系统稳定性计算公式（年度）：（100 - (故障分钟数 / 全年的分钟总数 * 100)) %

说明：期望一年能达到的系统稳定性为： 99.99%，允许出现问题的最长时间是：52.56分钟；

期望一个季度能达到的系统稳定性为：99.99%，允许出现问题的最长时间是：17.28分钟。

二. 方法途径

1. 集群诊断，例行巡检报告，提前感知

1.1 存储资源，计算资源容量使用率报告，75%报备，80%扩容；

1.2 集群状态变化次数，例如当集群中存在频繁的节点变更(NN, RM)；

1.3 并发任务数，任务查询平均时长，任务资源(core, memory)，IO信息；

1.4 计算任务在任务队列中的等待时间；

1.5 慢查询的任务数量(超过2h、4h、6h)，触发熔断的查询数量(time out, exit等)和触发熔断的查询消耗的内存大小；

1.6 诊断或者巡检报告产生耗时时长。

2. 运维监控，涵盖自上而下业务监控，应用监控，基础监控

2.1 有效性

2.1.1 监控数据采集、数据上报有效：数据采集失败、数据不能上报监控agent的监控采集器每天以报表形式发送到运维负责人，运维负责人进行修改；

2.1.2 报警发送方式（如邮件等）、报警接收人有效：每天统计短信、邮件及其他渠道的报警发送量，有异常变化（突增或者为0）以报表通知到运维负责人修改；

2.1.3 报警1分钟内到达：对自身发送器进行监控，消息堆积时及时处理解决。

2.2 报警收敛

报警重试次数，集群报警合并，避免过多的报警会让人麻痹，进而忽略掉了真正有效的报警。

2.3 缩短故障处理时长，异常响应处理时长(0.5h)

3. 运维人员

应用运维、系统运维、所有角色一主一备(AB角)。

ps：厂商责任机制：如果有故障时长，则给予对应102.4倍服务时长的补偿。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

运维

大数据

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

运维

大数据

登录后参与评论

0 条评论

热度