前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大数据系统稳定性

大数据系统稳定性

原创
作者头像
平常心
修改2021-04-23 10:43:26
1.7K0
修改2021-04-23 10:43:26
举报
文章被收录于专栏:个人总结系列个人总结系列

一. 前言

计算公式:系统稳定性计算公式(年度): (100 - (故障分钟数 / 全年的分钟总数 * 100)) %

说明: 期望一年能达到的系统稳定性为: 99.99%,允许出现问题的最长时间是:52.56分钟;

期望一个季度能达到的系统稳定性为:99.99%,允许出现问题的最长时间是:17.28分钟。

二. 方法途径

1. 集群诊断,例行巡检报告, 提前感知

1.1 存储资源,计算资源容量使用率报告,75%报备,80%扩容;

1.2 集群状态变化次数,例如当集群中存在频繁的节点变更(NN, RM);

1.3 并发任务数,任务查询平均时长,任务资源(core, memory),IO信息;

1.4 计算任务在任务队列中的等待时间;

1.5 慢查询的任务数量(超过2h、4h、6h),触发熔断的查询数量(time out, exit等)和触发熔断的查询消耗的内存大小;

1.6 诊断或者巡检报告产生耗时时长。

2. 运维监控,涵盖自上而下业务监控,应用监控,基础监控

2.1 有效性

2.1.1 监控数据采集、数据上报有效:数据采集失败、数据不能上报监控agent的监控采集器每天以报表形式发送到运维负责人,运维负责人进行修改;

2.1.2 报警发送方式(如邮件等)、报警接收人有效:每天统计短信、邮件及其他渠道的报警发送量,有异常变化(突增或者为0)以报表通知到运维负责人修改;

2.1.3 报警1分钟内到达:对自身发送器进行监控,消息堆积时及时处理解决。

2.2 报警收敛

报警重试次数,集群报警合并,避免过多的报警会让人麻痹,进而忽略掉了真正有效的报警。

2.3 缩短故障处理时长,异常响应处理时长(0.5h)

3. 运维人员

应用运维、系统运维、所有角色一主一备(AB角)。

ps: 厂商责任机制:如果有故障时长,则给予对应102.4倍服务时长的补偿。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一. 前言
  • 二. 方法途径
    • 1. 集群诊断,例行巡检报告, 提前感知
      • 2. 运维监控,涵盖自上而下业务监控,应用监控,基础监控
        • 3. 运维人员
        相关产品与服务
        大数据
        全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
        http://www.vxiaotou.com