当前位置:主页 > 查看内容

一分钟完成ECS机器数据的智能巡检告警

发布时间:2021-07-26 00:00| 位朋友查看

简介:系列文章 一分钟完成访问数据的智能巡检告警 对于运维的日常工作来说 服务器监控是必须且最基础的一项内容。在企业基础设施运维过程中 管理员必须能够掌握所有服务器的运行状况 以便及时发现问题 尽可能减少故障的发生。本次主要介绍如何使用智能巡检 帮助您……
系列文章一分钟完成访问数据的智能巡检告警

对于运维的日常工作来说 服务监控是必须且最基础的一项内容。在企业基础设施运维过程中 管理员必须能够掌握所有服务器的运行状况 以便及时发现问题 尽可能减少故障的发生。本次主要介绍如何使用智能巡检 帮助您快速完成机器 ECS 相关指标的监控 降低您设置告警的复杂规则和冗余的设置。

设置步骤创建MetricStore 完成机器组配置创建MetricStore

image

选择需要监控的机器 安装Logtail采集插件

image

等待插件安装完成

image

针对配置的机器 将完成采集的机器组

image

设置针对机器指标的采集配置

SLS的主机监控方案非常简单 只需要安装一个Logtail就可以采集各个主机的基础指标 服务端都是云化 无需运维 默认SLS提供了可视化的仪表盘 也可以通过Grafana来进行更加专业的可视化。
image
目前Logtail采集了主机常用的基础指标 包括CPU、内存、网络、磁盘等 其中对较为关键的指标都做了可视化 便于直接查看。通过对采集配置中 插件配置 的模式下 使用如下配置 可以完成上述指标的采集。

{
 inputs : [
 detail : {
 IntervalMs : 30000
 type : metric_system_v2 
}

在接入的过程中 有个辅助的开关【开启指标巡检】 如果选择了开启 则会同时创建对应的【巡检任务】和存放巡检结果的LogStore。我们通过如下操作 可以查看对应的资源情况。

image

结果分析基础数据分析
* | select DISTINCT __name__ from machine_metric_logtail.prom where __name__ ! limit 10000

在MetricStore中 使用如上的分析语句 可以查看我们一共采集了多少指标 以及对应的指标内容。

image

智能巡检结果可视化

image

image

image

如何使用巡检大盘用户可以在【巡检大盘】中选择【异常列表】中对应【hostname】这一列 选择从机器维度出发 去查看对应的异常情况在【异常显示】部分 每个异常都会标注在指标的曲线中 您可通过鼠标拖拽选择时间区间 点击异常点查看异常详情并跳转到详细的监控页面

image

image

用户可以在【仪表盘】中 找到对应的【巡检仪表盘】 可以通过手动拖拽的形式选中对应的区间 可以完成多个图表联动的可视化 更加便于您查看单个机器的状态是否正常。

参考文档采集主机监控数据 https://help.aliyun.com/document_detail/171717.html?spm a2c4g.11186623.6.980.7c2515c0cE8RiuAIOps 自适应机器学习异常检测 https://zhuanlan.zhihu.com/p/377837205智能巡检概述 https://help.aliyun.com/document_detail/253411.html查看巡检结果 https://help.aliyun.com/document_detail/275370.html打标反馈 https://help.aliyun.com/document_detail/275225.html
本文转自网络,原文链接:https://developer.aliyun.com/article/785745
本站部分内容转载于网络,版权归原作者所有,转载之目的在于传播更多优秀技术内容,如有侵权请联系QQ/微信:153890879删除,谢谢!
上一篇:权重随机分配器 下一篇:没有了

推荐图文

  • 周排行
  • 月排行
  • 总排行

随机推荐