当前位置：主页 > 查看内容

钉钉前端-如何设计前端实时分析及报警系统

发布时间：2021-05-20 00:00| 有位朋友查看

简介：关于钉钉前端钉钉从 2014 年底创业至今发展极其迅速钉钉前端监控也在相应的演进。我们有亿级的用户和千万级的企业用户前端产品有安卓、iOS、桌面端、小程序、 H5等前端应用的发布也涵盖全量发布、灰度发布的情况。亿级流量的挑战对于这样一个亿级平台……

关于钉钉前端

钉钉从 2014 年底创业至今发展极其迅速钉钉前端监控也在相应的演进。我们有亿级的用户和千万级的企业用户前端产品有安卓、iOS、桌面端、小程序、 H5等前端应用的发布也涵盖全量发布、灰度发布的情况。

亿级流量的挑战

对于这样一个亿级平台除了做前端监控系统之外我相信很多小伙伴也有体感要保证整体钉钉前端的稳定性还需要有一些技术运营的手段包括人的一些情况。我们现在整体有 100 多个前端开发成员然后我们的技术模块上面有 IM、通讯录、直播、教育、文档、硬件等等非常具有 B 端属性的业务。

成果

我先说一下我们的成果: 100% 覆盖了我们今天所有的 h5 和小程序、支撑了 100 多个前端人员的监控需求。前端监控的日志量达到百亿监控大盘个数超过 100 个能做到线上问题一分钟感知和一分钟模糊问题定位。在人力投入上面始终维持在两个负责人员以内大部分情况下是我一个人为主在负责整体的一个监控情况所以在人力投入上面我们的成本是相对比较低的。

上图中的两张趋势图是我们监控的主要产品结构一张是我们的监控趋势图另一张是我们的业务大盘文件夹用于承载各个业务同时我们有一个生产环境的统一小程序、H5 监控大盘。

演进之路

接下来我会讲一下关于钉钉前端监控我们是如何对系统进行演进拿到一个不错的结果。

考虑到有很多小伙伴们不是搞前端监控的所以这边我会先讲一些基础知识来展开如何设计一个前端监控系统。

我们来看一下上面这段代码 const 创建一个对象然后 foot.a.b c。可以看到这是段非常经典的 NPE 代码就是 null point exception 在前端代码中非常容易出现。这边会抛出一个错误:** Uncaught TypeError: Cannot set property b of undefined**。

对于这样一个错误在用户侧发生之后我们的前端监控系统是怎样去捕获这个错误并且在一分钟之内发现我们来看一下一传统的做法是怎么做的

首先写一个前端监控 SDK 用于进行数据采集选型一个通知方案将这条前端日志通知到服务端

我这边演示的是用 image 标签创建一个 image 标签设置它的 src 指向对应的日志服务器来发送对应的日志。

我们对错误的采集采用的是 window.onerror 来捕获全局错误。然后将捕获的错误通过创建 image 标签形式发送到上图右侧的前端监控服务端。

如上的代码只是一个伪代码演示我写的比较简单。

对于一个传统的基于日志分析的监控系统你首先要知道这条日志到底是来自哪里所以我们对每一条日志在前端采集的时候都有一个应用 id 姑且我这边称之为 spmId 通过 spmId 来标识日志源然后将这条日志存储到对应的监控服务端这样就完成了一个非常简单的从前到后的一个链路。

从日志发生、采集然后再到存储的一个闭环非常简单。其实见微知著看到这么一个简单的实现再把日志类型进行丰富采集和存储做的强大一点基本上就可以去搭建一个比较简单的前端监控系统了。

一般而言一个简单的前端监控分析系统需要包含如下三个维度:

第 1 个是稳定性相关的 js error第 2 个是性能相关的 performance第 3 个是 api 成功率相关的

在监控平台我们需要做一些日志存储将监控日志提供给可视化平台服务器通过提供一些 API 服务就可以画出上面这样一个图。比如第 1 个是接口成功率。

我觉得在技术选型上面对于很多稍微有点 Node 或者服务端基础的前端同学来说基本上能做出一个简单的 Demo。然而这样一个看似功能很完备的系统对于做前端监控来说有没有什么问题是不是能够满足钉钉这样一个亿级流量平台的监控需求

上图左边展示的是我们的开发人员接入前端监控的过程包括开发阶段、测试阶段、上线阶段。在前端监控推行的过程中我们要求所有的开发人员在应用迭代上线后要主动观察监控大盘至少 30 分钟观察三个指标

js errorperformanceapi 成功率

对于目前我们 100 多个前端同学的团队规模来说人力成本是 100 乘以 30 分钟同时对于钉钉这个企业级产品而言我们对线上的稳定性要求是非常高的对线上故障容忍度极低因此还要求每日对线上应用进行巡检因此人力成本非常高。

从开发人员的体验角度看一个开发人员查看监控的时候第 1 个他会去可视化分析平台上去看有没有错误日志。这边有一个非常重要的点就是说我们监控分析平台看到的日志是不是前端页面的日志

不一定是。为什么因为对于用户来说它不仅仅是打开了前端页面这个前端页面背后还有容器的 webview、应用容器、运营商等。

举个例子我们一个页面可以在微信的容器里面打开、可以在头条的容器里面打开、可以在钉钉容器里面打开。所以你采集的日志源不仅仅是一个前端页面还有容器的 webview 同时我们还会面临很多的运营商。比如说我们经常看到前端页面里插了一段广告然后我们还有一些手机的制造商比如vivo、华为等也会在我们的页面里面插入相关的脚本。所以监控分析平台采集到的日志不仅仅是前端日志他采集到的范围实际上是前端页面对应的用户终端日志。

一般我们会碰到如下三种干扰日志

第 1 个是第三方脚本注入第 2 个是容器脚本的注入第 3 个是由手机制造商脚本注入

举个例子如上是我们线上的一个应用大概 js error 率是 0.08% 对于钉钉这样的体量来说这个错误率影响用户的数量已经非常大了。

我们来看一下它对应的错误实际上是什么 Script error WeixinJSBridge is not defined, toutiaoJSBridge is not defined, 20 vivoNewsDetailPage 这些东西从错误信息基本上可以判断跟业务错误基本没啥关系。

所以我们可以得到第 1 个结论就是前端监控产生的一部分错误实际上跟业务无关这个可能跟很多人的认知是相悖的。

我们再来看一个问题左图是我们桌面端的发布曲线钉钉是国内甚至是全球为数不多的非常重桌面端的平台。钉钉桌面端基本上是一个礼拜或者两个礼拜一个迭代由于桌面端的前端代码是采用离线包的形式因此代码的更新修复是比较困难的对前端稳定性的要求非常的高。

对于我们今天的桌面端而言已经有 100 多个线上发布版本了这么多的版本上报的日志采用的是同一个应用id 我们如何去做分层监控线上流量的不均如何做好分层监控避免小流量的发版监控被淹没

这些问题在钉钉的业务场景是经常碰到的我们的监控颗粒度需要和前端的发版相适应并且监控的日志需要支持更多的维度。比如说以应用和发布版本这两个变量为单位进行监控。

我们再看一个案例钉钉有几百个前端应用每个应用报警 1 次就非常夸张了基本上一天报警群就有 500 多条日志刷屏现象非常严重而且很多错误是线上的长尾错误。也就是它虽然有报警但是不需要去修改等等。长尾错误出现的原因是我虽然修复了问题但是用户那边不一定完全访问的是最新的版本。

所以结论 3 就是我们监控运营的人力成本非常高对于前端监控的要求不仅仅是要报警报出来还需要你的报警是直观的、实时的同时要支持一些短时关闭和错误过滤等等手段。

看完上面这三个案例后我们来看一下究竟该如何设计一个能够服务 3 亿体量的监控系统。

首先我们先界定监控设计的目标钉钉企业级前端监控需要做到的事情是: 一分钟感知、5 分钟定位、10 分钟恢复。姑且称这个监控系统为 2.0 系统。

我们对于前端监控 2.0 在 1.0 的基础上定义了如下的能力水位。

第 1 个是要贴近实际业务降低人力运营成本、业务方能够低成本介入。同时对于报警体系要求做到快报警、准报警并且支持自定义报警。我们内部定了一个基准线就是前端监控精度必须达到 90% 以上人力成本必须减少 20 分钟每一个人并且报警和大盘需要能够支持自定义配置。

上图是整体的监控的组件编排方案。左边是一个图例蓝色部分代表的是 1.0 的监控组件墨绿色的部分代表 2.0新增的监控组件。

自定义采集

第 1 个在日志采集端除了采集常规的业务数据和监控数据之外支持自定义采集。

分析智能化

分析智能化这一块增加了分析可自定义的能力。

报警实时化

在报警实时化这一块增加了线上1分钟报警和5分钟定位的要求。

最关键的技术实现

同样蓝色部分是原有的 1.0 的一个体系墨绿色部分是我们新增的体系。我们会发现在日志采集在和日志消费端我们增加了一个模块叫做日志双写。

一份日志被两个系统所消费一份系统用于实时去报警一份系统用于去做分析

服务器拿到日志后一块去做存储分析以便做一些监控报表服务第二块引入了日志分钟计算系统去做实时的报警。

很多同学会觉得日志双写其实是一个非常大的系统的浪费一份日志被两个系统所消费了。实际上钉钉前端监控借助了阿里非常成熟的日志消费系统和基础设施。通过日志分发两路被快速消费让分钟计算系统在整个监控体系里面的编排是前置的达到 1 分钟报警的要求这是我们在这一块里面最核心的一个技术思路。

在上图的紫色虚线下方是我们的用户视角。用户侧触碰到的是两块第 1 块是前端监控 SDK 我们有 H5 和小程序的 SDK 第二块是平台包括分析平台和报警平台。

真实案例

我们来看一个真实的案例。用户碰到了两个 js error 。这两个 js error 都是前端经典的 NPE 错误。

第 1 个是发生在 iPad 百度浏览器。第 2 个是发生在安卓头条 webview 结果我们会发现我们客户端上报过来的错误有两种

真实错误: Uncaught TypeError: Cannot set property b of undefined。宿主注入的很多干扰信息比如说百度浏览器会注入 MyAppHrefLink is not defined。

可能很多同学没有观察过。我们是仔细去排查过的。百度浏览器会注入 MyAppHrefLink is not defined。头条的也会去注入一些头条 jsBridge 。

日志到达服务端后我们先对日志进行清洗把所有宿主的干扰日志都过滤掉确保我们的报警系统是消费的真正的业务发生的日志错误。这是黄色区域的第一个模块: 日志清洗

接下来我们进行日志分组将应用 A spmId A 和应用 B 的日志进行分组通过应用标识 A 和 B 进行分组。将过滤过来的日志进行实时计算。

经过这一步后再将日志流转到报警指标项进行实时计算这个报警规则引擎下发相关的指令到 Map Reduce 对应的机器上去做一些处理。

比如 JS Error 失败率 JS Error 日志条数除以 PV 条数。当对日志进行计算的结果大于 6% 则进行钉钉群报警当失败率大于 15% 则进行短信报警。

钉钉前端监控 2.0

监控日志

通过将同样的流程应用到各个不同的指标项比如 api 成功率、js error 失败率、pv 数据等我们就可以在分钟计算系统搭建出一套满足 1 分钟感知的监控系统。

报警系统架构

关于报警系统上图我们阿里研发事业部那边的一个非常经典的监控系统有兴趣的同学可以在 infoQ 上搜索 sunfire 看到更详细的架构介绍这里不做过多展开。

整体日志架构总结

基本上这就是我今天想要分享的钉钉前端监控在从 1.0 演进到 2.0 的过程中我们是如何思考和如何落地的。这边的话我给大家稍微简单总结一下

最关键的技术思路是将日志报警组件的编排进行前置我们的实现是采用日志双写到分析系统和报警系统。在报警平台支持报警规则引擎真正做到报警自定义、报警可分级等。对于前端而言我们不仅仅是前端页面我们更多的面对的是用户终端。
本文转自网络，原文链接：https://developer.aliyun.com/article/784215
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：手把手教你申请试用与运行MindOpt求解器 下一篇：Git init和Git init --bare的区别，以及Git init --bare如何创建

随机推荐

盒子科技

客户简介深圳盒子信息科技有限公司成立于2011年，是国家高新技术企业、深圳市高...
新零售行业优质解决方案分享【智能语音点

1、智能语音点餐机解决方案方案架构架构特点基于达摩院特有的多模态交互技术 ...
自学大数据，给IT新手的7个MongoDB实战项

MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供...
【活动已结束，获奖人员名单公布】3月Tec

3月Techo Youth高校公开课Demo实操演练【活动已结束】 3月Techo Youth高校公开...
新零售行业优质解决方案分享【商超连锁全

中台有机衔接稳定的后台系统和灵活多变的前端业务场景通过抽取后台系统的数据 ...
阿里云AIoT发布全新工业和农业云端一体机

发布会传送门： https://yqh.aliyun.com/live/aiotfa 近日，阿里云AIoT春季产品...
走出实验室: IBM为企业推进人工智能注入

2020年7月9日，2020年世界人工智能大会（the World Artificial Intelligence Con...
怎么防御udp攻击

怎么防御udp攻击？UDP Flood是日渐猖厥的流量型 ddos 攻击。常见的情况是利用大...
如何修改Windows裸金属服务器网卡的MTU值

最大传输单元（Maximum Transmission Unit，MTU）是指一种通信协议的某一层上所...
云计算带来的变革将如何在2021年加速创新

在过去的一年中，云计算已经成为组织应对冠状病毒疫情对其业务不利影响的关键技...

钉钉前端-如何设计前端实时分析及报警系统

推荐图文

手把手带你使用uni-admin搭建后台管理系统

Oracle学习(六)：子查询

有“车圈”、“车全”等含义：双拼域名chequan.cn在

一日一技：在Python里面实现链式调用

百度智能云阿里云和腾讯云的云服务器三者的对比

远程桌面连接（MSTSC方式）_云耀云服务器 HECS_用户

随机推荐

盒子科技

新零售行业优质解决方案分享【智能语音点

自学大数据，给IT新手的7个MongoDB实战项

【活动已结束，获奖人员名单公布】3月Tec

新零售行业优质解决方案分享【商超连锁全

阿里云AIoT发布全新工业和农业云端一体机

走出实验室: IBM为企业推进人工智能注入

怎么防御udp攻击

如何修改Windows裸金属服务器网卡的MTU值

云计算带来的变革将如何在2021年加速创新

关于我们