当前位置：主页 > 查看内容

去哪儿网基于ChaosBlade的混沌工程实践

发布时间：2021-08-11 00:00| 有位朋友查看

简介：作者 | 去哪儿网基础平台团队前言微服务架构已经在去哪儿网 Qunar 实施多年微服务应用数量达到数千之多随着服务之间的调用链路越来越复杂故障频频发生给公司带来巨大的经济损失稳定性建设工作就成为了一项重要的工作。从 2010 年 Netflix 提出通过 Ch……

作者 | 去哪儿网基础平台团队

前言

微服务架构已经在去哪儿网 Qunar 实施多年微服务应用数量达到数千之多随着服务之间的调用链路越来越复杂故障频频发生给公司带来巨大的经济损失稳定性建设工作就成为了一项重要的工作。从 2010 年 Netflix 提出通过 Chaos Engineering 的方式提升系统稳定性之后到今天 Chaos Engineering 已经被证明是一种有效的发现系统弱点建立对系统抵御生产环境中失控条件的能力以及信心的有效手段。从 2019 年底去哪儿网也结合自身的技术体系开始进行混沌工程相关的探索下面就来介绍下我们的实践经验。

选型

为了避免重复造轮子我们在启动项目之初调研了当时已经开源的混沌工程相关工具并结合自身的技术体系特点进行了分析

当时基础资源以 KVM 为主同时也在探索容器化所以两个平台都需要支持。公司内部主要的技术栈为 Java。

基于上面的两点加上社区活跃情况等选择 ChaosBlade 为故障注入的工具加上自研的混沌工程控制台当时还没有 chaosblade-box 作为最终方案。

架构

基于公司内部的系统体系整体的架构如下

纵向来看自上而下

服务治理 Portal 提供应用画像 CICD的平台提供了应用的依赖关系应用的属性运行时资源等信息通过混沌工程UI可以创建出故障演练故障演练包含了应用信息应用资源待注入故障等

混沌工程控制台 Chaos控制台) 提供了多个应用多个故障的任务流程编排故障演练流程的控制的功能

Saltstack chaosblade-operator 提供了 chaosblade 的安装和卸载能力

应用的资源分为 KVM 和 K8S 承载的容器故障演练编排系统通过 Restful API 和 chaosblade 启动的 HTTP 服务进行通信来进行故障的注入和恢复。

横向来看

自动化测试平台主要提供演练时线上 case 的回归能力以及用来做强弱依赖的标记断言

演练开始时 Chaos控制台会监听相关应用的核心指标告警如果有告警信息会通知给相关负责人并终止和恢复演练这样可以及时止损。

系统演进

去哪儿网这边的混沌工程主要经历了 2 个阶段

1、故障注入能力的建设。这个阶段主要解决的问题是用户可以手动的通过创建故障演练通过合适的故障策略来验证系统的某些方面是否符合预期

2、提供强弱依赖场景下的依赖标记强弱依赖验证以及自动化强弱依赖闭环的能力用混沌工程来提高微服务治理效率。

4.1 故障演练

通过故障注入来模拟故障发生是混沌工程的基础能力。在这个阶段主要提供 3 种场景的故障注入机器关机 OS 层的故障以及 Java 应用的故障注入在此基础之上我们还做了场景化的功能。

4.1.1 演练流程

一个典型的演练流程如下

4.1.2 难点
开源故障策略不足

chaosblade-exec-jvm 中提供了 Java 故障注入的基础能力也提供了部分开源组件的插件但是对于公司内部的组件来说还是不足。于是我们中间件的同学进行了二次开发增加了 AsyncHttpClient, QRedis 故障注入相关的插件同时也针对 HTTP DUBBO 增加了基于调用点的故障注入功能。

容器化改造

2021年中去哪儿网开始应用的容器化迁移故障演练也需要支持容器化下的演练。基于 chaosblade-operator 做了如下几个方案选型

方案

说明

优势

劣势

chaosblade-operator

完全采用开源方案 Agent安装和策略注入都使用CRD的方式

贴近云原生 CRD比较完善

控制端需要重新开发一套对接K8s的故障注入流程前端给用户的策略也需要重新兼容如果新增策略也需要开发CRD

sidecar

伴随应用整个应用周期也需要通过CRD或者exec的方式来操作agent

提前占用内存 CPU资源只解决了agent安装问题策略下发和控制端逻辑没解决

chaosblade-operator blade server

使用CRD完成Agent的安装卸载策略注入还是使用http端口交互的模式

改造成本小控制端跟KVM的方式一致

需要对 chaosblade-operator 进行部分功能的二次开发

方案中主要关注的3个问题

agent的安装和卸载策略的注入和恢复控制端的改造成本

基于上面几个方案的对比最终是基于方案 3 进行实施的。

4.2 强弱依赖自动闭环
4.2.1 背景

基于故障演练平台我们提供了强弱依赖场景下的故障演练功能

应用间依赖信息展示依赖关系标注根据依赖信息反填故障策略参数

但是整个强弱依赖关系的验证还是需要人来驱动于是我们结合了自动化测试工具开发强弱依赖自动标记的功能通过自动化的流程完成强弱依赖关系的维护形成闭环。

4.2.2 方案

chaos 控制台会周期性的从服务治理平台获取应用的依赖关系根据下游接口来生成基于抛异常策略的故障演练。接着对应用的测试环境进行故障注入再通过自动化测试平台跑 case 以及实时做 diff 来断言最终得到断言结果。chaos 控制台结合测试断言加故障策略命中的日志来判断当前下游接口是强依赖还是弱依赖。

4.2.3 难点

1、java Agent 兼容性

自动化测试平台支持录制回放模式在回归测试时可以对某些接口使用事先录制好的流量进行mock 这种模式下会使用基于 jvm-sandbox 的录制回放agent。chaosblade-exec-jvm 也是基于 jvm-sandbox 的agent 2个agent在一起使用会有一些兼容性问题需要解决。

两个agent不能同时生效 jvm-sandbox 在1.3.0版本增加 namespace 功能也就是说可以同时启用多个基于 jvm-sandbox 的 java agent 但是前提条件是 namespace 不同。chaosblade 中默认使用的 default namespace, 通过修改 chaosblade 的中的 namespce 来解决。

AOP同时切一个Libary的时候如果mock先生效故障注入就无效了在录制回放的agent增加了黑名单的功能来规避这个问题。

2、测试断言和普通测试有区别

使用自动化测试平台做回归测试的时候更关注是是数据的完整性和准确性但是在做故障演练的时候通常是弱依赖已经有问题除了常规的状态码判断等对返回结果的判断更多是核心数据节点是否正确。为此在自动化测试平台中单独多了一套断言配置来适配故障演练。

开源贡献

去哪儿网混沌工程的实践过程中主要使用的开源项目是 Chaosblade。在使用过程对 chaosblade、chaosblade-exec-jvm、chaosblade-operator 有不同程度的二次开发和Bug修复部分修改已经提交给官方repo并merge。同时也和 Chaosblade 社区有过交流沟通准备进行社区共建为开源社区贡献自己的一份力量。

未来规划

当前我们的故障演练平台已经支持80 次模拟机房断电演练同时也已经有500 次日常演练涉及核心应用50 机器4000 业务线也形成了按季度周期演练及上线前验证的良好文化氛围。

我们下一步的主要目标就是自动化线上随机演练,通过服务依赖链路确定最小化爆炸半径建立线上演练稳态断言最终实现全司核心页面的全部链路定期随机演练同时也会发掘混沌工程在服务治理、稳定性建设中的使用场景为公司业务稳定发展提供技术保障。

“云原生人才计划 2.0”由阿里云、Linux 开源软件学园、马哥教育联合推出首期内容 “Kubernetes 技术图谱”已在阿里云开发者社区上线欢迎大家公众号后台回复“人才计划”加入学习阅读“导读”文档即可了解福利领取方式。

本文转自网络，原文链接：https://developer.aliyun.com/article/786525
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：【云原生案例库】爱奇艺体育：体验Serverless极致扩缩容，资源利 下一篇：「行云创新」携手阿里云，打造企业数字创新最短路径

随机推荐

VPS主机和租用服务器优势分析

在TOP云（zuntop.com）科技租赁过服务器的站长都知道独立服务器在价格上比VPS主...
JavaScript之深入理解this

定义 this是函数运行时自动生成的内部对象，即调用函数的那个对象。（不一定很准...
云计算市场在2020年取得突破性增长

2020年对于云计算行业来说是突破性的一年，因为公共云供应商增加了收入，而疫情...
RDS PostgreSQL 安全最佳实践

一、PostgreSQL行业位置一行业位置首先我们看一看RDS PostgreSQL在整个行业当...
Nacos或者Config是怎么实现配置热刷新的

本文转载自网络，原文链接：https://mp.weixin.qq.com/s/vlOUg46B5bcmToX-fjavJQ...
华瑞银行金融一朵云安全建设实践，智慧银

中国最?好的一朵云飘进了华瑞银行。阿里云将进一步助力华瑞银行All in Cloud。 -...
关于现代包管理器的深度思考-为什么现在

很长时间没有更新原创文章了，但是还一直在思考和沉淀当中，后面公众号会更频繁...
MySQL Case-索引key对select count(*)的

查看表结构，sbtest1有主键、k_1二级索引、i_c二级索引 CREATE TABLE `sbtest1` ...
阿里云发布工业大脑3.0，满足一站式开发

9月17日，2020云栖大会上，阿里云正式发布工业大脑3.0。阿里云智能资深产品专家...
在DevOps中整合“安全即代码”文化

最近，DevOps的采用导致了企业计算的重大转变。除无服务器计算，动态配置和即付...

去哪儿网基于ChaosBlade的混沌工程实践

推荐图文

新零售行业优质解决方案分享【智能语音点餐机解决方

尽管获三千万融资，该域名也换得了吧！

租用云服务器一年大概的费用

P2P鼻祖收购四字母域名LCAM.com！梦工厂、百事均有

服务器托管节省开支节省费用

2021年值得关注的8种边缘计算趋势

随机推荐

VPS主机和租用服务器优势分析

JavaScript之深入理解this

云计算市场在2020年取得突破性增长

RDS PostgreSQL 安全最佳实践

Nacos或者Config是怎么实现配置热刷新的

华瑞银行金融一朵云安全建设实践，智慧银

关于现代包管理器的深度思考-为什么现在

MySQL Case-索引key对select count(*)的

阿里云发布工业大脑3.0，满足一站式开发

在DevOps中整合“安全即代码”文化

关于我们