当前位置:主页 > 查看内容

解析网络诊断利器SreCli-Net

发布时间:2021-07-01 00:00| 位朋友查看

简介:简介: 网络诊断利器SreCli-Net 1.背景 SRE运维团队致力于通过自动化来提高运维的工作生产效率,推动向智能化运维方向迭代转变,解决传统运维的痛点。传统运维虽具有完整的运维体系,但运维方式各异,运维操作复杂,耗时长。如何提高混合云项目的运维效率,……
简介:网络诊断利器SreCli-Net

 title=

1.背景

SRE运维团队致力于通过自动化来提高运维的工作生产效率,推动向智能化运维方向迭代转变,解决传统运维的痛点。传统运维虽具有完整的运维体系,但运维方式各异,运维操作复杂,耗时长。如何提高混合云项目的运维效率,提高运维附加值和客户满意度,仍是我们的攻坚难题。

主要需面对以下几点挑战:

  • 客户业务的快速发展与演进,传统运维滞后性被拉大

随着客户业务的发展和业务模式的不断演进,业务数据量也在逐年增加。给运维带来了更多机会与挑战,如何保障云内数据、云内外业务交互的稳定、安全、高效运行,是运维人员值得思考的问题。

  • 平台各系统运行复杂,运维学习成本提高

随着云平台云产品版本的快速迭代,熟悉平台难度加大,随着云产品版本更迭和新功能的出现,新手学习的成本提高,熟悉云平台的各种运维操作难度加大。但不能从根本上解决快速赋能运维能力的问题。所有一切将会引发一连串的“蝴蝶效应”,甚至引发项目高风险或P级故障出现,将会直接影响客户云上业务的正常使用。

  • 运维人员能力参差不齐,运维操作复杂

目前运维方式存在人工经验判断、平台各种手工操作、处理问题低效、故障应急处理耗时长等主要问题。由于系统的复杂性,技术人员在操作平台运维时,会浪费大量的时间在机器登入、工具使用等基础问题指导上。登录之后又面临各种增删改查操作指令的不统一。随着运维长时间的消耗,也会引起现场运维人员的心神俱疲,无法专注线上操作。尤其是面对一些没有经验的驻场或客户,常常会出现找不到目标机器,命令敲错等现象,使得整体运维低效和安全隐患频发。

综合以上关于客户、平台、运维三方面的运维问题, 提高运维效率、降低运维人员学习成本是当前的主要任务。在此大背景下,推出了SRE-CLI工具,该工具是一款支持shell功能、命令补全、问题诊断、故障止血等功能的srecli工具,逐步解决和完善当前的问题现状。

2.SRE-CLI基本介绍

SRE Command Line Interface (SRE CLI) 是一种运维工具,让您能够在命令行Shell 中使用命令对混合云进行运维操作。仅需最少的配置,即可使用 SRE CLI 运行命令,以便从终端程序中的命令提示符实现日常运维过程中复杂的命令。基于SRE 在日常工作中的问题处理、故障应急沉淀的“老中医”的经验,并通过命令行工具的方式集成在混合云中,无需配置,即可运行SRE CLI,通过简单命令,实现日常运维过程中复杂操作。

CLI交互能力模型,主要是由访问层、交互层、后端、基础设施四个部分组成。首先终端用户通过登录SRECLI后,进入交互层界面,通过选择相应的场景指令和辅助功能完成指定的动作,该动作会调用后端的各工具能力,以及数据源中数据,通过基础设施层进行计算,计算诊断的结果将直接输出至终端CLI黑屏界面上,完成一整个交互流程,如下图所示。

 title=

图1

  • 问题诊断(ali\_diag)

服务单、工单、故障单中提炼高频操作,将常用操作、问题&故障点工具化成原子项。通过日常运维查询产品原子项,问题点、故障点、快速查询关键指标定位问题点。

 title=

图2

  • 场景诊断(ali\_scene)

以故障场景沉淀出一系列排查思路,以“三板斧”形式输出,精确定位问题所在。在此基础上进行故障点组装、故障精确定位。

 title=

图3

  • 应急止血(ali\_cure)

真实故障和风险止血恢复手段沉淀,发生并解决方案确定后,需要快速恢复,恢复动作包括重启、降级、限流、切换等。帮助客户业务快速恢复。

  • 日常查询(ali\_query)

日常查询、关联数据展示、常用信息获取,通过精确的查询方式,查询云内IP地址定位对应的产品、路由、容量、策略等信息。目前覆盖物理网络的各类IP维度查询。

  • 智能抓流(ali\_trace)

满足CLI在云平台内各点抓包的能力,通过定制化的抓包组合命令,快速落在抓包点,进行指定的进或出方向的网络流量抓包。覆盖经典网络类型抓包、VPC网络类型抓包两种。

3.Cli-Net概念

Cli-Net是CLI体系中的一个分支功能,主要负责处理混合云内物理网络方向的诊断排查,通过统一格式的指令,在物理网络环境中进行具体方面的排查诊断。Cli-Net主要覆盖混合云物理网络四大方面,包括云内通用网络设备性能诊断、云边界网络状态诊断、云内网络状态诊断、物理机网络状态诊断。涉及云内所有产品物理机和交换机网络运行状态,以及互联网、云外IDC网络等云外网络访问云内网络的排查诊断,具体诊断覆盖如下表所示。

<span class="lake-fontsize-10"><span>Cli-Net</span></span><span class="lake-fontsize-10"><span>诊断覆盖</span></span><span class="lake-fontsize-10"><span>通用网络设备性能诊断</span></span><span class="lake-fontsize-10"><span>云边界网络状态诊断</span></span><span class="lake-fontsize-10"><span>云内网络状态诊断</span></span><span class="lake-fontsize-10"><span>物理机网络状态诊断</span></span>
<span class="lake-fontsize-10">ISW</span><span class="lake-fontsize-10">●</span><span class="lake-fontsize-10">●</span><span class="lake-fontsize-10">?</span><span class="lake-fontsize-10">?</span>
<span class="lake-fontsize-10">DSW</span><span class="lake-fontsize-10">●</span><span class="lake-fontsize-10">?</span><span class="lake-fontsize-10">●</span><span class="lake-fontsize-10">●</span>
<span class="lake-fontsize-10">CSW</span><span class="lake-fontsize-10">●</span><span class="lake-fontsize-10">●</span><span class="lake-fontsize-10">?</span><span class="lake-fontsize-10">?</span>
<span class="lake-fontsize-10">LSW</span><span class="lake-fontsize-10">●</span><span class="lake-fontsize-10">?</span><span class="lake-fontsize-10">●</span><span class="lake-fontsize-10">●</span>
<span class="lake-fontsize-10">ASW</span><span class="lake-fontsize-10">●</span><span class="lake-fontsize-10">?</span><span class="lake-fontsize-10">●</span><span class="lake-fontsize-10">●</span>
<span class="lake-fontsize-10">?</span><span class="lake-fontsize-10">input</span><span class="lake-fontsize-10">input</span><span class="lake-fontsize-10">input</span><span class="lake-fontsize-10">input</span>
# 4.Cli-Net主要功能 * 快速登录网络设备 通过CLI工具访问天基查询,快速获取交换机IP地址,并通过CLI工具内置的“密码库”依次遍历通用密码快速登录到网络设备上,如果通用密码遍历均不成功,则判断为已被修改成项目个性密码。则CLI工具提示请向用户申请并授权后输入个性密码,手动“填入个性密码”,再执行后续内容。 通过该功能,能够节约查询交换机IP地址和登录密码的时间,方便网络设备的登录。  title= 图4 演示指令:ali\_tools login switch $交换机角色名称  title= 图5 * 通用网络设备性能诊断 Cli-Net能够检查交换机自身硬件运行指标性能,例如cpu、板卡、温度、风扇、内存、电源状态。  title= 图6 演示指令: ali\_diag network hardware COMMAND? [cpu\_usage]? [device]?[environment]? [fan]? [memory] [power]  title= 图7 * 云边界网络互联状态诊断 云平台交换机ISW、CSW、DSW、ASW、LSW之间的互联物理链路健康检查。具体检查各角色之间经典链路互联状态,VPC专线链路互联状态和互联光衰状态。  title= 图8 演示指令: ali\_diag network interface COMMAND ?[classic\_link] ?[transceiver] ?[vpc\_link]  title= 图9 * 云内网络互联状态诊断 云平台交换机路由协议互联状态检查,通过检查BGP和OSPS协议状态,如异常则直接输出异常状态。  title= 图10 演示指令: ali\_diag network route [bgp] [ospf]  title= 图11 * 连通性状态诊断 云平台物理服务器、交换机等连通性检查。通过ping针对某个物理机名、集群名、交换机等进行连通性测试。  title= 图12 演示指令: ali\_diag network ping COMMAND ?[nc] ?[project] ?[switch] ?[virtual\_nc]  title= 图13 # 5.Cli-Net场景诊断 Cli-Net场景集合了混合云物理网络中主要的业务数据流方向途径的检查点,通过Cli-scene场景中指定的排查指令,通过一键诊断的方式,快速排查物理网络环境的各种检查项状态,检查诊断项主要分为五个场景:单机自检、核心网络方向诊断、专线方向诊断、公网方向诊断、物理虚拟方向诊断。 具体功能如下表所示:
<span>中文名称</span><span>Cli</span><span>英文名称</span><span>含义</span>
<span>单机自检功能</span><span>device_check</span><span>检查每台交换机本身的健康状态,包含硬件、接口、路由、连通性,去判断输出网络设备本身的异常项目。</span>
<span>核心网络方向诊断</span><span>core-network</span><span>通过检查涉及所有云内物理服务器路由通路、互联线路、路由状态的整体或指定具体物理机去判断输出网络异常项。</span>
<span>专线方向诊断</span><span>Private direction</span><span>通过检查用户IDC与云内VPC网络(含所有实例级资源)间涉及到的物理网络整体状况去判断输出网络异常项。</span>
<span>公网方向诊断</span><span>Internet Direction</span><span>通过检查互联网与云内VPC网络(含所有实例级资源)间的涉及到的物理网络整体状况去判断输出网络异常项。</span>
<span>物理虚拟方向诊断</span><span>physics virtual</span><span>通过检查VPC网络(含所有实例级资源)与经典网络(包含所有云服务资源)之间的物理整体状况去判断输出网络异常项。</span>
# 6.Cli-Net场景结构 * 单机全量自检场景结构如下图所示。  title= 图14 * Core-network场景结构如下图所示。  title= 图15 * Private direction场景结构如下图所示。  title= 图16 * Internet Direction场景结构如下图所示。  title= 图17 诊断指令: ali\_scene network COMMAND ?[core\_network] ?[device\_check] ?[internet\_direction] ?[physics\_virtual]  title= 图18 演示指令: ali\_scene network COMMAND ?[core\_network] ?[device\_check] ?[internet\_direction] ?[physics\_virtual]  title= 图19  title= 图20 # 7.Cli-Net应用实践
<span>应用场景</span><span>排查指令</span><span>指令结果</span>
<span>机房整体掉电</span><span>ali_diag network ping project </span><span>{product name}</span><span>检查云内各集群物理机连通性是否正常</span>
<span>ali_diag network ping switch</span><span>{name}</span><span>检查云内交换机连通性是否正常</span>
<span>ali_diag network hardware power </span><span>{switch}</span><span>检查各交换机电源运行状态是否正常</span>
<span>ali_diag network route bgp </span><span>{switch}</span><span>交换机bpg路由协议状态检查</span>
<span>ali_scene network device_check</span><span>交换机硬件自检</span>
<span>ECS</span><span>访云外不通</span><span>ali_scene network internet_direction</span><span>检查公网方向网络问题</span>
<span>ali_scene network private_direction</span><span>检查专线方向链路问题</span>
<span>base</span><span>访问vpc内数据源失败</span><span>ali_scene network core_network</span><span>设备网络连通性检查</span>
<span>ali_scene network physics_virtual</span><span>综合接入区网络检查</span>
<span>物理机故障后上线</span><span>ali_scene network core_network</span><span>物理机所在网络检查</span>
<span>ali_diag network route bgp </span><span>{switch}</span><span>云内bgp网络状态检查</span>
上表列举出了不同场景参考的不同排查指令,通过排查指令去诊断云内物理环境的情况,判断是否存在异常现象。以上仅是物理网络环境部分的检查,如需检查具体的产品侧状态,还需结合具体的产品诊断状态。网络侧和产品侧结合使用方能达到快速诊断和排查的效果。 我们是阿里云智能全球技术服务-SRE团队,我们致力成为一个以技术为基础、面向服务、保障业务系统高可用的工程师团队;提供专业、体系化的SRE服务,帮助广大客户更好地使用云、基于云构建更加稳定可靠的业务系统,提升业务稳定性。我们期望能够分享更多帮助企业客户上云、用好云,让客户云上业务运行更加稳定可靠的技术,您可用钉钉扫描下方二维码,加入阿里云SRE技术学院钉钉圈子,和更多云上人交流关于云平台的那些事。 > 版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
本文转自网络,版权归原作者所有,原文链接:https://segmentfault.com/a/1190000040264095
本站部分内容转载于网络,版权归原作者所有,转载之目的在于传播更多优秀技术内容,如有侵权请联系QQ/微信:153890879删除,谢谢!

推荐图文


随机推荐