当前位置：主页 > 查看内容

从Ceph看分布式系统故障检测

发布时间：2021-06-17 00:00| 有位朋友查看

简介：节点的故障检测是分布式系统无法回避的问题，集群需要感知节点的存活，并作出适当的调整。通常我们采用心跳的方式来进行故障检测，并认为能正常与外界保持心跳的节点便能够正常提供服务。一个好的故障检测策略应该能够做到：及时：节点发生异常如宕机或网络……

节点的故障检测是分布式系统无法回避的问题，集群需要感知节点的存活，并作出适当的调整。通常我们采用心跳的方式来进行故障检测，并认为能正常与外界保持心跳的节点便能够正常提供服务。一个好的故障检测策略应该能够做到：

及时：节点发生异常如宕机或网络中断时，集群可以在可接受的时间范围内感知；
适当的压力：包括对节点的压力，和对网络的压力；
容忍网络抖动
扩散机制：节点存活状态改变导致的元信息变化需要通过某种机制扩散到整个集群；

不同的分布式系统由于其本身的结构不同，以及对一致性、可用性、可扩展性的需求不同，会针对以上几点作出不同的抉择或取舍。下面我们就来看看Ceph是怎么做的。

Ceph故障检测机制

Ceph作为有中心的分布式结构，元信息的维护和更新自然的都由其中心节点Ceph Monitor来负责。节点的存活状态发生改变时，也需要Monitor来发现并更新元信息并通知给所有的OSD节点。最自然的，我们可以想到让中心节点Monitor保持与所有OSD节点之间频繁的心跳，但如此一来，当有成百上千的OSD节点时Monitor变会有比较大的压力。之前在Ceph Monitor and Paxos中介绍过Ceph的设计思路是通过更智能的OSD和Client来减少对中心节点Monitor的压力。同样的，在节点的故障检测方面也需要OSD和Monitor的配合完成。下面的介绍基于当前***的11.0.0版本。

OSD之间心跳

属于同一个pg的OSD我们称之为伙伴OSD，他们会相互发送PING\PONG信息，并且记录发送和接收的时间。OSD在cron中发现有伙伴OSD相应超时后，会将其加入failure_queue队列，等待后续汇报。

参数：

osd_heartbeat_interval(6): 向伙伴OSD发送ping的时间间隔。实际会在这个基础上加一个随机时间来避免峰值。

osd_heartbeat_grace(20)：多久没有收到回复可以认为对方已经down

OSD向Monitor汇报伙伴OSD失效

1. OSD发送错误报告

OSD周期性的检查failure_queue中的伙伴OSD失败信息；
向Monitor发送失效报告，并将失败信息加入failure_pending队列，然后将其从failure_queue移除；
收到来自failure_queue或者failure_pending中的OSD的心跳时，将其从两个队列中移除，并告知Monitor取消之前的失效报告；
当发生与Monitor网络重连时，会将failure_pending中的错误报告加回到failure_queue中，并再次发送给Monitor。

2. Monitor统计下线OSD

Monitor收集来自OSD的伙伴失效报告；

当错误报告指向的OSD失效超过一定阈值，且有足够多的OSD报告其失效时，将该OSD下线。

参数:

osd_heartbeat_grace(20): 可以确认OSD失效的时间阈值；

mon_osd_reporter_subtree_level(“host”)：在哪一个级别上统计错误报告数，默认为host，即计数来自不同主机的osd报告

mon_osd_min_down_reporters(2): 最少需要多少来自不同的mon_osd_reporter_subtree_level的osd的错误报告

mon_osd_adjust_heartbeat_grace(true)：在计算确认OSD失效的时间阈值时，是否要考虑该OSD历史上的延迟，因此失效的时间阈值通常会大于osd_heartbeat_grace指定的值

OSD到Monitor心跳

OSD当有pg状态改变等事件发生，或达到一定的时间间隔后，会向Monitor发送MSG_PGSTATS消息，这里称之为OSD到Monitor的心跳。
Monitor收到消息，回复MSG_PGSTATSACK，并记录心跳时间到last_osd_report。
Monitor周期性的检查所有OSD的last_osd_report，发现失效的节点，并标记为Down。

参数：

mon_osd_report_timeout(900)：多久没有收到osd的汇报，Monitor会将其标记为Down；

osd_mon_report_interval_max(600)：OSD最久多长时间向Monitor汇报一次；

osd_mon_report_interval_min(5)：OSD向Monitor汇报的最小时间间隔

总结

可以看出，Ceph中可以通过伙伴OSD汇报失效节点和Monitor统计来自OSD的心跳两种方式发现OSD节点失效。回到在文章开头提到的一个合格的故障检测机制需要做到的几点，结合Ceph的实现方式来理解其设计思路。

及时：伙伴OSD可以在秒级发现节点失效并汇报Monitor，并在几分钟内由Monitor将失效OSD下线。当然，由于Ceph对一致性的要求，这个过程中客户端写入会不可避免的被阻塞；
适当的压力：由于有伙伴OSD汇报机制，Monitor与OSD之间的心跳统计更像是一种保险措施，因此OSD向Monitor发送心跳的间隔可以长达600秒，Monitor的检测阈值也可以长达900秒。Ceph实际上是将故障检测过程中中心节点的压力分散到所有的OSD上，以此提高中心节点Monitor的可靠性，进而提高整个集群的可扩展性；
容忍网络抖动：Monitor收到OSD对其伙伴OSD的汇报后，并没有马上将目标OSD下线，而是周期性的等待几个条件：1，目标OSD的失效时间大于通过固定量osd_heartbeat_grace和历史网络条件动态确定的阈值；2，来自不同主机的汇报达到mon_osd_min_down_reporters。3，满足前两个条件前失效汇报没有被源OSD取消。
扩散：作为中心节点的Monitor并没有在更新OSDMap后尝试广播通知所有的OSD和Client，而是惰性的等待OSD和Client来获取。以此来减少Monitor压力并简化交互逻辑。

本文转载自网络，原文链接：http://catkang.github.io/2017/12/17/data-placement.html
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：云时代NAS存储依旧是优质选择 下一篇：没有了

随机推荐

搭建高密度数据中心：HCI能提供哪些帮助

尽管数据中心密度不断上升对于超大规模供应商来说似乎并不成问题，但却为企业带...
就风险和安全性进行SaaS合同谈判的5个优

由于COVID-19的大流行导致了大规模的向远程工作的转移，对SaaS产品的采用在今年...
运维人必看 —九个工具助你管好服务器！

01.GuardRail 服务器的配置经常变换，如何对这些设备进行监控呢？ GuardRail提供...
美国高防VPS怎样防护DDoS攻击

部署在美国顶级数据中心的美国VPS固然安全，但仍然时刻面临网络攻击的风险。我们...
Nutanix助力五矿证券迈向金融混合云2.0

Nutanix今日宣布，中国发展速度最快的证券公司之一，五矿证券有限公司(以下简称...
搭建高可用的Redis服务，需要注意这些方

基于内存的Redis应该是目前各种web开发业务中最为常用的key-value数据库了，我们...
美国服务器价格贵吗？租用一个月大概多少

美国服务器(这里指美国物理服务器)的性能远超美国vps，如果存放大型项目，那么选...
新加坡vps延迟一般多少?新加坡vps延迟多

【内容声明】本文收集整理于互联网,不确保内容真实性和质量度,仅供参考!若有服务...
机房安防系统常见故障原因及处理方法

前言：机房对安防是非常重视的，经常对火灾自动报警系统进行管理和维护，火灾自...
智能工厂至2023年可望提升全球经济1.5万

诸如MES、ERP、PLM等智能工厂及其他智能工厂市场在2019年的估计价值约为1.54千亿...

从Ceph看分布式系统故障检测

推荐图文

CentOS与Ubuntu的抉择，应该选哪个做服务器

Linux磁盘划分？3分钟教你看懂

怎样租用香港vps主机？

2021年需要关注的10个IT趋势

为啥要用香港cn2云主机，使用cn2线路有什么作用？

高防服务器为什么比一般的价格高

随机推荐

搭建高密度数据中心：HCI能提供哪些帮助

就风险和安全性进行SaaS合同谈判的5个优

运维人必看 —九个工具助你管好服务器！

美国高防VPS怎样防护DDoS攻击

Nutanix助力五矿证券迈向金融混合云2.0

搭建高可用的Redis服务，需要注意这些方

美国服务器价格贵吗？租用一个月大概多少

新加坡vps延迟一般多少?新加坡vps延迟多

机房安防系统常见故障原因及处理方法

智能工厂至2023年可望提升全球经济1.5万

关于我们