当前位置：主页 > 查看内容

记一次Ceph pg unfound处理过程

发布时间：2021-05-16 00:00| 有位朋友查看

简介：今天检查ceph集群，发现有pg丢失，于是就有了本文~~~ 1.查看集群状态 [root@k8snode001~]#cephhealthdetail HEALTH_ERR1/973013objectsunfound(0.000%);17scruberrors;Possibledatadamage:1pgrecovery_unfound,8pgsinconsistent,1pgrepair;Degradeddataredun……

今天检查ceph集群，发现有pg丢失，于是就有了本文~~~

1.查看集群状态

[root@k8snode001 ~]# ceph health detail 
HEALTH_ERR 1/973013 objects unfound (0.000%); 17 scrub errors; Possible data damage: 1 pg recovery_unfound, 8 pgs inconsistent, 1 pg repair; Degraded data redundancy: 1/2919039 objects degraded (0.000%), 1 pg degraded 
OBJECT_UNFOUND 1/973013 objects unfound (0.000%) 
    pg 2.2b has 1 unfound objects 
OSD_SCRUB_ERRORS 17 scrub errors 
PG_DAMAGED Possible data damage: 1 pg recovery_unfound, 8 pgs inconsistent, 1 pg repair 
    pg 2.2b is active+recovery_unfound+degraded, acting [14,22,4], 1 unfound 
    pg 2.44 is active+clean+inconsistent, acting [14,8,21] 
    pg 2.73 is active+clean+inconsistent, acting [25,14,8] 
    pg 2.80 is active+clean+scrubbing+deep+inconsistent+repair, acting [4,8,14] 
    pg 2.83 is active+clean+inconsistent, acting [14,13,6] 
    pg 2.ae is active+clean+inconsistent, acting [14,3,2] 
    pg 2.c4 is active+clean+inconsistent, acting [8,21,14] 
    pg 2.da is active+clean+inconsistent, acting [23,14,15] 
    pg 2.fa is active+clean+inconsistent, acting [14,23,25] 
PG_DEGRADED Degraded data redundancy: 1/2919039 objects degraded (0.000%), 1 pg degraded 
    pg 2.2b is active+recovery_unfound+degraded, acting [14,22,4], 1 unfound

从输出发现pg 2.2b is active+recovery_unfound+degraded, acting [14,22,4], 1 unfound

现在我们来查看pg 2.2b，看看这个pg的想想信息。

[root@k8snode001 ~]# ceph pg dump_json pools    |grep 2.2b 
dumped all 
2.2b       2487                  1        1         0       1  9533198403 3048     3048                active+recovery_unfound+degraded 2020-07-23 08:56:07.669903  10373'5448370  10373:7312614  [14,22,4]         14  [14,22,4]             14  10371'5437258 2020-07-23 08:56:06.637012   10371'5437258 2020-07-23 08:56:06.637012             0

可以看到它现在只有一个副本

2.查看pg map

[root@k8snode001 ~]# ceph pg map 2.2b 
osdmap e10373 pg 2.2b (2.2b) -> up [14,22,4] acting [14,22,4]

从pg map可以看出，pg 2.2b分布到osd [14,22,4]上

3.查看存储池状态

[root@k8snode001 ~]# ceph osd pool stats k8s-1 
pool k8s-1 id 2 
  1/1955664 objects degraded (0.000%) 
  1/651888 objects unfound (0.000%) 
  client io 271 KiB/s wr, 0 op/s rd, 52 op/s wr 
 
[root@k8snode001 ~]# ceph osd pool ls detail|grep k8s-1 
pool 2 'k8s-1' replicated size 3 min_size 1 crush_rule 0 object_hash rjenkins pg_num 256 pgp_num 256 last_change 88 flags hashpspool,selfmanaged_snaps stripe_width 0 application rbd

4.尝试恢复pg 2.2b丢失地块

[root@k8snode001 ~]# ceph pg repair 2.2b

如果一直修复不成功，可以查看卡住PG的具体信息，主要关注recovery_state，命令如下

[root@k8snode001 ~]# ceph pg 2.2b  query 
{ 
    "...... 
    "recovery_state": [ 
        { 
            "name": "Started/Primary/Active", 
            "enter_time": "2020-07-21 14:17:05.855923", 
            "might_have_unfound": [], 
            "recovery_progress": { 
                "backfill_targets": [], 
                "waiting_on_backfill": [], 
                "last_backfill_started": "MIN", 
                "backfill_info": { 
                    "begin": "MIN", 
                    "end": "MIN", 
                    "objects": [] 
                }, 
                "peer_backfill_info": [], 
                "backfills_in_flight": [], 
                "recovering": [], 
                "pg_backend": { 
                    "pull_from_peer": [], 
                    "pushing": [] 
                } 
            }, 
            "scrub": { 
                "scrubber.epoch_start": "10370", 
                "scrubber.active": false, 
                "scrubber.state": "INACTIVE", 
                "scrubber.start": "MIN", 
                "scrubber.end": "MIN", 
                "scrubber.max_end": "MIN", 
                "scrubber.subset_last_update": "0'0", 
                "scrubber.deep": false, 
                "scrubber.waiting_on_whom": [] 
            } 
        }, 
        { 
            "name": "Started", 
            "enter_time": "2020-07-21 14:17:04.814061" 
        } 
    ], 
    "agent_state": {} 
}

如果repair修复不了;两种解决方案，回退旧版或者直接删除

5.解决方案

回退旧版 
[root@k8snode001 ~]# ceph pg  2.2b  mark_unfound_lost revert 
直接删除 
[root@k8snode001 ~]# ceph pg  2.2b  mark_unfound_lost delete

6.验证

我这里直接删除了，然后ceph集群重建pg,稍等会再看，pg状态变为active+clean

[root@k8snode001 ~]#  ceph pg  2.2b query 
{ 
    "state": "active+clean", 
    "snap_trimq": "[]", 
    "snap_trimq_len": 0, 
    "epoch": 11069, 
    "up": [ 
        12, 
        22, 
        4 
    ],

再次查看集群状态

[root@k8snode001 ~]# ceph health detail 
HEALTH_OK

本文转载自网络，原文链接：https://www.toutiao.com/i6921954066398511620/
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：Zabbix5.2由浅入深之动态拓扑图 下一篇：没有了

随机推荐

PHP 扩展Memcached命令用法实例总结

本文实例讲述了PHP 扩展Memcached命令用法。分享给大家供大家参考，具体如下： ...
Vue中使用wangeditor富文本编辑的问题

wangEditor是基于javascript和css开发的 Web富文本编辑器，轻量、简洁、易用、...
在 FreeDOS 中设置你的路径

学习 FreeDOS 路径的知识，如何设置它，并且如何使用它。你在开源 FreeDOS 操作...
一口气说出 6种 @Transactional 注解失效

引言昨天公众号粉丝咨询了一个问题，说自己之前面试被问@Transactional注解哪些...
什么是HTML_动力节点Java学院整理

HTML的发展历史: HTML英语意思是Hypertext Marked Language，即超文本标记语言,...
12个常用前端UI框架集合汇总

1、bootstrap Bootstrap 是Twitter推出的一个用于前端开发的，一个用于 HTML、CS...
asp中利用xmlhttp抓取网页内容的代码

需要分件html源代码此例中的被抓取的html源代码如下 p align=left2004年8月24日...
21西南交大计算机技术专硕上岸经验分享

本人科班出身本科双非二本以下为我的一些复习经验希望能给22以及以后报考西南交...
正则表达式——详细讲解平衡组

这篇文章适合你吗？要读懂这篇文章的精髓，你最好要有一点正则匹配原理的基...
Java内部类

内部类 1.成员内部类 2.静态内部类 3.局部内部类 4.匿名内部类 ○内部类在一个类...

记一次Ceph pg unfound处理过程

推荐图文

防ASP注入终极防范

JSP 制作验证码的实例详解

Ajax 高级功能之ajax向服务器发送数据

告别刻板印象：SQL是你应该掌握的技能！

如何计算ASP页面的载入时间？

万字长文综述目标检测领域，你要的都在这里

随机推荐

PHP 扩展Memcached命令用法实例总结

Vue中使用wangeditor富文本编辑的问题

在 FreeDOS 中设置你的路径

一口气说出 6种 @Transactional 注解失效

什么是HTML_动力节点Java学院整理

12个常用前端UI框架集合汇总

asp中利用xmlhttp抓取网页内容的代码

21西南交大计算机技术专硕上岸经验分享

正则表达式——详细讲解平衡组

Java内部类

关于我们