已经不是第一次使用这玩意达到瓶颈了,线上集群使用的是5.13版本,目前管理差不多1000台左右,时不时的会出现如下的症状。
server monitor时不时的就超时。
我说一下我的解决方案,每个人可能遇到的情况不同。
1、排查了下服务状态是不是有问题。
2、因为我有api接口采集的监控,所以我怕是采集频率过高了,就停掉了我的监控,然后发现还是这样子。
3、查看了角色,发现主机上边运行了datanode和nodemanager,暂时没动这俩程序。
4、调整了一下服务内存,发现频率变低了。
5、我又调整了下采集频率,没啥变化。
6、我尝试着停止了nodemanager和datanode,卧槽。。。。完全恢复了。。。。
后来才发现的确是node manager吃内存吃的,所以这个节点我只保留了datanode,虽然不是最优的,但是起码现在不耽误使用了。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。