当前位置:主页 > 查看内容

GPU 云服务器 GPU 使用率显示 100% - 故障处理

发布时间:2021-09-09 00:00| 位朋友查看

简介:现象描述 使用 GPU 计算型实例的过程中,在系统内部使用 nvidia-smi 查看 GPU 状态时,可能遇到没有运行任何使用 GPU 的应用,但 GPU 使用率显示100%的情况。如下图所示: 可能原因 实例加载 NVIDIA 驱动时,ECC Memory Scrubbing 机制造成。 解决思路 在实……

现象描述

使用 GPU 计算型实例的过程中,在系统内部使用 nvidia-smi 查看 GPU 状态时,可能遇到没有运行任何使用 GPU 的应用,但 GPU 使用率显示100%的情况。如下图所示:

可能原因

实例加载 NVIDIA 驱动时,ECC Memory Scrubbing 机制造成。

解决思路

在实例系统内执行 nvidia-smi -pm 1 命令,让 GPU Driver 进入 Persistence 模式。

处理步骤

  1. 登录 GPU 计算型实例,执行以下命令:
    nvidia-smi -pm 1
  2. 执行以下命令,检查 GPU 使用率:
    nvidia-smi
    GPU 使用率正常,如下图所示:

本站部分内容转载于网络,版权归原作者所有,转载之目的在于传播更多优秀技术内容,如有侵权请联系QQ/微信:153890879删除,谢谢!

推荐图文

  • 周排行
  • 月排行
  • 总排行

随机推荐