我们的一个SuperMicro服务器在POST期间报告如下错误:

失败的dim:dim位置(找到可纠正的内存组件)

调光2

我还可以在IPMI Web界面的运行状况事件日志中看到这一点:

失败的dim:dim位置。(找到可更正的内存组件)(dimmb2)

直到我重新启动它(出于不相关的原因),服务器一直运行良好,所以我不知道它的ram有什么问题。有没有办法在不重新启动服务器的情况下发现这样的错误,例如一些ipmitool命令?

如果没有,是否有办法在服务器重新启动后(即不使用Web界面)至少以可编写脚本的方式查看这些错误?我试过了 ipmitool sel elist ,但它将这些条目显示为"未知"事件:

5 10/11/2019 11:21:25未知0xFF断言

编辑:我发现supermicro的专有工具ipmicfg可以显示这些事件( IPMICFG-Linux.x86_64 -sel list )但有办法还是不错的 ipmitool 最重要的是,不用重启。

最佳回复

尝试改用freeimpi(例如ipmi sel):很有可能它会比ipmitool提供更多的信息,因为代码库的维护要多得多。