先贴上服务器的配置单:
事件复盘
2024年3月20号13:55分,服务器突然掉线(后来看日志才知道的准确时间)
todesk提示我服务器下线了,我以为是网络波动,因为todesk偶尔可能误报,过几分钟就又重连了
但是这次不一样,过了几分钟我还没看到服务器上线
心里咯噔一下,该不会服务器出问题了吧
这里前情提要一下,之前大概在3月初,具体哪天我也忘了,服务器装好机稳定运行了三天,第四天半夜突然宕机了,当时也是排查了好久,但是没有发现问题所在,重启了一下之后又正常运行了,我也就没放在心上
首先怀疑就是家里停电了,打开米家,看了一下智能插座的情况,插座显示服务器功率在150W左右,正常运行,排除了家里停电这个可能
然后又看了一下监控
注:因为服务器之前宕机过一次,而且服务器是放在我卧室的,我害怕长期24小时开机出什么意外,就给我房间装了个监控,方便随时查看状态
监控画面显示服务器好好的,同时用米家路由器看了下服务器网络状态,显示路由器网络正常,但服务器掉线了
这里我就开始怀疑是不是无线AP掉了
这里说明一下,我为了服务器的网络稳定,专门买了一个路由器,做WiFi中继,给服务器提供网络
但是新买的路由器是华为的,没办法远程看AP的状态,但是我仔细一想,应该不会是AP的问题,因为我给服务器额外插了一个无线网卡,就是防着有线网卡或者AP的状态不稳定导致服务器断网
如果AP掉了,那么服务器会切换到无线网络继续工作的,想不出还有什么原因了
只能耐心等待我家里人回家之后帮我看一下状态了,下午快六点,我妈下班回到家,我立即给我妈打了个视频通话
让她看一下AP什么状态,AP状态灯依然是绿油油的,显示AP并没有问题
这下我就更百思不得其解了,我让我妈把显示器打开,看了一下右下角,显示有线网络链接正常
然后我让我妈把AP的电源、网线都拔了,结果还是显示有线网络链接正常,这个时候我就有点感觉到不对劲了
而且我突然发现屏幕右下角的todesk居然还是显示被控状态
我脑子一下懵逼了,怎么回事,该不会是机子卡死了?
然后我让我妈把鼠标和键盘插上,看看屏幕还动不动,结果我妈在插鼠标的时候,我看到机箱上的硬盘指示灯不亮了,正常状态下是闪烁红灯,但是这个时候一下子都不闪
我的心瞬间咯噔一下,该不会硬盘挂了吧,然后我妈把鼠标和键盘都插上,结果鼠标没有任何反应,键盘只亮了充电指示灯,键盘也没有任何作用
瞬间心拔凉拔凉的,然后我让我妈别管了,周末我回去再说
排查问题
周五回到家,服务器已经宕机两天了,急冲冲回到家直冲我卧室
然后插上鼠标和键盘,打开显示器,果然,一点儿反应都没有,系统已经卡死,但是机箱正常运行,CPU风扇也还是转的很欢乐
无奈之下,只能拔电重启,重启之后一切正常
打开服务器管理器,发现了一连串的ID为17的警告,如图:
发生了已更正的硬件错误。
组件: PCI Express Root Port
错误源: Advanced Error Reporting (PCI Express)
主总线: 设备: 函数: 0x0: 0x1: 0x1
辅助总线: 设备: 函数: 0x0: 0x0: 0x0
主要设备名称: PCI\VEN_8086&DEV_6F03&SUBSYS_00008086&REV_01
辅助设备名称:
实际上第一次服务器卡死的时候就有这个警告了,但是我没当回事(其实就是没看懂),顺便在这里强烈推荐一下Windows自带的 事件查看器 ,在这里面可以看到所有的程序、系统、安全方面的日志,真的很牛
但是想不通啊,这个警告到底是哪里出了问题,两眼一抹黑,不行了,必须要解决这个问题,就开始百度,查资料
一通百度之下,还真发现了点眉目
原文地址:https://www.bilibili.com/read/cv23340908/
在这篇文章里,提到了PCI\VEN_8086&DEV_A336属于无线网卡,我的报错是PCI\VEN_8086&DEV_6F03,虽然不一样,但是呢这个思路可以借鉴
关键就是PCI\VEN_8086&DEV_6F03这个ID代表的是什么设备,再百度一番,好吧,百度查不到,那就只能在设备管理器里一个一个找了
打开设备管理器,右键属性,再点击详细信息,属性里选择硬件ID,然后发现了是下面这个:
再打开图吧工具箱,用HWiNFO64看一下这个PCI总线下是什么设备:
这下破案了,但是冥冥之中又有点疑惑,到底是PCI上的硬盘出问题了还是PCI接口出问题了,而且PCI\VEN_8086这个设备代号明显是无线网卡的,为什么总线又显示是硬盘呢?