Finer04's Blog
首页
乱写一通
脑洞破文
随便谈谈
当前播放.page
排查服务器突然(未必)重启后电口网卡丢失情况
Finer04
February 17, 2026
2571 字
文章目录
## 背景 之前我们云的服务器拿来搞深信服安全资源池和存储服务器,都是浪潮的信创服务器,型号好像是CS5260H。在今年我们在做维护升级的时候都会出现同样的问题,就是重启后管理口就连不上了。我们都是断电放置 5 分钟开机才可以恢复,但还是做个记录吧。 ## 触发条件 1. 服务器突然断电重启或按了重启键; 2. 服务器维护系统自动重启后; ## 排查过程 排查过程我就不写废话了,直接说过程吧 ### 1. 确认管理口能不能认出来 先看看 `dmesg | grep Ethernet`,发现是可以认得出光口和电口的PCIE的,但是能识别到的端口只有光口的端口;再 `lspci -nn | grep -i ethernet`,能认得出电口的网卡的,就是端口没出来;看下方的日志还是能认得出的。 再看看 `ethtool -i em1`,很好直接 `no such drive` 了,没救了。 lspci -vnn | grep -A 10 -i ethernet 01:00.0 Ethernet controller [0200]: Beijing Wangxun Technology Co., Ltd. WX1860-LC Gigabit Ethernet Controller [8088:0109] (rev 01) DeviceName: Lan0 Subsystem: Beijing Wangxun Technology Co., Ltd. Device [8088:c201] Flags: fast devsel, IRQ 520, NUMA node 0 Memory at ed900000 (64-bit, non-prefetchable) [size=128K] Memory at ed940000 (64-bit, non-prefetchable) [size=16K] Expansion ROM at ed880000 [disabled] [size=512K] Capabilities: [40] Power Management version 3 Capabilities: [50] MSI: Enable- Count=1/1 Maskable+ 64bit+ Capabilities: [70] Express Endpoint, MSI 00 Capabilities: [b0] MSI-X: Enable- Count=9 Masked- ### 2. 是不是 udev 重命名了接口 没有,`cat /etc/udev/rules.d/70-persistent-net.rules` 都没这个文件; ### 3. 看看内核有没有加载成功 执行 `dmesg | grep -E "wx|wangxun|txgbe|ngbe|8088:0109"`,看出问题了 dmesg | grep -E "wx|wangxun|txgbe|ngbe|8088:0109" [ 1.499051] pci 0000:01:00.0: [8088:0109] type 00 class 0x020000 [ 1.499353] pci 0000:01:00.1: [8088:0109] type 00 class 0x020000 [ 52.171992] ngbe 0000:01:00.0 0000:01:00.0 (uninitialized): Command has failed with no status valid. [ 52.172010] ngbe 0000:01:00.0: The EEPROM Checksum Is Not Valid [ 52.172235] ngbe: probe of 0000:01:00.0 failed with error -5 [ 62.205823] ngbe 0000:01:00.1 0000:01:00.1 (uninitialized): Command has failed with no status valid. [ 62.205841] ngbe 0000:01:00.1: The EEPROM Checksum Is Not Valid [ 62.206078] ngbe: probe of 0000:01:00.1 failed with error -5 这里报错 `The EEPROM Checksum Is Not Valid` 了,可以确认是EEPROM校验和无效,驱动probe失败。问了ds老师就说这问题异常断电导致网卡固件/EEPROM数据损坏或校验失败。硬件本身可能没坏,但固件状态异常导致驱动拒绝加载。 ## 解决办法 我试了ds的方法说跳过校验,但是内核不支持这个参数,我试了也没用。我叫同事拿两个USB网卡先临时应急一下,但是交换机没法协商百兆的网卡,所以这个也要放弃。最后只能断电了。 断电办法我们用了 8 次了,已经熟练到想哭了。 1. 正常关机(保证所有业务已经暂停了); 2. 全部尾纤和网线都要短拔(稍微拔出); 3. 拔掉电源,静止5分钟释放静电; 4. 开机 开机后,系统终于认得出网卡,我哭了。 ## 后续 似乎深信服工程师升级到最新的底层系统后,就没出现这个问题,也要可能与内核或驱动有关,不好说,不能把以偏概全。 ## 鸣谢 感谢 deepseek 老师,感谢深信服现场工程师。
发表评论
称呼
*
Email
*
网站
提交评论
▲ Top
发表评论