うっちぃの電脳日誌、2026年4月開始予定!

Proxmoxでノードがオフラインになり復旧しないときの対処法 – ThinkCentre M720q

忘備録

確かに買ったときから調子が悪かった。

ネットワークの通信が急に途切れ、再起動するまで復活してこないことがあった。
Windows環境を消し、Debian系OSを使い始めたときからだったから、ドライバーのせいかと思って我慢していた。

省電力で24/365動作させるにはピッタリの筐体だったため、自宅サーバーの重要ノードの1つとして運用を始めたが、度重なるオフラインで流石に使い物にならないと思い、原因究明と解決に務めることにした。

使用環境

Proxmox 8.4.0 クラスター環境
ノード数 : 5台
1Gネットワーク環境
問題ノード : Lenovo ThinkCenter 720q
       Intel Core i3 8100T 8GBRAM 1G有線接続

原因特定

Debian環境で、Intel NICが高負荷でダウンするという不具合があるそうだ。
dmesgログを参照してみる。

dmesg | grep -i -e e1000 -e igb -e ixgbe -e error -e hang
Detected Hardware Unit Hang
Detected Hardware Unit Hang
Detected Hardware Unit Hang
Detected Hardware Unit Hang

Intel NICドライバのハングであることが確定。
ドライバが高負荷等の理由で応答しなくなり、通信ができなくなる状態。

改善策

  • NICのオフロード機能を無効化 (最優先)
  • Proxmoxカーネルを変更
  • BIOSでASPMを無効化
  • NICの交換

NICのオフロード機能無効化は、コンソールからすぐに行うことが出来る。
Proxmoxのカーネル変更は怖い
BIOSでASPM(Active State Power Management)を無効化にするのは、まぁ直接的には影響ないだろう。

NICのオフロード機能無効化を行ってみる。

/etc/network/interfaces の中に以下を追加するだけ

post-up ethtool -K eno1 tso off gso off gro off

その後

高負荷をかけたが、ダウンは確認できず。
ダウンしたらこの忘備録を更新していく

コメント

タイトルとURLをコピーしました