確かに買ったときから調子が悪かった。
ネットワークの通信が急に途切れ、再起動するまで復活してこないことがあった。
Windows環境を消し、Debian系OSを使い始めたときからだったから、ドライバーのせいかと思って我慢していた。
省電力で24/365動作させるにはピッタリの筐体だったため、自宅サーバーの重要ノードの1つとして運用を始めたが、度重なるオフラインで流石に使い物にならないと思い、原因究明と解決に務めることにした。
使用環境
Proxmox 8.4.0 クラスター環境
ノード数 : 5台
1Gネットワーク環境
問題ノード : Lenovo ThinkCenter 720q
Intel Core i3 8100T 8GBRAM 1G有線接続
原因特定
Debian環境で、Intel NICが高負荷でダウンするという不具合があるそうだ。
dmesgログを参照してみる。
dmesg | grep -i -e e1000 -e igb -e ixgbe -e error -e hang
Detected Hardware Unit Hang
Detected Hardware Unit Hang
Detected Hardware Unit Hang
Detected Hardware Unit Hang
Intel NICドライバのハングであることが確定。
ドライバが高負荷等の理由で応答しなくなり、通信ができなくなる状態。
改善策
- NICのオフロード機能を無効化 (最優先)
- Proxmoxカーネルを変更
- BIOSでASPMを無効化
- NICの交換
NICのオフロード機能無効化は、コンソールからすぐに行うことが出来る。
Proxmoxのカーネル変更は怖い
BIOSでASPM(Active State Power Management)を無効化にするのは、まぁ直接的には影響ないだろう。
NICのオフロード機能無効化を行ってみる。
の中に以下を追加するだけ
post-up ethtool -K eno1 tso off gso off gro off
その後
高負荷をかけたが、ダウンは確認できず。
ダウンしたらこの忘備録を更新していく


コメント