May 21, 2026

ディスク故障によるサーバ停止とオンサイト対応の記録

##【障害対応事例】ディスク故障によるサーバ停止とオンサイト対応の記録

今回は、監視ツールからのアラートをきっかけに発覚したディスク障害について、調査から復旧までの一連の対応をまとめます。

事象の発生

Zabbixからのアラートを確認したところ、対象サーバで再起動が発生していることが判明しました。
さらにログを確認すると、Array関連のエラーも出力されており、ハードウェア障害の可能性が浮上しました。

この時点で、ディスク障害の線を疑い、詳細調査へ進みます。

iLO（Integrated Lights-Out）からストレージの状態を確認したところ、
bay4のディスクが「Critical」状態となっていることを確認しました。

これにより、ディスク故障が原因である可能性が高いと判断。

すぐにHPEへケースを起票し、オンサイトでの部品交換対応を依頼しました。
あわせて、iLOからAHS（Active Health System）ログを取得し、メーカーとの調整を進めます。

バックアップ状況を確認したところ、一部で失敗が発生していました。
ただし、以下の点から致命的なデータ損失は回避できていました。

結果として、サービス継続に大きな影響は出ていないことを確認できました。

HPEエンジニアおよび顧客と調整を行い、ディスク交換のスケジュールを確定。

木曜の昼帯に作業を設定し、以下の条件で実施しました。

実際の作業では、停止から部品交換完了まで約1時間で終了し、想定よりもスムーズに対応が完了しました。

作業完了後は、以下を確認しています。

なお、RAIDの再構成（リビルド）には約6時間を要しましたが、システムとしては安定稼働を維持できました。

ハードウェア障害自体は解消されたものの、別の課題も確認されました。

そのため、暫定対応として以下を実施・検討しています。

今回の障害はディスク故障という比較的明確な原因でしたが、

といった運用面の重要性を改めて実感する対応となりました。

特に、DFSRによる冗長化構成が有効に機能した点は非常に大きく、
「障害は必ず起こる前提で設計すること」の重要性を再認識できた事例でした。