ディスク故障によるサーバ停止とオンサイト対応の記録
##【障害対応事例】ディスク故障によるサーバ停止とオンサイト対応の記録
今回は、監視ツールからのアラートをきっかけに発覚したディスク障害について、調査から復旧までの一連の対応をまとめます。
事象の発生
Zabbixからのアラートを確認したところ、対象サーバで再起動が発生していることが判明しました。
さらにログを確認すると、Array関連のエラーも出力されており、ハードウェア障害の可能性が浮上しました。
この時点で、ディスク障害の線を疑い、詳細調査へ進みます。
調査と原因特定
iLO(Integrated Lights-Out)からストレージの状態を確認したところ、
bay4のディスクが「Critical」状態となっていることを確認しました。
これにより、ディスク故障が原因である可能性が高いと判断。
すぐにHPEへケースを起票し、オンサイトでの部品交換対応を依頼しました。
あわせて、iLOからAHS(Active Health System)ログを取得し、メーカーとの調整を進めます。
影響範囲の確認
バックアップ状況を確認したところ、一部で失敗が発生していました。
ただし、以下の点から致命的なデータ損失は回避できていました。
- DFSR(分散ファイルシステムレプリケーション)を構築済み
- データ自体は別ノードに保持されている状態
- システム領域のバックアップは正常に完了
結果として、サービス継続に大きな影響は出ていないことを確認できました。
交換対応(オンサイト)
HPEエンジニアおよび顧客と調整を行い、ディスク交換のスケジュールを確定。
木曜の昼帯に作業を設定し、以下の条件で実施しました。
- 予定停止時間:1時間30分
実際の作業では、停止から部品交換完了まで約1時間で終了し、想定よりもスムーズに対応が完了しました。
作業後の状態
作業完了後は、以下を確認しています。
- LEDステータス正常(SE確認済み)
- 後日の状態確認も問題なし(顧客側で実施)
なお、RAIDの再構成(リビルド)には約6時間を要しましたが、システムとしては安定稼働を維持できました。
残課題と対応
ハードウェア障害自体は解消されたものの、別の課題も確認されました。
- AOMEIによるフルバックアップタスクが引き続き失敗
そのため、暫定対応として以下を実施・検討しています。
- robocopyによるバックアップ取得への切替
- 代替手段でのバックアップ運用の継続
まとめ
今回の障害はディスク故障という比較的明確な原因でしたが、
- 監視アラートからの初動対応
- メーカーとの連携
- 顧客への影響最小化
- バックアップ設計の有効性
といった運用面の重要性を改めて実感する対応となりました。
特に、DFSRによる冗長化構成が有効に機能した点は非常に大きく、
「障害は必ず起こる前提で設計すること」の重要性を再認識できた事例でした。