HPE Blog, Japan
1819953 メンバー
3548 オンライン
109607 解決策
新規ポスト
SatKat

予期せぬセキュリティソフトウェアの障害とiLOを活用したサーバー復旧

こんにちは、今回は先日発生したセキュリティソフトウェアの大規模障害に巻き込まれた、私の部署のサーバー復旧作業について、特にiLO(Integrated Lights-Out)を活用したリモート対応についてお話しします。

背景

  • 障害が発生したのは、ファイルサーバーとして運用中のサーバー
  • OSはMicrosoft Windows Server 2019
  • ハードウェアはProLiant DL20Gen10に外部ストレージが接続されています
  • 発生日はWellness Fridayで、多くの社員が休暇中

 

障害の発見と初動

  1. テレビなどで大規模なシステム障害のニュースが流れていました。このときは他人事でした。
  2. 土曜の明け方から断続的にアラートメールが届き始める。この時点でいやな予感がしていました。
  3. 午前中、VPN経由でサーバーのiLOにリモートアクセスします。自宅は川崎ですが、都内の本社のサーバーにも特にストレスなくアクセスできました。Windowsの機能であるリモートデスクトップ接続だと、OSがダウンしている場合には、サーバーにアクセスすることができません。
  4. iLOのリモートコンソール機能を使用し、サーバーがBSOD状態であることを確認します。やれやれ…
  5. 情報収集開始
    • 大規模な障害のため、早期から精度の高い情報が集まっていました。
    • ソフトウェアベンダーの公式情報から対処方法を確認します。やはり1次情報が重要です。

 

iLOを活用した復旧作業

  1. 自宅からiLOにアクセスし、リモートコンソールを起動
    • BSOD状態を再確認
    • iLOのリモートコンソール機能を使用し、WinREを起動します。これはシンプルなコマンドプロンプトのみの状態です。
    • WinREからのファイルアクセスに苦戦します。これは、このサーバーの起動ディスクがソフトウェアRAID構成のためにWinREからでは起動ディスクに直接アクセスできなかったためです。
  2. ドライバーの準備とアップロード
    • 「HPE SmartアレイS100i」ドライバーをダウンロードし、解凍します。
    • iLOのリモートコンソール機能の仮想メディア機能を使用し、ドライバーファイルをサーバーにアップロード(ドライバーファイルのフォルダーをリモートコンソール上のウィンドウにドラッグアンドドロップすることで仮想ディスクとして認識させることができます。)
  3. ドライバーのロードとディスク認識
    • リモートコンソール上で ディスクのデバイスドライバーをロードします
      • これで起動ディスクにアクセスできるようになります
  4. 起動ドライブ認識後の作業
    • リモートコンソールを通じて問題ファイルの削除(またはリネーム)
    • WinREの終了
  5. Windows Server正常起動の確認
  • iLOのリモートコンソールで起動プロセスを監視
  • 他に問題がないことを確認
  • チームメンバーへ復旧完了の告知

 

まとめ

iLOの強力なリモート管理機能により、物理的にサーバーに触れることなく、自宅から全ての復旧作業を完了することができました。特に以下の機能が有効でした:

  • リモートコンソール:サーバーの画面をリアルタイムで確認・操作
  • 仮想メディア:必要なファイルをサーバーにアップロード
  • 電源管理:必要に応じてサーバーの再起動を実行

 

このような経験は、今後のリモート障害対応にも大いに活かせると思います。

ただ今回は普段使用しているサーバーだったので、作業中はかなりテンパってしまっていました。iLOなどのリモート管理ツールの活用方法を日頃から習熟しておくことを痛感しました。突発的な障害に備えて、準備と冷静な対応を心がけたいと思いました。

 

0 感謝
作者について

SatKat

Server Management, Remote Management and Security