HPE Blog, Japan
shingoyamanaka

Superdome Xは本当に止まらないか、実験してみた。

前回の記事(Superdome Xは故障しないんだよね?いえいえ、故障しますよ。)でご紹介した、ネットワークカードが半死してもOSの再起動をかけずにシステムが走りきる技術、PCIe Live Error Ricovery。

この機能で、本当にSuperdome Xが止まらないのか、実験をしてみました。その動画がこちら。

 

まずは、Superdome Xではない、普通のサーバーで実験してみます。 

これはパソコンの画面をキャプチャーした動画でして、左上の黒い四角が、いわゆるサーバーのコンソールです。

PCILER_gen_1.jpg 

そして、ここで、ワザと、ある特殊なプログラムを動かして、ネットワークが半死している状態にしてみます。

PCILER_gen_2.jpg

 

すると、すぐにOSは変なデータが帰ってきていることを検知し、データを破壊しないために、OSは動作を停止します(提供しているサービスはここで停止)。この特殊な動作停止がいったいなぜ起きたのか、証拠を残すために、メモリ上のそのときの状態を記録しておきます。(これをダンプを取る、と言います)

PCILER_gen_3.jpg

ダンプ終了後、サーバーは再起動がかかり、OSが立ち上がります。

ちなみになんで、再起動がかかって、起動する画面まで遠隔で見えるかというと、Superdome XのみならずHPEのほとんどのサーバーには、iLOという遠隔操作用の小さいコンピューターが入っていて、どんな画面でも遠隔地から確認が可能です。縁起でもないですが、ブルースクリーンも遠隔地から確認できます。

PCILER_gen_4.jpg

そしてOSが立ち上がってきました。

PCILER_gen_5.jpg

多くの方は、パソコンの再起動をさせたことがあるかと思いますが、サーバーの再起動はパソコンよりも時間がかかります。早くて数分、遅い場合は30分近くかかることもあります。

ですので、PCIe LERがついていないこういったサーバーの場合、エラーが発生して再起動が発生すると、下手をすると、30分近くサービスが停止する可能性があります。

では、Superdome Xで実験をしてみましょう!

サービス提供が止まらないことを証明するために、あるファイルをダウンロードしながらの状況で見てみましょう。

赤丸で囲った部分、あるファイルをSuperdome Xからダウンロードしていることを表しています。

もしも途中でサーバーがダウンしたら、ダウンロードは途中で止まり、失敗してしまいます。

PCILER_sdx_1.jpg

そして、この状態で、また同じように、ある特殊なプログラムを実行し、わざとネットワークカードが半死する状態を作り出します。

PCILER_sdx_2.jpg

さきほどは、半死を起こした時点で止まってしまいましたが、Superdome Xではしっかりとファームウェアのレベルで変なデータが帰ってきたことを感知して、エラーを閉じ込めます。

そして、OSは停止することなく、障害箇所を取り除きます。すなわち、現在利用していたネットワークカードを隔離し、予備に入れているもう一個のネットワークカードに通信を切り替えます。この切り替えのときに、一瞬ですが、ファイルのダウンロードは中断しますが、すぐに復旧します。

PCILER_sdx_3.jpg

そして、数秒で通常の状態に復帰します。

本ブログ上では画面キャプチャーで説明をしましたが、エラーの封じ込めを、ぜひビデオで体感していただければと思います。

なお、この機能を使うために、なにか特殊なソフトウェアを入れたり、特別な設定は全く必要ありません。

使う側は、普通のLinux/Windowsサーバーとして使っていただければ大丈夫です。誰でも簡単にミッションクリティカル環境を実現できます。

 

 

 

 

 

 

0 感謝
作者について

shingoyamanaka

2003年よりHP BladeSystem, HP Superdomeの日本でのプロダクトマネージャーを務めた後、2012年から4年間、日本を含めたアジア地区のSuperdome X Product Managerを務める。2016年12月から、日本ヒューレット・パッカードの総合エバンジェリストに就任し、様々な製品を紹介。2017年11月より、ハイパーコンバージド製品の日本でのプロダクトマネージャー。2021年より、SDS(Software Defined Storage)製品のCategory Managerに着任。自称ハードウエアオタク。