HPE Blog, Japan
1823955 メンバー
4278 オンライン
109667 解決策
新規ポスト
shingoyamanaka

Superdome Xは故障しないんだよね?いえいえ、故障しますよ。

Superdome Xは故障しないんだよね?いえいえ、故障しますよ。

普通のサーバーとミッションクリティカルサーバーは、いったい何が異なるのでしょうか?よく誤解されることがあるのは、「ミッションクリティカルシステムは壊れない。」いえ、ミッションクリティカルシステムも機械ですので時には壊れます。ではいったい何が違うのか?先日実施した記者むけ技術説明会の内容から、今日はそんなお話をしたいと思います。

ポイントは「封じ込め」と「走りきる」技術

できるだけ故障しないような部品を選んだり、回路を設計したりするのはもちろんですが、それでも、機械ですので故障をしてしまうことはあります。ミッションクリティカルx86サーバーであるSuperdome Xがその他のサーバーと違う部分をシンプルに言うとすれば、

①故障はするけど、障害を「封じ込め」て、「走りきる」機能

②故障はするけど、その原因を「自動分析」して「記録を残す」機能

③故障はするけど、確実、超高速にスタンバイ機に「切り替える」技術

この3点が他の一般的なサーバーと異なる部分です。

今日はこの中から「封じ込め」て、「走りきる」技術の一つ、PCIe Live Error Recovery (略してPCIe LER)を紹介したいと思います。

一般的なサーバーとSuperdome Xの信頼性機能の差分一般的なサーバーとSuperdome Xの信頼性機能の差分

 

危険性が2倍になる、カード2枚挿し

「故障した場合に備えて、ネットワークのカードを2枚挿入しておきますね。」

サーバーを購入、導入された経験のある方であれば、こんな言葉、ベンダーの営業から聞いたことがあるのではないでしょうか?そして、それに対して何の疑問もなく、カードを2枚挿し。実はこの構成、下手をするとシステムを停止させてしまう確立を2倍にしてしまっているのです。

下の図をご覧ください。

一般的なサーバー(PCIe LERが無い場合)一般的なサーバー(PCIe LERが無い場合) 

この、2枚挿しているカードのうち、1枚が確実に死んでくれれば何の問題もありません。しかし厄介なのが、半死状態です。カードが半死状態になると、OSからデータをリクエストされたときに、まだ動いていますので変なデータを返してしまうことがあるのです。そうすると、OS側はその変なデータを受け取り、飲み込もうとすると、「やばい、その変なデータのせいで全体のデータを壊してしまう!」と寸前に気づき、「データを壊すよりも、システムを停止させたほうがいいだろう。」と判断し、システムを強制的に停止させてしまいます。

カード2枚挿し、半死だとシステム停止のリスクが倍になることがご理解いただけたかと思います。(もちろん、半死ではなく、完全に故障した場合は意味があります。)

 

Superdome Xに実装されているPCIe LERがあれば、このようなシステム停止を避けることが可能です。下記をご覧ください。

 

PCIe LERがシステム停止を回避PCIe LERがシステム停止を回避

 

もしもカードが半死になって、変なデータが帰ってきたら、OSに届く前にSuperdome Xのファームウェアがそれを検知します。そして、OSに、「カードから変なデータが届いたからもう一度リクエストを送ってみて」という指令を送ります。そして、もう一度リクエストをOSに送らせてみて、それでも変なデータが届いたら、ファームウェアは「あ、このカードおかしくなっているな」と認識をして、このカードをシステムから切り離し、エラーを封じ込めます。そしてシステムは何事もなかったかのように動作を継続するのです。

 

Superdome Xも機械なので壊れます。しかし、その故障を「封じ込め」て、「走りきる」技術が他のサーバーより圧倒的に優れているので、システムを安定稼動させることが可能なのです。なお、この機能のデモVTRも現在準備中です。

次回以降、他の機能に関しても説明をしたいと思います。

0 感謝
作者について

shingoyamanaka

2003年よりHP BladeSystem, HP Superdomeの日本でのプロダクトマネージャーを務めた後、2012年から4年間、日本を含めたアジア地区のSuperdome X Product Managerを務める。2016年12月から、日本ヒューレット・パッカードの総合エバンジェリストに就任し、様々な製品を紹介。2017年11月より、ハイパーコンバージド製品の日本でのプロダクトマネージャー。2021年より、SDS(Software Defined Storage)製品のCategory Managerに着任。自称ハードウエアオタク。