HPE Blog, Japan
1753708 メンバー
4846 オンライン
108799 解決策
新規ポスト
shingoyamanaka

システム全滅を防ぐ逆転の発想 Superdome とブレードサーバーの関係

例えば普通のデスクトップパソコンですと電源ケーブルは一本です。もしもここに誰かが足をひっかけてケーブルが抜けると、パソコンは止まってしまって、作業していたデータはパーですね。そういった危険性をなくすために、ミッションクリティカルサーバーでは、電源ケーブルが2本以上ついていて、1本抜けたくらいではシステムは簡単に止まらないようになっています。今日はこの2重化のお話です。

SPOF(SIngle point of Failure)という言葉をご存知でしょうか?日本語ですと単一障害点と言われるもので、ここが壊れるとシステム全体が止まってしまうという点を指します。先ほどの電源ケーブルはまさにSPOFなわけです。

SPOFを無くすための一番簡単な方法は、とにかくあらゆる部分を二重化することです。現在のSuperdome Xでは、電源ケーブルだけでなく、電力を供給する電源ユニットも複数入っております。

また、内部の信号配線も全て二重化されていて、ある信号経路が途中で切れてもそれを別ルートで送りなおすことが出来るようになっています。

これは少しだけマニアックな話ですが、コンピューターの脳ミソにあたるCPUには、クロックという、脳みそを動かすためにリズムを刻む装置が必要なのですが、このクロックがリズムを刻めなくなると脳みそであるCPUは処理をストップしてしまうのです。ですので、Superdome Xではこのクロックも二重化してあります。クロックまで二重化している製品はなかなか存在しません。

このように、ありとあらゆる部分を二重化しているのですが、どうしても二重化が難しい部分があります。それはバックプレーンと言われる、「板」です。

Superdome Xは、下記の写真のような、CPUやメモリが詰まった、ブレードというものを一つの箱の中に複数、前面から差し込む形で利用します。

ブレードブレードブレード

G11864004042010.png

この差し込んだブレードのコネクタが、エンクロージャー(格納する箱のこと)にあるバックプレーンに刺さることにより、システムとして稼動をします。

このバックプレーンという板の二重化が課題なのです。二重化自体は板を2枚準備すればいいのでそこまで難しくないのですが、問題は、もしもそのうちの1枚が故障した場合、ブレードの後ろに存在するため、交換するにはブレードを全部抜き取らなければならないのです。

この問題は多くのサーバーベンダーが頭を悩ませていました。

そこで、HPがとった解決策が、間逆の発想だったのです。

「壊れないバックプレーンにすればいい。」

バックプレーンから壊れる可能性のある部品を全て取り除き、壊れる可能性のある部品は外から取り外しできるブレードや電源など、他のコンポーネントに全て入れ込んでしまうという発想です。

これによりバックプレーンには、信号を通す銅線しか存在しなくなり、これが故障する可能性は、物理的に破壊する以外ありえません。HPはこのバックプレーンを「パッシブバックプレーン」と名づけました。

 

シグナルバックプレーンシグナルバックプレーンシグナルバックプレーン

ご覧いただけるように、バックプレーン基板上にはいわゆる電子部品はまったく存在せず、コネクタと配線のみとなっています。

また、厳密にはバックプレーンには2種類あり、一つが信号をやり取りするシグナルバックプレーン、そしてもう一つは電力をブレードに供給する電力バックプレーンが存在しますが、電力を供給するバックプレーンは、下の図のように板自体で供給するという、非常にシンプルな形にしてしまいました。

power_backplane.JPG

これが壊れることは・・・・想像ができないですね。

この機構は、実は昔のSuperdomeでは採用されておらず、バックプレーンに起因するトラブルは数は少ないですが以前は発生していました。

G288102032004.png

2010年に発表したSuperdome 2から、ブレードのデザインを採用し、このパッシブバックプレーンという考え方を導入したため、バックプレーンに起因するシステム全停止という障害は全く起きなくなりました。

旧来タイプのSuperdome からブレードのアーキテクチャを採用した Superdome 2が発表されたときは、正直、様々なご意見、ご心配をお客様からいただきました。ブレードのアーキテクチャは当時、x86サーバー(いわゆるPCサーバー)から採用をされたので、「安物のサーバーでつかっているブレードを、ミッションクリティカルエリアで使っても大丈夫なのか?」といった声が存在していました。

しかしふたを開けてみて、Superdome 2発表から6年、日本では数百台のサーバーが出荷されましたが、バックプレーンに起因するシステム全停止といった事例は起きていません。現在、このブレードのアーキテクチャは、Superdome 2をはじめとして、Superdome X、果てはNonStopサーバーでも採用をされるほどの実績を上げてきました。

このアーキテクチャが世に出て約10年。シンプルでよく考えられたものは、本当に長く使えるものだな、と実感をしております。

 

 

 

 

 

0 感謝
作者について

shingoyamanaka

2003年よりHP BladeSystem, HP Superdomeの日本でのプロダクトマネージャーを務めた後、2012年から4年間、日本を含めたアジア地区のSuperdome X Product Managerを務める。2016年12月から、日本ヒューレット・パッカードの総合エバンジェリストに就任し、様々な製品を紹介。2017年11月より、ハイパーコンバージド製品の日本でのプロダクトマネージャー。2021年より、SDS(Software Defined Storage)製品のCategory Managerに着任。自称ハードウエアオタク。