システム管理
キャンセル
次の結果を表示 
次の代わりに検索 
もしかして: 

クラスタロックディスク異常

skppp1574
時折のアドバイザー

クラスタロックディスク異常

OS HP10.02

二重化構成のサーバを運用しております。系の切替を行ったところクラスタロックディスクIOエラーなるログがsyslog.logに出力されていてサービスガードのパッケージスクリプトが(pkg1.cntl.logにて確認)どうも停止したようで系が切り替わりませんでした。

クラスタロックディスクは、dual構成となっておりました。Vg02がファースト、vg03がセカンドとなっております。今回はvg02ファーストにてIOエラーとなっております。その場合vg03のセカンドのロックディスクをつかみに行かないものなのでしょうか?dual構成のクラスタロックディスクについて情報があればご教授願えませんでしょうか?セカンドロックディスクは未使用?となるのでしょうか?

●失敗時のシスログ

WARNING: Cluster lock disk /dev/dsk/c1t4d0 has failed: I/O error

Until it is fixed, a single failure could

cause all nodes in the cluster to crash

Warning. Failed to clear First Dual Cluster Lock, continuing.

Clearing Second Dual Cluster Lock

3 件の返信
tomonari
頻繁なアドバイザー

クラスタロックディスク異常

2ノードクラスタで、

- ハートビート全滅

- どちらか1台のノード障害

が発生した場合に、クラスタ再構成が発生します。

この時に、クラスタロックが全滅していると、全ノードがダウンします(メモリダンプしてリブート)。全ノードです。

もし、ハートビート経路を全部抜いて、どちらか一方のノードが生き残るのであれば、Dualクラスタロックはうまく動作していると思いますよ。

ログにはちゃんと「Clearing Second Dual Cluster Lock」とあるので、うまく動作してると思うのですけれど。ここの「Clearing」とは「使用準備OK」という意味が判りやすいです。古いデータをクリアしたと。

パッケージはロックディスクの機能とは関係ないです。パッケージは壊れたディスクを含むVGを使用しているとかで停止したのではないでしょうか。パッケージのログpkg1.cntl.logに何が起きたかが出ていると思いますよ。
skppp1574
時折のアドバイザー

クラスタロックディスク異常

ご返信ありがとうございます。

pkg1.cntl.logからはvgchangeによりvg02をアクティブにできかった為エラーになっていました。だとするとvg03セカンドクラスターが正常だったとしてもパッケージにてvg02のアクティブがNGだった場合は、だめだということですね!

一般的にノード間のパッケージの移動と、クラスタの再構成は意味合いはリンクするものなのでしょうか?

※セカンドクラスターディスクは、ddコマンドにより正常を確認しました。
tomonari
頻繁なアドバイザー

クラスタロックディスク異常

はい。vg02をpkg1が使用していて、障害でアクティブできない場合は、クラスタが正常に再構成できても、パッケージのフェイルオーバーに失敗してしまいます。

クラスタの再構成完了し、適切な生存ノードが確定して、パッケージフェイルオーバー動作が行われます。クラスタロックディスクはパッケージのフェイルオーバーとは関係ないですよ。

vg02が障害を起こしてもクラスタ再構成はしません。クラスタ再構成が発生するのは、

・ノードの起動、停止によるノード数の変化

・ハートビート全滅

・ノード障害

ですね。

VGのアクティブ化に失敗するのは、そのVGに所属する物理ボリューム(PV)の50%を越える数にアクセスできない場合です。(LVMのクォーラムチェック)VG操作のログはsystemのログに出ます。

クラスタが起動している状態で、以下のコマンドでVGをアクティブ化できるかどうか確認してみると良いと思います。

フェイルオーバー先のノードで

# vgchange -a e vg02

vgdisplayコマンドで確認後は、

# vgchange -a n vg02

で非アクティブ化できますよ。

コマンドでVGがアクティブ化できるにもかかわらず、SGのパッケージフェイルオーバーでは失敗してしまう場合は、SGのせいなのでレスポンスセンターにコールした方が良いと思いますよ。HP-UX10.Xなのでパッチなどあるかもしれないですし。コマンドでもアクティブ化できない場合は、ディスクや経路で故障がないかをシステムのログから調べると良いとおもいます。