HPE ProLiant
1822456 メンバー
2414 オンライン
109642 解決策
新規ポスト

RAIDのHDDを交換後、サーバーの応答が一時停止?

 
H-kiyo
時折のコントリビューター

RAIDのHDDを交換後、サーバーの応答が一時停止?

こんばんわ。

ML350G5にE200iにてRAID5+Spareを構成しているのですが、2ヶ月ほど前にHDDを故障交換しました。
そのころから複数のクライアントで応答停止障害が発生し、LAN-Switchを交換したり対応しましたが原因が不明でした。

ADUログを詳細に調査するとサーバーの交換HDD:146GB-2.5'SASのEG0146FARTR にてSCSI-BusResetと見られるログが3回/日発生していました。
これが応答停止の原因かは不明ですが、現在同一構成の予備サーバーに振り替えてからは障害は発生していません。

同様の事例が他にもありましたらお教えください。

ちなみにHDDのファームウェアはHPD9 で現在最新です。E200iは1.84です。

ADUログの抜粋を掲載します。

Reference Time 0x00019211 =2.38ヶ月

Last Failure Reason Hardware Error  (0x0d)
Errors Logged 3953  (0x00000f71) 

Error Type SCSI Operation Code SCSI Status CAM Status Sense Key Qualifier Sense Code Block Valid Block Reference Time
(中略)
0x02 0x2a 0x00 0x17 0x00 0x00 0x00 0x00 0x00337f00 0x000191bc 差0x55=65分前
(中略)
0x01 0x2a 0x02 0x04 0x06 0x02 0x29 0x00 0x00000000 0x00018ff1 差0x220 =9時間前
(中略)
0x01 0x28 0x02 0x04 0x06 0x02 0x29 0x00 0x00000000 0x00018c4d 差0x5c4 =24.6時間前


以下Wikipediaより:
SCSI Operation Code:28=READ 2A=Write
返り値:Sense Key=0x6 ,Qualifier=0x02, Sense Code=0x29 →  Unit Attention - SCSI bus reset occurred

3件の返信3
Boku wa
信頼あるコントリビューター

Re: RAIDのHDDを交換後、サーバーの応答が一時停止?

H-kiyoさん
こんばんは

 

SCSI-BusReset ですが、SCSI Status が Check Condition なので、ADUログ上の各HDD項目にある
Monitor and Performance のError値が特に増えていなければあまり気にしなくても大丈夫だと思います。

 

もし、HDDが原因であれば、クライアントの応答停止だけではなく、ML350G5自体にも何らか異常が

見られると思います。

 

一応、E200i のファームウェアは1.86があり、Critical となっていますのでアップデートはされた方が
いいと思います。
Upgrade Requirement:
Critical - HPではすぐにこのバージョンへアップデートすることを推奨しています。

 

もし、宜しければ下記の点について教えて頂けないでしょうか。
1.予備サーバーに振り替えられたというのは、HDDなど何か元のサーバーから移行されたのでしょうか。
2.クライアントが応答停止した時間帯に、ML350G5側のイベントログには何も記録がないのでしょうか。
3.また、Pingによる応答はあったのでしょうか。

 

よろしくです。

H-kiyo
時折のコントリビューター

Re: RAIDのHDDを交換後、サーバーの応答が一時停止?

サーバーHW構成、OS,ドライバー、ファームウエアVerすべて同一のサーバー2式にて現用・予備を構成しています。
このため現在予備サーバーをクライアントから参照するように設定変更しています。
これにより障害は発生しておりません。

現用と予備の違いは、故障により交換されてゆくHDDぐらいです。(アプリも現在同一です)
(ネットワークのHUBは交換しましたが障害は改善されませんでした。またポートにエラーログもありません)

障害発生に関して、OSイベントログには何も記載ありません。
HPのSmartCDにてDiagしても異常は検出されません。


あくまで「応答停止」とは、一時的(瞬間的)な応答停止です。
たぶん、秒のオーダーと思われます。
Pingは常にPingしていないため、障害発生時のPing応答性は不明です。
普通にサーバーを起動していても何ら異常は感じられません。
このために障害調査が大変難航しました。
(弊社ではアプリにリアルタイム応答性が必要なためBufferをかましてありますが、
 秒を超えてくるとデータが無くなり障害となります。)

サポートメールにて障害相談しましたが、特にエラーはないとの回答でした。
このためADUのログを詳細にチェックし、
HDDのerrorログの行数が2.3ヶ月で3000を超えている(Errors Logged 3953)が、
他のHDDは3年で300程度であることに疑問を感じ、
SCSI-BusResetのログを見つける糸口となりました。

この点を指摘することでHDDを他のモデルに交換いただきました。

HPのサポートには障害と思われるHDDを返却しております。
HDDの検証を希望しましたが、そのような対応は行っていないとの事で真相は不明です。

このため後日ADUログでエラーがない事が確認できれば、現用と予備を元に戻し検証するつもりです。

H-kiyo
時折のコントリビューター

Re: RAIDのHDDを交換後、サーバーの応答が一時停止?

サーバーのHDD交換後、ADUログでもBusResetが発生しなくなりました。
このためこのサーバーを現用にし、1週ほど運用していますが、障害は発生しなくなりました。

 

このため弊社での応答障害の原因はHDD(モデル EG0146FARTR)でした。

何らかのBUGでもあるのかもしれませんね。。。
(でも製造元の富士通は部門を東芝に売却したので、原因を調べるのは難航するのかな?)