cancel
Showing results for 
Search instead for 
Did you mean: 

Problema HDD

ldamato2002
Visitor

Problema HDD

Salve,

Qualcuno può aiutarmi/consigliarmi sulla procedura corretta per la sostituzione di un HDD SAS installato su un server proliant DL380 G6?

lo scenario è il seguente:

il server è dotato di 4 hdd SAS, sono stati creati 2 volumi logici, ogni volume è composto da 2 HDD in Raid 1, ora su uno di questi mi viene segnalato un avviso:

Avvisi di stato - Unità 300 GB 2 porte SAS in Porta 1I : Telaio 1 : Alloggiamento 4

341 Si prevede che si verifichi un errore di Unità 300 GB 2 porte SAS in Porta 1I : Telaio 1 : Alloggiamento 4.

Ho già provveduto all'acquisto di un disco identico, ma non ho mai effettuato un cambio su RAID1, inutile dire che le informazioni presenti sono vitali e non posso permettermi fermi prolungati del server almeno fino all'acquisto del nuovo server.

grazie

Google Translated

Hi,

Can anyone help me / advise me on the correct procedure for replacing a SAS HDD installed on a proliant DL380 G6 server?

the scenario is as follows:

the server is equipped with 4 hdd SAS, 2 logical volumes have been created, each volume consists of 2 HDDs in Raid 1, now on one of these I am notified of a warning:

Status Alerts - Unit 300 GB 2 SAS ports in Port 1I: Chassis 1: Housing 4

341 A 300 GB Unit error is expected to occur 2 SAS ports in Port 1I: Frame 1: Bay 4.

I have already purchased an identical disk, but I have never made a change on RAID1, needless to say that the information is vital and I can not allow the server to remain at least until the purchase of the new server.

thank you

5 REPLIES
parnassus
Honored Contributor

Re: Problema HDD

Che RAID Controller è correntemente in uso sul Server HP ProLiant DL380 G6? per capire quali (e se vi sono) particolari procedure eseguire. Generalmente se i dischi sono Hot Swap (quindi sapere anche l'SKU guasto/nuovo del disco aiuta) la rimozione del disco guasto di un Array RAID 1 degradato non comporta fermo macchina, il RAID Controller dovrebbe iniziare la sincronizzazione dei dati dal disco funzionante e riportare, a fine sincronizzazione, l'Array RAID da uno stato degradato ad uno statu sincronizzato.

In che stato si trova l'Array RAID 1 che ha il disco in pre-errore?

Which HP RAID Controller is currently used on the HP ProLiant DL380 G6 Server? that's to understand if there are particular procedures to manage the drive exchange (fault/new). Is the faulted disk an Hot Swap one (provide HP SKU)?

ldamato2002
Visitor

Re: Problema HDD

Il Raid Controller è un Smart Array P410i integrato,

Scusa la domanda che intendi con :

In che stato si trova l'Array RAID 1 che ha il disco in pre-errore?

dove posso reperire queste informazioni? io vedo solo un punto esclamativo giallo sull'array e lo stato è di avviso, mentre sul disco sono attivi i led verde e giallo lampeggianti.

Le confermo che i dischi nuovo e guasto sono hot swap. Il mio dubbio è: visto che il disco (in pre-errore) sta ancora lavorando e non è stato ancora disattivato dal controller, è possibile rimuoverlo a caldo senza danni / perdita di dati? 

 

parnassus
Honored Contributor

Re: Problema HDD

La domanda era intesa a capire se l'Array RAID 1 che ha il disco segnalato in pre-errore è già degradato oppure non ancora ed è quindi ancora healthy ovvero in salute (il disco in questione non è già failed ma viene solo segnalata una situazione di potenziale predictive failure ottenuta attraverso l'analisi dei parametri SMART del disco stesso).

Che utility usi per vedere lo stato degli Array RAID, del controller e dei dischi che esso gestisce?

Mi pare che con la Gen6 si usasse, a scelta:

  • Systems Insight Manager
  • HP Array Configuration Utility (ACU)
  • HP Option ROM Configuration for Arrays (ORCA)
  • HP Array Diagnostic Utility (ADU)

Se stai usando l'ACU puoi vedere tutte le informazioni diagnostiche relative al controller RAID, dischi e volumi logici per farti una idea esatta del loro stato prima di iniziare qualsiasi operazione.

Generalmente quando - a caldo (sistema in Power On) - si rimuove un disco da un Array RAID che è fault tolerant ovvero che ammette la rimozione di uno o più dischi senza compromettere il volume logico (in tal caso il tuo RAID 1 ammette 1 disco failed sui 2 che lo compongono...se il disco che rimane è coerente puoi continuare a lavorare con l'Array RAID 1 degradato fino a che non rimpiazzi il disco guasto) e si inserisce poi il disco di ricambio l'operazione di rebuild (detto anche resilvering) dell'Array RAID inizia automaticamente (se è attiva l'opzione di automatic data rebuild) e dura il tempo necessario (funzione di dimensione dell'Array e velocità di rebuild, rebuild priority, velocità dischi, ecc.), al termine del resilvering quando questo è completato senza errori l'Array RAID 1 da degradato torna ad essere normale.

Consiglio: backup prima di iniziare qualsiasi operazione e, se possibile, fare il replacement off-hours (non durante i periodi di maggior uso dei dischi, esempio: la notte se di notte la macchina è meno sotto carico).

Qui un thread che spiega alcuni passaggi (si consigliava di fare il replacement Offline a server Power Down) ma questo comporta alcuni passaggi in più durante il POST per marcare il drive da far fallire - visto che il disco non è fallito ma solo in predictive failure - e poi inserire il nuovo disco e far partire il rebuild ma è anche vero che questo va contro i benefici di avere un RAID Controller ed i dischi che supportano l'hot swapping).

ldamato2002
Visitor

Re: Problema HDD

Buongiorno,

sto utilizzando l'HP Array Configuration Utility (ACU) per vedere lo stato dell'Array RAID 1 se serve posso allegare un rapporto di diagnosi.

A tal proposito volevo segnalare che fino a Sabato l'array risultava ancora healthy in salute  oggi lo stato è cambiato e mi viene segnalato sull'unità logica un "ripristino provvisorio" con il seguente errore sul drive

Codice: 274  Descrizione: Unità 300 GB 2 porte SAS in Porta 1I : Telaio 1 : Alloggiamento 4 danneggiata o mancante.

Che vuol dire ripristino provvisorio?

Ora le mie domande sono:

1) posso staccare a caldo l'unità segnalata come guasta e sostituirla con un'altra senza problemi?

2) devo fare qualche operazione preliminare per salvaguardare il funzionamento del sistema (unità logica con il Sistema Operativo)?

Ovviamente ho provveduto ad effettuare un backup dei contenuti nell'array malfunzionante su dispositivo esterno, ma per l'array che contiene il sistema operativo ci sono rischi?

Riporto gli stati di Avviso presente

Codice  Descrizione
298       SAS Array B - 1 unità logiche contiene un'unità fisica guasta. Per correggere il problema, controllare le connessioni               dati e di alimentazione alle unità fisiche o sostituire l'unità guasta. Per ulteriori informazioni, generare un rapporto               diagnostico nella scheda Diagnostica.
274       Unità 300 GB 2 porte SAS in Porta 1I : Telaio 1 : Alloggiamento 4 danneggiata o mancante.

Per risolvere il problema, controllare i cavi di alimentazione e dati dell'unità fisica.

Messaggi di stato di avviso

Codice Descrizione
272       Il controller di array corrente presenta un'unità danneggiata o mancante.

Le prestazioni di (Ripristino provvisorio) unità logica 2 (279.4 GB, RAID 1) non sono ottimali e un ulteriore errore di un'unità fisica potrebbe comportare la perdita di dati a seconda della tolleranza di errore.

Non sarà possibile apportare modifiche alla configurazione di questa unità logica o di qualsiasi altra unità logica nell'array finché il problema non verrà risolto.

274       Unità 300 GB 2 porte SAS in Porta 1I : Telaio 1 : Alloggiamento 4 danneggiata o mancante.
Per risolvere il problema, controllare i cavi di alimentazione e dati dell'unità fisica.
Per ulteriori informazioni, generare un rapporto diagnostico nella scheda Diagnostica

 

 
parnassus
Honored Contributor

Re: Problema HDD

Ciao,


ldamato2002 wrote:
Che vuol dire ripristino provvisorio?
Ora le mie domande sono:
1) posso staccare a caldo l'unità segnalata come guasta e sostituirla con un'altra senza problemi?
2) devo fare qualche operazione preliminare per salvaguardare il funzionamento del sistema (unità logica con il Sistema Operativo)?
Ovviamente ho provveduto ad effettuare un backup dei contenuti nell'array malfunzionante su dispositivo esterno, ma per l'array che contiene il sistema operativo ci sono rischi?

"ripristino provvisorio" non mi dice nulla...ma, mi sa, forse è una localizzazione (all'italiana) dall'inglese quindi, a mio parare, significa semplicemente che l'Array RAID 1 è ora in stato degraded perchè, dei 2 dischi di cui è composto tale Array RAID 1 (mirroring), 1 solo è ora ancora totalmente funzionante (Un RAID 1 ammette una Fault Tolerance = 1 e ciò significa che NON puoi permetterti di perdere quell'unico disco che ti funziona visto che l'altro, dei due totali, è già KO...ovvero l'Array RAID 1 non sopravvivrebbe - ed è ovvio nel tuo caso - alla morte di un suo secondo disco...infatti ti troveresti con 0 dischi funzionanti ovvero con l'Array RAID 1 KO...ovviamente questa spiegazione appare lampante - e ovvia - nel caso RAID 1 ma se hai un RAID 6 con 4 o più dischi la relativa Fault Tolerance = 2 per il RAID 6 e quindi è corretto parlare di sopravvivenza dell'Array RAID 6 alla "morte" di uno o due qualsiasi dei suoi dischi).

Forse fino a qualche giorno fa il disco che ti dava segnalazione di pre-failure era solo in pre-failure, ora è proprio KO (failed): quindi hurry up perchè ciò significa che quell'Array RAID 1 non sopravviverà mai alla morte dell'unico disco buono che ti rimane (e che ti contiene, da quello che ho capito, il Sistema Operativo).

Detto questo:

  1. Generalmente Sì: se l'unico disco che sta funzionando è in buono stato (SMART Test OK) e hai bollino verde da parte dell'ACU non c'è motivo di pensare che non sia OK per essere la sorgente del resilvering che verrà fatto sul nuovo disco che inserirai.
  2. Ce ne sarebbero (non necessariamente da SE un problema si presenta ma come attività di manutenzione: vedi, ad esempio, essere sicuri che il Controller RAID e più in generale il Server abbiano Firmware, Device Drivers e software vari aggiornati [*]...questo per evitare che magari un bug meno noto sul Firmware del Controller ti faccia non andare a buon fine un resilvering o peggio...ma questa è ordinaria manutenzione che HPE consiglia come da Supporto Tecnico)...più in generale fai un Backup per cautelarti - se ti è possibile - perchè l'operazione di automatic rebuild (resilvering) è una cosa che gestirà il Controller RAID in autonomia (tu farai un check controllandone l'andamento con gli strumenti diagnostici che hai, ACU, ad esempio), ovviamente il disco "sano" non viene impattato (a parte essere sottoposto a "stress" I/O da lettura durante il resilvering (mentre il nuovo disco subirà anch'esso uno "stress" I/O ma più da scrittura). Questo in parole molto povere (e magari non del tutto precise).

Una percentuale di rischio diversa da zero esiste sempre (possibilità e probabilità sono due cose diverse)...ma non dovresti avere problemi se il disco che sta funzionando è ancora sano e se il disco che andrai ad inserire al posto di quello failed è identico al precedente (SKU identici)...e se il Controller RAID fa quello che deve fare senza introdurre problemi (vedi caso Firmware).

[*] lo scrivo perchè avere la sicurezza che quella parte è OK ti da la sicurezza che tu parta con l'Hardware nelle migliori condizioni possibili (ovviamente NON ti metterai a fare aggiornamenti proprio in questo frangente...forse una controllatina a quello che hai - versioni Firmware - ed una rapida verifica per vedere se sono pericolosamente vecchi...la farei...ma non è sempre "strettamente" necessario...è solo buona norma in funzione delle Customer Advisories rilasciate da HP per i prodotti che hai e per le loro opzioni nel corso degli anni).