Questione : Guasto harddrive preveduto

Abbiamo avuti alcuni guasti preveduti dell'azionamento duro su alcuni dei nostri assistenti di PowerEdge. L'assistente sarà “ha predetto in una condizione di guasto„, ma non completamente venire a mancare. A questo punto abbiamo notato che l'assistente diventa molto lento ed a volte non sensible a reagire quando in primo luogo riceviamo la conoscenza di questo. Ci siamo messi in contatto con Dell per vedere se hanno affatto metrico su quante volte un read/write deve non riuscire per completamente venire a mancare l'azionamento. Ha chiunque ha trovato le simili esperienze o hanno affatto metrico su questa specie di activity.

Thanks.
class= del

Risposta : Guasto harddrive preveduto

Scrivere la mia prima parte posteriore del prodotto dell'amministrazione di S.M.A.R.T. in 1999 per i dispositivi di SCSI dell'HP ed avendo NDAs con molto lo stessi fabbrica accennato in questo filetto poichè ho scritto i collegamenti affinchè i loro OEM interpreti, diagnostica e ripara le varie funzioni di salute dell'azionamento, lo ha lasciato aggiunge un piccolo alla miscela.  

* S.M.A.R.T. è una tecnologia preventiva di guasto.  Per spec., architected generalmente per dargli l'avviso di 24 ore della sorte avversa imminente.  I positivi falsi e le negazioni inosservate possono raggiungere facilmente più di 25% dei piani d'azione di guasto, a volte numeri possono essere molto più alti.  Cioè prendere qualunque gli dice nell'ambito di advisement.

* Le procedure di S.M.A.R.T. (ora lo denominerò ASTUTO perché sono malato del D.O.T.S.) variano vicino fanno/modello e firmware e la rilevazione/segnalazione è profondo differenti fra i protocolli di SCSI ed ATA, in modo da proverà a comunicare la grande immagine, non specific di indirizzo ad un azionamento di SRS o di SATA.   Tutti i dispositivi hanno varie misure per le cose come le variazioni di RPM e determinano l'altezza che può cambiare un po'ed indicano una circostanza di degradazione.  Ad un certo punto, un disc determinerà che abbastanza è abbastanza e fisserà un byte di codice di errore e della punta quando i fissaggi sono detti per votarsi e fare rapporto.   Alcuni di prodotto software (e questo specificamente è richiamato in spec. dell'ANSI come qualcosa non fare) esaminano in modo errato una o due metrica e fanno una chiamata di giudizio che il disc sta morendo.  La cosa che corretta uno sviluppatore è supposto fare è di aspettare il disc per dirlo.

* La prestazione in diminuzione dovuto gli errori di CEE e le piste che non sono leggibili sul primo passo non sono errori ASTUTI, ma determinano i fattori dei firmware questi informazioni nella procedura che determina indipendentemente da fatto che l'azionamento autorizza un allarme ASTUTO.   Uno non può condizione ASTUTA di "RESET".  La specifica dell'ANSI non ha una tal cosa.  Ora, se avete un disc che segnalerà che un disc ha venire a mancare una prova ASTUTA perché ci è un blocco illeggibile che non è stato sostituito da un riservato (parte di recambio), quindi potete ripristinare ASTUTO remapping il blocco difettoso, ma questo è stupido perché l'azionatore ed il software del disco gradicono lo spinrite o qualunque non ha idea indipendentemente da fatto che il file system considera che illeggibile ostruire dei dati come fa parte di una lima

* Se avete certo SCSI del in ritardo-modello, SRS, o disc di FC, quindi ci è un'esplorazione di mezzi della priorità bassa denominata famiglia di ordine di SCSI.  (e bene, disc di qualche SATA hanno questo anche, ma questo è specific del fornitore), che permette gli azionatori del disco auto-puliti e la riparazione blocchi difettosi nei precedenti durante il tempo al minimo.   Il software quale lo smartmonux dei santools, può permettere a questa caratteristica e fare funzionare i rapporti.  La maggior parte dei disc di Seagate SAS/FC/SCSI del in ritardo-modello gli danno l'ordine di BGMS, ma Hitachi ed altre danno questa pure. Leggere il manuale di programmazione dell'azionatore del disco per vedere se è là.  Accenderlo se potete.

* Negli ambienti di RAID, sta andando essere una verifica di dati, consistenza di dati, i mezzi esplorano, o qualcosa che legga tutti i blocchi da tutti gli azionamenti e corregga la parità e riscriva i blocchi difettosi o illeggibili.  FARE RELIGIOSO QUESTO, UNA VOLTA ALLA SETTIMANA.   Ciò forzerà il recupero dei blocchi difettosi in grado di richiedere 5-10 secondi per banda di RAID, se avete fissaggi inferiori.  Se avete un NetApp o qualcosa più costoso con impresa determina, quindi probabilmente non ne vederete c'è ne colpire mentre funziona.

* Fare funzionare la VERIFICA CDB per esplorare e rilevare i blocchi ricuperabili.  Ciò è che cosa le finestre fa quando fate funzionare lo scandisk /r, ma con le finestre, esplora appena una gamma dei blocchi.  /r è la chiave, poichè questo fa la VERIFICA.   Spinrite

* Se ottenete un errore ASTUTO ed avete non-OEM un disc (cioè, azionamento al minuto con la garanzia al minuto), quindi un errore ASTUTO si qualifica per un rimontaggio della garanzia (se durante il periodo della garanzia), in modo da anche se l'errore è un errore falso, potete ottenere l'azionamento scambiato fuori.   Stesso è generalmente allineare con i fornitori di calcolatore.   Ma se comprate i vostri disc alla frittura e sono massa impaccata, quindi dimenticarla. I numeri di serie ed i numeri del pezzo sono differenti ed i soldi che salvo l'acquisto delle versioni di non-vendita al dettaglio rappresentate il delta di prezzi di acquisto del disc con una garanzia da 30 giorni anziché una garanzia di anno 3-5.


* I regolatori di RAID è un'intera 'discussione del nuther e realmente necessità essere richiamato nel contesto alle esecuzioni specifiche, se volete entrare in profondità in esso.  Bastare dire che lo spinrite & HDDRegen dovrebbero non essere fatti funzionare generalmente mai su un membro di RAID a meno che già conosciate quali blocchi sono Male conosciuto al regolatore prima che cominciate.  Altrimenti quando riparano un blocco, può corrompere molto bene i dati sulla banda.
Altre soluzioni  
 
programming4us programming4us