Pergunta : Falha harddrive prevista

Nós tivemos algumas falhas previstas da movimentação dura em alguns de nossos usuários de PowerEdge. O usuário estará “em um estado da falha prevista”, mas não inteiramente failed. Neste momento nós observamos que o usuário se torna muito lento e às vezes nao responsivo quando nós recebemos primeiramente o conhecimento deste. Nós contatamos Dell para ver se têm métrico em quantas vezes um read/write tem que a fim não falhar completamente a movimentação. Tem qualquer um veio através das experiências similares ou têm métrico nesta sorte de activity.

Thanks.
class= do

Resposta : Falha harddrive prevista

Ter escrito minha primeira parte traseira do produto da gerência de S.M.A.R.T. em 1999 para dispositivos do SCSI do cavalo-força, e tendo NDAs com muito o mesmos manufatura mencionado nesta linha como eu escrevi encaixes para que seus OEMs interpretem, diagnostica, e repara vários aspetos da saúde da movimentação, deixou-me adiciona um pouco à mistura.  

* S.M.A.R.T. é uma tecnologia com caráter de previsão da falha.  Por as especs., architected geralmente para dar-lhe a observação de 24 horas da desgraça iminente.  Os positivos falsos e os negativos indetectados podem facilmente alcangar sobre 25% de encenações da falha, às vezes números podem ser muito mais elevados.  Ou seja tomar o que quer que lhe diz sob o advisement.

* Os algoritmos de S.M.A.R.T. (eu o chamarei agora ESPERTO porque eu sou doente do D.O.T.S.) variam perto fazem/modelos e firmware, e a deteção/relatório é profunda diferentes entre protocolos ATA e do SCSI, assim que tentará falar o retrato grande, não específico do endereço a uma movimentação de SATA ou de SAS.   Todos os dispositivos têm várias medidas para coisas como variações do RPM e conduzem a altura que pode mudar ligeiramente e indicam uma circunstância de degradação.  Em algum ponto, um disco determinará que bastante é bastante, e ajustará um byte do código do bocado e de erro quando a ferragem é dita para se votar e o relatar para trás.   Alguns produtos de software incorretamente (e este é endereçado especificamente nas especs. do ANSI como algo não fazer) olham um ou dois medidores e fazem uma chamada de julgamento que o disco esteja morrendo.  A coisa que correta um colaborador é supor fazer é esperar o disco para dizê-lo.

* O desempenho diminuído devido aos erros da CCE e as trilhas que não são legíveis na primeira passagem não são erros ESPERTOS, mas conduzem fatores dos firmware esta informação no algoritmo que determina mesmo se a movimentação autoriza um alerta ESPERTO.   Um não pode status ESPERTO do "RESET".  A especificação do ANSI não tem tal coisa.  Agora, se você tem um disco que relate que um disco tem o failing um teste ESPERTO porque há um bloco ilegível que não sejam substituídos por um reservado (sobressalente), a seguir você pode restaurar ESPERTO remapping o bloco mau, mas este é estúpido porque a unidade de disco e o software gostam do spinrite ou o que quer que não tem nenhuma idéia mesmo se o sistema de arquivo considera que ilegível obstruir dos dados como sendo parte de uma lima

* Se você tem algum SCSI do tarde-modelo, SAS, ou discos de FC, a seguir há uma varredura chamada família dos meios do fundo do comando do SCSI.  (e bem, os discos de algum SATA têm este também, mas este é o específico do vendedor), que permite as unidades de disco auto-limpas e o reparo blocos maus no fundo durante o tempo inativo.   O software tal como o smartmonux dos santools, pode permitir esta caraterística e funcionar relatórios.  A maioria dos discos de Seagate SAS/FC/SCSI do tarde-modelo dão-lhe o comando de BGMS, mas Hitachi e outro dão este também. Ler o manual de programação da unidade de disco para ver se está lá.  Girá-la sobre se você pode.

* Em ambientes do RAID, está indo estar uma verificação dos dados, consistência de dados, os meios fazem a varredura, ou algo que lê todos os blocos de todas as movimentações e corrige a paridade e reescreve blocos maus ou ilegíveis.  FAZER ISTO RELIGIOSA, UMA VEZ POR SEMANA.   Isto forçará a recuperação dos blocos maus que poderiam tomar 5-10 segundos por a listra do RAID, se você tem a ferragem baixo da gama.  Se você tem um NetApp ou algo mais caro com empresa conduz, a seguir você provavelmente não verá alguns bater quando funcionar.

* Funcionar a VERIFICAÇÃO CDB para fazer a varredura e detetar de blocos recoverable.  Este é o que as janelas fazem quando você funciona o scandisk /r, mas com janelas, apenas faz a varredura de uma escala dos blocos.  /r é a chave, porque este faz a VERIFICAÇÃO.   Spinrite

* Se você começ um erro ESPERTO e tem um disco não-OEM (isto é, movimentação de varejo com garantia de varejo), a seguir um erro ESPERTO qualifica para uma recolocação da garantia (se dentro do período de garantia), assim que mesmo se o erro é um erro falso, você pode começ a movimentação trocada para fora.   Mesmo é geralmente verdadeiro com os fabricantes de computador.   Mas se você compra seus discos na fritada e são volume empacotado, a seguir esquecê-lo. Os números de série e as números da peça são diferentes, e o dinheiro que você excepto a compra das versões do não-varejo representa o delta do preço de comprar um disco com uma garantia de 30 dias em vez de uma garantia do ano 3-5.


* Os controladores do RAID são 'uma discussão inteira do nuther, e realmente necessidades ser endereçado no contexto às execuções específicas, se você quer começ profundamente nele.  Bastar dizer que o spinrite & HDDRegen devem geralmente nunca ser funcionados em um membro do RAID a menos que você já souber que blocos são mau conhecido ao controlador antes que você comece.  Se não quando reparam um bloco, pode muito jorrar dados corrompidos na listra.
Outras soluções  
 
programming4us programming4us