Cuestión : Falta harddrive prevista

Hemos tenido algunas faltas previstas de la impulsión dura en algunos de nuestros servidores de PowerEdge. El servidor estará en un estado de la “falta prevista”, pero no completamente fall. A este punto hemos notado que el servidor llega a ser muy lento y a veces no responsivo cuando primero recibimos el conocimiento de esto. Entramos en contacto con Dell para ver si tienen métrico en cuántas veces tiene que no poder un read/write para fallar totalmente la impulsión. Tiene cualquier persona pareció experiencias similares o tienen métrico en esta clase de activity.

Thanks.
class= del

Respuesta : Falta harddrive prevista

La escritura de mi primera parte posterior del producto de la gerencia de S.M.A.R.T. en 1999 para los dispositivos del SCSI del HP, y teniendo NDAs con muy iguales fabrica mencionado en este hilo de rosca como he escrito los enchufes para que sus OEM interpreten, diagnostica, y repara varios aspectos de la salud de la impulsión, me dejó agrega un poco a la mezcla.  

* S.M.A.R.T. es una tecnología profética de la falta.  Por espec., architected generalmente para darle el aviso de 24 horas de la condenación inminente.  Los positivos falsos y las negativas desapercibidas pueden alcanzar fácilmente sobre el 25% de los panoramas de la falta, a veces números pueden ser mucho más altos.  Es decir tomar lo que le dice bajo consideración.

* Los algoritmos de S.M.A.R.T. (ahora lo llamaré ELEGANTE porque soy enfermo del D.O.T.S.) varían cerca hacen/modelo y los soportes lógico inalterable, y la detección/la información es profundo diferentes entre los protocolos ATA y del SCSI, así que intentará hablar el cuadro grande, no específico de la dirección a una impulsión de SATA o del SAS.   Todos los dispositivos tienen varias medidas para las cosas como variaciones de la RPM y conducen la altura que puede cambiar levemente e indican una condición de degradación.  En un cierto punto, un disco determinará que bastante es bastante, y fijará un octeto del código del pedacito y de error cuando el hardware se dice para votarse y para informar.   Algunos productos de software (y éste se trata específicamente en espec. del ANSI como algo no hacer) miran incorrectamente uno o dos métricas y hacen una llamada de juicio que el disco esté muriendo.  La cosa correcta que un revelador se supone hacer es esperar el disco para decirle.

* El funcionamiento disminuido debido a los errores del ECC y las pistas que no son legibles en el primer paso no son errores ELEGANTES, sino conducen factores de los soportes lógico inalterable esta información en el algoritmo que determina independientemente de si la impulsión autoriza una alarma ELEGANTE.   Uno no puede estado ELEGANTE del "RESET".  La especificación del ANSI no tiene tal cosa.  Ahora, si usted tiene un disco que divulgue que un disco tiene fall una prueba ELEGANTE porque hay un bloque ilegible que no ha sido substituido por un reservado (repuesto), después usted puede reajustar ELEGANTE remapping el mán bloque, pero esto es estúpido porque el accionamiento y el software de disco tienen gusto del spinrite o lo que no tiene ninguna idea independientemente de si el sistema de ficheros considera que ilegible bloquear de datos como siendo parte de un archivo

* Si usted tiene algún SCSI del tarde-modelo, SAS, o los discos de FC, después hay una exploración llamada familia de los medios del fondo del comando del SCSI.  (y bien, los discos de algún SATA tienen esto también, pero éste es el específico del vendedor), que permite los accionamientos de disco uno mismo-limpios y la reparación los malos bloques en el fondo durante tiempo ocioso.   El software tal como el smartmonux de los santools, puede permitir esta característica y funcionar con informes.  La mayor parte de los discos de Seagate SAS/FC/SCSI del tarde-modelo le dan el comando de BGMS, pero Hitachi y otras dan esto también. Leer el manual programado del accionamiento de disco para ver si está allí.  Girarlo si usted puede.

* EN ambientes del RAID, va a ser una verificación de los datos, consistencia de datos, los medios exploran, o algo que lee todos los bloques de todas las impulsiones y corrige paridad y reescribe bloques malos o ilegibles.  HACER ESTO RELIGIOSO, UNA VEZ POR SEMANA.   Esto forzará la recuperación de los malos bloques que podrían tardar 5-10 segundos por raya del RAID, si usted tiene hardware bajo.  Si usted tiene un NetApp o algo más costoso con empresa conduce, después usted no verá probablemente cualesquiera golpear mientras que funciona.

* Funcionar el VERIFICAR BDC para explorar y para detectar bloques recuperables.  Esto es lo que hacen las ventanas cuando usted funciona el scandisk /r, pero con las ventanas, apenas explora una gama de bloques.  /r es la llave, pues éste hace el VERIFICAR.   Spinrite

* Si usted consigue un error ELEGANTE y tiene un disco no-OEM (es decir, impulsión al por menor con la garantía al por menor), después un error ELEGANTE califica para un reemplazo de la garantía (si dentro de período de garantía), así que incluso si el error es un error falso, usted puede conseguir la impulsión intercambiada hacia fuera.   Igual es generalmente verdad con los fabricantes de computadora.   Pero si usted compra sus discos en la fritada y son bulto embalado, después olvidarlo. Los números de serie y los números de parte son diferentes, y el dinero que usted excepto la compra de las versiones de la no-venta al por menor representa el delta del precio de comprar un disco con una garantía de 30 días en vez de una garantía del año 3-5.


* Los reguladores del RAID son una 'discusión entera del nuther, y realmente necesidades de ser tratado en contexto a las puestas en práctica específicas, si usted quiere conseguir profundamente en él.  Ser suficiente decir que el spinrite y HDDRegen se deben generalmente nunca funcionar en un miembro del RAID a menos que usted sepa ya qué bloques son malo sabido al regulador antes de que usted comience.  Si no cuando reparan un bloque, puede corromper muy bien datos sobre la raya.
Otras soluciones  
 
programming4us programming4us