Vraag : Voorspelde harddrive mislukking

Wij hebben een paar voorspelde harde aandrijvingsmislukkingen op enkelen van onze servers PowerEdge gehad. De server zal in een „voorspelde mislukkings“ staat zijn, maar niet volledig ontbroken. Op dit punt hebben wij opgemerkt dat de server zeer langzaam en soms niet ontvankelijk wordt wanneer wij eerst kennis van dit ontvangen. Wij contacteerden Dell om te zien of hebben zij metrisch op hoeveel keer lees-schrijf moet er niet in slagen om de aandrijving volledig te ontbreken. Heeft iedereen kwam over gelijkaardige ervaringen of hebben metrisch op dit soort van activity.

Thanks.

Antwoord : Voorspelde harddrive mislukking

Hebben geantwoordd mijn eerste S.M.A.R.T. beheersproduct in 1999 voor de apparaten van PK SCSI, en gehadd NDAs met de zeer zelfde die vervaardiging in deze draad worden vermeld aangezien ik stopins voor hun OEMs om heb geschreven te interpreteren, te diagnostiseren, en reparatie diverse aspecten van aandrijvingsgezondheid, me laten een weinig aan de mengeling toevoegen.  

* S.M.A.R.T. is een vooruitlopende mislukkingstechnologie.  Per de specificatie, het over het algemeen architected is om u het bericht van 24 uur van dreigend noodlot te geven.  De valse positieven en undetected negatieven kunnen meer dan 25% van mislukkingsscenario's gemakkelijk bereiken, soms kunnen de aantallen veel hoger zijn.  Met andere woorden, neem wat het u onder advisement vertelt.

* S.M.A.R.T. (ik zal het SLIM nu roepen omdat ik van D.O.T.S.) ziek ben algoritmen vari�ërt door maakt/model en ingebouwde programmatuur, en de opsporing/de rapportering zijn diep verschillend tussen ATA en protocollen SCSI, zodat zal proberen om groot beeld, niet adres te spreken specifiek voor een aandrijving van SATA of SAS.   Alle apparaten hebben diverse metingen voor dingen zoals de variaties van t/min en aandrijvingshoogte die op een degraderende voorwaarde lichtjes veranderen en kunnen wijzen.  Op wat punt, zal een schijf dat genoeg genoeg is, bepalen en zal een een beetje en byte plaatsen van de foutencode wanneer de hardware wordt verteld om te krijgen en terug te rapporteren.   Sommige softwareproducten verkeerd (en dit wordt specifiek in de ANSI SPECIFICATIE aangezien te doen niet iets gericht) bekijken één of twee metriek en telefoneren oordeeldat de schijf sterft.  Het correcte ding een ontwikkelaar verondersteld om is te doen is wachttijd voor de schijf om u te vertellen.

* De verminderde prestaties toe te schrijven aan ECC fouten en de sporen die niet leesbaar op eerste pas zijn zijn SLIMME fouten, maar de geen factoren van de aandrijvingsingebouwde programmatuur deze informatie in het algoritme dat bepaalt al dan niet de aandrijving een SLIM Alarm rechtvaardigt.   Men kan geen SLIMME status „terugstellen“.  De ANSI specificatie heeft zulk een ding niet.  Nu, als u hebt een schijf die een schijf zal melden heeft de tekortkoming van een SLIMME test omdat er een onleesbaar blok is dat niet door gereserveerd (reserveonderdelen) is vervangen, dan kunt u SLIM terugstellen door het slechte blok remapping, maar dit is stom omdat de diskdrive en de software zoals spinrite of wat er ook geen idee heeft al dan niet het dossiersysteem van mening is dat onleesbaar blok van gegevens zoals uitmakend van een dossier deel

* Als u één of andere recent-modelSCSI hebt, schijven SAS, of FC, dan zijn er SCSI bevelfamilie het geroepen achtergrondmedia aftasten.  (en goed, hebben sommige schijven SATA dit ook, maar dit is specifieke verkoper), dat diskdriven toestaat om slechte blokken op de achtergrond zelf-schoon te maken en te herstellen tijdens nutteloze tijd.   De software zoals santools smartmonux, kan deze eigenschap toelaten en rapporten in werking stellen.  De meeste recent-modelschijven van Seagate SAS/FC/SCSI geven u het bevel BGMS, maar Hitachi en anderen geven eveneens dit. Lees het programmeringshandboek van de diskdrive om te zien of daar is het.  Zet het aan als u kunt.

* IN de milieu's van de INVAL, zijn er het gaan een een gegevenscontrole, een gegevensconsistentie, media aftasten, of iets zijn dat alle blokken van alle aandrijving lezen en pariteit verbeteren en slechte of onleesbare blokken herschrijven.  DOE DIT GODSDIENSTIG, ÉÉN KEER IN DE WEEK.   Dit zal terugwinning van slechte blokken dwingen die 5-10 seconden per de streep van de INVAL konden vergen, als u low-end hardware hebt.  Als u een NetApp of iets duurder met ondernemingsaandrijving hebt, dan zult u waarschijnlijk geen zien raken terwijl het loopt.

* Stel VERIFY CDB in werking om terug te krijgen blokken af te tasten en te ontdekken.  Dit is wat de vensters doet wanneer u scandisk /r in werking stelt, maar met vensters, tast het enkel een waaier van blokken af.  /r is de sleutel, aangezien dit VERIFY doet.   Spinrite

* Als u een SLIMME fout krijgt en een schijf niet-OEM (d.w.z., kleinhandelsaandrijving met kleinhandelsgarantie) hebt, dan kwalificeert een SLIMME fout voor een garantievervanging (als binnen garantieperiode), zodat zelfs als de fout een valse fout is, u de aandrijving uit kunt geruild krijgen.   Het zelfde is over het algemeen waar met de computers fabrikanten.   Maar als u uw schijven bij gebraden gerecht koopt en zij bulk verpakt zijn, dan vergeet het. De serienummers en de deelaantallen zijn verschillend, en het geld u sparen het kopen van de nietkleinhandelsversies de prijsdelta van het kopen van een schijf met een 30 daggarantie in plaats van een 3-5 jaargarantie vertegenwoordigt.


* De controlemechanismen van de INVAL is een gehele 'nutherbespreking, en moet werkelijk in context aan specifieke implementaties worden gericht, als u diep in het wilt worden.  Ben voldoende om te zeggen dat spinrite & HDDRegen over het algemeen nooit op een lid van de INVAL zou moeten worden in werking gesteld tenzij u weet reeds welke blokken slecht aan het controlemechanisme gekend zijn alvorens u begint.  Anders wanneer zij een blok herstellen, kan het zeer goed corrupte gegevens over de streep.
Andere oplossingen  
 
programming4us programming4us