Fråga : Förutsagt harddrive fel

Vi har haft några förutsade hårda drevfel på några av våra PowerEdge serveror. Serveren ska är i ”förutsade statligt fel”, men inte fullständigt missat. På denna peka oss har märkt att serveren blir mycket långsam och ibland inte svars-, när vi mottar först kunskap av denna. Vi kontaktade Dell för att se, om de har any meter på, hur många tajmar en read/write måste att missa för att fullständigt missa drevet. Har någon kom över liknande erfar eller har any meter på detta att sortera av activity.

Thanks.
" klar "

Svar : Förutsagt harddrive fel

Ha skriftligt min första baksida för S.M.A.R.T-ledningprodukten i 1999 för HP-SCSIapparater och ha NDAs med mycket de samma nämnda tillverkningarna i denna tråd, som jag har skriftligt att plugga ins för att deras OEMs ska tolka, för att diagnostisera och reparera vård- olika aspekter av drev, låter mig, tillfoga a lite till blandningen.  

* S.M.A.R.T är en predictive felteknologi.  Per specifikationen den architecteds allmänt för att ge dig som 24 timme märker av överhängande doom.  Falska realitet och oupptäckta negationar kan lätt ne över 25% av felscenarion, numrerar ibland kan vara mycket högre.  Ta, allt vad det berättar dig under överläggning, med andra ord.

* S.M.A.R.T.  (Jag ska nu appell det som VAR SMART därför att I-förmiddagen som var sjuk av D.O.T.S.EN), algoritmer varierar gör by/för att modellera och maskinvaror, och upptäckt/att anmäla är profoundly olika mellan ATA och SCSIprotokoll, så ska försök att tala stort föreställer, för att inte tilltala närmare detalj till en SATA, eller SAS kör.   Alla apparater har olika mätningar för lika R/MINvariationer för saker och kör höjd, som kan ändra litet, och indikerar att ett förnedra villkorar.  På något peka, en ska disk bestämmer att nog är nog, och uppsättning a bet, och felet kodifierar byte, när maskinvaran berättas för att samla sig och anmäla tillbaka.   Några programvaruprodukter (och denna tilltalas i specifikt ANSI-specifikationen som något att inte göra), ser en eller två metrik och gör felaktigt en bedömningappell som disken dör.  Det korrekta tinget som en bärare är förment att göra, är väntan för att disken ska berätta dig.

* Minskade ECC-fel för kapaciteten tack vare och spårar som inte är läsliga första passerar på inte är SMART fel, men drevmaskinvara dela upp i faktorer denna information in i algoritmen, som bestämmer huruvida, eller inte drevberättigandena ett SMART larmar.   En kan inte SMART status för "RESET".  ANSI-specifikationen har inte ett sådan ting.  Nu, om du har en disk som ska rapporten som, en disk har brist ett SMART testa, därför att det finns ett unreadable kvarter som inte har bytts ut av ett reserverat (reservdelen), då du kan nollställa SMART, genom att lägga om dåligakvarteret, men detta är dumt, därför att den lika spinriten för för diskdrev och programvara eller allt vad inte har ingen idé huruvida eller sparasystemet betraktar att det unreadable kvarteret av data som vara delen av en spara

* Om du har något sen-att modellera SCSI, SAS, eller FC-disks, då det finns en SCSI befaller familjen kallat avläsa för bakgrundsmassmedia.  (och väl, disks för någon SATA har denna för, men denna är försäljarenärmare detalj), som låter diskdrev till själv-rengöringen och reparerar dåligakvarter i bakgrunden under overksam tid.   Programvara liksom santoolssmartmonuxen, kan möjliggöra detta särdrag och köra rapporter.  Mest av demodellera Seagate SAS/FC/SCSI disksna ger dig som BGMSNA befaller, men Hitachi och andra ger denna som väl. Läs den programmera handboken av diskdrevet för att se, om det är där.  Vänd på det, om du kan.

* I RAZZIAmiljöer det går att vara en dataverifikation, datakonsistens, massmedia avläser, eller något som läser alla kvarter från alla drev och korrigerar paritet- och omredigeringdåliga eller unreadable kvarter.  GÖR DETTA RELIGIOUSLY, EN GÅNG EN VECKA.   Detta ska styrkaåterställning av dåligakvarter som kunde ta 5-10 understöder per RAZZIAband, om du har low-end maskinvara.  Om du har en NetApp, eller något som är dyrare med företag, kör, då du ska antagligen för att inte se några slå stunder som det kör.

* Kör VERIFIERINGEN CDB för att avläsa och avkänna återvinningsbara kvarter.  Detta är vad fönster gör, när du kör scandisken /r, men med fönster, den avläser precis en spänna av kvarter.  /r är det nyckel-, som denna gör VERIFIERINGEN.   Spinrite

* Om du får ett SMART fel och har en disk non-OEM (dvs., återförsäljnings- drev med den återförsäljnings- garantien), då ett SMART fel kvalificerar sig för ett garantiutbyte (om inom garantiperiod), om så även felet är ett falskt fel, dig kan få drevet bytt ut.   Samma är allmänt riktigt med datorproducenterna.   Men, om du köp dina disks på småfisk och dem är paketerad i stora partier, då glöm den. Följetongen numrerar, och delen numrerar är olik, och pengarna du den räddningköpandet non-sälja i minut versioner föreställer prissättadeltan av köpandet en disk med en 30 dag garanti i stället för en garanti för år 3-5.


* RAZZIAkontrollanter är en hel 'nutherdiskussion och egentligen behov för att tilltalas i sammanhang till specifika genomföranden, om du önskar att få djupt in i det.  Suffice till något att säga att spinrite & HDDRegen bör allmänt aldrig köras på en RAZZIAmedlem, om inte du vet redan vilka kvarter är den bekant dåligan till kontrollanten, för du startar.  , när annorlunda de reparerar ett kvarter, den kan mycket välla fram korrumperade data på band.
Andra lösningar  
 
programming4us programming4us