Frage : Vorausgesagter harddrive Ausfall

Wir haben einige vorausgesagte Festplattenlaufwerkausfälle auf einigen unserer PowerEdge Bediener gehabt. Der Bediener ist in einem Zustand „des vorausgesagten Ausfalls“, aber nicht völlig ausfallen. An diesem Punkt haben wir beachtet, dass der Bediener sehr langsam und manchmal nicht entgegenkommend wird, wenn wir zuerst Wissen von diesem empfangen. Wir traten mit Dell in Verbindung, um zu sehen, wenn sie irgendwie metrisches haben auf, wievielen Malen ein Lesen/Schreiben zwecks den Antrieb vollständig verlassen nicht können muss. Hat jedermann zufällig stieß auf ähnliche Erfahrungen oder hat irgendwie metrisches auf dieser Art von activity.

Thanks.

Antwort : Vorausgesagter harddrive Ausfall

Herstellt das Schreiben meiner ersten S.M.A.R.T. Management-Produktrückseite 1999 für HPscsi-Vorrichtungen und habend NDAs mit den, sehr selben erwähnt in diesem Gewinde, da ich Steckverbindungen schriftlich, damit ihre Soems deuten, bestimmen und reparieren verschiedene Aspekte der Antriebsgesundheit, ließ mich hinzufügen wenig der Mischung g.  

* S.M.A.R.T. ist eine vorbestimmte Ausfalltechnologie.  Pro Spezifikt. architected es im Allgemeinen, um Ihnen 24-stündige Nachricht des schwebenden Schicksals zu geben.  Falsche Positive und unentdeckte Negative können über 25% von Ausfalldrehbüchern, manchmal Zahlen leicht erreichen können viel höher sein.  Das heißt, nehmen, was auch immer es Ihnen unter Beratung erklärt.

* S.M.A.R.T. (ich nenne es jetzt INTELLIGENT, weil ich Kranker des D.O.T.S. bin), Algorithmen unterscheiden vorbei bilden/Modell und Mikroprogrammaufstellung, und Abfragung/Bericht ist zwischen den ATA und SCSI-Protokollen profund unterschiedlich, also versuchen, grosse Abbildung, nicht Adressenbesonderen zu sprechen zu einem SATA oder Dämpfungsregler-Antrieb.   Alle Vorrichtungen haben verschiedene Maße für Sachen wie U-/minveränderungen und fahren Höhe, die etwas ändern kann und anzeigen eine entwürdigende Bedingung.  Zu einem bestimmten Zeitpunkt eine Scheibe feststellt, dass genug genug, und einstellt ein Spitzen- und Störungscodebyte ist, wenn die Hardware erklärt, um abzustimmen und Bericht zu erstatten.   Einige Software-Produkte falsch (und dieses adressiert spezifisch in ANSI-Spezifikt. als etwas NICHT zu tun), betrachten ein oder zwei Metrik und bilden einen Urteilanruf, den die Scheibe stirbt.  Die korrekte Sache, die ein Entwickler tun soll, ist, zu warten, dass die Scheibe Ihnen erklärt.

* Die verringerte Leistung wegen der ECC-Störungen und die Schienen, die nicht auf erstem Durchlauf lesbar sind, sind nicht INTELLIGENTE Störungen, aber fahren Mikroprogrammaufstellungfaktoren diese Informationen in den Algorithmus, der feststellt, ob der Antrieb einen INTELLIGENTEN Alarm rechtfertigt.   Ein kann nicht "RESET"-INTELLIGENTER Status.  Die ANSI-Spezifikation hat nicht solch eine Sache.  Jetzt wenn Sie eine Scheibe haben, die berichtet, dass eine Scheibe Ausfallen ein INTELLIGENTER Test hat, weil es einen unlesbaren Block gibt, der nicht durch ein reserviertes (Reserve) ersetzt worden, dann können Sie INTELLIGENTES zurückstellen, indem Sie den schlechten Block remapping, aber dieser ist dumm, weil das Laufwerk und die Software spinrite mögen, oder was auch immer keine Idee hat, ob das Dateisystem ist, dass unlesbar von den Daten als seiend blockieren ein Teil einer Akte

* Wenn Sie irgendeinen Spätmodell SCSI, Dämpfungsregler oder FC Scheiben haben, dann gibt es eine Hintergrund-Mittelüberprüfung des SCSI-Befehls Familie benannte.  (und gut, haben irgendein SATA Scheiben dieses auch, aber dieses ist Verkäuferbesondere), das Selbst-sauberen Laufwerke und Reparatur schlechte Blöcke im Hintergrund die während der untätigen Zeit erlaubt.   Software wie das santools smartmonux, kann dieser Eigenschaft ermöglichen und Reports laufen lassen.  Die meisten Scheiben Spätmodell Seagate-SAS/FC/SCSI geben Ihnen den BGMS Befehl, aber Hitachi und andere geben dieses außerdem. Das programmierenhandbuch des Laufwerks lesen, um zu sehen, wenn es dort ist.  Es einschalten, wenn Sie können.

* In der RAID-Umwelt wird es eine Datenüberprüfung, Datenübereinstimmung geben, scannen Mittel oder etwas, das alle Blöcke von allen Antrieben liest und Parität behebt und die schlechten oder unlesbaren Blöcke neu schreibt.  DIES FROMM TUN, EINMAL WÖCHENTLICH.   Dieses zwingt Wiederaufnahme der schlechten Blöcke, die 5-10 Sekunden pro RAID-Streifen nehmen konnten, wenn Sie einfache Hardware haben.  Wenn Sie ein NetApp haben, oder etwas, das mit Unternehmen teurer ist, fährt, dann sehen Sie vermutlich nicht irgendwelche zu schlagen, während es läuft.

* ÜBERPRÜFEN CDB laufen lassen, um wieder gutzumachende Blöcke zu scannen und zu ermitteln.  Dieses ist, was Fenster tut, wenn Sie das scandisk /r laufen lassen, aber mit Fenstern, scannt es gerade eine Strecke der Blöcke.  /r ist der Schlüssel, da dieses ÜBERPRÜFEN tut.   Spinrite

* Wenn Sie eine INTELLIGENTE Störung erhalten und eine Scheibe NichtSOEM (d.h., Klein-Antrieb mit Kleingarantie) haben, dann qualifiziert eine INTELLIGENTE Störung für einen Garantiewiedereinbau (wenn innerhalb des Garantiezeitraums), also, selbst wenn die Störung eine falsche Störung ist, können Sie den Antrieb erhalten ausgelagert.   Selbe ist im Allgemeinen mit den Computerherstellern zutreffend.   Aber, wenn Sie Ihre Scheiben am Fischrogen kaufen und sie die verpackte Masse sind, dann sie vergessen. Seriennummern und Teilenummern sind unterschiedlich und das Geld, die Sie außer dem Kaufen der Nichteinzelverkauf Versionen das Preisdreieck des Kaufens einer Scheibe mit einer 30 Tagesgarantie anstelle von einer Garantie des Jahres 3-5 darstellen.


* Raid-Steuerpulte ist eine vollständige 'nuther Diskussion und wirklich Notwendigkeiten, im Zusammenhang an spezifische Implementierungen adressiert zu werden, wenn Sie in ihn tief kommen möchten.  Genügen, zu sagen, dass spinrite u. HDDRegen im Allgemeinen nie auf ein RAID-Mitglied laufen gelassen werden sollten, es sei denn Sie bereits wissen, welche Blöcke bekanntes Schlechtes zum Steuerpult sind, bevor Sie beginnen.  Andernfalls, wenn sie einen Block reparieren, kann er Daten bezüglich des Streifens sehr gut verderben.
Weitere Lösungen  
 
programming4us programming4us