Ersetzen einer defekten Festplatte im PowerEdge R610

Support-Anfragen für Server ohne Service

Support-Anfragen für Server ohne Service
Sie haben einen defekten Dell PowerEdge Server - dann sind Sie hier genau richtig!

Ersetzen einer defekten Festplatte im PowerEdge R610

This question is not answered

In unserem PowerEdge R610 (Service-Tag FKMJN4J) mit Hot Swap haben wir eine defekte Festplatte des RAID 5 während des Betriebs ersetzt. Trotz aktiviertem automatischem Rebuild, findet kein Rebuild statt.

Das Kommando "./MegaCli -PdReplaceMissing -PhysDrv[32:4] -array0 -row4 -a0" liefert das Resultat "FW error description: The specified physical drive does not have the appropriate attributes to complete the requested command."

Wie können wir feststellen, welches Problem vorliegt? Herzlichen Dank für eine Auskunft.

Hier die Infos von MegaCli zur neuen Festplatte:

Enclosure Device ID: 32
Slot Number: 4
Enclosure position: N/A
Device Id: 4
WWN:
Sequence Number: 8
Media Error Count: 0
Other Error Count: 2
Predictive Failure Count: 0
Last Predictive Failure Event Seq Number: 0
PD Type: SATA

Raw Size: 465.761 GB [0x3a386030 Sectors]
Non Coerced Size: 465.261 GB [0x3a286030 Sectors]
Coerced Size: 465.25 GB [0x3a280000 Sectors]
Sector Size: 0
Firmware state: Unconfigured(good), Spun Up
Device Firmware Level: SDM1
Shield Counter: 0
Successful diagnostics completion on : N/A
SAS Address(0): 0x1221000004000000
Connected Port Number: 4(path0)
Inquiry Data: WES2F7RQST500LM030-1RK17D SDM1
FDE Capable: Not Capable
FDE Enable: Disable
Secured: Unsecured
Locked: Unlocked
Needs EKM Attention: No
Foreign State: None
Device Speed: Unknown
Link Speed: Unknown
Media Type: Hard Disk Device
Drive Temperature : N/A
PI Eligibility: No
Drive is formatted for PI information: No
PI: No PI
Port-0 :
Port status: Active
Port's Linkspeed: Unknown
Drive has flagged a S.M.A.R.T alert : No

All Replies
  • Hi,

    manchmal ist es erforderlich die neue Platte als global Hotspare zu deklarieren, damit Sie in das RAID aufgenommen wird.

    Das sollte mit diesem Befehl möglich sein: MegaCli -PDHSP -Set -PhysDrv [E:S] -aN.

    Danach sollte auch das Rebuild dann starten.

    VG
    Stefan

  • Hallo Stefan,

    danke für die Rückmeldung. Das haben wir bereits versucht. Die neue Platte wurde erfolgreich als global Hotspare deklariert, aber das Rebuild startet nicht.

    Im Configuration Screen des RAID-Controllers (STRG+R beim Booten) wird die Platte als "missing" angezeigt, obwohl per MegaCli Informationen über die Platte abgerufen werden können (siehe mein letzter Post).

    Beste Grüße

    Thomas Brambring

  • Hallo Herr Bambring,

    ich habe soeben erfahren, dass Sie SAS Platten im System verwenden. Diese wurden in der ursprünglichen Konfiguration, also das was ich in der ServiceTag sehen kann, nicht gekauft. Daher konnten wir Ihnen auch nur eine der 500GB SATA Platten tauschen.

    Da SATA und SAS Platten nicht gemixt werden können, haben wir hier den Grund dass das Rebuild nicht startet.

    Nun müsste ich wissen, um was für SAS Platten es sich handelt, und dann müssten wir schauen, ob wir diese Tauschen können.

    VG
    Stefan

  • Hallo Herr Richter,

    es ist ungewöhnlich, dass die ursprüngliche Konfiguration SATA-Platten enthalten haben soll, denn die Platten sind außen am Gehäuse mit 300 GB, SAS beschriftet. Die Beschriftung sieht sehr ursprünglich aus.

    In jedem Fall haben wir uns bereits kurzfristig eine neue 300 GB SAS Platte besorgt und diese in den Server eingesetzt. Leider wird auch die neue Platte, genau wie die alte Platte, als "Failed" angezeigt. Wir haben den Server bereits komplett stromlos gemacht, alle Kabel abgezogen und den An-/Ausschalter für 30 Sekunden betätigt. Die Anzeige "Failed" bleibt bestehen.

    Es besteht die Möglichkeit für die Platte ein "Force Online" durchzuführen. Ist es ratsam dies zu versuchen oder können wir noch etwas anders unternehmen?

    Viele Grüße

    Thomas Brambring

  • Guten Morgen,

    ja, ich fand das auch seltsam, aber die ursprüngliche Konfiguration weißt dies so aus. Die Konfig kann mit Hilfe der ServiceTag auch online eingesehen werden, und zwar hier.

    Dort finden sich dann:

    3x J902R : Module,Hard Drive,500GB Expandable System,7.2K,2.5IN Seagate (500GB SATA Platten)

    2x U978J : Module,Hard Drive,73GB,Serial Attached Scsi,10K,2.5IN Seagate (73GB SAS Platten)

    Es gab in diesem System so keine 300GB SAS Platten - diese wurden eventuell nachgekauft, dies steht aber so nicht in der Tag. 

    Bevor wir etws erzwingen in diesem RAID, bitte ich noch einmal um die Zusendung eines aktuellen RAID-Logs.

    Danke und Gruß
    Stefan Richter

  • Hallo Herr Richter,

    danke für Ihre Erläuterungen.

    Ein aktuelles RAID-Log habe ich unter der folgenden URL für Sie bereitgestellt: http://cmpg.eu/ttylog.txt

    Wie darin zu sehen ist, weisen bereits weitere Festplatten Fehler auf, weshalb wir dringend, zunächst die fehlende Festplatte, und dann auch die fehlerhaften Festplatten ersetzen müssen.

    Mit den besten Grüßen

    Thomas Brambring

  • Hallo Herr Bambring,

    damit ich Ihnen die korrekten Platten tauschen lassen kann, benötige ich Informationen über diese. Finden Sie eventuell eine Bestellung, in der die 300GB SAS-Platten aufgeführt sind? Das wäre für uns am einfachsten.

    Wenn nicht, dann benötige ich eine genaue Bezeichnung der Platte oder am besten die Dell-Seriennummer (im Format: XX-XXXXXX-XXXXX-XXX-XXXX)

    Im Log sind etliche Medienfehler geschrieben. Sie sollten umgehend eine Datensicherung durchführen. Nach dieser und dem Austausch der Platten sollte dann auch mal über eine Neuinstallation des OS nachgedacht werden.

    EDIT: Gerade gesehen, in dem ersten Post, in dem Log ist auf eine 500GB Platte hingewiesen: Raw Size: 465.761 GB [0x3a386030 Sectors] - reden wir noch vom gleichen System? Denn das war auf eine 500GB Platte bezogen nicht auf eine 300er.
    Würden Sie bitte mal prüfen, was genau in dem HDD-Caddy eingebaut ist? Bevor wir noch eine falsche Platte schicken.

    VG
    Stefan

  • Hallo Herr Richter,

    wie ich zuvor geschrieben hatte, habe wir uns bereits eine neue 300 GB SAS Platte besorgt und diese in den Server eingesetzt. Die neue Platte ist identisch mit den bereits im Server vorhandenen Platten. Leider wird auch die neue Platte, genau wie die alte, originale Platte, als "Failed" angezeigt. Wir haben den Server bereits komplett stromlos gemacht, alle Kabel abgezogen und den An-/Ausschalter für 30 Sekunden betätigt. Die Anzeige "Failed" bleibt bestehen.

    Meine Frage dazu war: Es besteht die Möglichkeit für die Platte ein "Force Online" durchzuführen. Ist es ratsam dies zu versuchen oder können wir noch etwas anders unternehmen?

    Viele Grüße

    Thomas Brambring

  • Hallo Herr Bambring,

    das "online forcen" wird nichts bringen, wenn wir hier ein gemischtes RAID haben.
    SATA und SAS Platten können nicht im gleichen RAID-Verbund betrieben werden.

    Die Informationen zu diesem System die ich aktuell habe sind die, dass wir 2x 73GB SAS, 3x500GB SATA und scheinbar eine 300GB SAS Platte haben. Wie gesagt, SAS und SATA zusammen klappt nicht, auch wenn man die Platte online zwingt.

    Sind jedoch weitere 300GB SAS Platten in dem System und in einem RAID so sollte diese auch per Global HotSPare eingebunden werden. Dies hatte ja nicht geklappt.

    Herr Bambring, damit ich Ihnen hier bei weiter helfen kann, muss ich wissen, welche Festplatten, (Anzahl, Bezeichnung, Typ) in Ihrem System verbaut sind.
    Sonst rate ich immer weiter und das hilft uns beiden nicht. Ich denke doch, dass wir da gleich denken :)

    In der iDRAC WebOberfläche finden Sie unter System den Tab System-Bestandsaufnahme. Dort sind die einzelnen Komponenten aufgeführt, auch die Platten.

    VG
    Stefan

  • Hallo Herr Richter,

    sorry, ich hatte es so verstanden, dass Herr Peter Cisarik, mit dem ich telefoniert hatte, Ihnen bereits die aktuellen Konfiguration durchgegeben hatte.

    Wir hatten in unserem Server 6 gleiche Platten (Seagate 300 GB SAS) in einem RAID 5. Eine von diesen Platten ist ausgefallen. Die Status-LED blinkte gelb und das iDRAC meldete die Platte als "failed". Das RAID 5 läuft seit dem "degraded" weiter.

    Zwischenzeitlich hatten wir die von DELL gelieferte SATA-Platte mit 500 GB anstelle der defekten Platte eingesetzt, in der Annahme dass SATA und SAS gemischt werden können, denn DELL hatte uns diese Platte ja als Ersatz für unseren Server geliefert. Warum es zu der Lieferung einer SATA-Platte kam und dass ein Mischen nicht möglich ist, habe ich inzwischen verstanden.

    Nun haben wir die defekte Platte jedoch gegen eine neue identische Platte (Seagate 300 GB SAS) getauscht. Alle 6 Platten sind also, wie vor dem Plattenausfall, identisch (Seagate 300 GB SAS) und trotzdem blinkt einige Minuten nach dem Einsetzen der Platte die Status-LED wiederum gelb und das iDRAC meldet die Platte als "failed".

    Ich hoffe, das Szenario nun klar dargestellt zu haben.

    Besten Gruß

    Thomas Brambring

  • Hallo Herr Bambring,

    ok, jetzt ist die Konfig schon mal klar. Danke.

    Gut dann können wir jetzt weiter gehen. Das "online forcen" macht in diesem Zustand keinen Sinn - ein online forcen ist nur dann möglich, wenn die Platte auf offline steht, diese hier steht ja auf failed.

    Hinzu kommt, dass das Log, welches Sie mir zuletzt zugesandt hatten zwei defekte Platten anzeigt. Betroffen sind PD0 und PD3.

    Die Lösung hier wäre

    1. ein Backup der Daten auf dem Volumen.

    2. der Austausch der betroffenen Platten PD0 und PD3 durch neue Platten

    3. anschließend ein Neu-Erstellen des RAID-Volumens inklusive Initialisierung.

    Wenn Sie die beiden Platten nur austauschen, laufen Sie Gefahr, dass diese Medien Fehler auch auf den neuen Platten repliziert werden.

    VG
    Stefan

  • Hallo Herr Richter,

    danke, das Vorgehen ist soweit nachvollziehbar. Letztlich bleibt aber das Problem, dass die neue Platte PD4 nach dem Austausch weiterhin als failed angezeigt wird. Somit gehe ich davon aus, dass gar nicht die Platte defekt war, sondern der RAID-Controller einen Defekt hat.

    Viele Grüße

    Thomas Brambring

  • Hallo Herr Bambring,

    von PD4 war in dem Log nichts zu sehen, gut das mag daran liegen, dass das Log nach kurzer Zeit bereits mit den Fehlern auf PD0 und PD3 voll läuft.

    Dann sind wir jetzt schon bei 3 Platten die Fehler verursachen.

    Ich denke es wird wirklich Zeit, dass das RAID-Volumen aufgelöst und neu erstellt wird. Eventuell hat sich dann auch die ganze Problematik rund um PD4 erledigt. 
    Ich würde mir gern das Log nach dem Neuerstellen des RAIDs noch einmal ansehen - dann haben wir auch mehr Anhaltspunkte zum Controller und zu PD4.

    Weiterhin können wir dann auch mal prüfen was passiert wenn wir eine andere Platte auf Slot5 Stecken und die Platte PD4 mal auf einen anderen Slot. Eventuell wandert der Fehler mit der Platte mit. Sollte er auf Slot 5 bleiben dann kann es in der Tat auch am Controller liegen.

    Aber beim aktuellen Zustand möchte ich keine Experimente mehr machen.

    EDIT: Die beiden Platten mit den Medienfehlern müssen in jedem Fall getauscht werden. Haben Sie die 300GB SAS Platten denn über uns erworben? Wenn ja, haben Sie eine Bestellnummer für mich?

    VG
    Stefan

  • Hallo Herr Richter,

    danke für Ihre Erläuterungen. Bevor wir das RAID auflösen, werden wir erstmal überlegen, wie wir weiter vorgehen. Jetzt weiß ich jedenfalls, dass wir das RAID offenbar nicht mehr retten können.

    Die neue Platte hatten wir nicht bei DELL bestellt, da wir sie über einen anderen Anbieter schneller erhalten haben.

    Besten Dank für Ihren bisherigen Support!

    Viele Grüße

    Thomas Brambring