OMSA Administration lässt den gesamten PE2950 abstürzen

PowerEdge Server - Allgemeine Hardware

PowerEdge Server - Allgemeine Hardware
Diskutieren Sie mit uns über PowerEdge Server und System Management Praktiken

OMSA Administration lässt den gesamten PE2950 abstürzen

  • Hallo,

    jedes Mal, wenn ich im OMSA eine neue virtuelle Festplatte erzeuge oder eine vorhandene löschen möchte, freezt danach mein kompletter Server. Das ist eine 5-Jahre alte PE2950, die aber sonst eigentlich noch reibungslos läuft. Schließe ich dann einen lokalen Monitor an, gibt es auch Tonnen an Meldungen auf dem Screen. Das erstaunliche ist, dass es kein Kernel Oops zu sein scheint, weil alle 20 Sekunden erneut 200 Zeilen Meldung auf den Schirm geprintet werden. Die Meldungen sind im syslog-Stil, fangen alle mit dem Timestamp an, wie halt im syslog. Ich hatte noch keine Gelegenheit ein Screenshot davon zu machen und wollte nun Euch erstmal fragen, ob Ihr ähnliches kennt?

    Ich habe das neueste OMSA 7.3 (http://linux.dell.com/repo/community/ubuntu/), installiert via apt-get auf einem Ubuntu 12.04.2 LTS

    Aber auch das Downgrade auf ein älteres OMSA (http://linux.dell.com/repo/community/deb/OMSA_7.1/) hat leider überhaupt nicht geholfen.

    Erstaunlich ist, dass ich erst gerade vor ein paar Wochen das Ubuntu (identische Version, identische CD) neu auf diesem gleichen installiert habe und vorher ging alles reibungslos! Inzwischen ist die neue Ubuntu- und OMSA-Installation so verbuggt, dass ich nicht nur das o.g. Freeze-Problem habe, sondern auch SNMP scheint gar nicht mehr zu funktionieren. Irgendwie klinkt sich ja das OMSA über die smux-Schnittstelle des SNMP-Deamons mit ein, früher hat das auch geklappt. Heute tut er einfach gar nichts mehr...

    Und das obwohl ich solche Zeilen im syslog kriege:

    Jul 26 15:56:49 ubuntu snmpd[1463]: [smux_accept] accepted fd 13 from 127.0.0.1:51625
    Jul 26 15:56:49 ubuntu snmpd[1463]: accepted smux peer: oid iso.3.6.1.4.1.674.10892.1, descr Systems Management SNMP MIB Plug-in Manager

    Hat jemand eine Idee, woran das liegen könnte?

    OMSA runtergeschmissen und neu installiert habe ich natürlich auch schon... mehrfach...

    Vielen Dank, viele Grüße :)

  • Hallo, 

    da dein Problem doch recht Kurios ist würde ich gerne erstmal den Hardwarelevel komplett ausklammern. 

    Wäre es möglich, dass du mal direkt im RAID Controller oder über die OMSA Live CD versuchst einen eine VD zu erstellen oder zu löschen? Ich würde gerne wissen wie es sich außerhalb des OS verhält. 

    OMSA Live CD

    http://linux.dell.com/files/openmanage-contributions/omsa-71-live/

     

    Parallel frage ich mal bei den Dell OMSA und Linux Kollegen nach. 

    Beste Grüße

    Flo 

  • Könntest du bitte auch einen Kreiztest mit megacli machen und die Fehlermeldungen posten?  

    http://action-jackson.de/wp/2012/05/08/how-to-install-lsi-megacli-on-ubuntu-12-04-2/

  • Oh, vielen Dank für die fixe Antwort :-)

    Auf die Schnelle kann ich schon Folgendes dazu sagen:

    Per RAID-BIOS gehts natürlich problemlos. Das ist auch genau die Variante, die ich momentan immer nehme.

    Inzwischen gibt es schon die MegaCLI-Version 8.07.07. Diese habe ich über die Anleitung aus deinem Link problemlos installiert. Scheint auch zu laufen:

    # /opt/MegaRAID/MegaCli/MegaCli64 -adpCount
    Controller Count: 1.
    Exit Code: 0x01

    Nun werde ich mich da mal durch das Manual wühlen.

    Per Live-CD werde ich es auch nochmal probieren.

    Was meinst du mit Kreiztest? Kreuztest? Reiztest? Gibt es da eine Option?

  • Ich meine natürlich Kreuztest :)

    Auf der OMSA Live ist auch ein Server Administrator installiert mit den selben Funktionen wie in der Ubuntu Version. 

  • Kreuztest sagt mir absolut gar nichts und wenn ich bei Google nach megacli kreuztest suche, finde ich nur genau diesen Thread :-)

    Die OMSA LiveDVD 7.1 funktioniert übrigens problemlos: Ich kann VHDs erstellen und löschen. Da stürzt nichts mehr ab.

    Es ist aber auch alles sehr sehr merkwürdig...
    Warum kann ich eine Festplatte, die aktuell in keinem RAID-Verbund hängt, nicht aus Slot 4 in Slot 3 umschieben?
    Ich hatte extra zuvor die virtuelle HD gelöscht, bei der diese Festplatte dran beteiligt war.
    Nach dem Umstecken von Slot 4 in Slot 3 kommt die Meldung 2299: "Bad PHY Slot 3" und der Slot blinkt gelb.
    Dieses Problem bzw. diese Meldung ist übrigens identisch... egal, ob ich die OMSA-Oberfläche von der LiveDVD oder die auf dem Server installierte Oberfläche nutze.

    Hast Du noch eine Idee?

  • Ok der "Bad Phy" deutet auf eine defekte "Leitung" an der Festplatte oder der Backplane hin. 

    Da der Fehler nach deinem "Kreuztausch" von HD 4 in Slot 3, nur in Slot 3 auftritt würde ich darauf schließen, dass der Connector an der Backplane defekt ist. Das hat weniger mit der Software zutun sondern ist tatsächlich ein Hardwareschaden. 

    Solltest du noch Service auf deinem System haben, könnte ich für dich einen Austausch veranlassen. 

    Noch mal zurück zum Kreuztausch. Kreuztausch ist im Support relativ gebräuchlich. Es sagt aus, dass man einen Fehlerzustand durch den Austausch mit einer vermeintlich guten Komponenten nachverfolgt. 

    Am Beispiel der Festplatte: 

    Um einen Fehler des Slots auszuschliessen, hast du jetzt eine gute Festplatte in den defekten Slot gesteckt. Dadurch das die Festplatte im Slot ebenfalls Fehlerhaft war, hat sich der Slot als Fehlerquelle identifiziert. Wäre der Fehler geblieben wäre die HD der Fehlergrund gewesen. 

    An unserem Softwarebeispiel, war in dem Moment die LSI Software die gute Komponente, da wir dort sicher gehen konnten, dass sie unter Ubuntu komplett suppportet ist. Genauso beläuft es sich mit der Live CD. Damit haben wir einen defekt seitens des RAID Controllers komplett ausgeschlossen und als einzige fehlerhoft Komponenten blieb noch der OMSA über. Somit verfolgen wir dann auch nicht die falsche Richtung wenn wir dort tiefer graben. 

    Ich habe übrigens meine Kollegen nochmal gebeten dies bezüglich nochmal zu schauen. Es kann aber sein, dass mal mit dir telefonieren möchten oder noch weitere Logs benötigen. 

    LG 

    Flo 

  • Ah, ok, verstehe! Ja, gut, klar, dass ist ja ein übliches Vorgehen. Gut, nun merke ich mir auch den passenden Namen dazu. Smile

    Jede beliebige, andere Festplatte läuft übrigens aber in diesem Slot 3. Ich hätte vermutet, dass das RAID BIOS sich gemerkt hat, dass diese HD immer im Slot 4 gelaufen ist und nun meckert, wenn ich sie umstecke. Aber ich kann das gerne auch nochmal mit anderen HDs überprüfen.

    Und zudem muss ich auch immer noch sagen: Vor 3 Wochen war ein identisches Ubuntu 12.04 auf dem System mit den identischen 2TB-Festplatten, die jetzt auch drin sind. Und die OMSA-Weboberfläche hat problemlos funktioniert! Ich bin kurz davor, einfach nochmal das Ubuntu runterzuschmeißen, um einen Software-Fehler auszuschließen.

    Der Server ist von 2007 und ist seit Dezember 2010 aus der Garantie raus. Aber ich bin sowieso kurz davor, den PERC5/i gegen einen PERC6/i auszutauschen, weil ich unbedingt eine RAID6-Unterstüztung brauche. Momentan läuft es in meiner Konfiguration darauf hinaus, dass ich 6 virtuelle HDs mit je einer einzelnen physikalischen Festplatte im RAID-0 konfiguriert habe und mit dem Linux-Software-RAID-Tool mdadm aus den 6 einzelnen HDs ein RAID6 erstellt habe. Das ist performance-mäßig sicher nur suboptimal, aber es geht mir in erster Linie um Sicherheit.

    Wir haben aber keinen Support-Vertrag mit DELL - oder so. Wir haben nur einen normalen Rahmenvertrag zur Hardware-Beschaffung. Nur gleich schon mal zu Beginn gesagt. In so fern ist das mit der Ersatzteil-Beschaffung vermutlich eh alles schwierig...

    Viele Grüße

    Kevin

  • Hm ok dann scheint da noch mehr im Argen zu sein. Ich habe dir im Hintergrund schon Kontakt zu einem Kollegen hergestellt. 

    Dadurch das dein Server vor dem 28.10.2008 gekauft wurde, hast du Anrecht auf "Lebenslangen" Telefonischen Support. Die Ersatzteile sind natürlich kostenpflichtig aber wir checken jetzt einfach mal über die Hotline Kollegen intensiver was da los ist. 

    Ich denke mal, dass wir damit besser fahren :) 

    Wenn wir rausgefunden haben was es ist, geben wir das Ergebnis einfach an die Community weiter. 

  • Hallo nochmal :)

    Ich habe nun das OS neu installiert, zumindest SNMP funktioniert nun wieder.
    Nach zwei Festplatten, die ich nun nochmal Umstecken musste, gab es dann jedoch wieder sofort die Backplane Probleme, die nun auch der OMSA-SNMP-Agent gemeldet hat: "Enclosure 0:0:0 [Backplane] on controller 0 is Degraded" kam z.B. als ich in den 4. Slot (also 0:0:3) eine HD eingesteckt habe. Der Fehler ging auch nicht mehr weg, auch nicht, nachdem ich die Festplatte wieder entfernt habe.

    OMSA ist auch immer noch fehlerhaft und bringt den ganzen Server zum Abstürzen, sobald ich eine neue virtuelle HD erstelle, z.B. auf einer anderen Festplatte, die nicht gleich mit "Bad PHY" gemeldet wird. Hier habe ich mal ein zwei Screenshots mit dem Handy gemacht:

    Vermutlich sollte ich irgendwas austauschen, richtig? Gleich den gesamten Server oder kann man es nochmal mit der Backplane versuchen?

    Kann man so eine Backplane einfach wie eine PCI-Karte austauschen oder läuft das inzwischen wie beim Auto, dass so eine Karte erst per Diagnose-Gerät am System angemeldet werden muss?

    Viele Grüße

    Kevin

  • Noch eine letzte Info:

    Backplane und PERC5 sind beide nun getauscht, die "Bad PHY"-Meldung ist verschwunden. Es lag also daran.

    OMSA funktioniert aber weiterhin nicht, der Server stürzt immer ab. Die Screenshots von obigem Post sind noch aktuell.
    Und das obwohl ich ja 12.04 LTS auf dem Server habe, welches ja auf der Seite http://linux.dell.com/repo/community/ubuntu/ empfohlen wird.

    Ich bin ratlos...

  • Endlich funktioniert alles.

    Der DELL Telefon-Support hat mit eine Boot-CD bereit gestellt, die jegliche Firmware auf dem Server auf Vordermann bringt und updatet, falls erforderlich. Nach ich dies ausgeführt habe, funktioniert auch OMSA wieder Smile

    Dieses Thema kann nun geschlossen werden. Alles ist gelöst.