Host stürzt komplett ab, PowerEdge R710, vSphere ESXi 6

PowerEdge Server - Allgemeine Hardware

PowerEdge Server - Allgemeine Hardware
Diskutieren Sie mit uns über PowerEdge Server und System Management Praktiken

Host stürzt komplett ab, PowerEdge R710, vSphere ESXi 6

This question is not answered

Hallo,


ich habe ein Problem mit unserem Dell PowerEdge R710 (mit vSphere 6).

Zur Zeit schmiert uns oft der komplette Host ab. Es ist keine VM mehr erreichbar (aber sie sind anscheinend noch angeschalten) und der Web Client funktioniert auch nicht mehr. Zugriff auf die Maschine ist dann nur noch über den iDrac6 möglich. Bei anschließendem Versuch hochzufahren erscheint ein lila Fehlerbildschirm.

Der nächste Neustart funktioniert dann..

Dies passiert z.B. immer wenn wir unser Veeam Backup auf diesem Host starten. Aber auch im Normalbetrieb passiert dies gelegendlich. Wir haben den Verdacht, dass es immer dann passiert wenn eine zu hohe Last auf der Onboard Netzwerkkarte besteht.

Nach einer Hardwaredignose mit den Dell System Services erscheint folgender Fehler:

Ist es möglich das ein Hardwaredefekt bei der Netzwerkkarte oder beim Motherboard unser Problem ist?

Danke

freundlicher Gruß

Max Hauser

All Replies
  • Hallo Max,

    bitte stell erst einmal sicher, dass das System up2date ist. Wenn nicht, bitte Firmware und BIOS aktualisieren.

    Ein fertiges bootbares Update-Repository für den R710 findest du hier DOWNLOAD

    VG,
    Stefan

  • Hallo Stefan,

    Unser Host hat einen LifeCycleController.

    Sind in dem ISO file neuere bzw. andere Treiber vorhanden, wie die wo der LifeCycle Controller findet?

    freundlicher Gruß

    Max Hauser

  • Hi Max,

    generell sind es die gleichen Versionen.

    Aber manchmal kann keine Verbindung zum FTP aufgebaut werden, dann ist das ISO Gold wert ;)

    VG
    Stefan

  • Hallo stefan,

    also die Treiber der Maschine sind jetzt auf dem neusten Stand.

    Der Fehler tritt aber immer noch auf. Wir vermuten das eine Hardwarekomponente defekt ist..

    Gruß

    Max

  • Hallo Max,

    in diesem Fall bitte ich dich darum mir einen DSET vom System zu erstellen und an DellHilftPro zu schicken.

    Einen DSET erstellen: DSET erstellen mit dem Support Live Image (SLI)

    Dann kann ich mehr zum Fehler sagen.

    Danke und Gruß
    Stefan

  • Hallo Max,

    DSET ist angekommen und ausgewertet.
    Die onBoard NIC bringt die benannten Fehler. Dies kann jetzt entweder ein Treiber- oder Hardwareproblem sein.

    Den aktuellen ESXi 6.0 treiber für die Broadcom NetXtreme II findest du direkt bei vmWare. Bitte installiere diesen noch, um sicherzustellen, dass es sich nicht um einen Treiberfehelr handelt.

    Tritt auch mit dem aktuellen vmware Treiber der Fehler auf muss das Mainboard getauscht werden.

    VG,
    Stefan

  • Hey,


    auf der vmWare Seite die du mir geschickt hast, sind extrem viele Treiberversionen. Welche von denen muss ich benutzen.

    unsere Treiberversion ist die 7.10.18


    Danke

    Gruß Max

  • Hi Max,

    schick mir mal bitte den Auszug von: esxcli software vib list

    Dann sehen wir die genaue Version.

    VG
    Stefan

  • wir haben den Befehl mal ausprobiert

    Hier ist das Ergebniss:

    6825.softwareviblist.txt

    wie finde ich raus welche Zeile die Netzwerkkarte ist?

    Danke

    Gruß Max

  • Hab die datei noch mal in einem besseren Format angehängt. (einfach in .csv umbennenen)6443.softwareviblist.txt

    Ausserdem habe ich noch den Befehl

    hardware pci list

    eingegeben und das Ergebniss angehängt, falls das hilft:

    hardwarepcilist.txt

    Gruß Max

  • Hallo Max,

    haben die Dateien jetzt ausgewertet. Die Treiber sind auf dem aktuellen Stand und sollten nicht für den Fehler verantwortlich sein.

    Da der Fehler immer auf die onboard Netzwerkkarte zeigt wäre nun ein Austausch des Mainboards der nächste Schritt.

    VG
    Stefan

  • Hey Stefan,


    also wir haben am Freitag das Mainboard ausgetauscht.

    Bis jetzt ist der Fehler nicht nochmal aufgetreten. Wir werden das ganze jetzt mal wieder ein bisschen belasten und ca. 2 Wochen laufen lassen.

    Hoffentlich tritt der Fehler nicht wieder auf...

    Vielen Dank ich melde mich dann nochmal ob der Fehler wieder auftritt.

    Gruß Max

  • Hi Max,

    bin aus dem Urlaub zurück und erfreut zu lesen, dass der tausch des Mainboards geholfen hat.
    Das Log zeigte keine anderen Fehler an - dieser Fehler sollte also nicht wieder auftreten :)

    VG
    Stefan