Broadcom (Avago/LSI) MegaRAID-Controller austauschen

Das kann man durchaus Pech nennen: Bei einem Kunden streikte bei einem recht neuen Server, der gerade mal sechs Monate im Einsatz ist, völlig unerwartet und ohne Vorwarnung der RAID-Controller.

An einem Mittwoch-Abend stürzte unvermittelt das System ab und bootete anschließend nur noch in die EFI-Shell. Ein Blick ins BIOS zeigte, das der RAID-Verbund nicht mehr als Boot-Medium zur Verfügung stand. Ein weiterer Blick, diesmal in den RAID-Controller, offenbarte das dieser sich im Safe Mode befindet. Verbaut ist übrigens ein Broadcom (Avago/LSI) MegaRaid 9361-4i.

Per Voreinstellung wechselt ein Broadcom-RAID-Controller in den Safe Mode, wenn er irgendein Problem hat. Soweit war dann allerdings erstmal nicht ersichtlich, was denn genau für eine Ursache anliegt. Zusammen mit dem Support des Server-Herstellers, in diesem Fall Thomas Krenn, wurde der Controller dahingehend konfiguriert das der Server wieder starten kann. Die notwendigen Schritte lauten:

  • Ins Server-BIOS gehen.
  • Zu “Advanced – AVAGO MegaRAID …” wechseln.
  • Unter “View Server Profile – Controller Management –
    Advanced Controller Properties – Boot Mode” von “Safe mode on errors” (Voreinstellung) zu “Ignore errors” ändern.
  • Den Server zu starten.

Nachdem das installierte Betriebssystem, hier ein Windows Server 2022 Standard, wieder gestartet war wurde im LSA (LSI Storage Authority) das Protokoll überprüft. Hier fand sich dann die Quelle allen Übels:

Der kritische Fehler 458 verweist auf Probleme mit dem Cache-Speicher, dieser ist bei diesem Modell fest verlötet, ergo bleibt nur der Austausch des Controllers. Dank NBD (Next Business Day)-Delivery war Ersatz schnell da.

Dadurch das Thomas Krenn Controller mit aktueller Firmware ausliefert kann man direkt zur Tat schreiten und man muss nicht erst Vorbereitungen treffen. Der Server konnte heruntergefahren und stromlos gemacht werden. Der Controller wurde gewechselt und beim nächsten Boot wurde der RAID-Verbund einfach erkannt (kein Import einer Konfiguration notwendig) und es konnte wie gewohnt weiter gehen.

Glück im Unglück das Ersatz schnell zur Hand war und das man nicht erst noch eine “Foreign configuration” oder “Foreign disks” importieren musste. Beides kann einem bei Controller-Wechseln allerdings durchaus begegnen. Weitaus aufwendiger wäre gewesen, den RAID-Verbund neu erstellen zu müssen und anschließend einen Restore bzw. ein Recovery aus dem Backup durchführen zu müssen.

Das war nach all den Jahren die ich bereits in der IT bin der erste RAID-Controller der ausgefallen ist. Ansonsten kann ich mich bislang nur ein eine defekte BBU (von Adaptec) erinnern und selbst das ist bereits Jahre her. Jedenfalls danke ich dem Support von Thomas Krenn für die schnelle und kompetente Hilfe.

6 Kommentare

  1. Muriel

    Dein 9361-4i läuft also mit Server 2022.
    Ich habe mehrere 9361-8i und sehe, dass man bei Broadcom keine Treiber und FW mehr für die 93er bekommen kann.
    Kennst du einen Link für Server 2022 Treiber und Storage Manager?
    Danke

  2. Andy

    Wir nutzen die Treiber und Firmware die von Thomas Krenn freigegeben sind und man zu dem System im Download-Bereich findet. Gibt es auf der Broadcom-Seite nichts?

  3. Muriel

    Ich lasse mich gerne eines Besseren belehren, aber auf der Broadcom-Seite im Downloadbereich geht´s erst bei 94.. oder 95.. los. Für die 93-er Serie gibt´s nichts. Normalerweise kann man ja auch noch bei den Herstellern die Treiber und die Soft laden, die schon nicht mehr supportet wird.
    Aber wie gesagt ….

    Ich bin nun also auf der Krenn-Seite fündig geworden und gehe nun davon aus, dass diese Treiber, FW und Softw. auch für Server 2022 funktioniert. Ist das richtig so?

  4. Andy

    Der Server läuft seit Anfang 2022 mit Ausnahme dieses RAID-Controller-Defekts einwandfrei.
    Die neuesten bei TK verfügbaren Treiber (06.714.18.00 – MR 6.14) laufen bislang ebenfalls ohne Probleme.
    Interessant ist, das diese bereits 2019 freigegeben wurden und in den Details ist da nur die Rede von Windows Server bis 2019.
    Das System, also Hardware und OS, wurden von TK zu zusammengestellt. Ich gehe einfach mal davon aus, das Sie Wissen was sie tun.
    Ansonsten, das System hat noch 33 Monate Garantie.

  5. Muriel

    Danke für die Infos. Ich werde das mal in einer Testumgebung mit Server2022 laufen lassen.
    Ansonsten sind die LSI – Avago und nun Broadcom Megaraids seit mehr als 7 Jahre super gelaufen ohne Probleme.

    Danke auch für den Workaround Bios im Prob.-Fall !

  6. Muriel

    Hier vom Support Broadcom der Link zu den 9361er.

    https://www.broadcom.com/support/download-search?pg=Legacy+Products&pf=Legacy+RAID+Controllers&pn=MegaRAID+SAS+9361-8i&pa=All&po=&dk=&pl=

    Wird aber von Broadcom weitergegeben als “versuchen Sie´s mal mit diesen assets”, weil EOL – End of Live

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

© 2024 Andy's Blog

Theme von Anders NorénHoch ↑