Das kann man durchaus Pech nennen: Bei einem Kunden streikte bei einem recht neuen Server, der gerade mal sechs Monate im Einsatz ist, völlig unerwartet und ohne Vorwarnung der RAID-Controller.

An einem Mittwoch-Abend stürzte unvermittelt das System ab und bootete anschließend nur noch in die EFI-Shell. Ein Blick ins BIOS zeigte, das der RAID-Verbund nicht mehr als Boot-Medium zur Verfügung stand. Ein weiterer Blick, diesmal in den RAID-Controller, offenbarte das dieser sich im Safe Mode befindet. Verbaut ist übrigens ein Broadcom (Avago/LSI) MegaRaid 9361-4i.

Per Voreinstellung wechselt ein Broadcom-RAID-Controller in den Safe Mode, wenn er irgendein Problem hat. Soweit war dann allerdings erstmal nicht ersichtlich, was denn genau für eine Ursache anliegt. Zusammen mit dem Support des Server-Herstellers, in diesem Fall Thomas Krenn, wurde der Controller dahingehend konfiguriert das der Server wieder starten kann. Die notwendigen Schritte lauten:

  • Ins Server-BIOS gehen.
  • Zu “Advanced – AVAGO MegaRAID …” wechseln.
  • Unter “View Server Profile – Controller Management –
    Advanced Controller Properties – Boot Mode” von “Safe mode on errors” (Voreinstellung) zu “Ignore errors” ändern.
  • Den Server zu starten.

Nachdem das installierte Betriebssystem, hier ein Windows Server 2022 Standard, wieder gestartet war wurde im LSA (LSI Storage Authority) das Protokoll überprüft. Hier fand sich dann die Quelle allen Übels:

Der kritische Fehler 458 verweist auf Probleme mit dem Cache-Speicher, dieser ist bei diesem Modell fest verlötet, ergo bleibt nur der Austausch des Controllers. Dank NBD (Next Business Day)-Delivery war Ersatz schnell da.

Dadurch das Thomas Krenn Controller mit aktueller Firmware ausliefert kann man direkt zur Tat schreiten und man muss nicht erst Vorbereitungen treffen. Der Server konnte heruntergefahren und stromlos gemacht werden. Der Controller wurde gewechselt und beim nächsten Boot wurde der RAID-Verbund einfach erkannt (kein Import einer Konfiguration notwendig) und es konnte wie gewohnt weiter gehen.

Glück im Unglück das Ersatz schnell zur Hand war und das man nicht erst noch eine “Foreign configuration” oder “Foreign disks” importieren musste. Beides kann einem bei Controller-Wechseln allerdings durchaus begegnen. Weitaus aufwendiger wäre gewesen, den RAID-Verbund neu erstellen zu müssen und anschließend einen Restore bzw. ein Recovery aus dem Backup durchführen zu müssen.

Das war nach all den Jahren die ich bereits in der IT bin der erste RAID-Controller der ausgefallen ist. Ansonsten kann ich mich bislang nur ein eine defekte BBU (von Adaptec) erinnern und selbst das ist bereits Jahre her. Jedenfalls danke ich dem Support von Thomas Krenn für die schnelle und kompetente Hilfe.