Ein guter Start ins Wochenende, wobei es gibt schlimmeres, aber das sind andere Geschichten: Bei einem Kunden steht ein Wortmann Terra Miniserver G3 inkl. Adaptec 8405 RAID-Controller samt AFM-700. Bei eben diesem Modul, gemeint ist das AFM-700 , stieg von Freitag-Nacht auf Samstag-Vormittag die Temperatur von den bislang durchschnittlichen 33°C auf bis zu 57°C.

Ein Blick auf die restlichen Temperaturen des Servers sowie der Lüfterdrehzahlen zeigte keine Probleme, die Kühlung konnte es also schon mal nicht sein. Naheliegend war da also dass das Modul ein Problem hat. Ab 45°C wirft der maxView Storage Manager dann entsprechende Warnungen aus, ab 55°C schaltet sich das Modul ab, d.h. der Cache wird deaktiviert.

Im maxView Storage Manager ist das Ganze dann daran zu erkennen, das der RAID-Controller nicht mehr mit einem grünen Haken versehen ist und in den Details (Registerkarten “Summary” und “Properties”) entsprechende Hinweise vermerkt sind. Selbstredend sieht man jede Menge Warnungen im Protokoll.

Das Kommandozeilen-Tool “arcconf” gibt ebenfalls Probleme an:

  --------------------------------------------------------
   Controller Cache Backup Unit Information
   --------------------------------------------------------

    Overall Backup Unit Status                : Not Ready

         Backup Unit Type                     : AFM-700/700LP
         Non-Volatile Storage Status          : Ready
         Supercap Status                      : Not Ready

         -------------------------------------
         Supercap Information
         -------------------------------------
         Current Temperature                  : 55 deg C
         Threshold Temperature                : 55 deg C
         Life-time Temperature Recorded
         (Min/Max)                            : 19 deg C/ 56 deg C

         Voltage(Present/Max)                 : 4615 mV/ 5302 mV
         Life-time Max Voltage Recorded       : 5404 mV

         Current Drawn(Present/Max)           : -10 mA/ 560 mA
         Health                               : 100 percent
         Charge Level                         : 89 percent
         Estimated Life-time                  : 4 Years, 11 Months
         Serial Number                        : 12345678

         Learn Status                         : Not Ready
         Next Scheduled Learn Cycle           : 148 hours

         Present Capacitance                  : 301 farads

Einen Teil dieser Angaben findet man mitunter zusätzlich im maxView Storage Manager, allerdings im Fehlerfall nicht immer. So wurde beispielsweise die “Estimated Life-time” nicht immer angezeigt.

Um potentiellen Schaden abzuwenden wurde das Modul am Samstag-Vormittag (pünktlich zum Arbeitsbeginn des Kunden) ausgebaut.

Rein optisch ist an der Platine sowie am Kondensator nichts zu erkennen, aber wer weiß wie sich das weiter entwickelt hätte. Irgendwann wäre vielleicht der Kondensator geplatzt oder auf der Platine hätte irgendetwas das Schmoren angefangen. So gab es lediglich 15 Minuten Ausfall für das Herunterfahren, Stromlosmachen, Modul ausbauen und Neustarten des Servers.

Die erhöhte Temperatur des Moduls haben wir zudem nur deswegen mitbekommen, da im maxView Storage Manager die E-Mail-Benachrichtigung konfiguriert ist. Unguter weise sieht der Server-Eye “Raid Health for Terra”-Sensor überhaupt nichts vom AFM-700, wobei das stimmt nur zum Teil. Als das Modul ausgebaut war bekamen wir eine Meldung das es nun fehlt, das war es dann aber auch schon. Eine Anfrage hierzu läuft.

Das Ganze hat zudem nichts hiermit zu tun:

Adaptec maxView Storage Manager zeigt zu hohe Controller-Temperatur an

Update 05.02.2024 – 09:30

Vom Server-Eye-Support kam nun (sinngemäß) folgende Info:

Man sollen den Sensor “Überprüfung für Adaptec® Raid Controller” verwenden, da der andere Sensor (s.o.) nicht für das ZMM/BBU/wie auch immer man es schimpfen mag, optimiert sei.

Update 05.02.2024 – 12:30

Der Server-Eye-Support hat mich Wissen lassen, das der “Raid Health for Terra”-Sensor wohl erweitert bzw. überarbeitet wird.

Update 08.02.2024 – 09:27

Heute gab es einen Termin mit “Mr. Sensor” (Hallo Patrick). Offenbar gibt es da gleich mehrere Punkte:

  • Zum einen gilt die Einstellung “ignoriere fehlende Batterie” nicht wie beschrieben (“Geben Sie hier an ob Sie eine fehlende Batterie ignorieren wollen. Diese Einstellung betrifft nur LSI/MegaRaid Controller.”) nur für LSI/Broadcom-Controller, sondern wohl auch für Adaptec/Mirosemi.
  • Zum anderen hat wohl man wohl bei neueren Versionen des maxView Storage Managers Begrifflichkeiten geändert.
  • Als weiteres stimmt wohl etwas mit der Auswertung der Events nichts.

In Folge konnte der Sensor das hier eingetretene Ereignis gar nicht (richtig) mitbekommen. Jedenfalls wird das Ganze entsprechend überarbeitet und dann sollte das wieder gut sein.

Update 08.02.2024 – 12:21/17:39

Es gibt bereits einen (ersten) Hotfix. Im Sensor wird, sofern das Modul verbaut ist, der Status angezeigt:


Entsprechende Ereignisse sollten Alarme auslösen.