Es ist Sommer und da sind so manche Temperatur-bedingten Probleme nicht weit.
Ein Kunde meldete sich und meinte das sein Server piept. Das fanden wir seltsam, denn das Monitoring (Server-Eye und SuperDoctor) meldeten keinerlei Probleme. Daher gingen wir auf die Suche was da los ist. Zum Einsatz kommt übrigens ein Microserver MI106+ (V3.1) von Thomas Krenn, der nicht mal zwei Jahre alt ist.
In den üblichen Logs von Windows Server, dem RAID-Controller, etc. fand sich zunächst nichts. Leicht stutzig wurde ich dann beim Blick ins BMC, während die aktuellen Messwerte alle im grünen Bereich waren, fand sich im “Health Event Log” jede Menge Einträge dieser Art:
89 2024/07/10 16:05:59 Processor(CPU Temp) Processor automatically throttled - Assertion 90 2024/07/10 16:05:59 Processor(CPU Temp) Processor automatically throttled - Deassertion
Wie man sieht gibt es teilweise zwischen den Meldungen keine Sekunde Differenz. Andere Einträge waren dann mal eine bis zehn Sekunden auseinander. Kurzum: Alles nicht wirklich lange bzw. sogar so kurz, das man es beim Monitoring nicht mal mitbekommt.
Bei einem kurzfristig stattgefundenen Vor-Ort-Termin zeigte sich dann, das bei jedem Piep ein Protokolleintrag dazu kam. Es piept übrigens einmal kurz und einmal lang. Welcher Ton zu welchem Eintrag gehört kann ich allerdings nicht sagen.
Zum Zeitpunkt als ich vor Ort war hatte der Server bei 40% Prozessor-Last 85°C CPU-Temperatur. Beim Öffnen der Serverschranktür kam einem erstmal ein Schwall warme Luft entgegen, gefühlt 35°C oder mehr, bei 27°C Raumtemperatur. Der Schrank ist leider nicht aktiv belüftet. Der Server fühlte sich ebenfalls warm an, schätzungsweise 40°C Gehäusetemperatur. Übrigens: Das Ganze steht leider nicht in einem klimatisierten Serverraum, kleinere Büro-Umgebung umschreibt es am Besten. Kurzum: Die Umgebung spielt bei der ganzen Geschichte wohl auch eine Rolle.
Der Support von Thomas Krenn ist übrigens die ganze Zeit über mit eingebunden. Hier gab es recht früh bereits den Hinweis auf ein zusätzliches Lüfter-Kit für das genannte Modell, welches zwei zusätzliche 40mm Lüfter und einen besseren CPU-Kühler mitbringt.
Sofort-Maßnahmen
Bei den zuvor genannten klimatischen Bedingungen war klar, das etwas Abkühlung her musste, so wurde zunächst der “Fan Mode” auf “Full Speed” geändert, was nichts brachte, und so wurde eine Seitenwand des Schranks entfernt (an die Andere kommt man nicht ran) und die Seitenwände des Servers abgenommen. Zack, 14°C weniger CPU-Temperatur. Zur Sicherheit wurde die Firmware des BMC mal aktualisiert, was leider nichts änderte. Ein BIOS-Update steht ebenfalls zur Verfügung, aber sowas kann man nicht mal schnell im laufenden Betrieb installieren. Wie sich im Laufe der nächsten Stunden zeigen sollte, war das allerdings noch nicht alles.
Am Abend (beim täglichen AV-Scan) und über Nacht (bei der Datensicherung) gab es dann wieder jede Menge Log-Meldungen. Ausgestanden ist die Sache also noch nicht.
Eine mögliche Ursache
Das die Umgebung kühler werden muss ist klar und wird geklärt.
Vermutlicher Auslöser dieser Meldungen ist wohl der Turbo Boost des Prozessors (hier Intel Xeon E-2236) in Verbindung mit dem Supermicro X11SCL-iF-Mainboard. Der Prozessor darf kurzzeitig übertaktet werden und erreicht so auch mal sein Limit von 100° C oder kurz auch mal mehr. In diesem Fall gibt es dann offenbar gleich eine Warnung und es greift dann wohl gleich die Drosselung und so kommen die Meldungen zu Stande. Vermutlich ist Supermicro hier etwas überempfindlich. Ganz unbekannt ist das Ganze wohl nicht:
Motherboard Point – Supermicro H11DSi IPMI error, “Processor automatically throttled – Assertion”
Da mal Neustarten und im BIOS schauen keine Option war wurde über die Windows-Bordmittel der Turbo Boost deaktiviert. Siehe
Thomas Krenn – Wiki – Windows CPU Turbo Boost deaktivieren
Das gilt auch (wie hier im Einsatz) für Windows Server 2022. Nach dieser Änderung sank die CPU-Temperatur um weitere gut 20°C ab, so das man nun bei um die 47°C ist. Erkauft wird die Abkühlung mit weniger Leistung. Laut der Aussage einer Mitarbeiterin sind ein paar Dinge jetzt wohl hakeliger. Ob das für Alle zutrifft müssen wir in einem Interview mal klären.
Die Seitenwände sind übrigens nach wie vor weg/offen. Spannend wird es zudem über den Abend und die Nacht, ob es wieder Meldungen geben wird oder nicht.
Warum tritt das Ganze erst jetzt auf und nicht bei den ersten Hitzewellen des Jahres oder gar im vergangenen Sommer?
Das ist eine sehr gute Frage. Ein Teil der Geschichte könnte sein, das die Wärmeleitpaste jetzt einen ticken schlechter/trockener sein könnte als am Anfang, vielleicht liegt’s aber auch an Windows (Updates) oder irgendwas anderem. Ungewöhnliche Last oder Prozesse die aus dem Ruder laufen haben wir keine feststellen können.
An der Hardware-Umgebung (Server selbst, im Schrank, etc.) hat sich jedenfalls seit längerer Zeit nichts geändert. Der Wärme-/Hitzestau im Schrank und ggf. im Server muss natürlich behoben werden.
Wie geht es weiter?
Aktuell klären wir mit allen Beteiligten ab, wie es weiter gehen kann. Angebote für das erwähnte Lüfter-Kit sowie eine Schrank-Belüftung liegen bereits vor. Das BIOS-Update steht noch aus, mal sehen wann wir das machen können und wie es danach aussieht. Ich werde berichten.
Danksagung
Vielen Dank einmal mehr an den schnellen Support von Thomas Krenn.
Update 12.07.2024 – 09:45
Seit der Veröffentlichung des Beitrags gab es keine Meldungen mehr. Wir planen aktuell das BIOS-Update über das Wochenende durchzuführen. Mal sehen ob sich durch dieses und dem anschließenden Re-Aktivieren des Turbo Boosts etwas ändert.
Update 12.07.2024 – 14:45
So, geschafft, das BIOS-Update ist drauf, die Show hat bis hier hin zwei Stunden gedauert. Das ging via SuperDoctor fast gut, allerdings durch das Zurücksetzten der BIOS-Einstellungen musste erst einiges wieder konfiguriert werden damit der RAID-Controller richtig erkannt und der Windows Server 2022 richtig booten konnte. Als weitere Überraschung kamen dann Meldungen von der RAID-Controller-Software hinsichtlich eines angeblichen Firmware-Fehlers hoch. Hier half ein Update des RAID-Controller-Treibers. Ebenfalls doof ist jetzt, das der SuperDoctor scheinbar nach jedem Neustart des Servers alle un-möglichen Fehler meldet, die aber offenbar gar nicht vorhanden sind. Im BMC und via IPMI ist alles sauber und im grünen Bereich. Ein Redetect scheint zu helfen. Zusätzlich wurde der Dienst auf verzögertes Starten gestellt. Möglicherweise ist das Ganze ja nur ein Timing-Problem beim Starten. Hoffe das bleibt jetzt ruhig.
Aktuell hat die CPU 60°C bei durchschnittlich 15-20% Last, aber zum einen sind die Seitenwände immer noch offen und zum anderen ist das Ganze im Leerlauf, da beim Kunden schon Feierabend und Wochenende ist. Mal sehen was heute Abend beim AV-Scan und über Nacht beim Backup passiert. Spannend wird es dann erst wieder ab Montag.
Update 16.07.2024 – 11:32
Das BIOS-Update hat dahingehend geholfen, das offenbar die Temperatur schneller wieder runter geht. Das ursprüngliche Thema mit den Log-Meldungen und dem Gepiepe ist nicht gelöst. So oder so kommt man um bessere Lüftung nicht drum herum, hierzu ist alles notwendige bestellt und in die Wege geleitet. Über das Wochenende habe ich zudem mal sekündlich die CPU-Temperatur loggen lassen. Dort zeigte sich allerdings in der Spitze “nur” 94°C, allerdings via IPMI. Testweise wird mal direkt die CPU-Temperatur protokolliert, mal sehen wie da die Unterschiede sind und ob dort mal die 100°C Limit gerissen werden. Womöglich ist der Intervall von einer Sekunde schon zu lange. Laut obigen Forum reicht da schon 1ms aus um die Meldungen zu erzeugen.
Jedenfalls habe ich mir jenseits der besseren Kühlung etwas überlegt, wie man das Gepiepe los wird. Sobald der Umbau stattgefunden hat und/oder es etwas neues gibt folgt das nächste Update.
Update 23.07.2024
In der Zwischenzeit hat sich einiges getan, so wurde beispielsweise eine Belüftung in den Schrank verbaut die ordentlich warme Luft raus zieht, aktuell sind wir bei knapp 29° C im Schrank. Das ist zwar immer noch zu viel, aber besser als vorher. Das wir überhaupt mal Messwerte aus dem Schrank selbst haben verdanken wir einem ebenfalls neu verbauten Kentix MultiSensor.
Im Server selbst wurde das erwähnte Lüfterkit von Thomas Krenn verbaut. Das war aufgrund der Platzverhältnisse nicht ganz einfach. Wer sowas tun muss sollte Zeit und Geduld mitbringen. Damit der Server in Ruhe umgebaut werden konnte, haben wir vorab die virtuellen Maschine auf einen Leihserver von uns verschoben, so war keine Nachtschicht oder kein Wochenend-Einsatz nötig.
Anbei ein paar Impressionen:
Als etwas unorthodoxe Zusatz-Lösung habe ich dann noch den Jumper
JD1 Speaker Header (Pins 1-4: Speaker; Pins 3-4: Onboard Buzzer)
entfernt und durch ein Kabel mit externem Schalter ersetzt. So kann das Piepen bei Bedarf wieder aktiviert werden.
Die Temperatur-Entwicklung im Server ist relativ gut, aktuell sind wir bei ca. 62° C CPU-Temperatur bei rund 40% CPU-Last unterm Tag, also wenn beim Kunden gearbeitet wird. Beim AV-Scan und über Nacht beim Backup sieht das vermutlich anders aus, das wurde jetzt noch nicht explizit erfasst oder ausgewertet. Die Log-Meldungen gibt es leider immer noch, also an den Spitzen und damit dem Piepen ändert auch das Lüfterkit wenig bis nichts. Die Seitenwände des Servers als auch der Schrank sind jetzt auch wieder geschlossen.
Die Tatsache das Thomas Krenn zu diesem Server bzw. dem Chassis ein eigenes Lüfterkit liefern kann dürfte darauf beruhen, das man irgendwann (vielleicht nicht mit diesem Modell oder dieser Bestückung) doch mal Schwierigkeiten mit der Temperatur hatte. Jedenfalls ich für meinen Teil finde es gut, das man sich da Gedanken gemacht hat und eine bessere Lösung gefunden hat.
Verheiratet, Vater von zwei Kindern, eines an der Hand, eines im Herzen. Schon immer Technik-Freund, seit 2001 in der IT tätig und seit über 10 Jahren begeisterter Blogger. Mit meiner Firma IT-Service Weber kümmern wir uns um alle IT-Belange von gewerblichen Kunden und unterstützen zusätzlich sowohl Partner als auch Kollegen.
Super Artikel! Ich fand den Beitrag total spannend und die Lösung mit dem Buzzer-Schalter echt genial. Zeigt mal wieder, dass man auch in der IT kreativ sein muss. Hut ab für die unkonventionelle Idee! Weiter so, ich freue mich schon auf die nächsten Updates!