Ausfallbilanz Rechenzentren 2021

Ursachen und Auswirkungen von RZ-Ausfällen

© marcus_hofmann - AdobeStock

Das Uptime Institute befragt regelmäßig internationale Datacenter-Betreiber nach Umfang, Ursachen und Auswirkungen von Ausfällen in ihren Rechenzentren (RZ).

Nach ihrem bemerkenswertesten Ausfall in den letzten drei Jahren befragt, gaben 31 Prozent der teilnehmenden Datacenter-Betreiber an, in diesem Zeitraum überhaupt keinen Ausfall verzeichnet zu haben (eine Verbesserung gegenüber dem Vorjahreswert um 22 Prozent). Die 69 Prozent der Befragten, die von Ausfällen betroffen waren, klassifizierten deren Schwere folgendermaßen: Geringfügig waren 30 Prozent, minimal 26 Prozent, erheblich 24 Prozent, schwerwiegend zwölf Prozent und kritisch acht Prozent. Insgesamt ließen sich 2021 mehr als die Hälfte (56 Prozent) aller Betriebsunterbrechungen schnell und unauffällig ausräumen. Allerdings zogen die übrigen 44 Prozent der Ausfälle negative Folgen für die Reputation und erhebliche finanzielle Schäden nach sich.

Es zeigte sich, dass die Kosten für Ausfälle in den letzten Jahren stetig gestiegen sind. 2021 gaben 39 Prozent der Befragten an, dass die wegen ihrer Ausfälle entstandenen Kosten unter 100.000 Dollar liegen. Bei 47 Prozent bewegten sie sich aber zwischen 100.000 und einer Million Dollar, bei 15 Prozent sogar über einer Million Dollar. Beachtlich ist hier, dass es jedes Jahr einige wenige große Ausreißer gibt, die so kostspielig sind, dass sie das Gesamtbild verzerren können, weil sich die damit verbundenen Kosten auf mehrere Millionen oder sogar auf zweistellige Millionenbeträge summieren.

Nach den Hauptursachen für größere Ausfälle befragt, gaben 43 Prozent der Datacenter-Betreiber Probleme mit der Stromversorgung an. Drei weitere Ursachen schlagen mit jeweils 14 Prozent zu Buche: Ausfälle des Kühlsystems, Software-/IT-Systemfehler und Netzwerkprobleme. Alle anderen Ausfallursachen sind selten, obwohl die Häufigkeit von Problemen bei Drittanbietern schleichend zunimmt – beispielsweise bei Software-as-a-Service-, Hosting- oder Public-Cloud-Angeboten.

Das Uptime Institute befragte Datacenter-Betreiber auch, ob sie in den vergangenen Jahren Ausfälle hatten, in denen menschliches Versagen eine Rolle spielte. Dies verneinten 21 Prozent der Befragten. Bei den übrigen 79 Prozent verteilten sich die Ursachen. 48 Prozent gaben als Grund eine fehlerhafte Ausführung durch RZ-Angestellte an, 41 Prozent unpassende Mitarbeiterprozesse, 36 Prozent Probleme bei der Inbetriebnahme, 22 Prozent Versäumnisse bei der RZ-Planung, 20 Prozent Probleme mit der vorbeugenden Wartung sowie 18 Prozent unzureichendes Personal an (Mehrfachnennungen waren hier möglich).

Immer mehr Unternehmen verlagern Anteile ihrer IT-Arbeitslasten in die Public Cloud und machen sich damit abhängig von den Maßnahmen, die Cloud-Anbieter für Ausfallsicherheit ergreifen – zum Beispiel im Hinblick auf Architektur, Verfügbarkeit oder Management-Prozesse. Das Uptime Institute befragte diese Unternehmen nach der Transparenz ihrer Cloud-Anbieter. Dass unternehmenskritische Arbeitslasten zunehmend in öffentlichen Clouds lagern, legt bereits nahe, dass diese Cloud-Nutzer das Maß an Transparenz für ausreichend halten. Ein Viertel der Befragten zögert allerdings, kritische Arbeitslasten in öffentliche Clouds zu verlagern – würde dies aber wahrscheinlich tun, wenn die Transparenz rund um die Ausfallsicherheit größer wäre.

Wenn Unternehmen die Ausfallrisiken für ihre eigenen Rechenzentren oder für die Services ihrer Datacenter-Dienstleister reduzieren wollen, müssen sie sich zunächst einen möglichst objektiven und systematischen Überblick über die konkreten Services und die damit verbundenen Risken verschaffen. Dies ist schon aus der Innenperspektive des RZ-Betreibers oft schwierig. Wichtige Risikofaktoren und Schwachstellen zum Beispiel in der RZ-Anlage, bei der Infrastruktur oder in den Verfahren und Prozessen werden leicht übersehen. Daher lohnt es sich, spezialisierte Dienstleister hinzuzuziehen. Im Idealfall bewerten diese Dienstleister die Risiken nach standardisierten neutralen Verfahren und gelangen so zu einer klaren Einschätzung und Klassifizierung. Denn Schäden im zweistelligen Millionenbereich wollen Rechenzentrumsbetreiber naturgemäß ebenso dringend vermeiden wie ihre Nutzer.

Zuerst erschienen auf lanline.de.


Das könnte Sie auch interessieren

Verwandte Artikel

ICT CHANNEL

Datacenter