-- WEBONDISK OK --

08Z01 Das Zero-Outage-Programm der T-Systems – Hochverfügbarkeit für alle Kunden

Zero Outage ist ein ganzheitliches Programm, das notwendig ist, um ein erforderliches Höchstmaß an Qualität im ICT-Bereich zu etablieren. Dies ist wiederum die Voraussetzung dafür, den Schritt in das digitale Zeitalter zu absolvieren und dort erfolgreich agieren zu können.
Der Beitrag erläutert die Gründe, die bei T-Systems zur Entwicklung und zum Aufbau dieses tiefgreifenden Systems zur Qualitätssicherung geführt haben. Die Standardisierung wird als Ausweg beschrieben, um den wachsenden Anforderungen zu begegnen und einen störungsfreien ICT-Betrieb zu gewährleisten. Dabei wird deutlich, dass die zu bewältigende Aufgabe nicht beschränkt auf das eigene Unternehmen gesehen werden kann, sondern auch die Dienstleister und Kunden – im Grunde eine ganze Branche – mit einschließt.
Zero Outage definiert dazu die Rahmenparameter für das optimale Zusammenspiel von Personal, Prozessen und Plattformen. Im Beitrag erfahren Sie, wie sie bei T-Systems ineinanderwirken.
von:

1 Einleitung: Ohne ausfallsichere IT keine digitale Transformation

Ziel: zuverlässige ICT
Eine zuverlässige Informations- und Telekommunikationstechnik (ICT) ist die Grundlage für die erfolgreiche digitale Transformation. Das gilt für den eigenen IT-Betrieb wie für ICT-Dienstleistungen, die von einem Service Provider bezogen werden. Die Geschäftsfähigkeit und damit die gesamte Existenz von Unternehmen hängen heutzutage davon ab.
Unternehmen, die es verabsäumen, eine nachhaltig ausfallsichere ICT aufzubauen, drohen massive Probleme. Das Marktforschungsunternehmen Gartner prognostizierte bereits 2013, dass bis zum Jahr 2017 ein Viertel aller Unternehmen vom Markt verschwinden wird, wenn die für die digitale Transformation notwendigen qualitativen Voraussetzung nicht erfüllt werden können – Stichwort „digitale Inkompetenz” [1]
3-P-Prinzip
Qualität in der ICT sicherzustellen ist jedoch eine aufwendige Managementaufgabe. Unzählige Komponenten müssen jederzeit reibungslos zusammenspielen, damit etwa Produktion oder Vertrieb störungsfrei arbeiten können. Dafür braucht es klare Standards: für die Prozesse, für die technischen Plattformen und bei der Ausbildung des Personals („3-P-Prinzip”). Diese Standards müssen nicht nur eingeführt und umgesetzt, sondern auch konsequent aufrechterhalten werden.
Sinn für Dringlichkeit
Neben diesen Standards sind auch die ständige Wachsamkeit der Mitarbeiter und ein Sinn für Dringlichkeit („sense of urgency”) von entscheidender Bedeutung. Denn menschliches Fehlverhalten ist und bleibt die häufigste Ursache für Stör- und Ausfälle. Hier hilft nur ein ganzheitlicher Ansatz, der die Belegschaft systematisch für das Thema Qualität sensibilisiert und sicherstellt, dass sich jeder Mitarbeiter einer Null-Fehler-Kultur verpflichtet fühlt.
Das Qualitätsdenken darf an den Unternehmensgrenzen nicht haltmachen, denn Unternehmen jeder Größe und Branche arbeiten industrieübergreifend zusammen. Damit gibt es immer mehr Schnittstellen und immer mehr Reibungspunkte. Wenn nicht jede beteiligte Organisation dasselbe hohe Qualitätsverständnis hat und aufrechterhält, drohen fehlerhafte Produkte und Ausfälle.
Null-Fehler-Prinzip
Die notwendige reibungslose Zusammenarbeit kann nur funktionieren, wenn es einen gemeinsamen Qualitätsstandard gibt. Daher braucht die ICT-Branche ein Ökosystem, das sich dem Null-Fehler-Prinzip verpflichtet und gemeinsame Regeln für das Qualitätsmanagement verfolgt – mit Zero Outage lassen sich diese Ziele optimal verfolgen.
T-Systems hat mit Zero Outage bereits im Jahr 2011 ein ganzheitliches Programm zur Qualitätssicherung beim Betrieb von ICT-Services eingeführt. Das Ziel: möglichst wenig Downtime für höchstmögliche Geschäftsfähigkeit seiner Kunden im digitalen Zeitalter.

2 Qualität als wichtigstes Entscheidungskriterium

Qualität wichtigstes Kriterium
Dass die Bedeutung von Qualität bei erbrachten Dienstleistungen gerade im Zeitalter der Digitalisierung besonders groß ist, veranschaulichen zahlreiche Studien. So geben zwei Drittel der im Jahr 2015 durch das Beratungshaus PwC befragten Unternehmen an, dass Qualität mit 84 % das wichtigste Kriterium bei der Wahl des Service-Anbieters ist. Damit kommt Qualität weit vor finanziellen Überlegungen (58 %) [2]. Die Information Services Group (ISG) hat zudem herausgefunden, dass IT-Qualität „sehr häufig” bis „immer” bei der Entscheidungsfindung für Unternehmen eine Rolle spielt. Dabei ist insbesondere die generelle Performance unter anderem im Sinne von stabilen Prozessen und zukunftsfähigen Services ein wichtiger Faktor [3].

2.1 Jeder Ausfall kostet Geld

Die zunehmende Digitalisierung erhöht den Druck auf die IT-Abteilungen in Unternehmen aller Branchen. Die gesamte Telekommunikation, Systeme der Rettungsdienste, Logistik von Post, Transportunternehmen, der Handel, die gesamte Finanzwirtschaft und vieles mehr sind heute abhängig von einer störungsfreien IT.
Kleiner Störfall – große Wirkung
Je mehr Plattformen und Prozesse miteinander vernetzt sind, desto mehr steigen die Abhängigkeiten und desto wahrscheinlicher wiederum treten Störfälle, also Incidents, auf. Diese Incidents – selbst die kleinsten – können schwerwiegende Auswirkungen haben bis hin zu einem kompletten Ausfall eines businesskritischen Service.
Millionenverluste
Jeder Ausfall kostet bares Geld: Mehr als 37 Millionen Mannstunden verlieren allein europäische Unternehmen mit über 50 Mitarbeitern durch IT-Ausfallzeiten und die Wiederherstellung von Daten – und das pro Jahr. In vielen Bereichen führt heute selbst ein kurzzeitiger Ausfall von IT-Systemen zu hohen finanziellen Verlusten bei den betroffenen Unternehmen und Einrichtungen. Apples App Store war 2015 aufgrund technischer Probleme elf Stunden nicht erreichbar. Das Unternehmen hat dabei 2,2 Millionen Dollar Verlust verkraften müssen, und das pro Stunde. Auswirkungen dieser Art sind keine Ausnahme, sondern eher die Regel.
Um die hohen Qualitätsanforderungen des heutigen Geschäftslebens an die IT erfüllen zu können, braucht es also eine Strategie, die einerseits die Zahl der Incidents möglichst niedrig hält und andererseits Störfälle schnellstmöglich behebt. Diese Erfolgsstrategie hat einen Namen: Zero Outage.

2.2 Zero Outage: Auf dem Weg zum Null-Fehler-Prinzip

Zero Outage ist der Inbegriff dessen, wie sich eine Organisation im Hinblick auf eine systematische und effiziente Bearbeitung qualitätsrelevanter Aufgabenstellungen verhält – mit dem Ziel, die Qualität kontinuierlich zu steigern. Zero Outage betrifft daher den Betrieb von Telekommunikation und IT, die Lieferung von Services und die Durchführung von Projekten sowie die Optimierung der Kundenschnittstelle und die Einbindung weiterer ICT-Lieferanten. Wichtig dabei ist: Zero Outage bezieht auch das Verhalten aller Mitarbeiter einer Organisation mit ein – vom Topmanagement bis zum Mitarbeiter an der Basis.
Der von TÜV Rheinland zertifizierte Zero-Outage-Dienstleistungsprozess umfasst Maßnahmen auf allen Ebenen – von modernsten Plattformen über reibungslose, global einheitliche Prozesse mit kurzen Entstörzeiten bis hin zu speziell ausgebildetem Personal. Denn: Erst ein optimales Zusammenspiel von Mensch und Technik ermöglicht eine stabile und sichere ICT.
Präventiv handeln
Die wichtigste Grundlage von Zero Outage ist dabei immer ein übergreifendes und proaktives Risikomanagement. Es gilt das Motto: Prävention statt Reaktion. Es geht nicht nur darum, der Schnellste zu sein, um im Falle eines Falles das Feuer zu löschen, sondern Risiken vorher zu sehen, den Plan B und C vorab zu entwickeln und so zu verhindern, dass der Brandherd überhaupt erst entsteht. Einer flächendeckenden Qualitätssicherung schon in der Planungsphase von Changes oder Projekten bzw. einem allgemein hohen Standardisierungsgrad von Prozessen und Technologie kommt dabei eine große Bedeutung zu.
Wo ist Handlungsbedarf?
Doch woher weiß man, an welcher Stelle man präventiver werden muss und kann? Im Rahmen des Zero-Outage-Programms wurden zunächst knapp 300 Risiken identifiziert, diese in 40 Cluster unterteilt und daraus schließlich konkrete Maßnahmen abgeleitet. So sind spezifische Regelungen sowie Handlungsanweisungen für verschiedene Störfälle entstanden, beispielsweise im Fall defekter Systemkomponenten, für Netzwerk-, Strom- oder VoIP-Ausfälle oder auch Incidents während eines Change. Dieser sogenannte Bebauungsplan bildet die Grundlage für das Qualitätsmanagement bei T-Systems: In regelmäßigen Abständen analysiert ein Expertenteam anhand festdefinierter Kennzahlen im Zusammenspiel von Vergangenheitsbetrachtungen und Extrapolation mögliche Risiken, die den störungsfreien ICT-Betrieb gefährden könnten. Aus dem Bebauungsplan werden einzelne Programme abgeleitet, denen sich gezielt eine fest definierte Programmorganisation widmet.

2.2.1 High Availability Assessment

Hochverfügbarkeit sicherstellen
Das Programm „High Availability Assessment” ist bereits seit 2013 fester Bestandteil des übergeordneten Bebauungsplans und fokussiert sich auf die Sicherstellung von Hochverfügbarkeit der Systeme innerhalb der Infrastrukturen. Hochverfügbarkeit bezeichnet die Fähigkeit eines Systems, trotz Ausfalls einer seiner Komponenten den Betrieb zu gewährleisten und aufrechtzuerhalten [4]. Mittlerweile haben wir ein so großes Vertrauen in unsere Produkte, Methoden und Prozesse, dass wir gegenüber unseren Kunden für angebotene Services Verfügbarkeiten von bis zu 99,99 % p. a. (per anno) garantieren. Das bedeutet, dass wir bereits bei einer Nichtverfügbarkeit von mehr als sieben Stunden im Jahr unser Kundenversprechen nicht mehr einhalten würden.
Redundanz gewährleisten
Trotz des Einsatzes georedundanter Leitungen zu Kundenproduktionsstandorten außerhalb unserer Rechenzentren und des Einsatzes redundanter physischer und virtueller Strukturen innerhalb unserer Rechenzentren muss sichergestellt werden, dass bei einem Ausfall der Komponenten die redundante Seite die Funktion der defekten Komponente übernimmt – und dies möglichst unterbrechungsfrei bzw. mit sehr geringer Wiederherstellungszeit (Recovery Time Objective, RTO).
An dieser Stelle kommt der Mehrwert des High Availability Assessment zum Tragen. Das Vorhandensein ganzheitlicher Redundanzen sowie die erfolgreiche Übernahme von Redundanzsystemen bei Ausfällen überlassen wir nicht dem Zufall.
Tests planen
Mittels Überprüfungen und Bewertungen sowie geplanten Redundanztests werden die Voraussetzungen von Hochverfügbarkeiten sichergestellt und eventuelle Schwachstellen innerhalb der HA-Lösungen identifiziert und beseitigt, sodass im Fall eines realen Ausfalls die Funktionsfähigkeit der Systeme für den Kunden gegeben ist. Wenn ein Service die geforderten Kriterien für Hochverfügbarkeit nicht erfüllt, beginnt die Diagnose und es werden Lösungen zur Sicherstellung definiert. Dabei betrachten wir den Geschäftskontext des Kunden sowie die Kritikalität des zu bedienenden Geschäftsprozesses.
Typische Beispiele für Schwachstellen können mangelhafte Verkabelungen beziehungsweise Kabelbrüche der verschiedenen Infrastrukturelemente oder Unterschiede in den Konfigurationseinstellungen der einzelnen Komponenten sein.
Beispielhafter Ablauf
Die Redundanztests werden mittels präziser Change-Planung vorbereitet und in einem mit dem Kunden vereinbarten Wartungsfenster durchgeführt. Die Wartungsfenster sind für unsere Kunden geschäftsarme Zeiten, i. d. R. am Wochenende, in denen es erlaubt ist, die Systeme herunterzufahren. Während der Redundanztests wird zum Beispiel der Ausfall einer Datenbank für das Enterprise Resource Planning (ERP) inszeniert, indem die Netzwerkverbindungen zum primären Datenbankserver durch das Herunterfahren der Ethernetports logisch getrennt werden. Dann zeigt es sich, ob die Datenbankfunktion an den sekundären Datenbankserver binnen Sekunden erfolgreich übergeben wird und die Kommunikation des sekundären Datenbankservers mit den davorliegenden Applikationsservern funktioniert. Im positiven Fall wird der Redundanztest als erfolgreich gezählt und in die High-Availability-Assessment-Bestandsdatenbank aufgenommen. Die Gültigkeit dieses erfolgreichen Testszenarios besteht, sofern nicht anders mit unseren Kunden abgestimmt, für die Dauer von einem Jahr und der Test wird nach Ablauf des Jahres wiederholt. Im negativen Fall widmen sich die Betriebsteams innerhalb des Problem Management der Ursachenforschung, um die Gründe der fehlerhaften Übernahme zu identifizieren und durch Maßnahmen, wie zum Beispiel die Anpassung der Konfiguration, zu beseitigen. Nach Planung und erfolgreicher Durchführung des Folgeredundanztests wird auch dieser als erfolgreich gewertet und entsprechend dokumentiert.
Mit diesem Vorgehen und der dahinterliegenden Methodik ist es uns gelungen, Ausfälle mit unzureichender beziehungsweise fehlgeschlagener Hochverfügbarkeit um mehr als 53 % zu reduzieren.

2.2.2 Standardisierung

Komplexität reduzieren
Klar definierte Standards bei Plattformen, Prozessen und Personal sind Voraussetzung für größtmögliche Verfügbarkeit und Zuverlässigkeit. Standardisierung führt zu einer Reduktion der Komplexität und ist ausschlaggebend dafür, Störungen zu vermeiden beziehungsweise schnell zu beheben. Gleichzeitig umfasst die Zero-Outage-Strategie die Probleme der operativen Bereiche im Detail, um daraus die richtigen Schlüsse ziehen zu können. Nur so können Verbesserungsinitiativen angestoßen werden. Auch im Projektmanagement und im Software Engineering arbeiten die Verantwortlichen nach klar definierten und vielfach erprobten Prozessen und Standards. Diese beschreiben, in welchen Phasen und Arbeitsschritten welche Ergebnisse von welchen Projektrollen erstellt werden.

2.2.3 Incident Management

Manager on Duty am roten Telefon
Ein wesentlicher Teil von Zero Outage ist das Incident Management. Das standardisierte globale Incident Management behebt einen akuten Fehler schnellstmöglich, indem es den höchstmöglichen Grad an Professionalisierung durch Wiederholung der Lösungsabläufe erreicht. Zum Incident Management gehört neben einer klar definierten Kommunikationskette und dem Festlegen verschiedener Eskalationsstufen auch ein globaler Manager-on-Duty-Service – das sogenannte „rote Telefon”. Ähnlich einem Bereitschaftsdienst sind jeweils dedizierte Vertreter aus dem Senior- oder Topmanagement gemeinsam mit einem extra abgestellten Team 24/7 für kritische Incidents erreichbar. Der Manager on Duty wird unmittelbar involviert und koordiniert als verantwortlicher Ansprechpartner alle Prozesse zur Problemlösung. Weltweit sind bei T-Systems rund 140 Führungskräfte als Manager on Duty im Einsatz und übernehmen abwechselnd die Verantwortung im Krisenfall [5].

2.2.4 Ökosystem

Partner und Lieferanten einbinden
Um Topqualität und Verlässlichkeit auf allen Ebenen Ende-zu-Ende zu gewährleisten, ist eine gute Zusammenarbeit mit Partnern und Lieferanten wichtig. Schließlich sind sie integraler Bestandteil der Prozesskette, sowohl bei der Bereitstellung der Lösungen und Services als auch im Ernstfall. Damit mögliche Störfälle schnellstmöglich behoben sowie Fehlerursachen eindeutig geklärt werden können und eine endgültige Problemlösung erfolgen kann, ist die direkte Einbindung des jeweiligen Suppliers von großer Bedeutung. Im Jahr 2013 hat T-Systems das bestehende Zero-Outage-Programm daher auf Partner und Lieferanten ausgeweitet. Rund 25 globale Toplieferanten und über 60 Access Provider sind bereits Zero-Outage-zertifiziert. Jährlich über 500 unangekündigte Ernstfallsimulationen („Fire Drills”) stellen sicher, dass die vereinbarte Qualität – sowohl bei T-Systems als auch bei den Lieferanten – Ende-zu-Ende eingehalten wird.

3 Das 3-P-Prinzip: Personal, Prozesse, Plattformen

Wie bereits erwähnt, ist das optimale Zusammenspiel von Personal, Prozessen und Plattformen unabdingbar, um eine Verfügbarkeit von 99,999 % p. a. garantieren zu können. In Abbildung 1 sind die Hauptgründe für mögliche Ausfälle in diesen drei Bereichen im Überblick dargestellt.
Abb. 1: Hauptgründe für mögliche Ausfälle

3.1 Personal: Der kritische Faktor Mensch

Hauptgrund menschliches Versagen
Der Faktor Mensch spielt eine zentrale Rolle, wenn es um Störungen im Betrieb von kritischen Systemen geht. Beispiel Flugverkehr: Bei 60 % aller Flugzeugabstürze ist menschliches Versagen der Hauptgrund [6]. Beim Betrieb von IT-Systemen ist der Prozentsatz menschlichen Versagens mit über 80 % deutlicher höher [7]. Kritische Systeme können heute derart gesichert werden, dass ein Ausfall extrem unwahrscheinlich ist – aber nur sofern der Mensch keine groben Fehler macht.
Mögliche Gründe
Kommt es zu einem Incident, bei dem menschliches Versagen die Ursache ist, sind oft folgende Gründe dafür verantwortlich:
beteiligte Personen operieren teilweise mit unterschiedlichen Begriffen, Verhaltensmustern und Prioritäten;
beteiligte Personen sind nicht entsprechend geschult (Fehlen von Know-how und Zertifizierungen);
fehlendes Gespür für Dringlichkeit (Sense of Urgency) in kritischen Situationen;
Fehler bei der Change-Implementierung und Problemlösung (kein Vier-Augen-Prinzip);
mittleres und oberes Management verfügen nicht über Details in operativen Fragen;
Hin- und Herschieben von Verantwortung (Incident Ping-Pong).
Um die beschriebenen Probleme in den Griff zu bekommen, braucht es einen ganzheitlichen Ansatz, der mit einer im gesamten Unternehmen gelebten Kultur einhergeht.

3.1.1 Etablieren einer Zero-Outage-Kultur

Um den Qualitätsgedanken erfolgreich und nachhaltig in die Unternehmenskultur zu integrieren, muss dieser in den Fokus des Wertesystems gerückt werden. Davon betroffen sind alle Unternehmensbereiche. Eine zentrale Rolle spielt bei der Verankerung des Qualitätsgedankens der Bereich Human Resources: Wenn Qualität bereits in das Recruiting als wesentliches Kriterium fest integriert wird und darüber hinaus Einfluss auf Gehaltsmodelle, Karriereplanung und Mitarbeiterbewertung hat, fließen die entsprechenden Normen und Werte in alle Abteilungen der Organisation ein.
Zero-Outage-Kultur verankern
Um eine Zero-Outage-Kultur im Unternehmen zu etablieren, spielen viele Faktoren zusammen. Als wesentliche Hebel zum Erfolg und zum nachhaltigen Verankern dieser Kultur haben sich aber folgende Maßnahmen etabliert:
„Practice what you preach”: Wenn eine Führungskraft Werte und Standards selbst vorlebt und als Vorbild auftritt, sind ihre Mitarbeiter eher gewillt, diese zu übernehmen, und verbinden sie mit dem positiven Vorbild. Eine solche Haltung ist insbesondere dann essenziell, wenn die Organisation sich auf hohe Qualitätsstandards hin ausrichten will.
Das Unternehmen hat Zero Outage als eine der Topprioritäten für das laufende und die kommenden Jahre definiert. Es gibt eine Mission, die von allen getragen, und eine Strategie, die von allen verfolgt wird.
Es gibt klare, messbare KPIs und einen Plan, was in den kommenden zwölf Monaten erreicht werden soll, ebenso wie eine langfristig ausgelegte strategische Zielsetzung. Übergreifende Ziele, wie zum Beispiel die Reduktion der Major Incidents um einen Prozentsatz X, sind in den persönlichen Zielvereinbarungen des Topmanagements und Senior Management enthalten.
Für das Gelingen eines kompletten Kulturwandels ist nicht nur ein einzelner Bereich auf Zero Outage verpflichtet, sondern alle, inklusive derer, von denen Widerstand zu erwarten ist.
Im Management Board ist wöchentlich ein Slot für das Quality Update reserviert: Der Leiter Qualität berichtet über die aktuell wichtigsten Quality KPIs und High- und Lowlights der vergangenen Woche sowie den Status wichtiger Verbesserungsprogramme. Wenn nötig, werden in dieser Runde zudem direkt Beschlüsse gefasst. Danach wird gehandelt und nachverfolgt, ob Verbesserungen eintreten – mit einer Wiedervorlage für die kommende Woche.
Aus allen Bereichen der operativen IT und unter allen Führungskräften werden zusätzlich Manager on Duty benannt. Die Manager werden ebenfalls geschult und sind im Sinne eines Rotationsprinzips nach einem Plan auch nachts und am Wochenende erreichbar – für den Störungsfall oder um zum Beispiel ein Change-Wochenende zu begleiten. So steht mit wechselnder Verantwortung zu jeder Tages- und Nachtzeit auch ein Ansprechpartner aus dem Management zur Verfügung, der mit entsprechender Eskalation die Lösungsfindung unterstützen kann.
Bei einem Major Incident steigt der Manager on Duty als Erster mit in die Telefonkonferenz ein und forciert und unterstützt die Ursachenforschung so lange, bis die Störung gelöst ist. Er lebt den Sense of Urgency für alle beteiligten Mitarbeiter vor.
Auch die Abteilungs- und Teamleiter im mittleren und unteren Management sind im täglichen Business für die Qualität verantwortlich. Ihnen steht eine Checkliste zur Verfügung, die sie bei täglichen Qualitätschecks mit dem Team unterstützt und eine Leitlinie vorgibt, wie hoch die Messlatte für die Qualität hängt.
Feedback-Kultur: Es ist wichtig, die Key Player aus den operativen Bereichen in die Weiterentwicklung der Prozessstandards und Policies mit einzubeziehen. Es sollte, wann immer möglich, auch Gelegenheit zu direktem Feedback geben. Das kann eine Fragerunde sein, die im Anschluss des Mitarbeiter-Calls stattfindet, eine anonyme Feedback-Umfrage oder auch Standortfrühstücke, bei denen die Mitarbeiter in zwangloser Atmosphäre über die Qualitätsstrategie diskutieren können.

3.1.2 Quality Academy

Trainings- und Zertifizierungsplattform
Nur Mitarbeiter, die ihre Fähigkeiten laufend trainieren, können die Organisation zum Erfolg führen. T-Systems hat daher im Jahr 2013 die sogenannte Quality Academy als einheitliche Trainings- und Zertifizierungsplattform etabliert. Sie dient als Think Tank der unternehmensweiten Wissensvermittlung rund um alle qualitätsrelevanten Prozess- und IT-Trainings. Mittlerweile sind über 20.000 T-Systems-Mitarbeiter sowie knapp 100 Top-Partner und Access-Provider zertifiziert. So wird ein einheitliches Qualitätsverständnis und Lösungs-Know-how auf allen Ebenen sichergestellt.
Auf Fachkarrieren ausgerichtet
Alle Angebote der Quality Academy sind grundsätzlich auf bestimmte Fachkarrieren ausgerichtet. Der Mitarbeiter in der Operations als Beispiel wird auf das Vier-Augen-Prinzip in der Change-Implementierung geschult. Die Projektmanagerin steigert ihr Know-how für die Quality Gates und Touchpoints in Projekten. Jeder Mitarbeiter kann für seine jeweilige Fachkarriere und Rolle speziell konfigurierte Trainingsmodule nutzen und innerhalb der sogenannten Playlist leicht zwischen einzelnen Kapiteln navigieren. Das ermöglicht ein schnelleres Durcharbeiten der Trainings bei gleichzeitig zielgruppenspezifischer Zusammenstellung der Lerninhalte. Mitarbeiter, die nur wenige Anteile in einem Prozess/Themengebiet haben, müssen so nicht ein umfangreiches Training durcharbeiten, sondern nur die Lerninhalte, die für ihre Tätigkeiten relevant sind. Auch ist es mit dieser Methode leicht, übergreifend relevante Themen zu Trainingsmodulen zu kombinieren. Das unterstützt das gleichzeitige Trainieren von Prozess- und Toolaspekten.
Abwechslungsreich und realitätsnah
Attraktive neue Formate wie Simulationen, mobile Trainings oder Game-based Learning sorgen für Abwechslung vom Einerlei der normalen webbasierten Trainings oder aufgezeichneten Unterweisungen mit unterstützenden PowerPoint-Folien. Bewährt hat sich etwa der „Flugsimulator”: Bei diesem Onlinetraining können verschiedene Szenarien und Problemfälle der täglichen Arbeit realistisch auf dem Desktop simuliert und absolviert werden, um den Mitarbeiter optimal auf den realen Betrieb vorzubereiten und somit menschliche Fehler zu vermeiden.

3.1.3 Zertifizierungen

Wissensnachweis und Indikator
Um den Wissenstand der Belegschaft im Sinne von Zero Outage nachweisbar und aktuell zu halten, spielt die Zertifizierung im Rahmen der Quality Academy eine zentrale Rolle. Die Zertifizierung ist auf der einen Seite ein wichtiger Wissensnachweis für den Mitarbeiter, auf der anderen Seite aber auch ein guter Indikator für die Führungskraft. Denn so kann diese überblicken, wie es um das Wissen im Team steht. Aus Gesamtsicht einer globalen Qualitätsorganisation ist die Zertifizierung unerlässlich, um flächendeckend Wissen zu vermitteln und neue Standards auszurollen.
Regelmäßige Wiederholung
Ein Zertifikat läuft nach 18 Monaten aus und muss erneuert werden – dies stellt die kontinuierliche Auseinandersetzung mit den aktualisierten Inhalten sicher. Gleichzeitig wird das Onboarding neuer Mitarbeiter erleichtert: Sie können die Trainings jederzeit durchführen und sich im Sinne eines „Führerscheins” zertifizieren lassen – ein wichtiges Erfolgserlebnis und zudem eine ideale Möglichkeit, den Qualitätsgedanken und das entsprechende Know-how frühzeitig zu verankern.

3.2 Prozesse: Das Gerüst eines Unternehmens

Hohe Prozessqualität unverzichtbar
Ein modernes und effizientes Geschäftsmodell basiert auf unzähligen Prozessen, die auf den verschiedenen Ebenen eines Unternehmens dafür sorgen, dass die Abläufe funktionieren. In nahezu allen Industriezweigen hängen elementare Prozesse eines Unternehmens von IT und Telekommunikation ab. Daher ist für eine maximal ausfallsichere ICT-Umgebung eine hohe Prozessqualität Ende-zu-Ende unverzichtbar. Denn stimmt die ICT-Qualität nicht, können durch einen einzigen Prozessfehler ganze Geschäftsabläufe blockiert oder gar zum Erliegen gebracht werden. So ist zum Beispiel die Betriebsstörung in einem ERP-System kaum durch manuelle Ersatzverfahren und Prozesse zu kompensieren. Die Konsequenz: der Stillstand des Geschäftsbetriebs spätestens nach wenigen Stunden.

3.2.1 Problemfelder und Lösungen

Vielfältige mögliche Ursachen
Die Ursachen, die eine Prozessstörung nach sich ziehen, sind äußerst vielfältig und können in verschiedenen Ebenen und Abteilungen der Organisation liegen:
unterschiedliche Adaptionen der vorhandenen Standards wie etwa ITIL, COBIT, PRINCE2;
wissenschaftliche, hochkomplexe und nicht praxistaugliche Prozessbeschreibungen;
keine Dokumentation der Verantwortlichkeiten oder generell fehlende Ende-zu-Ende-Verantwortlichkeiten;
Prozesse fügen sich nicht zusammen, weil Abteilungen getrennt voneinander agieren;
die Alarmierungskette startet im Incident-Fall zu spät oder funktioniert nicht durchgängig; es geht wertvolle Zeit verloren;
der Blick auf eine nachhaltige Problemlösung und Ursachenforschung fehlt; die Organisation lebt mit Workarounds weiter, die ständig neue Fehler produzieren.
Die notwendige Qualität der ICT-Systeme ist in vielen Unternehmen jedoch nicht immer gegeben. Dazu kommt, dass, wenn ein Unternehmen wächst, auch die Zahl der internen Prozesse steigt und es zunehmend schwieriger wird, alle Abläufe aufeinander abzustimmen. Normen wie ISO 27000 oder die IT Infrastructure Library (ITIL) haben den Grad der Industrialisierung in der IT-Welt zwar deutlich gesteigert, aber die Zuverlässigkeit und Ausfallsicherheit von IT-Systemen haben sie noch nicht zufriedenstellend gelöst. Solche Standards beschreiben nur, was Qualität ist, aber nicht, wie sie erreicht wird [8]. Es werden noch zu viele unterschiedliche Wege eingeschlagen, und IT-Ausfälle treten nach wie vor zu häufig auf. Die Standardisierung muss also schon ganz am Beginn eines IT-Projekts angesiedelt sein. Nur dann ist es möglich, eine hohe Qualität der Prozesse zu erreichen.

3.2.2 Klare Beschreibung und Dokumentation der Prozesse

Geeignete Prozessbeschreibungen
Ein typisches Grundproblem, unter dem die Prozessqualität leidet, sind unzureichende Prozessbeschreibungen: Hochkomplexe und kaum praxistaugliche Abhandlungen sorgen vielfach dafür, dass die IT-Mitarbeiter nicht wissen, was zum Beispiel im Fall einer Störung zu tun ist. Solche Anleitungen sind kontraproduktiv und sorgen für Fehler und Konflikte. Es braucht daher einfache und leicht verständliche Prozessbeschreibungen, um reibungslose Abläufe im Arbeitsalltag sicherzustellen und ICT-Ausfälle gar nicht erst aufkommen zu lassen. Dazu müssen auch die Rollen innerhalb des Unternehmens klar verteilt werden.

3.2.3 Verteilung der Kompetenzen und Verantwortung

Verantwortung eindeutig definieren
Häufige Probleme sind zudem Brüche oder Unklarheiten in der Verantwortung, wenn Firmen- oder auch nur Abteilungsgrenzen überschritten werden. Überschneidungen oder Inkonsistenzen in der Zusammenarbeit können dazu führen, dass sich jeder auf den anderen verlässt und sich im Endeffekt niemand wirklich verantwortlich fühlt.
Rollen und Abläufe in der Krise
Kommt es zu einer Störung, ist ein effizientes Krisenmanagement gefragt. Unzulängliche Alarmierungsketten und ein langwieriges Delegieren von Aufgaben und Verantwortlichkeiten führen dazu, dass die Entstörung unnötig in die Länge gezogen wird – und so zum Risikofaktor für die Geschäftsfähigkeit von Unternehmen wird. Rollen und Abläufe sind daher klar zu definieren und konsequent zu befolgen. Dazu gehört auch ein striktes Vier-Augen-Prinzip. Dieses gewährleistet bei kritischen Themen Fehlervermeidung und Qualitätskontrolle.
Ende-zu-Ende-Verantwortlichkeit
Neben unklaren Zuständigkeiten wirkt sich auch eine fehlende Ende-zu-Ende-Verantwortlichkeit negativ auf die IT-Qualität aus. Jeder Prozessbruch ist nicht nur eine potenzielle Fehlerquelle, sondern erschwert auch den Blick auf das Ganze. Silodenken und isolierte Teilprozesse führen zwangsläufig dazu, dass ein für den Unternehmenserfolg relevantes Gesamtkonzept auf der Strecke bleibt. Darum ist es notwendig, durchgängige Prozesse zu etablieren, die die Herausforderungen der IT ganzheitlich betrachten. Für die nötige Prozesstreue im Ernstfall sorgen regelmäßige Trainings. Sind die einzelnen Prozessschritte einstudiert, gelingt ein stringenter Ablauf auch unter größter Anspannung.

3.2.4 Configuration Management

CMDB pflegen
Eine gute Basis für die Verbesserung der Prozesse ist das Configuration Management. Eine gepflegte Configuration Management Database (CMDB) ist ein nützlicher Indikator dafür, ob die Prozesse zum Beispiel im Change Management, im Patch und Release Management sowie im Monitoring funktionieren und diszipliniert angewendet werden. Ziel des Configuration Management ist es, den Grad der Erfüllung physischer und funktionaler Anforderungen an eine Konfigurationseinheit zu dokumentieren und diesbezüglich volle Transparenz herzustellen. Das soll dazu führen, dass jede an einer Konfigurationseinheit beteiligte Partei oder Abteilung die richtigen und zutreffenden Informationen verwendet.

3.2.5 Systematische Prävention

Nach dem Ausfall ist vor dem Ausfall
Wer es mit dem Qualitätsmanagement ernst meint und seine Prozessqualität langfristig verbessern und standardisieren möchte, ist auf eine saubere Dokumentation angewiesen. Nur mit einer konsistenten Dokumentation können bestehende Abläufe nachhaltig optimiert und Fehlerquellen minimiert werden.
Die Zero-Outage-Strategie umfasst folgende grundlegenden Punkte, um die Prozesslandschaft im Unternehmen sicherer zu machen:
Einfache Prozessbeschreibungen
Verantwortlichkeiten und Abläufe klar definieren
Regelmäßig den Ernstfall simulieren
Störfälle konsequent dokumentieren und auswerten
Für eine stabile und hochverfügbare ICT ist eine hohe Prozessqualität unumgänglich. Es braucht klare Regeln und Strukturen sowie eine konsequente Umsetzung derselben, damit die IT ihr gestalterisches Potenzial im Sinne der Unternehmensziele frei entfalten kann – nach dem Motto: Nur wer seine Prozesse beherrscht, wird nicht von seinen Prozessen beherrscht.

3.3 Plattformen: Das Fundament eines Unternehmens

Technik nicht vernachlässigen
Standardisierte, hochperformante und vor allem hochverfügbare Plattformen sind Grundvoraussetzungen für eine Zero-Outage-Philosophie. Die Plattformen müssen allerdings auch immer auf dem aktuellen Stand der Technik und mehrfach abgesichert sein. Technische Fehler sind, wie Erfahrungen gezeigt haben, zwar nur in Ausnahmefällen die Ursache von Störungen in abgesicherten Systemen, dürfen aber natürlich nicht vernachlässigt werden.

3.3.1 Technische Grundlagen

Redundante Systeme
Redundante Rechenzentrumstechnologien sind eine Grundlage von Zero Outage. Sämtliche Daten und Systeme müssen in zwei baugleichen, aber räumlich voneinander getrennten Datencentern verfügbar sein. Fällt ein Rechenzentrum aus, springt das andere ein. Bei Hardwaredefekten übernimmt etwa ein zweites eingebautes Netzteil die Stromzufuhr. Das gilt genauso für Storage, um Festplattendefekten vorzubeugen. Eine weitere Redundanz auf einem höheren Layer sorgt für eine zusätzliche Minimierung des Restrisikos. Das kann etwa ein zweiter aktiver vollständiger Server in einem zweiten Rechenzentrum sein. Nur so ist es möglich, Kunden eine Verfügbarkeit von 99,999 % anbieten zu können.

3.3.2 Mögliche Fehlerquellen

Trotz aller Vorkehrungen lassen sich technisch bedingte Störungen auf Plattformebene nicht ganz ausschließen. Die häufigsten Ursachen dafür sind:
redundante Komponenten stören sich gegenseitig,
mangelhafte Firmware,
veraltete Hardware,
mangelhaftes Monitoring,
zu hohe Komplexität aufgrund unterschiedlicher Technologien und Versionsstände.
Critical Landscape
Störungen und Ausfälle bedeuten Mehrarbeit, Verzögerungen und im schlimmsten Fall auch Stillstand. Daher ist es auch wichtig, aus bereits aufgetretenen Störungen zu lernen und weitere zu verhindern. Dabei ist es notwendig, einen möglichst ganzheitlichen Blick auf alle eingesetzten Systeme beim Kunden zu haben. Das bedeutet, dass nicht nur die vom IT-Dienstleister betriebenen Systeme berücksichtigt werden müssen, sondern auch der Kunde und die von ihm selbst betriebenen Systeme. Es sollte immer eine sogenannte „Critical Landscape” erstellt werden, die vom Kunden bis zu den Lieferanten alle vorhandenen Komponenten – also Systeme, Anwendungen und Schnittstellen – enthält.
Klar definierte Standards bilden die Basis für größtmögliche Verfügbarkeit und Zuverlässigkeit. Standardisierung führt zu einer Reduktion der Komplexität. Das wiederum ist ausschlaggebend dafür, Störungen zu vermeiden beziehungsweise schnell zu beheben. Es werden weniger Ersatzteile und Experten mit speziellem Einzelwissen benötigt, und es gibt weniger unbekannte Wechselwirkungen bei Changes [9].

3.3.3 Change Management

Fehlerhafte Changes vermeiden
Change Management spielt eine wichtige Rolle, denn fehlerhafte Changes sind heutzutage die häufigste Ursache für eine Störung. Changes sind immer öfter und in kürzeren Intervallen notwendig, da sich durch den rasanten technischen Fortschritt beim Kunden immer neue Anforderungen an Geschwindigkeit und Speicherbedarf ergeben. Cloud, IoT, Big Data und Co. ermöglichen neue Geschäftsmodelle, die wiederum neue Systeme und Plattformen benötigen. Auch die Anforderungen an mobile Nutzung sind stark gestiegen.
Anforderungen
Changes bei der Hardware sind oftmals umfangreich. Die häufigsten Anforderungen sind:
bestehende Systeme müssen gewartet,
alte oder defekte Hardware muss getauscht,
Firmware muss aktualisiert, Sicherheitslücken müssen geschlossen,
neue Systeme müssen in die IT-Landschaft integriert werden.
Änderungen häufigste Ursache für Fehler
All diese Punkte sind intensiv zu planen und abzustimmen, und es bedarf einer Risikoabschätzung darüber, welche Folgen die Veränderungen haben. Wenn ein System, das gestern einwandfrei funktioniert hat, heute nicht mehr läuft, gibt es im Grunde nur drei verschiedene Ursachen: Veränderungen bei der Nutzung (erhöhte Zahl von Zugriffen, inklusive Hackerangriffe oder Viren), physikalische Defekte, oder – und das ist mit Abstand die häufigste Ursache – es wurde etwas am System oder seiner Konfiguration verändert.
Erfolgreiche Change-Modelle übernehmen
Beim Zero Outage Change Management geht es darum, das Risiko beim Umsetzen von Changes konsequent zu minimieren und die Beeinträchtigungen so gering wie möglich zu halten. Jede nachhaltige Veränderung der IT-Landschaft eines Kunden wird nach den gleichen Kriterien bewertet und geprüft. Das bedarf einer konsequent in der gesamten Organisation des Unternehmens umgesetzten Qualitätssicherung. Aus erfolgreich durchgeführten Changes entstehen Change-Modelle, oder auch Templates, nach denen künftig alle gleichartigen Changes durchgeführt werden. Wenn Change-Modelle über einen hohen Standardisierungsgrad verfügen und global anwendbar sind, können auch Optimierungen in der Vorgehensweise schnell allen Teams weltweit zugänglich gemacht werden. Dadurch fließt der Zero-Outage-Gedanke immer stärker in die Change-Planung ein. Für jeden Schritt der Change-Implementierung wird bereits in der Change-Planung das erwartete Ergebnis festgelegt. In der Change-Durchführung wird dann nach jedem Schritt im 4-Augen-Prinzip geprüft, ob dieses Ergebnis auch erreicht wurde.
Ursachen ermitteln
Sollte dennoch ein Fehler auftreten, erfolgt eine detaillierte Untersuchung. Bei einer technischen Ursache handelt es sich um Hardware-, Software- oder Konfigurationsfehler. Dann gilt es, den oftmals komplizierten Zusammenhängen auf den Grund zu gehen. Da in den komplexen Umgebungen fast immer auch Lieferanten mit ihren Komponenten beteiligt sind, werden diese ebenfalls mit einbezogen und aufgefordert, bei der Analyse mitzuarbeiten. Bei technischen Defekten muss ebenfalls gefragt werden, warum häufig die Redundanz, die nahezu immer bei potenziell kritischen Services aufgebaut ist, nicht funktioniert bzw. ein Failover-Szenario nicht gegriffen hat.

3.3.4 Security

Systeme absichern
Ausfallsicherheit durch Redundanz und einheitliche Standards sind nur eine Seite der Medaille. Diese Systeme entsprechend abzusichern ist das Gebot der Stunde. Unternehmen jeder Größe und jeder Branche sind noch dazu mit stetig steigenden Sicherheitsanforderungen konfrontiert. Erkannte Sicherheitslücken müssen umgehend geschlossen und unbekannte präventiv aufgespürt werden. Nach Bekanntwerden einer Lücke erst einmal abzuwarten ist grob fahrlässig. Denn viele Hacker und Trittbrettfahrer profitieren so noch sehr lange von diesen Lücken.
Mobiles Arbeiten regeln
Ein Einfallstor für Hacker und Schadprogramme ist insbesondere auch das Themenfeld „Mobiles Arbeiten”: Für den Zugriff auf das Unternehmensnetzwerk von außen sollte im Vorfeld eine entsprechende Infrastruktur etabliert werden, die den sicheren Zugriff von öffentlichen Netzen auf die Firmeninfrastruktur zulässt. Es sollte auch klar geregelt sein, welche Firmenapplikationen von außerhalb erreichbar sein dürfen und welche nicht. Dazu ist es im Vorfeld erforderlich, mit seinen Kunden zu klären, welche Zugangsregelungen es für deren Systeme und Anwendungen gibt.

4 Zero Outage als Industriestandard: Branchenweite Qualität dank Null-Fehler-Prinzip

Zunehmende Vernetzung
Die Digitalisierung unserer Welt nimmt immer mehr zu. Künstliche Intelligenz und Machine Learning sind auf dem Vormarsch. Schon heute kommunizieren die unterschiedlichsten Dinge in unserem Alltag miteinander – von der Kaffeemaschine über den PKW bis hin zur Industriemaschine. Und dieser Trend setzt sich fort: Bis zum Jahr 2020 sollen laut Experten mehr als 50 Milliarden Geräte miteinander vernetzt sein.
Auf diese Entwicklung müssen wir mit gezielten Maßnahmen reagieren, um sie in die richtigen Bahnen zu lenken und davon profitieren zu können. Denn während früher noch die ICT als gern gesehene Unterstützung gedient hat, hängen heute ganze Geschäftsprozesse oder gar Businessmodelle von digitalen Technologien ab. Lassen IT-Probleme automatisierte Produktionsbänder stillstehen, drohen Imageschäden und Millionenverluste. Bei IT-basierten Prozessen am Flughafen oder im Operationssaal bedeuten Schwierigkeiten in den Systemen im schlimmsten Fall eine Bedrohung für Menschenleben. Die Technik, auf die wir uns tagtäglich verlassen, funktioniert nur dann stabil und zuverlässig, wenn alle Komponenten einwandfrei und möglichst ausfallsicher arbeiten.
Standardisierung ist das wesentliche Element auf dem Weg zur höchsten Verfügbarkeit. Denn nur wenn alle Prozesse reibungslos funktionieren, verlässliche Plattformen und Technologien eingesetzt sind und das Personal höchste Qualität als Priorität wirklich verinnerlicht hat, kann dieses Ziel erreicht werden. Dazu braucht es einheitliche Standards, die eingeführt und eingehalten werden.
Nachdem Zero Outage sich innerhalb von T-Systems bewährt hat, soll nun die gesamte Industrie vom Null-Fehler-Prinzip profitieren. Ziel ist es, ein branchenweit einheitliches Niveau für ICT-Qualität zu etablieren und so die Ausfallsicherheit in der gesamten Industrie spürbar zu erhöhen. Daher wurde im November 2016 der Verein „Zero Outage Industry Standard” gegründet. In diesem Rahmen arbeitet T-Systems derzeit mit Brocade, Cisco, Dell EMC, Hitachi Data Systems, IBM, Juniper, NetApp, SAP, Suse und Swisscom an einem Best-Practice-Ansatz. Dieser wird in den jeweiligen Unternehmen umgesetzt und erprobt. Es sind bereits die ersten Qualitätskriterien zu Personal, Prozessen, Plattformen und IT-Sicherheit definiert. Das Endergebnis soll ein gemeinsamer Qualitätsstandard sein, der Ausfallzeiten in der gesamten Industrie minimiert, die Sicherheit und Stabilität der IT steigert und damit Kundenerlebnisse verbessert.

5 Fazit: Gelebtes Zero Outage

Zero Outage ist ein ganzheitliches Programm, das notwendig ist, um ein Höchstmaß an Qualität im ICT-Bereich zu etablieren. Dies ist wiederum die Voraussetzung dafür, den Schritt in das digitale Zeitalter zu absolvieren und dort erfolgreich agieren zu können. Mit anderen Worten: Ohne verlässliche ICT gibt es keine digitale Transformation.
Zero Outage umfasst eine Vielzahl an technischen und prozessualen Maßnahmen, die alle der Qualitätssicherung diesen. Diese geht auch immer Hand in Hand mit dem Faktor Mensch. Denn die Mitarbeiter beim Dienstleister und nicht zuletzt auch bei Kunden und Lieferanten sind letztlich diejenigen, die das Qualitätsthema mit Leben füllen und Tag für Tag umsetzen. In Abbildung 2 sind nochmal die Erfolgsfaktoren für das optimale Zusammenspiel von Personal, Prozessen und Plattformen im Überblick dargestellt.
Abb. 2: Personal, Prozesse und Plattformen im optimalen Zusammenspiel
Die Mitarbeiter sind das Rückgrat des Zero-Outage-Programms. Denn sie leben die Strategie und sind intern wie extern die besten und glaubwürdigsten Repräsentanten in Sachen Qualität. Sie treiben das Thema mit ihrer Expertise und Präzision voran, damit auch dauerhaft eine hohe Qualität sichergestellt werden kann. Weitergehende Informationen finden Sie im Buch „Zero Outage – Kompromisslose Qualität in der IT im Zeitalter der Digitalisierung” [10].

Quellen

2
PwC: IT-Sourcing-Studie – Die Perspektive der Anbieter. www.pwc.at/herausforderung/it-sourcing-studie-2015.html
4
Institute of Electrical and Electronics Engineers (IEEE) und Wikipediade.wikipedia.org/wiki/Hochverfügbarkeit
7
Kasulke, Stephan: „The Zero Outage industrial standard – prerequisites for digitization in a world of heterogeneous ICT”, Präsentation bei der Zero-Outage-Konferenz am 9. Juni 2016 in Berlin.
8
Theilacker, Miriam: T-Systems puscht „Zero Outage” zum Standard (Interview mit Ferri Abolhassan): www.datacenter-insider.de/t-systems-puscht-zero-outage-zum-standard-a-551965/
9
Kasulke, Stephan: Maßnahmen zur mittel- und langfristigen Qualitätsverbesserung. Erschienen in: Der Weg zur modernen IT-Fabrik. Hrsg. v. F. Abolhassan, Springer Fachmedien Wiesbaden 2014, S. 109–113.
10
Kasulke, Stephan; Bensch, Jasmin; Abolhassan, Ferri: Zero Outage – Kompromisslose Qualität in der IT im Zeitalter der Digitalisierung. 2017
 

Weiterlesen und „IT-Servicemanagement digital“ 4 Wochen gratis testen:

  • IT-Servicemanagement nach ISO 20000, IT Governance und IT Compliance
  • Zugriff auf über 220 Fachbeiträge und 160 Arbeitshilfen
  • Onlinezugriff – überall verfügbar


Sie haben schon ein Abonnement oder testen bereits? Hier anmelden

Ihre Anfrage wird bearbeitet.
AuthError LoginModal