Jeder kennt das: Die Webseite lädt nicht, die Bildübertragung funktioniert in Facebook nicht, oder eine App hat sich aufgehängt. Aber woran liegt das? Ist doch eigentlich ganz einfach – Ein Softwarefehler! In früheren Zeiten wäre diese Aussage sehr zutreffend gewesen, heute steht jedoch hinter diesem Fehler ein viel komplexerer Zusammenhang. Es liegt an der Vernetzung unserer IT-Systeme. Diese hat in den letzten Jahren große Bedeutung gewonnen. Wachsende Cloud-Technologien, Anwendungen der Künstlichen Intelligenz sowie das Internet der Dinge haben diese Vernetzung eingefordert. So sind IT-Systeme, welche selbst aus vielen Komponenten wie Server, Datenbanken und Services zusammengesetzt sind, nicht mehr alleinstehend. Sie kommunizieren mit vielen anderen. Vernetzte IT-Systeme erlauben es somit, dass Anwendungen zwischen vielen IT-Systemen problemlos und effizient Daten und Informationen austauschen und kommunizieren können. Klassisches Beispiel dafür sind Messenger-Dienste wie WhatsApp oder Facebook, aber auch Cloud-Anwendungen, die über das Netzwerk gemietet werden können, um die eigenen Bilder und Videos zu speichern.

Störungen und ihre Ursachen in Unternehmen, welche vernetzte IT-Systeme einsetzen, zu erkennen und zu behandeln ist eine eigene Wissenschaft für sich geworden. In den nächsten Wochen soll diese Blogreihe dabei helfen, wie Sie Störungserkennung bei vernetzten IT-Systemen im eigenen Unternehmen besser integrieren und optimieren können. Die Erfahrung zeigt, dass mit einem umfangreichen Wissen über eine gute Integration der Störungserkennung im eigenen Unternehmen Personalressourcen, Zeit und Kosten einspart werden können. Dieser erste Blogbeitrag soll die Grundlagen schaffen, damit die Störungserkennung zum festen Bestandteil der Unternehmensstruktur werden kann.

Störungen konkret unter der Lupe

Was sind eigentlich Störungen konkret? Eine Störung ist grundsätzlich nach außen sichtbar, zum Beispiel durch die Anzeige falscher oder keiner Daten, oder die Meldung, dass eine Internetseite nicht angezeigt werden kann. Hinter jeder Störung sitzt jedoch immer ein Fehler, welcher die Störung hervorruft. Das ist dann gegeben, wenn der Zustand eines Systems nicht dem Soll-Zustand entspricht. Beispielsweise kann dies nun ein Ausfall eines Servers sein. Zu guter Letzt gehört zu einem Fehler eine Fehlerursache, die den Fehler und dann die Störung verursacht hat. Beispielweise wenn ein Stromausfall den Ausfall des Servers verursacht.

In der Wissenschaft finden sich unterschiedliche Klassifikationen von Fehlern, die wichtig sind für eine spätere Erkennung von Ursachen. Dazu gehören Byzantinische Fehler, Antwortfehler, ein Performancefehler oder auch Absturzfehler. Diese sind im Folgenden erklärt:

  • Bei einem Byzantinischen Fehler liefert das System beliebige Antworten (richtige oder falsche oder gar keine, auch mehrere auf eine Anfrage, auch Antworten ohne Anfrage). Ein Beispiel dafür wäre, dass die Benutzeroberfläche »Kauderwelsch« anzeigt, oder Nachrichten an den falschen Empfänger gesendet werden.
  • Ein Antwortfehler bedeutet, dass das System eine falsche Antwort auf eine Anfrage liefert. Ein Bespiel wäre, dass eine nicht vorrätige Ware als vorrätig angezeigt wird, der Gesamtbetrag einer Rechnung aber nicht korrekt ist.
  • Bei einem Performancefehler kann eine Antwort zu spät versendet werden. Ein Beispiel wäre, dass ein Aufruf des E-Mail-Postfachs mehrere Minuten dauert, oder das Navigationssystem sagt die Ausfahrt erst an, nachdem sie bereits passiert worden ist.
  • Bei einem Absturzfehler wird eine Anfrage nicht beantwortet. Die Systemkomponente antwortet nicht mehr auf zukünftige Anfragen. Ein Beispiel dafür wäre, wenn ein Browserfenster einfriert, der Server nicht mehr auf Anfragen reagiert und der Server mit einem »Blue Screen of Death« stoppt.

Störungen erkennen, aber wie?

Nun sind Fehler schon mal konkretisiert. Aber um Störungen und auch Fehler in einem vernetzten IT-System erkennen zu können, bedarf es einer integrierten Überwachung des Systems. Hier setzt das Monitoring an, das in das aktive als auch in das passive aufgeteilt werden kann:

  • Aktives Monitoring: Das Personal beobachtet ein System, um Fehler und Störungen zu entdecken, sobald diese auftreten, z. B. über Dashboards.
  • Passives Monitoring: Ein System benachrichtigt das Personal über potenzielle Störungen, z. B. über E-Mail-Alarme.

Das aktive Monitoring bedarf immer Personalressourcen, was mit einem höheren Aufwand, wie Schulungen oder Neueinstellungen von Personal zu tun hat. Dieses ist dann besonders notwendig, wenn es sich um kritische IT-Systeme handelt oder aber auch Experteneinschätzungen wichtig sind.

Das passive Monitoring hingegen ist von technischer und automatisierter Natur. Hier sind keine Personen, die überwachen und melden, sondern eine Software überwacht das System. Dazu gehört beispielsweise der Netzwerkverkehr, die CPUs von Servern oder auch die Anzahl der momentanen Anfragen an die Datenbank. Dies ermöglichen sogenannte Softwarekomponenten (Softwareagenten) oder auch in der Hardware verbaute Sensoren.

Wissen ist Macht – Störungserkennung braucht den systematischen Aufbau von Know-how

Die immer stärkeren Vernetzungen der IT-Systeme erschweren aufgrund ihrer Komplexität der Dynamik, diese zu überwachen und Störungen mit ihren Ursachen zu erkennen. Denn Dienste müssen immer zur Verfügung, die Antwortzeiten schnell und Updates reibungslos integrierbar sein. Jedoch sind vernetzte IT-Systeme nicht von Ausfällen, Überlastungen oder auch Angriffen verschont. Daher ist die Störungserkennung von vernetzten IT-Systemen heute zu einem fundamentalen Baustein von vielen Unternehmensstrukturen geworden. Natürlich bleibt immer die Frage: Wo anfangen? Für den Anfang heißt es so schön: »Back to the roots«. Störungserkennung in einem vernetzten IT-System zu etablieren, beruht auf Grundlagenwissen und dem Aufbau von Know-how. Daher ist es notwendig, auch zuerst mal die theoretische Seite zu beleuchten. Einen weiteren Überblick über die theoretischen Grundlagen der Störungserkennung in vernetzten IT-Systemen lassen sich in der Marktstudie des Fraunhofer IAO und des Anwendungszentrums KEIM mit dem Titel »Überwachung und Störungserkennung in vernetzten IT-Systemen« finden. Die Studie ist Teil der Schriftenreihe »Digitale Transformation in KMU« des Business Innovation Engineering Centers (BIEC), welches vom Ministerium für Wirtschaft, Arbeit und Wohnungsbau Baden-Württemberg gefördert wurde.

Der nächste Blogbeitrag behandelt Methoden, die für die Erkennung von Ursachen in Forschung und Praxis sehr gerne eingesetzt werden. Diese Methoden sind Grundlagen für die Störungserkennung und können schon durch einen rudimentären Einsatz die Qualität der Störungserkennung maßgeblich erhöhen und somit auch eingesetzte Ressourcen besser bündeln.

Leselinks:

Andreas Freymann

Studierter Wirtschaftsinformatiker und Projektleiter am Fraunhofer IAO. Das große Interesse liegt im Gebiet neuer Technologien, Entwicklungen und Trends in den Bereichen der Informatik, Daten und Mobilität. Andreas bloggt am liebsten über aktuelle Themen von seiner Arbeit. In der Freizeit beschäftigt er sich mit der Astronomie, tanzt für sein Leben gern, spielt Klavier und komponiert, fotografiert gern und ist viel unterwegs.

Autorenprofil - LinkedIn - Xing - X



Kategorien: Digitalisierung, Mensch-Technik-Interaktion
Tags: , ,