Alle Beiträge von Klaus Mochalski

In fünf Schritten zu Sicherheit und Stabilität in Kritischen Infrastrukturen

Das Mai 2018 in zweiter Fassung veröffentlichte Whitepaper »Anforderungen an sichere Steuerungs- und Telekommunikationssysteme« übersetzt die Highlevel-Forderungen aus dem deutschen IT-Sicherheitsgesetz und dem »Österreichische Programm zum Schutz Kritischer Infrastrukturen« (APCIP) in technische Anforderungen. Trotz des vergleichsmäßig hohen Detailgrades, auf den sich der deutsche Bundesverband der Energie- und Wasserwirtschaft (BDEW) und Österreichs Energie (OE) geeinigt haben, bleiben die Maßnahmen vage in der konkreten Umsetzung.

Das Whitepaper beschreibt auf 80 Seiten und in acht Maßnahmengruppen, wie die Prozess- und Netzleittechnik (PNLT) von Energie-, Wasserwirtschafts- und Öl/Gas-Unternehmen vor Störungen geschützt werden soll. Die Gruppen umfassen:

  1. Allgemeine Anforderungen (Sichere Systemarchitektur, definierte Verwaltungsprozesse, Sicherstellung der Datensicherheit und -integrität)
  2. Projektorganisation (Ansprechpartner, Tests, Datenspeicherung und -übertragung, Übergabeprozesse)
  3. Basissystem (Systemhärtung, Schadsoftware-Schutz, Authentifizierung, Virtualisierung)
  4. Netzwerk und Kommunikation (Protokolle, Segmentierung, Fernzugänge, Dokumentation)
  5. Anwendung (Rollen, Authentifizierung, Autorisierung, Umgang mit Webapplikationen, Integritätsprüfung, Logging)
  6. Entwicklung (Standards, Freigabe, Integrität)
  7. Wartung (Updates, Konfigurations- und Change Management, Sicherheitslücken)
  8. Datensicherung und Notfallplanung (Backup, Wiederanlauf)

Am Tagesgeschäft vorbei gedacht

Die Maßnahmengruppen des Whitepapers folgen damit der Architektur und Struktur der PNLT. Das Whitepaper verfehlt damit jedoch die Day-to-Day-Workflows und Zusammenhänge zwischen einzelnen Maßnahmen. Die Prozess- und Organisationslogik der IT/OT-Sicherheit wird nicht abgebildet. Insbesondere fehlt die Eingliederung in die etablierten Managementsysteme (wie QMS oder ISMS), die der Logik des kontinuierlichen Verbesserungsprozesses (Plan, Do, Check, Act) folgen. In der IEC 62443 wird dies zumindest in Teilen mit der Beschreibung der Risikoanalyse begonnen. In der Schweiz orientiert sich das »Handbuch Grundschutz für «Operational Technology» in der Stromversorgung« des VSE explizit am US-amerikanischen NIST-Standard. Dieser bricht die Cybersicherheit in Kritischen Infrastrukturen auf fünf logische Ebenen eines Defense-In-Depth-Konzepts herunter, die in einem Verbesserungsprozess münden:

  1. Identifizieren (Identify)
  2. Schützen (Protect)
  3. Erkennen (Detect)
  4. Reagieren (Respond)
  5. Wiederherstellen (Recover)

Der kontinuierliche Verbesserungsprozess für die Verfügbarkeit und Sicherheit der Steuerungsnetze hängt maßgeblich von der Transparenz und Sichtbarkeit durch eine Monitoring- und Anomalieerkennungslösung ab (Quelle: Rhebo)
Abb. 1: Der kontinuierliche Verbesserungsprozess für die Verfügbarkeit und Sicherheit der Steuerungsnetze hängt maßgeblich von der Transparenz und Sichtbarkeit durch eine Monitoring- und Anomalieerkennungslösung ab (Quelle: Rhebo)

BDEW-Whitepaper im Prozesskontext

Es ergibt daher Sinn, die Anforderungen des BDEW-/OE-Whitepapers auf die fünf Schritte des NIST-Frameworks zu beziehen.

Schritt 1: Identifizieren

Hinter dem Identifizieren verbergen sich alle Aspekte einer detaillierten Risikoanalyse. Der erste Schritt ist hierbei die Herstellung vollständiger Transparenz in Bezug auf:

  • Netzwerkstruktur
  • Komponenten, ihre Eigenschaften, Prozesse und Services
  • Bestehende Sicherheitslücken
  • Kommunikationsverbindungen (intern und mit externen Netzen)
  • Kommunikationsverhalten der einzelnen Komponenten
  • Kommunikationsprotokolle
  • Kommunikationsinhalte
  • Unterliegende Prozesse

Letztlich verbirgt sich hierunter vor allem die Maßnahmengruppe 4 »Netzwerk und Kommunikation«. Aber auch Aspekte der Gruppen »Allgemeine Anforderungen« (bestehende Sicherheits- und Monitoringstrukturen, Verwaltungsprozesse), »Projektorganisation« (Verantwortliche) und »Wartung« (Updates, Konfigurationen, Sicherheitslücken) fallen hierunter.

Grundsätzlich geht es darum, eine ganzheitliche Istanalyse der PNLT, organisatorischen Struktur und Gefährdungslage durchzuführen. Sie bildet die Basis, um festzulegen, worüber überhaupt gesprochen werden muss. Damit die nachfolgenden Schritte der Sicherung weder im Gießkannenprinzip ausgeführt werden, noch zu kurz gedacht werden, muss zwingend vollständige Transparenz hergestellt werden. Technologisch sollte hierbei über diesen Zeitraum der Istanalyse hinaus gedacht werden, denn auch im laufenden Betrieb der Sicherung, Erkennung und Reaktion steht und fällt die Handlungsfähigkeit der Verantwortlichen mit der Transparenz.

Im ersten Schritt müssen allen Komponenten, deren Verbindungen und die Verbindungsqualität analysiert werden. Rechts oben wird der Gesamtqualitäts-Score für das jeweilige Netzwerk auf einer Skala von 0-10 errechnet (Quelle: Rhebo Industrial Protector)
Abb. 2: Im ersten Schritt müssen allen Komponenten, deren Verbindungen und die Verbindungsqualität analysiert werden. Rechts oben wird der Gesamtqualitäts-Score für das jeweilige Netzwerk auf einer Skala von 0-10 errechnet (Quelle: Rhebo Industrial Protector)

Die Istanalyse ist auch nicht nur relevant, um die eigene PNLT besser zu verstehen. Sie offenbart in der Regel auch bestehende Engpässe, Gefährdungen und Fehlerzustände. In Stabilitäts- und Sicherheitsaudits, die wir regelmäßig in Kritischen Infrastrukturen im Rahmen der Erst- und Wiederholungsanalyse durchführen, finden sich im Schnitt rund 22 Gefährdungskategorien, die bislang den Verantwortlichen unbekannt waren. Die Analyse erfolgt hierbei mittels der industriellen Anomalieerkennung Rhebo Industrial Protector, die jegliche Kommunikation und Komponenteneigenschaften innerhalb der PNLT bis auf Inhaltsebene analysiert.

Schritte 2 und 3: Sichern und Erkennen

Diese Systemlösung bildet im Anschluss des Schrittes »Identifizieren« als Monitoring- und Detektionswerkzeug auch das Rückgrat der Sicherung der PNLT und des Erkennens von Störungen. Hierbei lernt die Anomalieerkennung das zu erwartende Verhaltensmuster der PNLT und analysiert die Kommunikation im Normalbetrieb auf Abweichungen (Anomalien). Wie vielfältig diese Anomalien ausfallen können, skizziert ein im März 2019 von der Allianz für Cyber-Sicherheit des BSI veröffentlichte Empfehlung zu Monitoring und Anomalieerkennung in industriellen Netzen. Die Anomalien werden in Echtzeit gemeldet und für die forensische Analyse inklusive der Rohdaten gespeichert.

Die Anomalieerkennung meldet jede abweichende Kommunikation im Steuerungsnetz und weist dieser eine Risikobewertung zu (1). Weiterhin können Details mit Handlungsempfehlungen abgerufen (2) und die Anomaliemeldung für die forensische Analyse als PCAP herunterladen werden (3). (Quelle: Rhebo)
Abb. 3: Die Anomalieerkennung meldet jede abweichende Kommunikation im Steuerungsnetz und weist dieser eine Risikobewertung zu (1). Weiterhin können Details mit Handlungsempfehlungen nachgeschaut werden (2) und die Anomaliemeldung für die forensische Analyse als PCAP herunterladen werden (3). (Quelle: Rhebo Industrial Protector)

Bei der Sicherung kommen hierbei die bekannten Mechanismen wie Segmentierung, Rollenkonzepte, Authentifizierung, Autorisierung, Prüfung der Datensicherheit und -integrität, Veränderungsmanagement, aktive Schadsoftware-Werkzeuge zum Einsatz. Diese sind im BDEW-/OE-Whitepaper über fast alle Kategorien verteilt. Im Sinne des Defense-in-Depth-Ansatzes, nach dem »Es gibt keine 100 prozentige Sicherheit.« die Basis aller Erkenntnis ist, übernimmt die Anomalieerkennung hier die Instanz eines durchgängigen Überwachungs-, Analyse- und Frühwarnsystems. Der Schutz der PNLT geht somit Hand in Hand mit der Fähigkeit, jedwede Veränderung zu detektieren. Denn nur was gesehen wird, kann auch abgewehrt werden. Das ist umso wichtiger in Infrastrukturen, die aus pragmatischen Gründen nicht auf Fernzugänge oder Webapplikationen verzichten können. Veränderungen betreffen hierbei nicht nur Vorfälle, die eindeutig als Sicherheitsgefährdung identifiziert werden können. Insbesondere wird auf die Fähigkeit hingewiesen, Vorgänge zu erkennen, die nicht durch die gängigen Blacklisting- oder Whitelisting-Konzepte abgedeckt werden. Diese Anomalien oder Abweichungen vom zu erwartenden Netzverhalten bergen bei täglich rund 400.000 neuen Schadprogrammen die eigentliche Gefahr.

Schritte 4 und 5: Reagieren und wiederherstellen

Diese Schritte werden im BDEW-/OE-Whitepaper nur sehr abstrakt behandelt, auch wenn sie im Tagesgeschäft die eigentliche Herausforderung darstellen. Über alle Kategorien wird auf die Notwendigkeit einer Notfallkonzeption verwiesen, konkrete Ansätze hierfür fehlen jedoch auch im eigentlichen Kapitel »Datensicherung und Notfallplanung«.

Eine sinnvolle Reaktion auf einen Vorfall im Sinne der Abwehr sowie internen und externen Kommunikation kann nur erfolgen, wenn alle Daten zum jeweiligen Vorfall vorliegen. Dazu gehören sowohl Details zu den Kommunikationsinhalten als auch Informationen zum Verlauf und den beteiligten Komponenten und Systemen. Die notwendige Vorfallsanalyse ist letztlich nur so gut, wie die Vorfallsdaten vollständig sind. Entsprechend hängen sowohl Effektivität der Reaktion als auch die Geschwindigkeit der Wiederherstellung und die kontinuierliche Verbesserung zur Steigerung der Resilienz maßgeblich von einer stichhaltigen und schnellen Analyse ab. Nicht zuletzt ist die Fähigkeit zur Analyse und Dokumentation auch für die Meldepflicht maßgeblich.

Verantwortliche in Kritischen Infrastrukturen sollten deshalb Überwachungssysteme auch danach bewerten, ob diese die Reaktion auf Vorfälle und die Wiederherstellung unterstützen. Dazu gehören:

  • Detailspeicherung von Anomalien mit Metadaten und Rohdaten;
  • Speicherung in universellem Format (z. B. PCAP), um Daten leicht teilen und programmunabhängig analysieren zu können;
  • universelle Schnittstellen (REST-API, Syslog u.a.) zur schnellen, verlustfreien Weiterleitung an andere Sicherheitssysteme (z. B. aktiv blockende Firewalls oder SIEM)
  • automatisierte Weiterleitungsregeln zur Unterstützung der unternehmensinternen Prozesse.

Auch diese Anforderungen können von einigen industriellen Anomalieerkennungen vollumfänglich abgebildet werden.

In Steuerungsnetzen kann es zu plötzlichen und schleichenden Störungen (Stillstand oder Blackout) sowie Effizienzverlusten kommen. Eine Monitoring- und Anomalieerkennungslösung minimiert die Wahrscheinlichkeit des Auftretens und unterstützt umgehend bei der Wiederherstellung (Quelle: Rhebo)
Abb. 4: In Steuerungsnetzen kann es zu plötzlichen und schleichenden Störungen (Stillstand oder Blackout) sowie Effizienzverlusten kommen. Eine Monitoring- und Anomalieerkennungslösung minimiert die Wahrscheinlichkeit des Auftretens und unterstützt umgehend bei der Wiederherstellung (Quelle: Rhebo)

Fazit

Wer das BDEW-/OE-Whitepaper umsetzen möchte, sollte auch weitere Empfehlungen (z. B. des VSE und des BSI) berücksichtigen, um gezielt und strukturiert die Anforderungen umsetzen zu können. Grundsätzlich sollte das Konzept der Defense-in-Depth verfolgt werden. Zu dieser gehört neben aktiven Absicherungswerkzeugen (Firewalls, Virenscanner, Datendioden) auch eine passive Monitoringkomponente in Form einer industriellen Anomalieerkennung. Die Chief Information Security Officers und IT-Leiter Kritischer Infrastrukturen erhalten die bislang fehlende Sichtbarkeit in ihre Netzwerke, ein proaktives Frühwarnsystem und schaffen eine fundierte Basis für das übergeordnete Netzwerk-Monitoring und die forensische Datenanalyse. Damit können sie ihre Prozess- und Netzleittechnik effektiv gegen Störungen wie Cyberattacken, Manipulation aber auch technische Fehlerzustände schützen und die Versorgungssicherheit gewährleisten.

In Kritischen Infrastrukturen ist Meldepflicht Selbstschutz

Die gesetzliche Pflicht, Störungen in den Netzwerken kritischer Infrastrukturen zu melden, wird oft als bürokratischer Aufwand wahrgenommen. Der vorgeschriebene Informationsaustausch zwischen kritischen Infrastrukturen und dem Bundesamt für Sicherheit in der Informationstechnik (BSI) birgt ohne Zweifel Aufwände und Unklarheiten. Jedoch überwiegt der Mehrwert, der sich aus der Schwarmintelligenz ergibt. Je mehr Akteure über Gefährdungen berichten, desto mehr Akteure können sich gegen diese auch aktiv vorbereiten, bevor Störungen entstehen. So wird Meldepflicht zum Selbstschutz.

Der Mehrwert kann jedoch nur entstehen, wenn über den Tellerrand der gängigen Monitoring- und Sicherheitssysteme geschaut wird. Genau hier setzt das Prinzip des Defense-In-Depth an, das die gängigen Lösungen (Firewalls, Virenscanner etc.), die mittlerweile als Standard in jeder Kritischen Infrastruktur angenommen werden können, um Abwehrmechanismen erweitert, die auch das Unbekannte sichtbar machen.

Dass bislang unbekannte Angriffs- und Störungsmuster in Zukunft eine entscheidende Rolle bei der Gefährdungslage spielen, zeigten nicht zuletzt die mehrstufigen, lange Zeit verborgen agierenden Kampagnen Industroyer und Dragonfly 2.0. Während mit Dragonfly 2.0 Angreifer über Monate bis Jahre Kritische Infrastrukturen auch in Deutschland ausspioniert haben, legte Industroyer 2016 die Stromversorgung Kiews für mehrere Stunden lahm.

Auf der Suche nach dem Unbekannten

Genau hier liegt auch die größte Unklarheit für die Informationssicherheitsbeauftragten in kritischen Infrastrukturen. Das IT-Sicherheitsgesetz (und damit das EnBW, AtG und BSIG) fordert eine Meldung von »erheblichen Störungen der Verfügbarkeit, Integrität, Authentizität und Vertraulichkeit ihrer informationstechnischen Systeme, Komponenten oder Prozesse, die zu einem Ausfall oder einer Beeinträchtigung der Funktionsfähigkeit der von ihnen betriebenen Kritischen Infrastrukturen führen können oder geführt haben.«

Die Formulierung birgt zwei Unschärfen, mit denen Betreiber zu kämpfen haben:

  1. Wie sollen Störungen erkannt werden, die erst langfristig zu einer Beeinträchtigung führen könnten, zum Beispiel Advanced Persistent Threats?
  2. Wie kann bewertet werden, ob die Beeinträchtigungen durch eine Störung erheblich sein könnten?

Auf der FAQ-Seite des BSI findet sich zur ersten Frage lediglich der Hinweis: »Werden Angriffe auf die Kritische Infrastruktur unter Verwendung von neuartigen, außergewöhnlichen, zielgerichteten oder aus technischer Sicht bemerkenswerten Angriffsverfahren entdeckt, muss davon ausgegangen werden, dass eine Einwirkung auf die Kritische Infrastruktur möglich ist, sobald sich die Angreifer dazu entschließen«.

Auch bei der Frage, was »erheblich« bedeutet, sind Informationssicherheitsbeauftragte weitestgehend auf sich gestellt: »Eine eindeutige, umfassend geltende Antwort, wann eine Störung erheblich ist, ist nicht möglich. Stattdessen ist es erforderlich, dass die Verantwortlichen in KRITIS-Unternehmen Einzelfallentscheidungen treffen«.

Aus unseren Erfahrungen des Monitorings von Leitsystemen und Netzleittechnik mittels industrieller Anomalieerkennung wissen wir, dass weder versteckte Angriffe noch offene Sicherheitslücken eindeutig erkannt und eingeschätzt werden. Hinzu kommt, dass die Entwicklungen der Digitalisierung und des Smart Grid zu immer komplexeren Kommunikationsstrukturen führen, die neben Sicherheitsgefährdungen auch die Wahrscheinlichkeit technischer Fehlerzustände erhöhen.

Wer entscheiden will, muss sehen können

Betreiber benötigen somit Werkzeuge, die zwei Dinge ermöglichen:

  1. Vorgänge erkennen, die durch gängige Sicherheitslösungen mit Blacklisting- oder Whitelistingansatz übersehen werden.
  2. Vorgänge dahingehend bewerten, ob diese (erhebliche) Beeinträchtigungen hervorrufen könnten.

Netzleittechnik und Leitsysteme sind von einer deterministischen Kommunikationsstruktur geprägt. Dadurch können zum Beispiel mit einer industriellen Anomalieerkennung alle Vorgänge erkannt werden, die in irgendeiner Form vom deterministischen Grundmuster abweichen. Ein gutes Monitoringsystem erkennt bei den sicherheitsrelevanten Vorfällen u.a. neue:

  • Netzteilnehmer oder Kommunikationsbeziehungen;
  • Verbindungen zum Internet;
  • Protokolle;
  • Befehlsstrukturen sowie Netzwerkscans.

Hinzu kommen sowohl bestehende CVE-Sicherheitslücken an Geräten und Software, als auch Netzstörungen, die keine IT-Sicherheitsvorfälle sind, aber an das BSI gemeldet werden müssen. Zu letzteren gehören Konfigurations- und Kommunikationsfehler sowie andere technische Fehlerzustände, die sich beispielsweise aus der Abnahme der Netzwerkqualität ergeben. Gefährdungen jeglicher Form werden somit in ihrem frühesten Stadium erkannt und in Echtzeit gemeldet.

Die Bewertung der Vorfälle wird durch die industrielle Anomalieerkennung über verschiedene Stufen ermöglicht. Zum einen wird jede Meldung in Sicherheit oder Netzwerkqualität kategorisiert. Des Weiteren erhält jede Meldung eine Risikobewertung in Abhängigkeit von Kommunikationsvorgang und betroffenen Komponenten. Schlussendlich wird jede Meldung inklusive der Rohdaten als frei exportierbares PCAP gespeichert. Somit ist eine umgehende forensische Analyse auf einer vollständigen, nachvollziehbaren Datenlage für alle Stakeholder möglich. Informationssicherheitsbeauftragte können damit auf jede potentielle Gefährdung reagieren, bevor es zur Beeinträchtigung kommt.

Fallstudie: Produktivität in der Automobilindustrie absichern

Die Vision des Industriellen Internet der Dinge (IIoT) kann nur erfolgreich umgesetzt werden, wenn die Steuerungsnetze (Industrial Control Systems, ICS)  als lebenswichtiges Nervensystem zukünftiger Produktionsstätten verstanden und behandelt werden. Aus diesem Grund stehen die Steuerungsnetze in aktuellen Standards immer mehr im Mittelpunkt, um die Prozesskontinuität sicherzustellen.

Komplexität von Steuerungssystemen steigt

Ein deutscher Automobilhersteller entschied sich deshalb, sein ICS mittels der industriellen Anomalieerkennung Rhebo Industrial Protector zu prüfen und zu schützen. Das Monitoringwerkzeug analysiert rückwirkungsfrei und auf Inhaltsebene jegliche Kommunikation innerhalb des ICS. Verdächtige Vorfälle werden in Echtzeit und inklusive Risikobewertung an die Verantwortlichen im Unternehmen gemeldet.

Die Pilotinstallation sollte vorerst in einer komplexen Fertigungszelle fünf grundlegende Herausforderungen der Industrie 4.0 adressieren, welche bislang weder durch gängige Monitoring- noch durch bestehende IT-Sicherheitslösungen abgedeckt wurden:

  1. Vollständige Sichtbarkeit für alle in der Fertigungszelle eingebundenen Komponenten und deren Kommunikationsmuster.
  2. Detaillierte Analyse der Kommunikation bis auf Inhaltsebene, insbesondere für Profinet und Siemens S7.
  3. Lückenlose Meldung aller Anomalien im ICS in Echtzeit, die potentiell zu Anlagenausfällen führen oder die Produktivität beeinträchtigen können.
  4. Identifikation von Verbesserungspotentialen für die Feldbusinfrastruktur (Profinet) auf Basis der detaillierten, fortlaufenden Analyse der Kommunikationsmuster.
  5. Stärkung der Industrial Security durch Echtzeitmeldung jeglichen verdächtigen Zugriffs auf das Netzwerk ‒ bekannt oder unbekannt, extern oder intern ‒ mit allen Vorfalldetails.

Die industrielle Anomalieerkennung wurde ohne Unterbrechung der Produktion binnen kürzester Zeit in einer komplexen Fertigungszelle installiert. Die erste Analyse im Rahmen eines Stabilitäts- und Sicherheitsaudits zeigte bereits eine starke Heterogenität und Komplexität innerhalb der Systemarchitektur. Allein in der überwachten Fertigungszelle fanden sich über 300 Komponenten, u.a. von Siemens, SICK, SMC, SEW, IMI und Norgren, die verschiedenste Konfigurationen aufwiesen und frei miteinander kommunizierten.

Kontinuität hängt nicht nur von Cybersicherheit ab

Im laufenden Betrieb wurden nachfolgend mehrere Risiken identifiziert, die sowohl die Cybersicherheit als auch die Anlagenverfügbarkeit betrafen.

Zu den sicherheitsrelevanten Vorfällen gehörten u.a.:

  • unbekannte Teilnehmer, z.T. mit Fallback-IP-Adressen, mit auffälligen Operationen und Konfigurationen
  • doppelt verwendete IP-Adressen durch unautorisierten DHCP-Server
  • möglicher Man-in-the-Middle-Angriff durch Missbrauch des Address Resolution Protocols (ARP)

Die Gesamtanlageneffektivität (GAE) wurde u.a. durch folgende versteckte ICS-Probleme beeinträchtigt:

  • erhöhte Netzwerkbelastung durch fehlerhafte Datenpakete (z. B. IP-Fragmente, Übertragungswiederholungen), die sich u.a. durch das Ausbleiben zyklischer Echtzeittelegramme negativ auf die Anlage auswirkte
  • Profinet-Fehlermeldungen einzelner Komponenten, die auf Störungen hinweisen
  • Störungen des Echtzeitbetriebs durch Kommunikationsabbrüche

Produktivität und Industrial Security gewährleisten

Der Automobilhersteller erlangte durch den Einsatz der industriellen Anomalieerkennung vollständige Transparenz im überwachten Fertigungsbereich. Fehlkonfigurationen und potentielle Sicherheitsrisiken, konnten eindeutig identifiziert werden. Durch die detaillierte Speicherung jeglicher Anomalien im ICS mit Metadaten und Rohdaten (als PCAP) konnten die Betreiber schnell auf Gefährdungen reagieren. Dadurch konnte auch der Zeitaufwand für die forensische Analyse, Fehlersuche und -behebung deutlich reduziert werden.

Für den Automobilhersteller bedeutet dies nicht nur erhöhten Schutz vor Cyberangriffen, sondern auch Prozessstabilität und verbesserte Betriebskontinuität.

Fallstudie: Energieversorgung vor dem Blackout schützen

Kritische Infrastrukturen sind einer zunehmenden Vernetzung der Anlagen und Prozesse unterworfen. Die Auswirkungen dieser Entwicklung für die Cybersicherheit zeigte sich jüngst anhand der Hackerattacke auf die Netzwerke des Energieversorgers EnBW. Eine bislang unbekannte Hackergruppe hatte demnach die IT-Infrastruktur der EnBW-Tochter Netcom BW infiltriert. Doch auch die operative Prozessstabilität und Kontinuität sind betroffen. Dass beide Gefahrenpotentiale eine Rolle spielen, zeigen Ergebnisse aus dem Projekt eines kontinuierlichen Netzwerkmonitorings bei einem Energieunternehmen.

Bei einem deutschen Netzbetreiber wurde 2017 eine industrielle Anomalieerkennung zur lückenlosen Überwachung seiner Netzleittechnik installiert. Das Energiewirtschaftsunternehmen reagierte damit auf die zunehmenden Gefährdungen für  Steuerungsnetze der Anlagen (Industrial Control Systems, ICS). In der Netzleittechnik fanden sich mehrere Hundert Einzelkomponenten, die potentiell angegriffen werden können. Zudem begegnete das Unternehmen mit der Lösung den Anforderungen aus dem IT-Sicherheitsgesetz, dem Industriestandard ISO 27002 sowie den Empfehlungen des BDEW. Diese fordern sowohl eine lückenlose Detektion jeglicher verdächtiger Vorgänge in der informationstechnischen Infrastruktur, als auch die detaillierte Meldung von Vorfällen, welche die Versorgungssicherheit beeinträchtigen könnten.

Komplexität von Steuerungssystemen steigt

Seit Beginn des Netzwerkmonitorings wurden seit Inbetriebnahme Anfang 2017 mehrere Kommunikationsvorgänge in Echtzeit identifiziert, die zu Störungen der Versorgungssicherheit hätten führen können. Zu diesen Anomalien gehörten nicht nur sicherheitsrelevante Vorgänge. Es fanden sich zudem Kommunikationsstrukturen, die auf versteckte Netzwerkprobleme und Fehlkonfigurationen hinwiesen.

Im Bereich Cybersicherheit fanden sich beispielsweise unverschlüsselte SMB- und NetBIOS-Protokolle, die ungewollte Fernkonfiguration und Filesharing erlaubten. Zudem meldete die Anomalieerkennung unbekannte Kommunikation eines stark vernetzten Geräts mit externen IP-Adressen über SSH, ungesichertem FTP sowie HTTP.

Die Übertragungsqualität in der Netzleittechnik wurde wiederum durch verschiedene zuvor unbekannte Netzwerkfehler gefährdet. Hierzu gehörten u.a. Checksummen-Fehler, Retransmissions, fehlende Pakete in TCP-Handshakes und TCP-Verkehr nach Verbindungsende.

Die Anomaliedaten wurden automatisch nach Risiko bewertet und detailliert als PCAP gespeichert. Der Netzbetreiber konnte so binnen kürzester Zeit die forensische Analyse durchführen und die potentiellen Störungen abschalten.

Stabilität, Compliance und Cybersicherheit

Mit der industriellen Anomalieerkennung erlangte der Verteilnetzbetreiber vollständige Transparenz über Teilnehmer und Kommunikationsbeziehungen innerhalb seiner Netzleittechnik. Die industrielle Anomalieerkennung unterstützt als integraler Bestandteil des ISMS den Netzbetreiber damit auch nachhaltig und effizient beim Aufbau der Industrial Security entsprechend gesetzlicher und normativer Anforderungen.

Wie man Licht ins Dunkel von Industrial Control Systems bringt

In industriellen Steuerungsnetzen herrscht noch immer flächendeckend Intransparenz. Dieser Zustand betrifft nicht nur die Cybersicherheit, sondern auch technische Fehlerzustände, die im Verborgenen die Systemeffizienz reduzieren.

Industrie 4.0 und das Industrielle Internet der Dinge (IIoT) verändern nicht nur grundlegend die Geschäftsmodelle ganzer Branchen. Auf einem greifbaren Level wird auch die Rolle des Anlagenbetreibers neu definiert. Er übernimmt die zentrale Verantwortung, die Kontinuität der Produktion sicherzustellen. Denn die Netzwerke in der Automatisierungsindustrie – insbesondere die Steuerungsnetze (Industrial Control System oder ICS) – sind das Nervensystems eines jeden Industrie 4.0-Unternehmens.

Tappen im Dunkeln

Eine aktuelle Studie des unabhängigen Analystenhauses Forrester Consulting zeigt jedoch, dass die wenigstens Unternehmen diesen Wandel bisher strategisch nachhaltig gestalten. Laut der weltweiten Umfrage wissen nur 18 % aller Verantwortlichen in Großunternehmen, wer in ihren Netzwerken aktiv ist. 82 % fehlt demnach die digitale Transparenz – eine Grundvoraussetzung für das funktionierende Netzwerkmanagement und somit für die Kontinuität und Gesamtanlageneffektivität eines Unternehmens.

Die Studie zeigt, dass in Unternehmen weder eine Übersicht aller Netzteilnehmer vorliegt, noch die Abläufe, Konfigurationen und konkreten Kommunikationsmuster in Steuerungsnetzen bekannt sind. Anlagenbetreibern und Netzwerkverantwortlichen fehlen damit die Grundlagen, ihr ICS effektiv zu steuern:

  • Klarheit zur Architektur ihres ICS in Form eines vollständigen Network Mappings;
  • Transparenz aller Vorgänge in Echtzeit und Detail;
  • Risikoeinschätzung (Risk Assessment) für rechtzeitige Reaktion auf Ereignisse;
  • Integration von Network-Condition- und Anomaliedaten zur Prozessoptimierung.

Beeinträchtigte Echtzeitprozesse und Sicherheitslücken

Zu diesem Ergebnis kommt auch der Spezialist für Industrial Security, Rhebo in seinen Langzeitprojekten sowie Industrie 4.0 Stabilitäts- und Sicherheitsaudits bei Automationsunternehmen und Kritischen Infrastrukturen, bei dem die neue Generation einer industriellen Anomalieerkennung zum Einsatz kommt.

Demnach können in ICS vier Hauptfaktoren identifiziert werden, welche die Produktivität und Kontinuität der Fertigung gefährden:

  1. Wachsende Komplexität: In Audits wurden nicht selten mehrere Hundert Komponenten verschiedenster Hersteller und Betriebssysteme in einem ICS detektiert. Diese sind häufig mit proprietären Werkkonfigurationen integriert und nicht aufeinander abgestimmt. In dieser Unübersichtlichkeit verstecken sich zudem nicht selten Netzteilnehmer, die unerwünscht oder gar unbekannt sind.
  2. Zugriff auf Steuerungssysteme von außen: ICS-Protokolle verfügen über ein geringes Maß an Sicherheitsvorkehrungen. Umso einfacher ist die Kontrollübernahme von Geräten. Aufgrund der zunehmend übergreifenden Vernetzung zwischen den einzelnen Ebenen eines ICS wird der Zugriff von außen immer wahrscheinlicher. So sind häufig prozessnahe Komponenten aus dem Level 2 zur Datenlieferung direkt mit Systemen aus dem Level 4 oder 5 in Kontakt, die jedoch auch an das Internet angebunden sind.
  3. Ungeregelte Kommunikationsstrukturen: Automatisierte Fertigungen sind abhängig von Echtzeitprozessen. Umso überraschender ist es, dass die Kommunikationsflüsse häufig nicht kapazitätsorientiert verwaltet werden, sondern mit Werkeinstellungen unlimitiert Abfragen erfolgen dürfen.
  4. Fehlkonfigurationen: In komplexen, wachsenden und prozessseitig immer wieder angepassten Fertigungen bleibt die konsistente Konfiguration des Steuerungsnetzes häufig auf der Strecke. Ausbleibende Nachrichten und Überlastungen sind die Folge.

Mit der industriellen Anomalieerkennung werden diese Störvektoren für Anlagenbetreiber sichtbar. Damit erhalten sie die Kontrolle über ihre Steuerungsnetze und können umgehend auf Ereignisse reagieren sowie die Anlagenverfügbarkeit und Prozessstabilität sicherstellen.

Bundeshack: Sind Kritische Infrastrukturen wirklich so gefährdet?

Was soll man davon halten, wenn eines der sensibelsten Netzwerke des Landes nach dem Stand der gängigen IT-Security gesichert ist und Frank Rieger, Sprecher des Chaos Computer Clubs, auf Heise darauf nur mit einem »Aber der ist insgesamt nicht gut.«, reagiert?

Laut aktueller Erkenntnisse waren über Monate Hacker in Teilen des Regierungsnetzes aktiv und konnte Daten stehlen. Dass die Angreifer überhaupt Zugang zum Netzwerk erhielten, ist schon schlimm genug und zeigt, dass die Perimeterbarrieren wie Firewalls & Co. längst nicht mehr für Sicherheit sorgen können. Entscheidender ist jedoch, dass die Hacker über einen sehr langen Zeitraum im Netzwerk unentdeckt bleiben konnten.

Das lag neben anderen professionellen Angriffsstrategien unter anderem daran, dass die Hacker aus dem Angriff auf den Bundestag 2015 gelernt hatten. Anstelle große ‒ und damit auffällige ‒ Datenmengen im Gigabyte-Bereich aus dem Netz zu senden, hielten sie die Datentransfers beschränkt. Damit konnten sie unter dem Radar der üblichen Detektionsmechanismen der Sicherheitssysteme laufen.

Das Problem liegt jedoch tiefer. Es offenbart den grundlegend falschen Denkansatz der gängigen IT-Sicherheit: die Grenzen werden mit starren Regeln geschützt, während im Netzwerk Narrenfreiheit herrscht.

Wissenschaftsjournalist mit Schwerpunkt IT-Sicherheit Peter Welchering warnt im Deutschlandfunk deshalb ganz zurecht: »Nicht nur das Regierungsnetz ist angreifbar, wie jetzt geschehen. Nicht nur im Kommunikationsnetz des deutschen Bundestags tummeln sich die Spione. Nein, unsere gesamten sogenannten kritischen Infrastrukturen, Stromversorgung, Wasserversorgung, Telekommunikation sind leicht anzugreifen und deshalb hochgradig gefährdet.«.

Diese Gefährdung ist, unserer Meinung nach, längst reeller Status Quo in Kritis-Fernwirksystemen. Dort finden sich immer wieder Kommunikationsmuster, die auf Kompromittierungen hinweisen. Und die wenigsten Betreiber wissen darüber Bescheid. Das zumindest können wir aus unseren Monitoringprojekten sowie Stabilitäts- und Sicherheitsaudits bei Industrieunternehmen, Netzbetreibern und Energieunternehmen bestätigen.

Fallbeispiel 1: Kommunikation mit Servern in Asien

Bei den Audits und Langzeit-Monitoringprojekten kommt eine industrielle Anomalieerkennung zum Einsatz, die rückwirkungsfrei und passiv die gesamte Kommunikation innerhalb eines Steuerungsnetzes bzw. innerhalb der Netzleittechnik dekodiert und analysiert. Anstelle also ausschließlich die Perimeter eines Netzsegments zu sichern, wird das Innenleben vollständig überwacht. Die Anomalieerkennung lernt kürzester Zeit die gängigen, erlaubten Kommunikationsmuster und Vorgänge. Auf dieser Basis meldet die industrielle Anomalieerkennung jegliche Abweichung (bzw. Anomalie). Diese kann technischer Natur sein, oder eben eine Sicherheitslücke darstellen.

So fanden sich bei Netzbetreibern wiederholt Verbindungen einzelner Workstations, die ungehindert mit Servern im Ausland (u.a. Russland, China) kommunizierten, um Domainnamen in IP-Adressen aufzulösen. Den Netzwerkadministratoren war diese Kommunikation stets unbekannt ‒ und selbstverständlich unerwünscht. In einem Fall wurde eine Schadsoftware auf einer Workstation gefunden, die für die verdächtige Kommunikation verantwortlich war. Vermutlich handelte es sich beim angefragten DNS-Server im Ausland um einen Command&Control-Server, der die Schadsoftware steuerte.

Fallbeispiel 2: Konfiguration für Anlagenstörungen

In einem anderen Fall eines Energienetzbetreibers entdeckten wir zwei Switches, die immer wieder versuchten, DHCP-Anfragen zu versenden. Das Kommunikationsprotokoll DHCP ermöglicht, neue Teilnehmer ohne manuelle Konfiguration der Netzwerkschnittstelle in ein bestehendes Netzwerk einzubinden. Nötige Informationen wie IP-Adresse, Netzmaske, Gateway, Name Server und weitere Einstellungen werden automatisch vergeben.

In dem Steuerungsnetz hat eine automatische Vergabe dieser Einstellungen im Regelfall nichts zu suchen. Sollte aus irgendeinem Grund ein DHCP-Server ins Netz eingebracht werden ‒ unabsichtlich (z. B. durch einen Wartungslaptop) oder absichtlich durch einen Angreifer ‒ erhalten die Geräte dadurch IP-Adressen, die unter Umständen mit bereits vergebenen Adressen kollidieren. Dadurch ist dann ein anderes Gerät im Netz nur eingeschränkt erreichbar. Die Einschränkung der Kommunikation kann so zu Störungen in Teilbereichen der Energieversorgung bis hin zu Ausfällen der gesamten Infrastruktur führen. Durch die Neukonfiguration der Switches konnte eine fehlerhafte Kommunikation unterbunden werden.

Hacks und Störungen bereits im Ansatz entlarven

In beiden Fallbeispielen hatte die industrielle Anomalieerkennung die Kompromittierung erkannt, weil die jeweilige Kommunikation nicht zum standardmäßigen Muster in der Netzleittechnik gehörte. Dabei war unerheblich, wie umfangreich der Datentransfer war oder ob das verdächtige Kommunikationsmuster bereits als schadhaft bekannt war oder nicht. Entscheidend bei der Funktionalität der Anomalieerkennung ist, dass ein analysiertes Datenpaket schlichtweg nicht zum spezifischen Kommunikations- bzw. Verhaltensmuster des jeweiligen Netzwerks gehört.

Die Aktivitäten eines Hackers wie beim Bundes-Hack werden mit diesem lückenlosen Monitoring somit umgehend sichtbar ‒ und können direkt unterbunden werden.

Industrielle Anomalieerkennung: Mehr Sicherheit durch Machine Learning?

Künstliche Intelligenz wird aktuell als Heilsbringer für eine Vielzahl von Herausforderungen gehandelt. Seit einiger Zeit setzen auch IT-Sicherheitsdienstleister verstärkt auf das Konzept und versprechen damit mehr Cybersicherheit. Bislang fehlen jedoch handfeste Proof-of-Concepts. Vor allem im Bereich der industriellen Anomalieerkennung bleibt der Mensch auch in Zukunft der Entscheider.

Ein großes Problem bei der Diskussion ist die Vermischung der Begriffe. Immer wieder wird von Künstlicher Intelligenz oder „Artificial Intelligence“ (AI) geredet, wo eigentlich maschinelles Lernen oder „Machine Learning“ (ML) – nur als Teilaspekt von AI – gemeint ist.

Wie jedoch schon der Schweizer Netzwerksicherheits-Experte Raffael Marty im Januar auf Towards Data Science erläutert: „Bislang haben wir kein AI (oder, um präzise zu sein, AGI), also sollten wir uns auch nicht mit falschen Konzepten ablenken.“

Bleiben wir also bei dem eigentlich relevanten Begriff: „Maschinelles Lernen“. In gewissen Teilbereichen ist das maschinelle Lernen mittlerweile zu einer nicht zu unterschätzenden Hilfe geworden. Insbesondere für die Detektion von Malware und Spam unterstützen selbstlernende Algorithmen die Cybersicherheit in Unternehmen. Und IT-Sicherheitsdienstleister sehen in ML vor allem eine Unterstützung ihrer eigenen Mitarbeiter. Das amerikanische Forschungsunternehmen Cybersecurity Ventures geht für das Jahr 2021 von insgesamt 3,5 Millionen offenen Stellen im Bereich Cybersicherheit aus. Jedoch hat maschinelles Lernen gerade im Netzwerkmanagement klare Grenzen und nicht zu vermeidende Nachteile.

Jedes Netzwerk ist so individuell wie die störende Anomalie

Die große Herausforderung liegt in stark vernetzten Industrie-4.0-Umgebungen vor allem in der Detektion von Anomalien. Diese beschreiben jedes unerwünschte Verhalten und jede nicht planmäßige Kommunikation innerhalb eines Netzwerkes, die zu Störungen der Anlagenverfügbarkeit oder Produktion führen können. Die Grundbedingung für die Detektion solcher Anomalien ist demnach die Definition eines Normalzustandes ‒ und dafür bedarf es im Falle einer Lösung mit ML sehr vieler, sauberer Daten.

Lösungen auf Basis von ML sind letztlich nur so gut wie das Trainingsmaterial, auf dessen Basis sich der Algorithmus entwickelt. Für die gute Detektion klassischer Spam und Malware können Dienstleister auf sehr umfangreiche und ausdifferenzierte Datensätze zurückgreifen, um effektive Algorithmen zu trainieren. Bei Advanced Persistent Threats kommen die Algorithmen dennoch bereits an ihre Grenzen. Und für den Großteil aller anderen Anomalien ist es noch ein weiter Weg, wie auch Raffael Marty zu bedenken gibt: „In den meisten anderen Bereichen (Anomalieerkennung, Risikobewertung, Entity-Klassifikation, Datenexploration, direkte Angriffe aus dem Netzwerk; Anm. des Autors) fehlen uns entsprechend gute Trainingsdaten. Wir versuchen seit knapp zwei Jahrzehnten, Datensets zu erstellen, aber noch immer fehlt uns ein passendes. Das letzte Datenset, das wir für gut hielten, war MIT LARIAT. Das entpuppte sich letzten Endes aber doch als zu verzerrt (biased).«.

Die Individualität jedes einzelnen Steuerungsnetzes bzw. Prozesssteuerungssystems stellt ML vor einige Herausforderungen. Maschinelles Lernen lebt von statistisch relevanten Massen an Daten. Wo wenig Trainingsdaten bei hoher Individualisierung der Systeme vorherrschen, wird ML ineffizient. Das ist unabhängig davon, ob das maschinelle Lernen kontrolliert (supervised) oder unkontrolliert (unsupervised) erfolgt. Die initiale Lernphase wird nicht nur einiges an Zeit in Anspruch nehmen. Vor allem wird es schwierig, jemals mit Sicherheit sagen zu können: Das System kann jetzt fehlerfrei sowohl normale Kommunikation, also auch akzeptable Variationen aufgrund regulärer Produktionsanpassungen einordnen. Nicht umsonst benötigen Security Information and Event Management Systeme (SIEM) einen sehr langen Zeitraum (und hohe Investitionen), bis sie ein Unternehmen unterstützen können.

Denn sie wissen nicht, was sie tun

Begrenzte oder schlechte Daten bedeuten für die eigenständige Entwicklung des ML-Algorithmus jedoch eine sehr hohe Wahrscheinlichkeit von Fehlentscheidungen. „False-positive“- und „false-negative“-Meldungen sind Gang und Gäbe. Greift das System zudem aktiv in die Prozesse des Steuerungsnetzes ein (z. B. durch Blocken von Aktivitäten), können diese Meldungen zu Störungen, zur Unterbrechung der Echtzeitprozesse bis zu Produktionsausfällen führen. Für die betroffenen Unternehmen kommt es dadurch zu Auftragsverzögerungen, hohen Ausfallskosten und Verlusten.

Hinzu kommt ein entscheidender Faktor beim maschinellen Lernen: die Netzwerkbetreiber bleiben bei allen Aspekten im Dunkeln. Sie wissen weder, was in ihrem Steuerungsnetz passiert, noch wie die ML-basierte Lösung Entscheidungen darüber fällt, was im Netzwerk normale Kommunikation oder eine neue Anomalie ist.

Das Ziel eines effektiven Netzwerkmanagements ist jedoch die digitale Transparenz und kontinuierliche Sichtbarkeit aller Vorfälle im Steuerungsnetz. Hat eine Lösung mit maschinellem Lernen und der menschliche Trainer des Systems jedoch einmal „entschieden“, dass der Lernprozess abgeschlossen und ein Standard der Netzwerkkommunikation etabliert ist, funktioniert die Lösung im weiteren Betrieb als Black Box für den Netzwerkverantwortlichen. Denn das ist die Grundidee von ML: Die Maschine entscheidet und entwickelt sich mehr oder weniger selbstständig weiter, ohne die Menschen zu behelligen. Damit kann es jedoch auch passieren, dass sich die Maschine in die Unwissenheit hinein entwickelt ‒ und die Betreiber erfahren es erst, wenn es längst zu spät ist. Natürlich können die Verantwortlichen die Entscheidungsprozesse der Software auf Schritt und Tritt überprüfen.

Damit wird jedoch die Effektivität und der Kerngedanke des maschinellen Lernens ad absurdum geführt. Der Trade-Off eines Systems mit maschinellem Lernen ist damit die Transparenz. Diese ist jedoch Grundlage sowohl für das effiziente Management von Steuerungsnetzen, also auch der gesetzlichen und normativen Compliance mit z. B. dem IT-Sicherheitsgesetz oder dem IEC 62443. Denn diese fordern eine strikte und äußerst detaillierte Klarheit über die Teilnehmer und Vorgänge in industriellen Netzwerken, um die Verfügbarkeit der Ressourcen, Systemintegrität und eine rechtzeitige Reaktion auf Ereignisse sicherzustellen. Transparenz – die 100%ige Visualisierung aller Strukturen und Vorfälle – und Entscheidungshoheit und Echtzeit sind nach wie vor die entscheidenden Faktoren in industriellen Steuerungsnetzen.

Alternative zum maschinellen Lernen

Eine effektive industrielle Anomalieerkennung kann nicht auf die Menschen verzichten, denn sie bringen zwei entscheidende Faktoren mit: Kontext und Fachwissen.

Kontext: Anlagenbetreiber und Administratoren wissen um die Funktion und die Steuerung einer Anlage. Damit können sie auch einschätzen, welche Form der Kommunikation und Konnektivität für die Anlage sinnvoll und normal ist. Dieses Kontextwissen ist grundlegend für die Interpretation und die Risikobewertung von Anomaliemeldungen. Dieser Kontext kann z. B. auch durch entsprechende Filterfunktionen in einer industriellen Anomalieerkennung erreicht werden.

Fachwissen: Anlagenbetreiber und Administratoren bringen Expertise und spezifische Erfahrungswerte mit, die nicht über einen (einfachen) Algorithmus abgedeckt werden können. Netzwerkprobleme entstehen z.B. häufig durch eine Reihe verknüpfter Störungen, Konfigurationen und Zustände. Diese Komplexität bedarf dementsprechender Einzelfallbetrachtungen.

Um diese Faktoren optimal zu unterstützen, ist eine Monitoring-Lösung mit deterministischen Methoden deshalb effektiver als Machine-Learning-Algorithmen. Network-Condition-Monitoring-Werkzeuge wie eine industrielle Anomalieerkennung lernen dazu kontinuierlich unter menschlicher Kontrolle die Steuerungsnetzstruktur und darin auftretenden Anomalien. Die Überwachung des Lernzyklus wird – wie bei ML üblich – nie abgeschlossen. Entdeckt die Software einen Vorfall bzw. eine abweichende Kommunikation, meldet sie diese stattdessen dem Anlagenbetreiber mit einer Risikoeinschätzung. Die Entscheidung über die Anomalie verbleibt jedoch vollständig beim Betreiber. Dementsprechend wirkt die Anomalieerkennung passiv und rückwirkungsfrei, um Fehlentscheidungen seitens der Software zu vermeiden.

Im Gegensatz zur ML-Lösung gewährleistet die deterministische Methode damit vollständige Transparenz und Kontrolle über jegliche Vorgänge in Steuerungsnetzen. Solch ein Monitoringwerkzeug liefert den Anlagenbetreibern und Netzwerkverantwortlichen Klarheit und unterstützt die Entscheidungsfindung optimalerweise mit allen relevanten Informationen wie z.B. den Rohdaten zu einer Anomalie und einer Risikobewertung auf Basis vorab definierter Impact Scores.

In einem Steuerungsnetz, das durch Komplexität und eine Vielzahl möglicher Störungsvektoren gekennzeichnet ist, behält der Betreiber mit Hilfe deterministischer Methoden somit vollständige Kontrolle und Entscheidungshoheit. Nicht zuletzt vermeidet er wiederholte Produktionsunterbrechungen aufgrund intransparenter Fehlentscheidungen durch das Blackbox-Verhalten der Machine-Learning-Software.

»Meltdown« und »Spectre« machen klassische IT-Sicherheitsstrategien obsolet

Das Jahr 2017 hatte für die rasant fortschreitende Digitalisierung jeglicher Prozesse, Systeme und Geschäftsmodelle mit den Schadprogrammen »Industroyer«, »WannaCry«, »NotPetya« und »Reaper« bereits einiges an Störpotential in petto. Mit den neu bekannt gewordenen Schwachstellen »Meltdown« und »Spectre« steht die Entwicklung neuer digitaler Konzepte z.B.  für Industrie 4.0-Anwendungen oder Smart Citites nun vor noch größeren Herausforderungen. Denn während »Meltdown« über Software-Updates geschlossen werden kann, liegt bei »Spectre« eine Schwachstelle vor, mit der Unternehmen noch eine ganze Weile leben müssen. Sie kann nur durch multiple Patches unter signifikanter Reduzierung der Hardwareperformance oder durch einen umfassenden Hardwarewechsel behoben werden. Damit stehen Sicherheit und Stabilität von Netzwerken langfristig auf dem Spiel.

»Meltdown« & »Spectre« are here to stay

Das Problem mit »Meltdown« und »Spectre« lässt sich folgendermaßen zusammenfassen: Beide Schwachstellen erlauben das umfassende und tiefgreifende Auskundschaften von IT-Systemen und damit die Etablierung weit aufgerissener Zugangstore, durch die sensible Daten (z. B. Passwörter) direkt aus dem System abgefragt werden können – ohne Gegenwehr der Peripheriesicherungen wie Firewalls und Virenscanner. »Meltdown« und »Spectre« selbst stellen damit nicht die einzige Gefahr dar. Es sind die Schadprogramme, die in nächster Zukunft diese Lücken ausnutzen, Daten stehlen und Prozesse stören werden. Die Hersteller der Betriebssysteme für Windows, MacOS, IOS und Linux haben zwar bereits mit Patches geantwortet, jedoch stehen insbesondere Unternehmen vor vier Problemstellungen:

  1. Nur wer absolute Transparenz über sein Netzwerk besitzt, kann auch sicherstellen, dass alle Komponenten auf dem aktuellen Stand sind.
  2. In vielen Netzwerken finden sich Komponenten, auf denen noch immer Betriebssystemversionen laufen, die nicht mehr unterstützt werden.
  3. Insbesondere in industriellen Steuernetzen und in der Fernwirktechnik sog.  Kritischer Infrastrukturen ist ein zeitnahes Update oftmals nicht möglich, ohne Betriebsunterbrechungen in Kauf zu nehmen.
  4. Die Schwachstelle »Spectre« ist softwareseitig nur sehr schwer und partiell patchbar. Diese Schwachstelle wird auch in Zukunft aktiv sein und das Ziel von Schadprogrammen sein.

Auch Industrie 4.0 und KRITIS sind betroffen

Dabei ist es unerheblich, ob ein Unternehmen vor allem IT-Netzwerke aufweist oder vernetzte Steuerungssysteme betreibt. Auch ob im Netzwerk Komponenten zum Einsatz kommen, die nicht anfällig für »Spectre« und »Meltdown« sind, ist nicht relevant. Im Fertigungsbereich finden sich z. B. mehrheitlich ARM-Prozessoren, bei denen sich die Ausnutzung der Schwachstellen komplexer (aber nicht unmöglich) gestaltet.

Eine Garantie für Sicherheit ist das dennoch nicht. Denn in einer vernetzten Industrie-4.0-Umgebung reicht ein einziges anfälliges Gerät, um Zugang auf das gesamte Netzwerk zu erhalten und Schadsoftware einzuschleusen. Das kann auch der einfache Bürodrucker sein. Sobald ein Angreifer ein einziges Gerät erfolgreich kompromittiert hat, kann er über die Schwachstellen relevante Daten abfragen, um tiefer ins Netzwerk vorzudringen.

Mit Defense-In-Depth gegen Effekte von Exploits absichern

Was bleibt Industrieunternehmen also angesichts von »Meltdown« und »Spectre«? In Zukunft werden Unternehmen damit leben müssen, dass die klassischen (abwehrenden) IT-Sicherheitssysteme unterwandert werden können. Unternehmen sollten deshalb auf eine Defense-In-Depth-Strategie setzen, die sich nicht nur auf die Absicherung der Grenzanlagen ihrer Netzwerke beschränkt. Denn wenn an den Grenzen der Netzwerke und auf Endgeräten motiviert durch »Spectre« und »Meltdown« ganz legitim Tore geöffnet werden, hilft keine Firewall und kein Virenscanner. Die Wächter sind dann blind und taub. Und wir können davon ausgehen, dass in den nächsten Jahren weitere strukturelle Schwachstellen öffentlich werden, die Cyberkriminelle (und staatliche Akteure) womöglich bereits heute ausnutzen.

Der Level-1-Absicherung durch Firewall und Co. muss deshalb ein Sicherheitsnetz hinzugefügt werden, das die Vorfälle erkennt, denen gegenüber die Level-1-Absicherung wirkungslos ist. In industriellen Umgebungen wie der Automatisierungsindustrie, Prozesstechnik, Energie- und Wasserwirtschaft kann eine industrielle Anomalieerkennung dieses Sicherheitsnetz bilden.

Eine automatische industrielle Anomalieerkennung überwacht als System für ein kontinuierliches Network Condition Monitoring die gesamte Kommunikation innerhalb eines Steuernetzes. Sie schafft damit nicht nur vollständige Transparenz über alle Akteure und Kommunikationsflüsse im Netzwerk. Sie erkennt und meldet auch jede neuartige oder veränderte Kommunikation, die im Steuernetz auftaucht. Eine Schadsoftware, die über eine Schwachstelle in das Netzwerk eingeschleust wurde, macht sich vor allem durch ihre Kommunikation, z. B. in Form von Request, Port-Scans und Datentransfers, innerhalb des Netzwerks bemerkbar. Eine industrielle Anomalieerkennung detektiert diese Kommunikation sofort als Abweichung im Steuernetz und meldet sie in Echtzeit an den Administrator.

Ist die Anomalieerkennung als rückwirkungsfreies, passiv Monitoringsystem in das zu überwachende Netzwerk integriert, ist es dabei selbst nicht von einer möglichen Kompromittierung des Netzwerkes betroffen.

Der Fokus bisheriger Netzwerksicherheitsstrategien, Bedrohungen bereits an den Grenzen abzuwehren, wird mit einer automatischen Anomalieerkennung somit um einen weiteren Aspekt ergänzt: Erfolgreiche, für die Grenzwächter Firewall & Co. unsichtbare Eindringlinge und Kommunikationsänderungen im System werden ausfindig und sichtbar gemacht, bevor sie ernsthaften Schaden anrichten können. Diese Level-2-Absicherung gewährleistet, dass Betreiber industrieller Steuernetze auf alle Eventualitäten adäquat und effizient reagieren können. Es ist an der Zeit, umzudenken.

Bedroht das IoT-Botnetz »Reaper« vernetzte Produktionen?

Mit dem »Reaper« nimmt die nächste Malwarekampagne Fahrt auf. Bisher sind ausschließlich IoT-fähige Geräte betroffen, doch der Übergang zum IIoT (Industriellen Internet der Dinge ) ist fließend und die Angreifer zeigen sich äußerst agil. Bei einer Attacke könnten somit auch Steuernetze, Fernwirknetze und vernetzte Produktionen betroffen sein. Mit einer Anomalieerkennung werden solche schleichenden Übernahmen frühzeitig erkannt.

Am 20. Oktober berichtete der IT-Analyst yegenshen der Chinesischen Cybersicherheitsfirma Netlab 360 von einem neuen Botnetz, das gezielt IoT-fähige Geräte ins Visier nimmt. Yegenshen bezeichnete das Botnet deshalb als »IoT_reaper«. Mittlerweile hat sich die Kurzform »Reaper« etabliert.
Der Analyst sprach von rund 10.000 befallenen Geräten, die bereits fünf Tage später auf 28.000 angestiegen waren. Zusätzlich werden mindestens zwei Millionen IoT-Geräte in einer Warteschleife vermutet, die vom Botnetz auf eine Nutzung im Botnetz geprüft und nachfolgend infiziert werden sollen.

Was im ersten Moment an das letztjährige »Mirai«-Botnet erinnert, wird in der Detailanalyse als weitaus potentere Malware identifiziert. Mirai hatte 2016 zirka 500.000 IoT-Devices kompromittiert, die für wiederholte DDoS-Attacken (Distributed-Denial-of-Service) genutzt wurden. Unter anderem wurde der DNS-Serviceanbieter Dyn attackiert, so dass eine Reihe dort gehosteter Webseiten wie Twitter, Netflix und Reddit für längere Zeit nicht erreichbar waren. Auch für den Hackerangriff auf DSL-Router der Telekom am 27. November 2016 wurde das Mirai-Botnet genutzt.

Unterschiede von Reaper und Mirai

Der Angriffsvektor verlief (und verläuft nach wie vor) bei Mirai über die Nutzung der Defaultpasswörter, die vom Hersteller in den IoT-Devices gesetzt werden – und vom Nutzer häufig nicht geändert wurden. Das neue Botnetz Reaper mag auf dem Code von Mirai aufbauen, es unterscheidet sich jedoch sehr klar von diesem Vorgänger – sowohl in der Ausführung als auch im möglichen Störpotential:

  1. Der Angriffsvektor läuft gezielt über Schwachstellen (Vulnerabilities oder Exploits) bestimmter Geräteanbieter wie D-Link, Netgear, JAWS u.a. Auf die Ausnutzung von Defaultpasswörtern der Hersteller wird verzichtet, so dass eine Detektion bzw. Abwehr noch unwahrscheinlicher ist.
  2. Die Autoren reagieren sehr flexibel auf Änderungen. So wurde die Schwachstelle der IP-Überwachungssysteme vom Typ Vacron NVR nur wenige Tage nach Bekanntwerden in das Botnetz integriert. Das spricht für eine sehr aktive Betreuung des Botnetzes.
  3. Die bisherige vergleichsweise langsame Ausbreitung von Reaper spricht für ein sehr sorgfältiges Vorgehen der Autoren. Höchstwahrscheinlich versuchen sie weiterhin die Funktionalität zu testen.
  4. Die Malware ist in einer LUA-Umgebung integriert. LUA ist als einfache und zugleich äußerst mächtige Skriptsprache bekannt, die für komplexe und effiziente Programmierung genutzt wird. Das erhöht das Potential, mit Reaper ebenso komplexe, agil entwickelte Attacken durchzuführen, die weit über die DDoS-Attacken von Mirai hinausgehen.

Warum Reaper auch fürs IIoT gefährlich werden kann

Diese Punkte verdeutlichen das Potential von Reaper, auch im Industriellen Internet der Dinge Störungen herbeizuführen. Bisher sind zwar ausschließlich IoT-Devices betroffen, die keine direkte Anwendung in der industriellen Umgebung haben. Ein Übergreifen ist aus verschiedenen Gründen jedoch nicht nur möglich, sondern auch wahrscheinlich.

Der wahrscheinlichste Weg läuft über das Ausnutzen von Schwachstellen (Exploits) von IIoT-Devices. Die Autoren von Reaper arbeiteten bisher sehr agil. Sie reagierten umgehend auf neu bekannt gewordene Exploits und fügten diese den bisherigen Angriffsvektoren hinzu. Es scheint, dass sie nur darauf warten, neue Schwachstellen in Erfahrung zu bringen. Aktuell sind noch keine IIoT-Geräte direkt betroffen. Dies mag daran liegen, dass den Autoren bislang die Exploits für die entsprechenden Geräte fehlen. Sobald jedoch neue Schlupflöcher bekannt (oder im Darknet verfügbar) werden, könnte sich das schnell ändern.

Ein weiterer Einfallsweg läuft über die Betriebssystembasis. Reaper greift mehrheitlich Linuxbasierte Geräte an. Das Botnetz nutzt infizierte Geräte, um das Netzwerk auf weitere Devices zu scannen und zu infizieren. Dementsprechend können neben den gerätespezifischen Exploits auch generische Linux-Schwachstellen als Einfallstor genutzt werden. Das erlaubt den Autoren eine Ausweitung der Gerätetypen und Hersteller.

Der dritte Weg läuft über die IoT-Devices als Mittelsmann. Reaper greift auf eine mächtige LUA-Umgebung zurück. Es ist daher nicht ausgeschlossen, dass über die infizierten IoT-Devices eine komplexe Malware in die Systeme geschleust wird, die auf »dahinter liegende« Devices zielt. Da IoT-Devices, Office-Devices und IIoT-Devices längst miteinander verbunden sind, könnte eine Netzwerkdurchdringung ganzheitlich erfolgen.

Bislang kann nur gemutmaßt werden, was genau die Autoren von Reaper planen. Alles deutet darauf hin, dass sie das Botnetz aktuell in Stellung bringen und testen. Die potentielle Gefahr offenbart sich vor allem im agilen Anpassen der Malware durch die Autoren und in der potentiellen Reichweite des Reaper.

Die beste Sicherheit sind Transparenz und Echtzeit

Wie schon WannaCry und NotPetya wird der Reaper zu den Advanced Persistent Threats gezählt. Während Mirai noch per Passwort-Hack die Vordertür benutzte, gelangt Reaper bequem durch die Hintertüren der einzelnen Herstellergeräte. Dort übernimmt er kurzerhand die Kontrolle über das Gerät und führt sein aktuell gesetztes Programm um. Das bedeutet auch, dass er von Sicherheitsprodukten wie Firewall und Co. nicht erkannt wird.

Sicherheitsexperten verweisen zwar darauf, dass die Aktualisierung der Firmware die Gefahr bannt. Jedoch vergessen sie dabei zwei entscheidende Punkte:

  1. Der Autor sucht aktiv nach Sicherheitslücken und integriert diese fortwährend (und schneller als jedes Update) in seine Malware. Es ist somit nur eine Frage der Zeit, bis die nächste Hintertür im Gerät genutzt wird oder weitere angreifbar werden.
  2. Industrieunternehmen können aufgrund von Kompatibilitätsproblemen und Verfügbarkeitsanforderungen häufig nicht ad hoc ihre Komponenten aktualisieren. Die Geräte laufen somit in der Regel über einen längeren Zeitraum mit alten Sicherheitseinstellungen, bleiben infiziert und damit angreifbar.

Kurz: Das gängige und von vielen Sicherheitsdienstleistern vorgeschlagene Sicherheitskonzept hinkt dem Reaper immer mindestens einen Schritt hinterher.

Wer seine Geräte schützen und insbesondere die Ausbreitung im eigenen Netzwerk verhindern möchte, muss in Echtzeit über einen möglichen Angriff informiert werden. Das ist derzeit maßgeblich und ausschließlich über eine Anomalieerkennung realisierbar. Die Anomalieerkennung überwacht dabei kontinuierlich alle Aktivitäten im eigenen Netzwerk und meldet jede Auffälligkeit. Dazu gehören Passwort- und Autorisierungsänderungen genauso wie bislang unbekannte Statusabfragen anderer Devices und verdächtige Kommunikationspakete, die zum Beispiel externen Servern Informationen übermitteln oder von diesen Befehle erhalten.

Advanced Persistent Threats ist nur durch ein Maximum an Netzwerktransparenz beizukommen. Es sollte allen Akteuren bewusst werden, dass die erste Verteidigungslinie von Firewall & Co. gegenüber den neuen Angriffsvektoren blind und somit machtlos ist. Umso wichtiger ist es, als zweite Verteidigungslinie des IT-/OT-Sicherheitskonzepts genauestens zu wissen, was im eigenen Netzwerk passiert. Nur so können Netzwerkverantwortliche schnell reagieren und Störungen verhindern.

Vernetzte Produktion transparent und sicher machen

Ein kontinuierliches Steuernetzmonitoring mit Anomalieerkennung kann die Brücke schlagen zwischen Leitstand, MES sowie SIEM und Firewall. Zudem erlaubt es ein detailliertes Mapping der IIoT-Umgebung sowie eine Risikobewertung aller Vorfälle im Steuerungssystem.

Hinter der Idee der vernetzten Produktion steckt der Aufbau intelligenter, sensorgestützter und vor allem selbststeuernder Produktionssysteme. Diese Autonomie der Fertigung bedarf jedoch einer starken Integration aller Unternehmenssysteme sowie eines zuverlässigen Monitorings. Schließlich müssen auch in einer vernetzten Produktion die Qualitätssicherung und Cybersicherheit gewährleistet werden. Zusätzlich soll über das kontinuierliche Monitoring der Anlagen- und Kommunikationsparameter die Predictive Maintenance realisiert werden.

Aktuell steht das Industrielle Internet der Dinge (IIoT) bei der Erreichung seiner Ziele noch vor einigen Herausforderungen:

  • Es gibt fast keine Integration der vernetzten Produktion in die Cybersicherheitsstrategie der Unternehmen.
  • Die Anlagenkommunikation im Steuerungssystem wird nicht für das Monitoring und die Maßnahmenableitung in Bezug auf Qualitätssicherung und Predictive Maintenance genutzt.
  • Es fehlt ein effektives Netzwerkmanagement, das auf einem transparenten Network Mapping und einer detaillierten Risikolandkarte basiert.
  • Es fehlt das Fachpersonal, um sowohl Cybersicherheit als auch das Netzwerkmanagement in der vernetzten Produktion sicherzustellen.
  • Es fehlt eine klare Risikobewertung (»Risk Scoring«) für Anomalien und Vorfälle im Steuernetz der vernetzten Produktion, um Maßnahmen effektiv zu priorisieren und das Risiko somit abschätzbar zu machen.

Vernetzung bedeutet auch Integration

Bislang waren Unternehmens-IT und Fertigungs-IT (im englischsprachigen Raum hat sich der Begriff der Operational Technology oder OT eingebürgert) mehrheitlich eigenständige Netzwerke in einem Unternehmen, die über die Automationspyramide zusätzlich in ein klar hierarchisches Verhältnis gesetzt wurden. Dementsprechend wurden auch die Technologien voneinander getrennt. Insbesondere die Technologien für Netzwerkmonitoring und Cybersicherheit sind noch immer vornehmlich auf die Unternehmens-IT zugeschnitten. Im Fertigungssteuernetz funktionieren sie in der Regel nicht.

Für die Realisierung einer selbststeuernden vernetzten Produktion wird diese Trennung und Hierarchie aufgebrochen. OT und IT werden ineinander integriert. Die Automationspyramide flacht vertikal und horizontal zusehends ab.

Deshalb werden Brückenfunktionen zwischen Leitstand, MES, SAP und den eingesetzten IT-Sicherheitstechnologien wichtiger. Gerade bei den aktuell immer stärker in den Fokus strebenden Themen Cybersicherheit, Anlagenverfügbarkeit und Effektivität im IIoT sollten Ansätze realisiert werden, die nicht eine weitere Insellösung in das ohnehin komplexe Netzwerk einbringen.

Ein Steuernetzmonitoring mit Anomalieerkennung kann hierbei als Brücke zu mehreren Systemen dienen:

  • Lieferung detaillierter Daten zu Sicherheitsvorfällen und Anomalien an eine Firewall, ein Intrusion Detection System (IDS) oder ein Security Information and Event Management System (SIEMS);
  • Lieferung detaillierter Daten zu Veränderungen der Anlagenkommunikation sowie Anlagendaten Richtung Leitstand für die Realisierung der Predictive Maintenance und Sicherstellung der Produktivität;
  • Integration der Daten zur Steuernetzkommunikation in übergeordnete Systeme wie MES oder SAP zur Steigerung der Produktivität sowie Optimierung der Geschäfts- und Fertigungsprozesse;
  • Network Mapping für die lückenlose Bestandsaufnahme und kontinuierliche Aufzeichnung aller sicherheitsrelevanten Anlagen.

Grundsätzlich liest die integrative Systemlösung für diese Funktionen die gesamte Kommunikation in einem Steuernetz mit. Die Analyse erfolgt auf Inhaltsebene, so dass eindeutige Aussagen zu den Vorgängen innerhalb des Steuernetzes gemacht und entsprechend spezifische Maßnahmen abgeleitet werden können.

Über eine individuell konfigurierbare Data-Filtering-Richtlinie können die Betreiber zusätzlich definieren, welche Daten und Meldungen an die anderen Systeme (SIEM, MES etc.) weitergeleitet werden. Die Übertragung erfolgt in Echtzeit, so dass z. B. im Fall einer negativen Veränderung im Steuernetz umgehend auf die Anomalie reagiert werden kann. So können Störungen vermieden und die Produktivität sichergestellt werden.

Diese Integration bedeutet auch, dass die bereits im Unternehmen aufgebaute IT-Workforce das Management der Produktions-IT betreuen kann. Unternehmen umgehen so den aktuell eklatanten Fachpersonalmangel. Zugleich bleibt die generelle, sinnvolle Trennung der IT und OT-Infrastrukturen erhalten.

Wissen, wo es brennt und darauf reagieren können

Je vernetzter eine Produktion ist, desto komplexer wird sie auch. In der Konsequenz bedeutet dies, dass sowohl das Datenvolumen als auch die Anzahl der Meldungen über Vorgänge im Steuernetz zunehmen. Die Betreiber stehen vor der Herausforderung, Meldungen aus dem Monitoring des Steuernetzes schnell zu sichten, einzuschätzen und entsprechende Maßnahmen abzuleiten.

Ein effektives »Risk Scoring« hilft, diese Aufgabe zu bewältigen. Dazu identifiziert und analysiert die Monitoringlösung alle Komponenten und Verknüpfungen im Steuernetz (Network Mapping) sowie die Standardkommunikation im Steuernetz.

Anschließend werden den Ergebnissen Risikoklassen zugeordnet, die folgende Fragen beantworten: wie relevant ist die Komponenten für die Fertigungsprozesse und welche Form der Kommunikationsänderung im Steuernetz hat eine große Auswirkung auf die Prozesse und Produktivität.

Entsprechend dieser Klassifizierung werden Anomalien bzw. Veränderungen im Steuernetz sogenannten Risikoklassen zugeordnet. So wird z. B. eine Änderung der Autorisierungen bei einer sehr relevanten Fertigungskomponente mit einem sehr hohen Risikopotential gemeldet. Über die Data-Filtering-Richtlinine kann diese Hochrisikomeldung in Echtzeit z. B. an das SIEMS gesendet werden. Die Verantwortlichen im Leitstand und im Cybersicherheitsteam erhalten somit eine priorisierte Meldung und können umgehend auf den Vorfall reagieren.

Ein so integriertes Steuernetzmonitoring gewährleistet erstmals eine vollständige Transparenz im Steuernetz, wie sie bereits von der Unternehmens-IT bekannt ist. Die Einbindung operativer Daten an den relevanten IT- und OT-Schnittstellen erlaubt darüber hinaus eine effektive Entscheidungshoheit für die Verantwortlichen einer vernetzten Produktion im Unternehmen.