Geht doch: Künstliche Intelligenz in Zeiten der DSGVO

Matthias Engelbach

vor 6 Jahren

Wissenschaftsjahr 2019: »Künstliche Intelligenz« Die Arbeitswelten der Zukunft werden entscheidend von der Entwicklung Künstlicher Intelligenz geprägt sein. Das Wissenschaftsjahr 2019 wird sich mit den Chancen und Herausforderungen dieser Technologie auseinandersetzen.

Künstliche Intelligenz wird den deutschen Mittelstand in den nächsten Jahren beflügeln und zugleich herausfordern – ob bei der automatischen Weiterverarbeitung der täglichen Papierflut auf den Schreibtischen oder der Umstellung auf smarte Produktion ohne Ausfallzeiten. Doch so vielfältig die Einsatzmöglichkeiten der schlauen Algorithmen auch sind: Alle müssen eine große Hürde überwinden – Künstliche Intelligenz wird nur schlau und wirklich hilfreich, wenn sie an möglichst realen Daten lernen kann – doch je realer die Daten, desto rigider erscheinen die Auflagen der Datenschutz-Grundverordnung (DSGVO). Viele Mittelständler fühlen sich mit der Auflagenflut und rechtlichen Bewertung ihrer Datenpolitik überfordert und nicht wenige verzichten aus Sorge um mögliche Datenschutzverstöße ganz auf die Vorteile der KI-Umsetzung im eigenen Betrieb.

Wer nichts lernt, bleibt dumm – gilt auch für KI

Die notwendige Grundlage für Maschinelles Lernen sind Trainingsdaten. Ohne sie geht hier nichts. In den meisten Anwendungsfällen müssen KI-Modelle mit Unmengen an echten Daten trainiert werden, um später im Produktiveinsatz auch die gewünschte Leistung erbringen zu können. Hierin liegt für viele Unternehmen bereits der erste Stolperstein: Selbst wenn große Mengen an aus vergangenen Prozessen entstandenen Daten vorhanden sind (und das ist vor allem für kleinere Firmen oft genug nicht der Fall), können diese nicht immer ohne weiteres weiterverwertet werden. Insbesondere sensible personenbezogene Daten wie Kundenadressen oder Krankenakten unterliegen in Deutschland spätestens seit der Einführung der neuen DSGVO 2018 einem strengen Schutz. Will ich innerhalb meiner eigenen Firma mit Daten arbeiten, ist dies meist noch unkritisch. Was passiert jedoch, wenn ich für die Erstellung von neuen KI-Modellen auf externe Dienstleister zurückgreifen oder die Daten sogar auf irgendwelche Cloud-Server laden muss, die ihren Standort vielleicht sogar außerhalb Deutschlands haben?

Eine Möglichkeit, personenkritische Daten trotz DSGVO für KI verwenden zu können, ist die Anonymisierung: Wenn ich meine Daten so verändere, dass keine Rückschlüsse mehr auf die ursprünglich hinter den Daten stehende Person mehr geschlossen werden kann, sind sie nicht mehr personenbezogen. Die Daten werden also durch Anonymisierung legalisiert – gleichzeitig jedoch entwertet, denn durch die Anonymisierung fallen wichtige Informationen aus den ursprünglichen Datensätzen häufig weg und können nicht mehr für maschinelles Lernen genutzt werden. Statt einer klassischen Anonymisierung, die einer Streichung von kritischen Merkmalen entsprechen würde, versucht man daher oft, eine Pseudonymisierung durchzuführen. Bei der Pseudonymisierung werden sämtliche sensible Daten gegen gleichwertige alternative Werte ausgetauscht. Die Pseudonyme verschleiern die reale Person hinter den Daten, ohne dass Informationen verloren gehen. So könnte zum Beispiel der Name »Manfred Maier« bei jedem Vorkommen gegen das populäre Pseudonym »Max Mustermann« ausgetauscht werden.

Generell sind bei der Anonymisierung je nach Absicht verschiedene Ersetzungsverfahren möglich:

Suppression: Hier werden kritische Wörter durch Konstanten wie XXX oder Ähnliches ersetzt oder vollkommen entfernt. Bei dieser Technik der Anonymisierung geht jedoch viel Information verloren. Manchmal kann es auch nützlich sein nur einen Teil der Entität zu »schwärzen«, sodass z.B. nur noch die letzten drei Ziffern einer Kontonummer sichtbar sind.
Generalisierung: Hier werden spezifische Bezeichner durch allgemeinere Begriffe ersetzt. Beispiel: »Das Fraunhofer Institut« wird zu »Das Institut«. So bleibt zumindest ein Teil der Information erhalten.
Tagging: Eine Entität wird durch ein festes Label ersetzt, dass immerhin noch Rückschlüsse auf den ursprünglichen Typ des Wortes zulässt. So wird aus »Ich wohne in Stuttgart« demnach beispielsweise »Ich wohne in [ORT]«. Wenn wir gleiche Entitäten immer durch gleiche Tags ersetzen, also Stuttgart jedes Mal durch [ORT1] ersetzen, wissen wir sogar im Nachhinein noch eindeutig, an welchen Stellen immer vom selben Ort gesprochen wird, ohne ihn wirklich zu kennen.
Hashing: Mittels verschiedener Algorithmen (z.B.: SHA 256) können Begriffe ebenfalls in für Menschen kryptische und unleserliche Zeichenketten umgewandelt werden, die für gleiche Eingangsbegriffe immer denselben Wert annehmen. Hier ist jedoch Vorsicht geboten: Auch wenn viele moderne Hashing-Funktionen als relativ sicher gelten, kann es unter Umständen dennoch im Nachhinein Unbefugten gelingen, den verschlüsselten Originalwert wiederherzustellen.

Handelt es sich nur um ein paar wenige Datensätze, kann man dies vielleicht noch von Hand erledigen. Für Maschinelles Lernen werden jedoch meist mehrere tausend relevante Datensätze benötigt und der »Lerneffekt« für den Algorithmus und die nötige Datenmenge hängen von der Qualität und Struktur der Trainingsdaten ab. Einige Anbieter von KI-Anwendungen ermöglichen inzwischen die Installation ihrer Software »on premise«, d.h. Programme zum Training von KI-Modellen können lokal auf firmeninternen Servern installiert und so ausgeführt werden, dass keine sensiblen Daten das Unternehmen verlassen. In manchen Fällen mag auch der Abschluss eines Vertrags zur Auftragsdatenverarbeitung (ADV) zielführend sein.

Wenn Sie wissen wollen, wie Sie in Ihrem eigenen Unternehmen schützenswerte personenbezogene Daten auch innerhalb von langen Textdokumenten automatisch finden und anonymisieren können, sprechen Sie uns an oder besuchen Sie unser Seminar zum Thema Textverstehen.

Leselinks:

Matthias Engelbach

Als studierter Softwareentwickler beschäftigt sich Matthias Engelbach vor allem mit Fragestellungen im Bereich Künstliche Intelligenz und Maschinelle Sprachverarbeitung.

Autorenprofil