Website-Icon Fraunhofer IAO – BLOG

Geht doch: Künstliche Intelligenz in Zeiten der DSGVO

Wissenschafts­jahr 2019: »Künstliche Intelligenz« Die Arbeitswelten der Zukunft werden entscheidend von der Entwicklung Künstlicher Intelligenz geprägt sein. Das Wissenschaftsjahr 2019 wird sich mit den Chancen und Herausforderungen dieser Technologie auseinandersetzen.

Künstliche Intelligenz wird den deutschen Mittelstand in den nächsten Jahren beflügeln und zugleich herausfordern – ob bei der automatischen Weiterverarbeitung der täglichen Papierflut auf den Schreibtischen oder der Umstellung auf smarte Produktion ohne Ausfallzeiten. Doch so vielfältig die Einsatzmöglichkeiten der schlauen Algorithmen auch sind: Alle müssen eine große Hürde überwinden – Künstliche Intelligenz wird nur schlau und wirklich hilfreich, wenn sie an möglichst realen Daten lernen kann – doch je realer die Daten, desto rigider erscheinen die Auflagen der Datenschutz-Grundverordnung (DSGVO). Viele Mittelständler fühlen sich mit der Auflagenflut und rechtlichen Bewertung ihrer Datenpolitik überfordert und nicht wenige verzichten aus Sorge um mögliche Datenschutzverstöße ganz auf die Vorteile der KI-Umsetzung im eigenen Betrieb.

Wer nichts lernt, bleibt dumm – gilt auch für KI

Die notwendige Grundlage für Maschinelles Lernen sind Trainingsdaten. Ohne sie geht hier nichts. In den meisten Anwendungsfällen müssen KI-Modelle mit Unmengen an echten Daten trainiert werden, um später im Produktiveinsatz auch die gewünschte Leistung erbringen zu können. Hierin liegt für viele Unternehmen bereits der erste Stolperstein: Selbst wenn große Mengen an aus vergangenen Prozessen entstandenen Daten vorhanden sind (und das ist vor allem für kleinere Firmen oft genug nicht der Fall), können diese nicht immer ohne weiteres weiterverwertet werden. Insbesondere sensible personenbezogene Daten wie Kundenadressen oder Krankenakten unterliegen in Deutschland spätestens seit der Einführung der neuen DSGVO 2018 einem strengen Schutz. Will ich innerhalb meiner eigenen Firma mit Daten arbeiten, ist dies meist noch unkritisch. Was passiert jedoch, wenn ich für die Erstellung von neuen KI-Modellen auf externe Dienstleister zurückgreifen oder die Daten sogar auf irgendwelche Cloud-Server laden muss, die ihren Standort vielleicht sogar außerhalb Deutschlands haben?

Eine Möglichkeit, personenkritische Daten trotz DSGVO für KI verwenden zu können, ist die Anonymisierung: Wenn ich meine Daten so verändere, dass keine Rückschlüsse mehr auf die ursprünglich hinter den Daten stehende Person mehr geschlossen werden kann, sind sie nicht mehr personenbezogen. Die Daten werden also durch Anonymisierung legalisiert – gleichzeitig jedoch entwertet, denn durch die Anonymisierung fallen wichtige Informationen aus den ursprünglichen Datensätzen häufig weg und können nicht mehr für maschinelles Lernen genutzt werden. Statt einer klassischen Anonymisierung, die einer Streichung von kritischen Merkmalen entsprechen würde, versucht man daher oft, eine Pseudonymisierung durchzuführen. Bei der Pseudonymisierung werden sämtliche sensible Daten gegen gleichwertige alternative Werte ausgetauscht. Die Pseudonyme verschleiern die reale Person hinter den Daten, ohne dass Informationen verloren gehen. So könnte zum Beispiel der Name »Manfred Maier« bei jedem Vorkommen gegen das populäre Pseudonym »Max Mustermann« ausgetauscht werden.

Generell sind bei der Anonymisierung je nach Absicht verschiedene Ersetzungsverfahren möglich:

Handelt es sich nur um ein paar wenige Datensätze, kann man dies vielleicht noch von Hand erledigen. Für Maschinelles Lernen werden jedoch meist mehrere tausend relevante Datensätze benötigt und der »Lerneffekt« für den Algorithmus und die nötige Datenmenge hängen von der Qualität und Struktur der Trainingsdaten ab. Einige Anbieter von KI-Anwendungen ermöglichen inzwischen die Installation ihrer Software »on premise«, d.h. Programme zum Training von KI-Modellen können lokal auf firmeninternen Servern installiert und so ausgeführt werden, dass keine sensiblen Daten das Unternehmen verlassen. In manchen Fällen mag auch der Abschluss eines Vertrags zur Auftragsdatenverarbeitung (ADV) zielführend sein.

Wenn Sie wissen wollen, wie Sie in Ihrem eigenen Unternehmen schützenswerte personenbezogene Daten auch innerhalb von langen Textdokumenten automatisch finden und anonymisieren können, sprechen Sie uns an oder besuchen Sie unser Seminar zum Thema Textverstehen.

Leselinks:

Matthias Engelbach

Als studierter Softwareentwickler beschäftigt sich Matthias Engelbach vor allem mit Fragestellungen im Bereich Künstliche Intelligenz und Maschinelle Sprachverarbeitung.

Autorenprofil

Die mobile Version verlassen