KI-Checkliste für KMU: Texte automatisiert verarbeiten in 8 Schritten

Wissenschafts­jahr 2019: Künstliche Intelligenz
Wissenschafts­jahr 2019: »Künstliche Intelligenz« Die Arbeitswelten der Zukunft werden entscheidend von der Entwicklung Künstlicher Intelligenz geprägt sein. Das Wissenschaftsjahr 2019 wird sich mit den Chancen und Herausforderungen dieser Technologie auseinandersetzen.

Menschen sind ziemlich gut darin, Textdokumente wie Briefe, Rechnungen usw. zu lesen und zu verstehen. Doch oft gehen nicht nur ein oder zwei Dokumente am Tag ein, sondern deutlich mehr und häufig auch noch über diverse Kanäle. Mitarbeiter verbringen immer mehr Zeit mit der Bewältigung dieser Informationsflut. Maschinelles Textverstehen mit KI-basierten Systemen könnte hier zum Fluthelfer des Informationszeitalters werden.

Einstieg in den Ausstieg aus der Informations-Überforderung

Stellen Sie sich vor, Sie arbeiten in einem KMU und werden von diversen Lieferanten bedient. Von diesen erhalten sie Briefe, Rechnungen, vielleicht auch Mahnungen, wenn Sie nicht rechtzeitig zahlen. Diese Dokumente erreichen Sie z.B. als PDF, E-Mail oder Brief per Post. Was sind die nächsten Schritte, um diese Dokumente möglichst leicht und automatisch zu verarbeiten?

1. Digitalisieren: Ein Medium für alles

Stellen Sie Ihre Prozesse wo immer möglich digital um. Daten in Form von Papier müssen möglichst automatisch digitalisiert z.B. gescannt werden. Eine gute Scan-Qualität (typischerweise um die 300 DPI) ist hier wichtig, sonst werden die nächsten Verarbeitungsschritte schwierig!

2. Texterkennung durchführen

Texterkennung oder OCR ist aufwendig und komplex, kann aber mit fertigen Softwarelösungen oder Libraries unkompliziert umgesetzt werden. OCR macht aus Bilddateien wie gescannten PDF maschinenlesbare Texte, die automatisch verarbeitet werden können.

3. Dokumenttyp erkennen

Anschließend muss das digitalisierte Dokument klassifiziert werden: Handelt es sich um eine Rechnung, eine Mahnung, eine Bestellung, oder einen anderen Dokumenttyp? Das funktioniert mit trainierten neuronalen Netzen, die teilweise den Textinhalt und die Layout-Informationen – wie Logos – gut nutzen (damit kann man bis über 90 Prozent Erkennungsrate erreichen).

4. Merkmale extrahieren

Bei den meisten Bürodokumenten will man nicht einfach den vollen Text interpretieren, sondern sucht dediziert nach bestimmten Merkmalen. Zum Beispiel in einer Rechnung von einem Lieferanten: Hier sucht man nach Informationen wie Absenderadresse, Rechnungsbetrag, Rechnungsnummer, Zahlungsdaten (IBAN, Bankname) usw. Für diese Merkmale will man die Position im Text bzw. im Originaldokument finden sowie den tatsächlichen Wert extrahieren. Die Extraktion dieser Merkmale kann sehr einfach sein (eine deutsche IBAN lässt sich beispielsweise sehr leicht erkennen). Personennamen oder Firmennamen sind aber nicht immer eindeutig. Wenn Max Mustermann bei Hugo Boss arbeitet, kann der Computer nicht unbedingt ohne externes Wissen erkennen, dass Max Mustermann eine Person ist, Hugo Boss aber eine Firma.

5. Merkmale klassifizieren

Wenn mehrere Merkmale eines Typs gefunden wurden, sollen diese noch klassifiziert werden. Damit beantwortet man Fragen wie: Welche Adresse gehört zum Absender und welche zum Empfänger? Das kann man zum Beispiel so umsetzen: In der Fußzeile eines Dokuments findet man normalerweise standardisierte Daten zum Absender, die leicht klassifiziert werden kann, wenn unsere KI den Positionskontext gelernt hat.

6. Ergebnisse validieren

Als nächstes müssen die Ergebnisse auf Plausibilität und Korrektheit der extrahierten und klassifizierten Daten überprüft werden. Bei unserem KMU sollte beispielsweise ein Rechnungsbetrag von mehreren Milliarden Euros als möglicher Fehler klassifiziert werden. Ob eine IBAN valide ist, lässt sich leicht mit bekannten Regeln verifizieren (siehe Leselinks). Mit der Validierung erhöht man die Qualität der extrahierten Daten, reduziert also damit den möglichen manuellen Aufwand für eine Korrektur oder manuelle Verarbeitung.

7. Dokument auswerten

Mit den Informationen aus den diversen Klassifikations-, Extraktions-, und Validierungsschritten kann ein neu ankommendes Dokument jetzt vollständig ausgewertet werden. Am Beispiel unserer Rechnung: Passt der Bruttobetrag zum Nettobetrag? Und passt der Betrag zu der Bestellung? Basierend auf den Absender-Adressdaten oder auf einer möglichen Bestellnummer, die wir identifizieren können: Wem sollen wir die Rechnung weiterleiten? An dieser Stelle werden die Ergebnisse unserer Textanalyse in die weiteren digitalen Prozesse integriert. Die Möglichkeiten, regelbasierte Prozesse in unserem KMU zu automatisieren, sind nahezu unbegrenzt: von einer automatischen Zahlung bis hin zur akkuraten Beantwortung von häufigen Kundenanfragen.

8. Benötigte Aktion durchführen

Natürlich soll die ganze Analyse nicht umsonst gewesen sein! Jetzt ist es also an der Zeit, die konkreten Folge-Aktionen durchzuführen.

Übrigens: Bei den Schritten 1 bis 8 unterstützt Sie das Fraunhofer IAO gerne mit Seminaren, Veranstaltungen, und Softwarelösungen, aber bei 8 sind Sie selber dran!

Business Innovation Engineering Center BIEC - Künstliche Intelligenz nutzen
Blogreihe: Business Innovation Engineering Center BIEC – Künstliche Intelligenz nutzen
Mittelständische Unternehmen stehen vor der Herausforderung, trotz guter Auftragslage heute, ihre Produkte, Organisationsformen und Geschäftsmodelle von morgen vorauszudenken. Wie können die eigenen Geschäftsprozesse mit Hilfe von KI verbessert werden? Welche Potenziale für neue Geschäftsmodelle schlummern in KI-Anwendungen? In der Blogreihe gibt das BIEC als Innovationspartner des Mittelstands Antworten auf diese und viele weitere Fragen rund um Digitalisierung und Transformation.

Leselinks:

Maximilien Kintz

Maximilien Kintz

Wissenschaftlicher Mitarbeiter am Fraunhofer IAO, der sich besonders für Data Science, Künstliche Intelligenz und Informationsvisualisierung interessiert (aber mag keine Tortendiagramme).

Autorenprofil - Website - Xing - LinkedIn

Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.