Datenkompass für COVID-19

First-Science-KIT: IAO-Blogreihe zum Corona Krisenmanagement
First-Science-KIT: Blogreihe zum Corona Krisenmanagement
Die Coronakrise fordert von uns allen ganz neue Herangehensweisen und Lösungen im beruflichen Miteinander. Das Fraunhofer IAO hat deshalb eine Blogreihe gestartet, mit der wir schnell anwendbare Praxistipps weitergeben, gut funktionierende Beispiele vorstellen und Lösungswege während und aus der Krise aufzeigen wollen.

Im Zuge der COVID-19-Pandemie werden wir tagtäglich mit Datensätzen, Verlaufskurven und Studien konfrontiert. Doch wie bewertet man diese aus datentechnischer Sicht? Wie können wir mögliche Fehler bei der Datenanalyse vermeiden oder erkennen? Die vorgestellten Kriterien sollen Ihnen dabei helfen, Quellen richtig einzuordnen und zu bewerten. Zu jedem Kriterium stelle ich auch kleine Beispiele vor.

Woher kommt der Datensatz?

Der Ursprung eines Datensatzes ist wichtig, um die Verlässlichkeit der Daten einschätzen zu können. Neben der Verlässlichkeit der Quelle steht auch die Frage im Raum, welche Interessen die Urheber im Zusammenhang mit den Daten möglicherweise verfolgen. Bei der Durchsicht zahlreicher Datensätze hinsichtlich COVID-19 stießen wir unter anderem auf folgende Quellenarten:

  • Behörden
  • Verbände
  • Forschungseinrichtungen
  • Medizinische Einrichtungen
  • Medien, Portale und Aggregatoren

Wichtig zu bemerken ist, dass Quellenarten nicht pauschal als verlässlich oder unzuverlässig einzuordnen sind. So gibt es weltweit Behörden, in die wir hohes Vertrauen setzen und andere, denen wir eher misstrauen. Auf der Website CoronaTab etwa ist nicht ohne Weiteres einzusehen, woher die Daten stammen. Beim Blick ins Privacy Statement fällt auf, dass hinter der Website ein Unternehmen aus England bzw. Wales steht.

Vollständigkeit und fehlende Einflussgrößen

Bestimmte Datensätze haben den Anspruch, Sachverhalte vollständig wiederzugeben. Ein typisches Beispiel sind demografische Daten, die bei einer Volkszählung von statistischen Ämtern erhoben werden. Diese sollen möglichst die gesamte Bevölkerung berücksichtigen. Andere Datensätze haben diesen Anspruch ganz bewusst nicht.

Wichtige Fragen dabei sind:

  • Wenn der Autor angibt, dass der Datensatz vollständig ist: Gibt es trotzdem Gründe dies zu bezweifeln, z.B., weil es technisch unmöglich sein könnte, alle Daten zu erheben?
  • Ist angegeben oder kann man einschätzen, wie groß der fehlende Teil der Daten ist?
  • Hat das Konsequenzen für die Analyse, die die Quelle durchführt oder die man selbst durchführen möchte? Ist der Datensatz trotz Unvollständigkeit repräsentativ?

Der tägliche Lagebericht des RKI zu COVID-19 schreibt beispielsweise explizit, dass »die ausgewiesenen Fallzahlen […] den Verlauf der COVID-19-Neuerkrankungen nicht vollständig wider[spiegeln]«.

Ähnlich verhält es sich mit fehlenden Einflussgrößen. Vollständigkeit ist nicht nur im Hinblick auf die einzelnen Datenpunkte, sondern auch bezüglich der Einflussgrößen zu bewerten. Sehr häufig werden aus praktischen oder technischen Gründen wichtige Einflussgrößen ignoriert, die jedoch ihrerseits mit betrachteten Einflussgrößen korrelieren und somit zu einer unüberschaubaren Gemengelage beitragen.

Originalquelle vs. Quellenwiedergabe und Granularität

Handelt es sich bei dem Datensatz um eine Originalquelle, also vom Anbieter selbst erhobene Daten? Oder handelt es sich um eine Zusammenstellung von Daten Dritter? Falls Daten zusammengestellt wurden, wie wurden sie in ein gemeinsames Format gebracht? Wurden Daten umgewandelt oder angereichert? Wenn ein Datenpunkt fehlt, muss das nicht unbedingt heißen, dass er auch tatsächlich nicht existiert. Ein Beispiel für zusammengestellte Datensätze ist das Novel Corona Virus 2019 Dataset auf Kaggle. Für jeden Datensatz ist eine Quelle angegeben und je nach Quelle sind einzelne Attribute vorhanden oder auch nicht.

Das gleiche gilt für die Datengranularität, also den Verdichtungsgrad der Daten. Einzelne Messwerte sind anders zu bewerten als zusammengefasste Datensätze oder gar Hochrechnungen, also Folgerungen von Stichproben auf die Grundgesamtheit. Bei Zeitreihen fällt die Frage der Verdichtung besonders ins Gewicht. Eine feinere oder gröbere Auflösung des betrachteten Zeitintervalls kann Aussagen ermöglichen oder unterdrücken. Als Beispiel lassen sich die Community Mobility Reports von Google nennen, die Daten zur Entwicklung der Mobilität von Menschen zur Verfügung stellen. Es fand eine Aggregation auf Regionen und Länder statt, außerdem finden sich keine Angaben absoluter Zahlen, sondern nur relative Zahlen im Vergleich zu einer Vor-Corona Baseline.

Zu guter Letzt sollte man bedenken, dass im Internet zugängliche Datensätze unter verschiedenen Lizenzen stehen, die deren Nutzung teilweise einschränken.
Außerdem sind die vorgestellten Kriterien nicht vollständig und gelten nicht nur für COVID-19-Datensätze, sie bilden aber eine Grundlage zur reflektierten Betrachtung von (COVID-19) Datensätzen. Wir wünschen Ihnen viel Erfolg bei der Datenanalyse!

Leselinks:

Marc Hanussek

Marc Hanussek

Marc, von Haus aus Mathematiker, beschäftigt sich vor allem mit Fragen rund ums maschinelle Lernen.

Autorenprofil

Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.