Haben Sie sich schon einmal bei einem großen Unternehmen oder einer Behörde beworben? Dann haben Sie vielleicht selbst schon einmal die Stufen eines Masseneinstellungsverfahrens durchlaufen. Unsere Beobachtung: Diese Verfahren weisen oft einen doppelten Gender Bias auf. Unsere Fallstudie: die Bundespolizei.
Diskriminierung passiert, auch wenn sie nicht gewollt oder nicht beabsichtigt ist. Der Bias-Teufel steckt im Detail: Nicht selten entstehen Ungleichbehandlungen durch maschinelle Datenverarbeitung und stereotype Muster in Prozessen – ohne dass diese bewusst implementiert werden. Die Bundespolizei hat uns freundlicherweise Daten aus ihren Einstellungsverfahren zur Verfügung gestellt, mit denen sich verborgene doppelte Gender Biases in mehrstufigen Einstellungsverfahren identifizieren lassen. Vielen Dank an dieser Stelle, denn von den Ergebnissen können viele andere Organisationen auch profitieren.
Das Einstellungsverfahren für den gehobenen Dienst bei der Bundespolizei besteht aus einem Kurzaufsatz, einem Sporttest und einem Assessment-Center. In den letzten vier Jahren bewarben sich hier mehr als 10 000 Personen.
Einstellungssache: Versteckte Biases aufspüren
Mit einer sogenannten Adverse-Impact-Analyse lässt sich prüfen, ob ein Einstellungsverfahren geschlechtssensibel ist. Dafür teilt man den Anteil der in einem Prozessschritt erfolgreichen Männer durch den Anteil der erfolgreichen Frauen. In Diagramm 1 haben wir die Erfolgsquoten für den Kurzaufsatz, den Sporttest und das Assessment-Center für Frauen in Relation zu Männern dargestellt. Demnach lag die Erfolgsquote der Frauen im Durchschnitt bei 86 Prozent der Erfolgsquote der Männer – eine überraschende Beobachtung, da Frauen in sprachlichen Fächern in Schule und Studium generell bessere Leistungen erbringen als Männer.
Unsere Analyse zeigt außerdem: Während der Gender Bias beim Kurzaufsatz eher gering ist und beim Sporttest kein Gender Bias vorliegt (da hier geschlechtsspezifische Leistungsnormen definiert sind), fällt der Gender Bias im Assessment-Center zu Ungunsten von Männern aus. Männer erreichen hier im Schnitt nur 86 Prozent der Erfolgsquote der Frauen.
Dieses Muster findet sich so auch in anderen Organisationen
Nach eingehender Forschung zu Einstellungsverfahren und Einblicken in die schwer zu erhaltenden Daten einiger großer Organisationen stellen wir fest: Das beschriebene Muster ist typisch für mehrstufige Einstellungsverfahren. Frauen haben systematisch geringere Erfolgsquoten in kognitiven Fähigkeitstests (oft als »Intelligenztests« bezeichnet), während Männer in den anschließenden Assessment-Centern regelmäßig schlechter abschneiden. Dieses Muster bei der Bundespolizei ist beispielsweise auch in Bundestags-Drucksache 19/32523 (Seite 3, Antwort auf Frage 8) dokumentiert. Auch bei einer Reihe von Stadtverwaltungen deutscher Metropolen, die uns freundlicherweise ihre Einstellungsdaten zur Verfügung gestellt haben, sowie für die Polizei Nordrhein-Westfalen existieren Belege, die einen Gender Bias im kognitiven Fähigkeitstest vermuten lassen (bei der betreffenden Studie liegt der Fokus jedoch auf dem Faktor Migrationshintergrund, siehe Leselinks). Interessant ist, dass wir dieses Muster im Einstellungsverfahren zum mittleren Dienst der Bundespolizei nicht finden. Auch das scheint typisch zu sein.
Geschlechterdiskriminierung: Wie viel ist zu viel?
Dass kognitive Fähigkeitstests einen negativen Effekt auf die Diversität der Belegschaft haben, ist für US-amerikanische Unternehmen umfassend dokumentiert. Dabei stellt sich die Frage: wie viel Diskriminierung durch Einstellungstests ist zu viel?
In Deutschland gibt es keine festgelegten Grenzwerte, um zu beurteilen, wie viel Bias zu viel ist. In den USA hingegen gilt die 80%-Regel bei einer Adverse-Impact-Analyse: Wenn die Erfolgsquote einer Personengruppe (z. B. Männer) 80 Prozent oder weniger der Erfolgschancen einer Referenzgruppe beträgt, dann gilt die jeweilige Methode der Personalauswahl als potenziell diskriminierend und bedarf einer genaueren Prüfung. Im Diagramm haben wir dies durch rote Linien dargestellt.
Die Suche nach Antworten: Warum gibt es diese Gender Biases?
Aber warum schneiden Frauen im als »Intelligenztest« bezeichneten Kurzaufsatz der Bundespolizei schlechter ab? Wichtig ist: das Vorhandensein von Gender Bias bedeutet nicht zwangsläufig, dass eine Diskriminierung vorliegt. Leistungsunterschiede zwischen den Geschlechtern können andere Gründe haben.
Im Rahmen unseres Projekts recruitFAIR entwickeln wir einen geschlechtssensiblen Kompetenztest zur Personalauswahl. Wir haben festgestellt, dass eine Vielzahl dieser Tests – die oft in Anlehnung an psychologische Intelligenztests konzipiert sind – aktuell Frauen systematisch benachteiligen. Sehr häufig wird der Test IST-2000R als Vorlage verwendet, der den größten und vermutlich rechtlich problematischen Gender Bias aufweist. Aus unserer Sicht kann das problematisch sein, denn hier scheint ein Gender Bias direkte Folge des Tests zu sein. Manche Tests wie der M-KIT haben nachweislich keinen Gender Bias, andere Tests, eben wie der IST-2000R, einen sehr großen.
Und warum scheinen Männer im Assessment-Center im Durchschnitt schlechter abzuschneiden? Mit dieser Frage befasst sich mein Kollege Dr. Moritz Maier im zweiten Teil dieses Blog-Beitrags.
Wie sollen wir umgehen mit dem Gender Bias in »Intelligenztests«?
Wenn in einem Personalauswahlverfahren ein kognitiver Fähigkeitstest angewendet wird, ist also eine wesentliche Wahrscheinlichkeit gegeben, dass er Frauen benachteiligt. Was denken Sie? Wie sollten wir dieser Herausforderung begegnen: durch die gesetzliche Regulierung von diskriminierenden Algorithmen, durch obligatorische Adverse-Impact-Analysen für Unternehmen, durch strengere Qualitätskontrollen für die Entwicklung psychologischer Tests? Wir freuen uns auf den Austausch mit Ihnen!
Leselinks:
- Lernen Sie hier mehr über unser Projekt recruitFAIR, in dem wir einen geschlechtssensiblen Einstellungstest entwickeln
- In einer exzellenten Studie zum Einstellungsverfahren der Polizei NRW demonstrieren Siegfried Stumpf und Kollegen das Verfahren der Adverse-Impact-Analyse.
- Studie der TU München, die zeigt, dass Frauen in Schule und Studium im Mittel bessere Leistungen erbringen als Männer – vor allem im sprachlichen Bereich
Kategorien: New Work / Connected Work
Tags: Adverse-Impact-Analyse, Diskriminierung in Einstellungsverfahren, Diskriminierungsschutz, Geschlechterbias, Personalauswahl, recruitFAIR – Einstellungsprozesse diskriminierungsfrei gestalten, Recruiting
Sehr geehrter Herr Striebing,
nachfolgend finden Sie meine Gedanken zu Ihrer Analyse „Verborgene Diskriminierung in mehrstufigen Einstellungsverfahren“.
Zunächst möchte ich auf Ihre Bemerkung eingehen, dass die beobachtete Diskrepanz in den Erfolgsquoten zwischen Männern und Frauen im Bereich des Kurzaufsatzes überraschend sei, da Frauen in sprachlichen Fächern generell bessere Leistungen erbringen. Es ist jedoch statistisch relevant zu berücksichtigen, dass die Stichproben der Bewerberinnen und Bewerber bei der Bundespolizei möglicherweise nicht repräsentativ für die Gesamtpopulation der Studierenden sind. Die spezifische Verteilung der sprachlichen Fähigkeiten innerhalb dieser Stichproben könnte von der Verteilung in der breiteren Population abweichen, was wiederum die Interpretation der beobachteten Ergebnisse beeinflussen könnte. Diese potenzielle Verzerrung sollte in der Analyse berücksichtigt werden, um eine präzisere Einschätzung des beobachteten Phänomens zu ermöglichen.
Des Weiteren möchte ich Ihre Darstellung der Erfolgsquoten in den verschiedenen Einstellungstests ansprechen. Im Text geben Sie an, dass Männer im Assessment-Center im Schnitt nur 86 Prozent der Erfolgsquote der Frauen erreichen, während das Diagramm eine Quote von 114% zeigt. Nach meiner Rechnung (1/1,14) ergibt dies eine korrigierte Quote von 87,7%, was die Symmetrie des Gender-Bias etwas verändert, aber im Kontext des Diagramms logisch erscheint.
Ihre Aussage bezüglich der eingehenden Forschung und den Erkenntnissen aus den Daten großer Organisationen regt zur weiteren Exploration an. Es wäre hilfreich, wenn spezifische Quellen angegeben werden könnten, um einen tieferen Einblick in die zugrunde liegenden Daten und Befunde zu gewähren. Dies könnte zusätzliche Klarheit schaffen und die Nachvollziehbarkeit Ihrer Aussagen unterstützen.
In Bezug auf die Darstellung im Diagramm erwähnen Sie rote Linien, während das Diagramm schwarze Linien zeigt. Eine Korrektur oder Klärung könnte hier hilfreich sein, um mögliche Verwirrungen zu vermeiden.
Mir ist klar, wie bei physischer Inreraktion (Assessment-Center oder Sporttest) Gender-Biases einen Einfluss auf das Ergebnis haben können. Auf mich wirkt es jedoch so, als würde der Kurzaufsatz objektiv (also per Definition fair) korrigiert, weil den Korrektoren das Geschlecht des Bewerbers nicht bekannt sein dürfte (Annahme, dass Identifikation meist über Bewerbernummer erfolgt). Folglich lässt sich zwar ein statistischer Unterschied in den Erfolgsquoten feststellen, aber lässt sich hier wirklich das Geschlecht als Einflussfaktor identifizieren?
Abschließend stimme ich Ihnen in der Frage der Verwendung standardisierter Intelligenztests in beruflichen Einstellungsverfahren zu. Es erscheint sinnvoller, berufsspezifische Tests zu verwenden, die sich an den tatsächlichen Anforderungen und Aufgaben des jeweiligen Berufs orientieren. Die Fähigkeit, Synonyme zu finden oder Puzzles zu lösen, wie sie in IQ-Tests oft abgeprüft wird, dürfte in den meisten Berufen weitaus weniger relevant sein als die Fähigkeit, spezifische Softwareanwendungen zu nutzen, Berechnungen durchzuführen oder Präsentationen zu erstellen.
Ich denke, dass Forschung in diesem Bereich wichtig ist, dass man jedoch dringend auch einen Fokus darauf legen muss, zu kommunizieren, dass Diskriminierung (Unterteilung/ Unterscheidung) ik vielen Fällen gut und notwendig ist, um bestimmte Qualitätsansprüche zu sichern.
Nur unbegründete Diskrepanzen sind anzuprangern und zu beseitigen.
Ich hoffe, dass diese Rückmeldungen für Ihre weitere Arbeit nützlich sind und bin gespannt auf Ihre Gedanken zu diesen Punkten.
Mit freundlichen Grüßen,
Philipp Scheuerer
Lieber Herr Scheuerer,
haben Sie vielen Dank für Ihre umfassende Rückmeldung. Bei Interesse können wir unseren Austausch gern bilateral per E-Mail fortsetzen. Dabei könnten wir ggf. auch über die von uns recherchierten Daten sprechen. Das Muster, welches ich in dem Blog-Beitrag beschreibe, finden wir auch in einer Reihe von anderen Organisationen. Die Bundespolizei ist hier nur ein Beispiel.
Jetzt möchte ich aber auf Ihre Punkte eingehen:
1) Die Stichprobe der Bewerbenden bei der Bundespolizei ist nicht repräsentativ für die Grundgesamtheit von Männern und Frauen
Sie haben grundsätzlich Recht, dass es nicht auszuschließen ist, dass die Bundespolizei tendenziell eine bestimmte Art von Bewerberinnen anzieht, bei denen verbale Kompetenzen in geringerem Maß als in der Grundgesamtheit von Frauen in der in Frage kommenden Altersgruppe ausgeprägt ist. Allerdings fragen wir uns, warum das so sein sollte. In den drei von uns betrachteten Jahren (2020-22, die Beschriftung des Diagramms ist hier nicht korrekt) haben mehr als 11.000 Menschen (darunter mehr als 3.000 Frauen) die erste Stufe des Auswahlverfahrens bei der Bundespolizei absolviert. Bei einer so hohen Fallzahl würden wir – da wir keinen Grund haben etwas anderes anzunehmen – sagen, dass die Verbalkompetenz der Bewerberinnen sich nicht anders verhält als in der Grundgesamtheit der für die Bewerbung in Frage kommenden Grundgesamtheit von Frauen. Unserer Ansicht nach ist die Erklärung eines „bias by design“ tragfähiger. Die Validierungsstudien bspw. zum in Deutschland verbreiteten Wechsler-Test oder dem I-S-T 2000R weisen auf erhebliche Geschlechtereffekte in standardisierten Kompetenztests hin.
2) Erfolgsquote der Männer im Assessment Center
Ich habe noch einmal in unsere Daten geschaut: Die Erfolgsquote der Frauen im AC in den Jahren 2020-22 betrug 83,0% und die der Männer 72,5%. Das heißt, dass Männer im Schnitt eine Erfolgsquote von 87,3% der Frauen hatten.
3) Exploration weiterer Ergebnisse
Um unsere These zu prüfen, dass Frauen in standardisierten Tests in Massenauswahlverfahren deutscher Organisationen regelmäßig im Schnitt schlechter als Männer abschneiden, haben wir in den letzten Monaten umfassende Bemühungen betrieben, entsprechende Datensätze ausfindig zu machen. Wie Sie sich vorstellen können, war das nicht leicht. Ein Hebel für uns waren dabei die Transparenzgesetze, die mittlerweile in vielen Kommunen und Ländern existieren. Dies ermöglicht uns, Daten von Kommunalverwaltungen und Bundes- oder Landesbehörden anzufragen. Der Rechercheprozess ist relativ zäh, wir planen unsere Ergebnisse hierzu in ein paar Monaten zu kommunizieren. Gern können wir die uns soweit vorliegenden Daten aber bilateral besprechen bei Interesse.
4) Rote statt schwarze Linien im Diagramm
Sie haben Recht. Im Text ist von roten Linien im Diagramm die Rede, im Diagramm selbst finden sich aber nur gefettete schwarze Linien. Es sind die schwarzen Linien im Text gemeint. Durch das Layouting der Grafik nach Einreichung des Textes hat sich dieser Fehler eingeschlichen. Danke für Ihren Hinweis!
5) Geschlecht als Einflussfaktor auf das Abschneiden im Kurzaufsatz
Das von uns identifizierte Datenmuster ist stabil: In den drei Jahren in denen diese Testart angewendet wurde, haben Frauen tendenziell schlechter als Männer dabei abgeschnitten. Eine umfassende Kausalbetrachtung lässt sich anhand der zur Verfügung stehenden Daten nicht durchführen. Nach §22 AGG läge die Beweislast dafür, dass das Geschlecht kein Einflussfaktor auf das Abschneiden beim Test ist, angesichts der von uns vorgelegten Indizien beim Arbeitgeber. Wie bereits dargestellt, erscheint uns ein „bias by design“ als wahrscheinlich.
6) Bevorzugung berufsspezifischer Einstellungstests
In der Arbeitspsychologie ist es mittlerweile common sense, dass berufsspezifische Eignungstests allgemeinen Eignungstests vorzuziehen sind. Dieser Ansicht ist auch unser Team. Grundsätzlich muss man dieses „Paradigma“ aber etwas einschränken: in der Praxis wird nicht für jede auszuschreibende Stelle ein spezifisches Kompetenzprofil erarbeitet, nicht immer passt dieses Kompetenzprofil und berufsspezifische Tests werden sehr situativ entwickelt, sind also oft nicht umfassend validiert. Aus Perspektive des AGG ist das dünnes Eis, denn Arbeitgeber müssen im Zweifelsfall rechtssicher begründen können, warum aus ihrer Sicht eine Diskriminierung aufgrund eines Kompetenzprofils gerechtfertigt ist. Hier steht unseres Wissens aber auch die Rechtswissenschaft noch am Anfang ihrer Diskussion.
Vielen Dank noch einmal für Ihr Feedback. Wie gesagt, lassen Sie uns gern in Austausch bleiben!