Triggering Models – Messung und Mitigation sexistischer Vorurteile in deutschen Sprachmodellen

Published in Frauen machen Informatik. Magazin der GI-Fachgruppe Frauen in der Informatik, 2023

Recommended citation: A. Kraft, “Triggering Models – Messung und Mitigation sexistischer Vorurteile in deutschen Sprachmodellen”, Frauen machen Informatik. Magazin der GI-Fachgruppe Frauen in der Informatik, vol. 47, pp. 39–44, 2023. https://dl.gi.de/server/api/core/bitstreams/7e9d9da3-4cc4-4cf2-9cbe-2b88a104da45/content

Abstract: Die vorgestellte Arbeit untersucht sexistische Vorurteile (Biases) in großen Sprachmodellen zur Generierung deutscher Texte. Untersucht wurden GPT-2 und GPT-3. Es konnte gezeigt werden, dass diese Modelle zwar auf den ersten Blick eher positive Beschreibungen weiblicher Subjekte generieren, aber dennoch sexistisch sind. So werden Frauen wesentlich häufiger als Männer sexualisiert dargestellt oder als Subjekt in einer häuslichen oder betreuenden Rolle. Die Arbeit betrachtete weiterhin auch eine Methode zur Mitigation von Bias durch einen sogenannten Bias Mitigation Trigger. Dieser konnte nachweislich nur negative Sexismus-Facetten vermindern. In der Zusammenschau der Analysen lässt sich sagen, dass große Sprachmodelle auch im Deutschen sexistische Vorurteile reproduzieren und diese über mehrdimensionale Maße analysiert und mitigiert werden sollten.