Analysis of gender bias in popular Subreddits

Kruff, Andreas Konstantin

search hit 6 of 26

Analysis of gender bias in popular Subreddits

The goal of this work is to detect "gender biases" in the communication of users of Subreddits on the platform Reddit. The analysis is carried out for eleven selected Subreddits. Furthermore, an attempt is made to identify different user types with the help of a k-means clustering and also to analyze "gender biases" in their communication. Based on the aggregated datasets, fasttext Word Embedding models are trained to identify terms that show high semantic relatedness in terms of cosine similarity of their word vectors with selected feminine and masculine terms. To this end, the terms are analyzed for sentiment using the NRC-VAD Lexicon and tested for statistically significant differences. In addition, the Word Embedding Association Test (WEAT) is performed to check for subliminal associations. In relation to the considered text corpus, it is essentially observed that women are frequently associated with adjectives that associate them with appearances, childbearing abilities or adaptability also in relation to the family. In contrast, men are associated with and measured by adjectives that refer to their prestige, strengths and weaknesses, career or physical characteristics.
Das Ziel dieser Arbeit ist "Gender Biases" in der Kommunikation der Nutzer von Subreddits der Plattform Reddit zu detektieren. Die Analyse wird hierbei exemplarisch für elf ausgewählte Subreddits durchgeführt. Darüber hinaus wird versucht verschiedene Nutzertypen mit Hilfe von einem k-means Clustering zu identifizieren und ebenfalls "Gender Biases" in deren Kommunikation zu analysieren. Auf Basis der aggregierten Datensätze werden fasttext Word Embedding Models trainiert, um Terme zu identifizieren, die eine hohe semantische Verwandtschaft in Bezug auf die Kosinusähnlichkeit ihrer Wortvektoren mit ausgewählten weiblichen und männlichen Termen aufweisen. Die Terme werden dazu auf ihr Sentiment mit Hilfe des NRC-VAD Lexicons analysiert und auf statistische signifikante Unterschiede überprüft. Darüber hinaus werden der Word Embedding Association Test (WEAT) durchgeführt, um unterschwellige Assoziationen zu überprüfen. In Bezug auf den betrachteten Textkorpus wird im wesentlichen beobachtet, dass Frauen häufig mit Adjektiven in Verbindung gebracht werden, die sie mit Äußerlichkeiten, Gebärfähigkeiten oder Anpassungsfähigkeiten auch in Bezug auf die Familie assoziieren. Im Gegensatz dazu werden Männer mit Adjektiven assoziiert und daran gemessen, welche sich auf ihr Ansehen, ihre Stärken und Schwächen, ihre Karriere oder physische Eigenschaften beziehen.

Metadaten
Author:	Andreas Konstantin Kruff
Document Type:	Bachelor Thesis
Year of first Publication:	2022
Date of final exam:	2022/11/09
First Referee:	Philipp Schaer GND
Advisor:	Fabian Haak
Degree Program:	Data and Information Science
Language:	English
Page Number:	46
Tag:	Gender bias; NLP; Sentiment; WEAT; Word Embeddings
GND Keyword:	Reddit
URN:	urn:nbn:de:hbz:79pbc-opus-20517
Licence (German):	Creative Commons - Namensnennung-Weitergabe unter gleichen Bedingungen

Open Access

Analysis of gender bias in popular Subreddits

Download full text files

Export metadata

Additional Services

Statistics