@phdthesis{Jennert2023, type = {Bachelor Thesis}, author = {Tobias Jennert}, title = {Untersuchung der Diffusion von Bias aus Trainingsdaten im Finetuning von Language Models}, url = {https://nbn-resolving.org/urn:nbn:de:hbz:79pbc-opus-23991}, pages = {59}, year = {2023}, abstract = {Werden Sprachmodelle auf neue Daten trainiert oder bereits vortrainierte Sprachmodelle durch Finetuning auf neue Daten fein abgestimmt, so lernt ein Sprachmodell jegliche Informationen aus den verwendeten Trainingsdaten. Meistens beinhalten die Trainingsdaten einen Bias. Dieser Bias wird ebenfalls durch die Sprachmodelle aufgenommen und im Antwortverhalten verbreitet. Besonders auf die politische Dom{\"a}ne kann sich diese Eigenschaft negativ auswirken. So k{\"o}nnen Sprachmodelle durch Finetuning auf politische voreingenommene Daten fein abgestimmt werden, welche anschlie{\"s}end verwendet werden k{\"o}nnen, um Applikationen zu entwickeln, welche die politische Meinung der Benutzer*Innen beeinflussen sollen. Das Ziel dieser Arbeit ist, zu untersuchen wie sich verschiedene Sprachmodelle auf die Reproduktion der politischen Voreingenommenheit auswirken und welche Auswirkungen verschiedene Faktoren aus dem Trainingsdatensatz auf die Reproduktion der politischen Voreingenommenheit haben. Daf{\"u}r wurde ein Web Scraper angepasst, um den dadurch generierten Datensatz durch weitere Daten zu erweitern. Bei den Daten im Datensatz handelt es sich um Nachrichtendaten der amerikanischen Politikdom{\"a}ne. Dieser Datensatz wurde durch die Volltexte der Nachrichten erweitert. Au{\"s}erdem wurden zus{\"a}tzlich die Zitate aus den Volltexten entfernt, um die Auswirkung der Zitate auf die Reproduktion der politischen Voreingenommenheit zu untersuchen. Anschlie{\"s}end wurden drei Sprachmodelle, welche auf unterschiedlichen Komponenten der Transformer-Architektur basieren, auf die Schlagzeilen, Volltexte und Volltexte ohne Zitate der linken und rechten Nachrichtendaten fein abgestimmt. Nach dem Finetuning haben die Sprachmodelle Texte f{\"u}r Eingaben generiert. Die generierten Texte wurden durch ein Evaluationsschema auf die politische Voreingenommenheit evaluiert. Dabei wurde die politische Voreingenommenheit am st{\"a}rksten und genausten durch das Sprachmodell DistilGPT2 reproduziert, welches beim Finetuning die Volltexte verwendet hat. Das Sprachmodell DistilGPT2 basiert auf der Decoder-Komponente der Transformer-Architektur. Stehen viele Daten beim Finetuning zur Verf{\"u}gung, f{\"u}hrt das Verwenden der Volltexte ohne Zitate beim Finetuning zu einer weiteren Verst{\"a}rkung der Reproduktion der politischen Voreingenommenheit.}, language = {de} }