OPUS 4 | Search

Untersuchung der Diffusion von Bias aus Trainingsdaten im Finetuning von Language Models (2023)

Werden Sprachmodelle auf neue Daten trainiert oder bereits vortrainierte Sprachmodelle durch Finetuning auf neue Daten fein abgestimmt, so lernt ein Sprachmodell jegliche Informationen aus den verwendeten Trainingsdaten. Meistens beinhalten die Trainingsdaten einen Bias. Dieser Bias wird ebenfalls durch die Sprachmodelle aufgenommen und im Antwortverhalten verbreitet. Besonders auf die politische Domäne kann sich diese Eigenschaft negativ auswirken. So können Sprachmodelle durch Finetuning auf politische voreingenommene Daten fein abgestimmt werden, welche anschließend verwendet werden können, um Applikationen zu entwickeln, welche die politische Meinung der Benutzer*Innen beeinflussen sollen. Das Ziel dieser Arbeit ist, zu untersuchen wie sich verschiedene Sprachmodelle auf die Reproduktion der politischen Voreingenommenheit auswirken und welche Auswirkungen verschiedene Faktoren aus dem Trainingsdatensatz auf die Reproduktion der politischen Voreingenommenheit haben. Dafür wurde ein Web Scraper angepasst, um den dadurch generierten Datensatz durch weitere Daten zu erweitern. Bei den Daten im Datensatz handelt es sich um Nachrichtendaten der amerikanischen Politikdomäne. Dieser Datensatz wurde durch die Volltexte der Nachrichten erweitert. Außerdem wurden zusätzlich die Zitate aus den Volltexten entfernt, um die Auswirkung der Zitate auf die Reproduktion der politischen Voreingenommenheit zu untersuchen. Anschließend wurden drei Sprachmodelle, welche auf unterschiedlichen Komponenten der Transformer-Architektur basieren, auf die Schlagzeilen, Volltexte und Volltexte ohne Zitate der linken und rechten Nachrichtendaten fein abgestimmt. Nach dem Finetuning haben die Sprachmodelle Texte für Eingaben generiert. Die generierten Texte wurden durch ein Evaluationsschema auf die politische Voreingenommenheit evaluiert. Dabei wurde die politische Voreingenommenheit am stärksten und genausten durch das Sprachmodell DistilGPT2 reproduziert, welches beim Finetuning die Volltexte verwendet hat. Das Sprachmodell DistilGPT2 basiert auf der Decoder-Komponente der Transformer-Architektur. Stehen viele Daten beim Finetuning zur Verfügung, führt das Verwenden der Volltexte ohne Zitate beim Finetuning zu einer weiteren Verstärkung der Reproduktion der politischen Voreingenommenheit.

LGBTQIA+ Medien in Öffentlichen Bibliotheken und Schulbibliotheken: Eine Analyse der "Book Bans" Situation in den Vereinigten Staaten und Bestandsanalyse in deutschen Bibliotheken (2023)

Neul, Luisa

In den Vereinigten Staaten werden Bücher aufgrund ihres Inhalts verboten. In vielen Fällen sind Medien mit LGBTQIA+ Themen oder Hauptcharakteren betroffen. Über diese „Book Bans“ Situation wird ein Überblick gegeben. Das Thema LGBTQIA+ ist ebenfalls in deutschen Bibliotheken von Relevanz. Es wurde untersucht, wie in ausgewählten Bibliotheken mit dem Thema LGBTQIA+ umgegangen wird. Dazu wurden Interviews durchgeführt. Da in den Vereinigten Staaten Öffentliche Bibliotheken und Schulbibliotheken von der „Book Bans“ Situation betroffen sind, wurden beide Bibliotheksarten untersucht. Es wird der Umgang mit Medien zum Thema LGBTQIA+ dargestellt und auf die Einstellung, sowie die Kenntnisse der interviewten Personen zum Thema LGBTQIA+ eingegangen. Des Weiteren wurden mögliche Veranstaltungen zum Thema LGBTQIA+ miteinbezogen und das Interesse der Nutzer*innen thematisiert. Die Interviews wurden durch eine Bestandsanalyse, bei den ausgewählten Bibliotheken, ergänzt. Die Bestände wurden daraufhin untersucht, ob Medien zu den einzelnen Identitäten der LGBTQIA+ Community vorhanden sind. Anschließend werden Beispiele für Veranstaltungen zum Thema LGBTQIA+ der Stadtbibliothek München genannt. Die Allianz Versicherung wird als ein Beispiel gegeben, wie in anderen Branchen das Thema LGBTQIA+ behandelt wird.

Literaturrecherche und strukturierter Vergleich zu Lösungsansätzen für reproduzierbare wissenschaftliche Ergebnisse (2023)

Wolf, Helga

Bereits seit einiger Zeit diskutiert die Wissenschaftsgemeinschaft über eine „Reproduzierbarkeitskrise“, weiter verschärft durch die Allgegenwart von computergestützter Forschung, „Big Data“ und algorithmischer Erkundung und Entscheidungsfindung. Mit Hilfe einer Literaturrecherche gibt diese Arbeit einen strukturierten Überblick über den Stand der Debatte zu Reproduzierbarkeit, einschließlich aktueller Definitionen, Werkzeugen und Mitteln, die Forschenden zur Verfügung stehen, und Maßnahmen, die von Institutionen, Politik und anderen am Forschungsprozess Beteiligten ergriffen wurden. Der Fokus liegt dabei auf den Disziplinen Informatik, Informationswissenschaft und Data Science.

Continuous Evaluation in Information Retrieval (2023)

Keller, Jüri

As the information era progresses, the sheer volume of information calls for sophisticated retrieval systems. Evaluating them holds the key to ensuring the reliability and relevance of retrieved information. If evaluated with renowned methods, the measured quality is generally presumed to be dependable. That said, it is often forgotten that most evaluations are only snapshots in time and the reliability might be only valid for a short moment. Further, each evaluation method makes assumptions about the circumstances of a search and thereby has different characteristics. Achieving reliable evaluation is critical to retain the aspired quality of an IR system and maintain the confidence of the users. Therefore, we investigate how the evaluation environment (EE) evolves over time and how this might affect the effectiveness of retrieval systems. Further, attention is paid to the differences in the evaluation methods and how they work together in a continuous evaluation framework. A literature review was conducted to investigate changing components which are then modeled in an extended EE. Exemplarily, the effect of document and qrel updates on the effectiveness of IR systems is investigated through reproducibility experiments in the LongEval shared task. As a result, 11 changing components together with initial measures to quantify how they change are identifed, the temporal consistency of five IR systems could precisely be quantifed through reproducibility and replicability measures and the findings were integrated into a continuous evaluation framework. Ultimately, this work contributes to more holistic evaluations in IR.

Zur Rolle von Bibliotheken bei der Erarbeitung, Bereitstellung und Bewahrung digitaler Editionen (2023)

Hermans, Britta

Die vorliegende Arbeit beschäftigt sich mit der Frage, welche Werkzeuge, Infrastrukturen und Dienstleistungen Bibliotheken für die Erarbeitung, Bereitstellung und Bewahrung digitaler Editionen anbieten können. Dazu wird sich dem Thema zunächst anhand des aktuellen Forschungsstandes sowie einer kurzen Abhandlung über Definitionen, Entwicklungen und Begrifflichkeiten angenähert. Dann werden – die Schritte bei der Erstellung einer digitalen Edition entlanggehend – die bereits etablierten Standards, vorhandene Angebote mit konkreten Beispielen sowie Best Practices vorgestellt und daraus Ansatzpunkte für Servicemöglichkeiten abgeleitet. Die Analyse basiert sowohl auf der Forschungsliteratur zum Thema als auch auf den Webseiten von Universitäts- und Forschungsbibliotheken sowie weiterer Akteure aus diesem Bereich. Die Arbeit zeigt, dass Bibliotheken in nahezu allen Phasen digitaler Editionsprojekte unterstützend tätig sein können. Diese Beteiligung am Prozess kann sehr unterschiedlich ausgestaltet sein und von diversen Beratungsleistungen über die Bereitstellung von Tools und Infrastrukturen bis hin zur vollständigen Übernahme einzelner Arbeitsschritte reichen. Bibliotheken können so eine in den Digital Humanities noch nicht eindeutig von einem bestimmten Akteur besetzte Rolle einnehmen und es als Chance nutzen, ihre Position an der eigenen Forschungseinrichtung und für die Forschung insgesamt zu stärken. Neben den finanziellen und personellen Ressourcen stellt jedoch vor allem die Komplexität des Themenbereichs eine große Herausforderung dar.

Der Beitrag Öffentlicher Bibliotheken zur Behebung coronabedingter Defizite in der kindlichen Leseentwicklung - Entwicklung eines Konzeptes zur Förderung von Lesekompetenz für die Kreis- und Stadtbücherei Gummersbach (2023)

Scholl, Katharina

Diese Masterarbeit beschäftigt sich mit dem Thema "Der Beitrag Öffentlicher Bibliotheken zur Behebung coronabedingter Defizite in der kindlichen Leseentwicklung - Entwicklung eines Konzeptes zur Förderung von Lesekompetenz für die Kreis- und Stadtbücherei Gummersbach". Die COVID-19-Pandemie hat einen erheblichen Einfluss auf den Bildungsbereich gehabt, insbesondere auf die kindliche Leseentwicklung. Die Schulschließungen und der digitale Unterricht haben dazu geführt, dass viele Kinder Lernrückstände und Defizite im Lesen aufweisen. In diesem Zusammenhang gewinnen Öffentliche Bibliotheken eine wichtige Rolle, um diesen Herausforderungen entgegenzuwirken. Die vorliegende Arbeit beschäftigt sich daher mit der Frage, welchen Beitrag Öffentliche Bibliotheken, insbesondere die Kreis- und Stadtbücherei Gummersbacher, leisten können, um coronabedingte Defizite in der kindlichen Leseentwicklung zu beheben. Der Fokus liegt dabei auf der Entwicklung eines speziellen Konzeptes zur Förderung von Lesekompetenz. Hierbei werden verschiedene Aspekte berücksichtigt, wie die gezielte Auswahl von geeigneten Leseförderungsangeboten, die Integration digitaler Medien zur Unterstützung des Lernens, die enge Zusammenarbeit mit Schulen und Lehrkräften sowie die Einbindung von Eltern und Erziehungsberechtigten. Es werden theoretische Grundlagen und empirische Erkenntnisse herangezogen, um ein ganzheitliches Konzept zu erstellen, das sowohl auf die individuellen Bedürfnisse der Kinder als auch auf die aktuellen Herausforderungen in der Leseentwicklung eingeht.

Vom Full-Funnel zum Cookieless-Tracking: Die Veränderung des Trackings im Online-Marketing durch neue Datenschutzbestimmungen am Beispiel von Meta (2023)

Blömeke, Jan

Die Datenschutzbestimmungen rund um die Datenschutzgrundverordnung, das Telekommunikations-Telemedien-Datenschutz-Gesetz und die App-Tracking Transparenz unter dem Betriebssystem iOS 14.5 von Apple haben Werbetreibende in den letzten fünf Jahren vor neue Herausforderungen gestellt und Werbemaßnahmen auf Social Media stark verändert. Insbesondere der Umgang mit Cookies und personenbezogenen Daten wurde stark beschränkt. Expert:innen sind sich einig, dass das Cookie-Tracking bald der Vergangenheit angehören und das Cookieless-Tracking die Online-Werbewelt dominieren wird. Heutzutage gibt es vielfältige Möglichkeiten, mit denen Werbetreibende ihre Zielgruppen ohne große Streuverluste und Cookies entlang des Marketing-Funnels erreichen können. Mit dem serverseitigen Tracking über die Conversion API bietet der Konzern Meta Platforms eine davon. Es bedarf jedoch weiterhin der aktiven Zustimmung der Nutzer:innen, sodass Datenlücken entstehen können und Retargeting-Zielgruppen dadurch nur eingeschränkt einsetzbar sind. Eine alternative Tracking-Methode ist das Arbeiten ausschließlich mit plattformeigenen Daten von Meta. Der Vorteil liegt darin, dass keine zusätzliche Tracking-Zustimmung durch die Nutzer:innen benötigt wird und somit keine Datenlücken entstehen. Auf der anderen Seite können keine Websitedaten analysiert und Daten der Zielgruppe eingesehen werden, das möglicherweise dazu führt, dass wichtige Erkenntnisse im finalen Kaufprozess auf der Website verloren gehen. Aktuell gibt es keine Tracking-Methode, die nur Vorteile mit sich bringt. Vielmehr müssen Werbetreibende durch strategisches Testen individuell entscheiden, welche Tracking-Methoden für ihr Unternehmen am besten geeignet sind. Die vorliegende Arbeit definiert dabei konkrete Handlungsempfehlungen, die Werbetreibende bei der Auswahl der Tracking-Methode für einen strategischen Werbeauftritt auf Meta unterstützen.

Gamification for the win - Eine Studie zum Einfluss von Gamification-Kampagnen im Marketing auf die Markenwahrnehmung (2023)

Baccoli, Fabio

Das Ziel der Studie ist, einen Beitrag zur Analyse der Einflussmöglichkeiten von Gamification-Kampagnen auf die Meinung der Rezipierenden bezüglich einer Marke beizusteuern. Der Kontext der Studie bewegt sich dabei im Schnittpunkt zwischen dem Marketing, dem Spieldesign und der Psychologie. Die Forschungsfrage lautet: Wie beeinflussen Gamification-Kampagnen im Marketing die Markenwahrnehmung? Zur Beantwortung der Forschungsfrage wurde ein Leitfadenfragebogen erstellt, mit dem zehn Testpersonen, welche vorher anhand einer Klassifizierungsmatrix in fünf Befragtentypen geteilt wurden, befragt wurden. Die Erstellung des Leitfadens erfolgte dabei anhand eines Abhängigkeitskonstrukts, welches aus der Literatur abgeleitet wurde. Als Forschungsgegenstand wurde den Teilnehmenden eine Gamification-Kampagne sowie ein Werbespot gezeigt, auf dessen Basis die Bindung zur Kampagne und die Markenwahrnehmung erfragt wurde. Die Analyse der Ergebnisse zeigt, dass Gamification-Kampagnen im Werbeverständnis der Personen nicht präsent sind, aber das Engagement der Rezipierenden mit der Kampagne, dem gezeigten Produkt und der Marke fördern. Außerdem wird die behandelte Marke in Gamification-Kampagne verstärkt mit emotionalen Eigenschaften verbunden, was eine positive Markenwahrnehmung fördern kann.

Informationskompetenz im Lehramtsstudium – Analyse, Bedarfe, Perspektiven (2023)

Kupke, Laura May

Die vorliegende Arbeit befasst sich mit dem Thema Informationskompetenz unter dem spezifischen Blickwinkel des Lehramtsstudiums. Dazu wurden die Themenkomplexe Lehramt und Informationskompetenz theoretisch aufgearbeitet. Durch eine systematische Literaturrecherche wurden aktuelle Erkenntnisse, Bedarfe und Desiderate im Bereich Lehramt herausgearbeitet und Implikationen für zukünftige Bedarfe für das Lehramtsstudium sowie bibliothekarische Angebote für die Zielgruppe Lehramtsstudierende abgeleitet.

Verbesserung der automatischen Dokument-Klassifikation für den Discovery Service LIVIVO von ZB MED (2023)

Prantz, Max

Diese Arbeit beschreibt, wie eine Grundlage geschaffen wird, um die Dokumentenklassifikation der Suchmaschine LIVIVO durch eine Eigenentwicklung der ZB-Med zu ersetzen. Das bisher eingesetzte System basiert auf einer proprietären Software der Averbis GmbH und bietet keine Möglichkeit, diese von ZB-Med anpassen oder erweitern zu lassen. Damit die Klassifikation der Dokumente innerhalb der Datenbank, der Suchmaschine LIVIVO, verbessert werden kann, soll ein neues System entwickelt werden. Um dieses Ziel erreichen zu können, konzentriert sich diese Arbeit auf eine explorative Analyse der vorhandenen Daten sowie auf die Erstellung erster Klassifikationsmethoden und den damit verbundenen Aufbau eines Textkorpus. Diese neu erstellten Methoden basieren auf existierenden Klassifikationsmodellen wie Stochastic Gradient Descent Classifier (SGDC), Term-Frequenzy Inverse-Document-Frequenzy (TF-IDF) und Latent Dirichlet Allocation (LDA). Die Ergebnisse dieser Modelle werden diskutiert und evaluiert. Die erstellten Leistungskurven der Modelle und Textkorpi können somit als Vergleich, sowie Grundlage für weitere Arbeiten am System verwendet werden.

Open Access

Refine

Author

Year of publication

Document Type

Language

Has Fulltext

Keywords

539 search hits