Refine
Year of publication
- 2023 (23) (remove)
Document Type
- Bachelor Thesis (23) (remove)
Has Fulltext
- yes (23) (remove)
Keywords
- Journalismus (3)
- Social Media (3)
- Informations- und Dokumentationswissenschaft (2)
- Klassifikation (2)
- Konzeption (2)
- Open Access (2)
- Podcast (2)
- Öffentliche Bibliothek (2)
- Anreicherung von Metadaten (1)
- Automatische Spracherkennung (1)
Das Ziel der vorliegenden Arbeit ist es, die Berichterstattung des öffentlichrechtlichen Nachrichtenformats Tagesschau auf dem sozialen Netzwerk TikTok zu untersuchen und zu bewerten, ob das Nachrichtenformat Inhalte nach journalistischen Kriterien und spezifischen Aspekten des Internets und der Plattform TikTok vermittelt. Zur Beantwortung der Forschungsfrage wurde eine qualitative Analyse mit deduktiver Kategorienanwendung durchgeführt. Die Analyse zeigte, dass die Tagesschau sowohl journalistische, internetspezifische als auch TikTok-spezifische Kriterien abdecken konnte und somit als Best-Practice-Beispiel für etablierte Medienformate auf sozialen Plattformen bewertet werden kann. Der Kanal der Tagesschau konnte die Nachrichten an die Formate der Plattform anpassen und gleichzeitig klassische Aspekte journalistischer Integrität wahren.
Die Datenschutzbestimmungen rund um die Datenschutzgrundverordnung, das Telekommunikations-Telemedien-Datenschutz-Gesetz und die App-Tracking Transparenz unter dem Betriebssystem iOS 14.5 von Apple haben Werbetreibende in den letzten fünf Jahren vor neue Herausforderungen gestellt und Werbemaßnahmen auf Social Media stark verändert. Insbesondere der Umgang mit Cookies und personenbezogenen Daten wurde stark beschränkt. Expert:innen sind sich einig, dass das Cookie-Tracking bald der Vergangenheit angehören und das Cookieless-Tracking die Online-Werbewelt dominieren wird. Heutzutage gibt es vielfältige Möglichkeiten, mit denen Werbetreibende ihre Zielgruppen ohne große Streuverluste und Cookies entlang des Marketing-Funnels erreichen können. Mit dem serverseitigen Tracking über die Conversion API bietet der Konzern Meta Platforms eine davon. Es bedarf jedoch weiterhin der aktiven Zustimmung der Nutzer:innen, sodass Datenlücken entstehen können und Retargeting-Zielgruppen dadurch nur eingeschränkt einsetzbar sind. Eine alternative Tracking-Methode ist das Arbeiten ausschließlich mit plattformeigenen Daten von Meta. Der Vorteil liegt darin, dass keine zusätzliche Tracking-Zustimmung durch die Nutzer:innen benötigt wird und somit keine Datenlücken entstehen. Auf der anderen Seite können keine Websitedaten analysiert und Daten der Zielgruppe eingesehen werden, das möglicherweise dazu führt, dass wichtige Erkenntnisse im finalen Kaufprozess auf der Website verloren gehen. Aktuell gibt es keine Tracking-Methode, die nur Vorteile mit sich bringt. Vielmehr müssen Werbetreibende durch strategisches Testen individuell entscheiden, welche Tracking-Methoden für ihr Unternehmen am besten geeignet sind. Die vorliegende Arbeit definiert dabei konkrete Handlungsempfehlungen, die Werbetreibende bei der Auswahl der Tracking-Methode für einen strategischen Werbeauftritt auf Meta unterstützen.
Verbesserung der automatischen Dokument-Klassifikation für den Discovery Service LIVIVO von ZB MED
(2023)
Diese Arbeit beschreibt, wie eine Grundlage geschaffen wird, um die Dokumentenklassifikation der Suchmaschine LIVIVO durch eine Eigenentwicklung der ZB-Med zu ersetzen. Das bisher eingesetzte
System basiert auf einer proprietären Software der Averbis GmbH und bietet keine Möglichkeit, diese von ZB-Med anpassen oder erweitern zu lassen. Damit die Klassifikation der Dokumente innerhalb der Datenbank, der Suchmaschine LIVIVO, verbessert werden kann, soll ein neues System entwickelt werden.
Um dieses Ziel erreichen zu können, konzentriert sich diese Arbeit auf eine explorative Analyse der vorhandenen Daten sowie auf die Erstellung erster Klassifikationsmethoden und den damit verbundenen Aufbau eines Textkorpus. Diese neu erstellten Methoden basieren auf existierenden Klassifikationsmodellen wie Stochastic Gradient Descent Classifier (SGDC), Term-Frequenzy Inverse-Document-Frequenzy (TF-IDF) und Latent Dirichlet Allocation (LDA). Die Ergebnisse dieser Modelle
werden diskutiert und evaluiert. Die erstellten Leistungskurven der Modelle und Textkorpi können somit als Vergleich, sowie Grundlage für weitere Arbeiten am System verwendet werden.
Werden Sprachmodelle auf neue Daten trainiert oder bereits vortrainierte Sprachmodelle durch Finetuning auf neue Daten fein abgestimmt, so lernt ein Sprachmodell jegliche Informationen aus den verwendeten Trainingsdaten. Meistens beinhalten die Trainingsdaten einen Bias. Dieser Bias wird ebenfalls durch die Sprachmodelle aufgenommen und im Antwortverhalten verbreitet. Besonders auf die politische Domäne kann sich diese Eigenschaft negativ auswirken. So können Sprachmodelle durch Finetuning auf politische voreingenommene Daten fein abgestimmt werden, welche anschließend verwendet werden können, um Applikationen zu entwickeln, welche die politische Meinung der Benutzer*Innen beeinflussen sollen.
Das Ziel dieser Arbeit ist, zu untersuchen wie sich verschiedene Sprachmodelle auf die Reproduktion der politischen Voreingenommenheit auswirken und welche Auswirkungen verschiedene Faktoren aus dem Trainingsdatensatz auf die Reproduktion der politischen Voreingenommenheit haben.
Dafür wurde ein Web Scraper angepasst, um den dadurch generierten Datensatz durch weitere Daten zu erweitern. Bei den Daten im Datensatz handelt es sich um Nachrichtendaten der amerikanischen Politikdomäne. Dieser Datensatz wurde durch die Volltexte der Nachrichten erweitert. Außerdem wurden zusätzlich die Zitate aus den Volltexten entfernt, um die Auswirkung der Zitate auf die Reproduktion der politischen Voreingenommenheit zu untersuchen. Anschließend wurden drei Sprachmodelle, welche auf unterschiedlichen Komponenten der Transformer-Architektur basieren, auf die Schlagzeilen, Volltexte und Volltexte ohne Zitate der linken und rechten Nachrichtendaten fein abgestimmt. Nach dem Finetuning haben die Sprachmodelle Texte für Eingaben generiert. Die generierten Texte wurden durch ein Evaluationsschema auf die politische Voreingenommenheit evaluiert. Dabei wurde die politische Voreingenommenheit am stärksten und genausten durch das Sprachmodell DistilGPT2 reproduziert, welches beim Finetuning die Volltexte verwendet hat. Das Sprachmodell DistilGPT2 basiert auf der Decoder-Komponente der Transformer-Architektur. Stehen viele Daten beim Finetuning zur Verfügung, führt das Verwenden der Volltexte ohne Zitate beim Finetuning zu einer weiteren Verstärkung der Reproduktion der politischen Voreingenommenheit.
Der Diskurs um die Themen Rassismus und Geschlechterstereotypen in Kinderbüchern hat in den vergangenen Jahren vermehrt zugenommen. An dem Diskurs nimmt nicht nur die bibliothekarische Fachwelt, sondern auch die gesamte gemeine Bevölkerung teil. In dieser Bachelorarbeit soll untersucht werden, inwiefern Kinderbücher in den 15 größten Bibliotheken in NRW in Hinblick auf rassistische und geschlechterstereotype Inhalte behandelt werden. Dabei wird sich konkret auf ausgewählte Klassiker der Kinderliteratur beschränkt. Neben der ethischen Betrachtung des Themas soll in einem praktischen Teil anhand mehrerer Methoden analysiert werden, ob die Bibliotheken bestimmte Sensibilisierungsmaßnahmen bezüglich der betroffenen Bücher ergriffen haben. Dazu werden eine Webseitenanalyse, Katalogrecherchen, Beobachtungen und eine kurze Umfrage durchgeführt. Ziel ist es, festzuhalten, wie weit sich die untersuchten Bibliotheken in Nordrhein-Westfalen mit diesem Diskurs beschäftigt haben und welche Lösungsansätze darüber hinaus in Bibliotheken deutschlandweit bereits angewendet werden. Die Analyse zeigt, dass viele Öffentliche Bibliotheken sich allgemein mit Rassismus und Rollenklischees auseinandergesetzt haben und besonders das Thema Diversität aufgreifen. Die konkrete Beschäftigung mit Rassismus und Geschlechterstereotypen in Kinderbuchklassikern lässt sich somit für die nahe Zukunft in NRW prognostizieren.
Der digitale Wandel, getrieben durch die Evolution von „New Media“ mit ihren interaktiven, multimedialen Merkmalen und globaler Zugänglichkeit, hat nachhaltige Auswirkungen auf die Bereiche Journalismus, Unterhaltung und Wissenschaftskommunikation hinterlassen. Innerhalb dieses Rahmens dienen Podcasts als zugängliche, offene Plattform zur Verbreitung wissenschaftlicher Informationen und zur Förderung interdisziplinärer Diskussionen, wobei Herausforderungen im Hinblick auf die auditiven Eigenschaften und die Notwendigkeit evidenzbasierter Kommunikation bestehen. Das Hauptziel dieser Studie besteht darin, die jüngsten Fortschritte in KI-gesteuerten Transkriptionsverfahren zu nutzen, um effiziente und hochwertige Transkriptionen zu realisieren. Darüber hinaus werden neue Ansätze zur Steigerung der Auffindbarkeit, Zugänglichkeit und Verbreitung wissenschaftlicher Inhalte diskutiert. Für diese Studie wurden Audio-Daten aus dem bilingualen Common Voice-Datensatz und dem englisch-sprachigen GigaSpeech-Datensatz verwendet, um automatisierte Transkriptionen zu erstellen. Die Transkriptionen wurden anschließend mithilfe von Metriken wie der Wortfehlerrate und des Jaro-Winkler-Ähnlichkeitsmaß bewertet. Die Ergebnisse dieser Untersuchung verdeutlichen, dass die Genauigkeit des ASR-Modells „Whisper“ von OpenAI von verschiedenen Faktoren abhängig ist. Hierzu zählen die Sprache, verschiedene Dialekte, Akzente, Altersgruppen und Themengebiete. Im Gesamten betrachtet konnte die Transkription von englischen im Vergleich zu deutschen Daten präziser durchgeführt werden. Trotz gelegentlicher Fehler zeigten die durch ASR generierten Transkriptionen eine signifikante Ähnlichkeit zur Ground Truth, was auf ihr Potenzial für die Transkription von Podcasts hinweist. Ein Vergleich verschiedener Modellgrößen ergab, dass größere Modelle eine überlegene Leistung erbrachten. Diese robusten Ergebnisse legen nahe, dass Transkriptionen eine sinnvolle Ergänzung zu den vorhandenen Metadaten von Podcasts darstellen und zur Verbesserung von Retrieval-Anwendungen genutzt werden können.
Des Weiteren bieten Transkriptionen eine solide Grundlage für die Anwendung fortgeschrittener Methoden des NLP zur Extraktion entscheidender Informationen, wie beispielsweise Verweise und Entitäten, welche in ein vernetztes System, wie Knowledge Graphs, integriert werden können, um Podcast-Inhalte auf effiziente Weise zu strukturieren und Verknüpfungen zu anderen Wissensquellen herzustellen.
Schulungen zu Predatory Publishing: Identifikation von Best Practices an deutschen Universitäten
(2023)
Predatory Publishing ist eine aus dem Open Access entstandene Geschäftspraktik. Verlage machen sich die Unwissenheit von Forscher*innen zunutze, um sich selbst zu bereichern. In der folgenden Ausarbeitung wird untersucht, wie verbreitet Bibliotheken zu Predatory Publishing aufklären und welche Inhalte und Methoden sich als Best Practice für Informationsangebote anbieten. Inhaltlich überschneiden sich die Angebote in vielen Punkten und je nachdem wie umfangreich die Angebote geplant sind, werden Informationen mit Beispielen vertieft. Der gängige didaktische Aufbau für Workshops besteht aus einem theoretischen Teil und einer Übung, um das Gelernte anzuwenden.
Relevanz und Umsetzung von gendergerechter Sprache in deutschsprachigen journalistischen Angeboten
(2023)
Die Diskussion um gendergerechte Sprache geht nicht am Journalismus vorbei, sondern betrifft ihn vielmehr in besonderem Maße. Diese Bachelorarbeit stellt dar, dass es gerade im Journalismus wichtig ist, Alternativformen zum generischen Maskulinum zu finden, um den gedanklichen Miteinbezug von Frauen und nicht binären Personen in der Öffentlichkeit zu fördern. Es wird zudem herausgearbeitet, dass sich hierbei besonders eine Kombination aus Neutralformen sowie Genderzeichen eignet, da diese am besten mit den Anforderungen an journalistische Sprache vereinbar ist.
Für die einfache Literaturrecherche von Fachinformationen bietet die ZB MED eine Literaturdatenbank namens LIVIVO an. Um eine thematische Suche zu ermöglichen, befasst sich diese Bachelorarbeit mit der Themenklassifikation der in der Datenbank vorhandenen Publikationen. Das Ziel der Arbeit besteht darin, den Korpus für eine automatisierte Klassifizierung aufzubereiten, um eine relevante Klasseneinteilung zu erzielen. Ausgehend von der Annahme, dass eine Textklassifizierung durch spezifische Terme und Schlüsselwörter gezieltere und aussagekräftigere Ergebnisse liefern kann, wird eine themenspezifische Aufbereitung mithilfe von Wissensorganisationssystemen (Thesauri) eingebunden. Hierzu wird im Vorhinein eine automatisierte Spracherkennung der Publikationen implementiert. Nach der Indexierung der Schlüsselwörter in den Dokumenten werden zwei statistische Klassifikationsmodelle für die Klassifizierung angewandt. Hierzu gehört die Latent Dirichlet Allocation, sowie der Stochastic Gradient Descent Classifier. Abschließend wird die automatische Schlagwortextraktion mit einer intellektuellen Themenanalyse verglichen und die Performance der Klassifizierung mit den aufbereiteten In Input-Daten auf eine Verbesserung hin analysiert.
Bereits seit einiger Zeit diskutiert die Wissenschaftsgemeinschaft über eine „Reproduzierbarkeitskrise“, weiter verschärft durch die Allgegenwart von computergestützter Forschung, „Big Data“ und algorithmischer Erkundung und Entscheidungsfindung. Mit Hilfe einer Literaturrecherche gibt diese Arbeit einen strukturierten Überblick über den Stand der Debatte zu Reproduzierbarkeit, einschließlich aktueller Definitionen, Werkzeugen und Mitteln, die Forschenden zur Verfügung stehen, und Maßnahmen, die von Institutionen, Politik und anderen am Forschungsprozess Beteiligten ergriffen wurden. Der Fokus liegt dabei auf den Disziplinen Informatik, Informationswissenschaft und Data Science.