Refine
Document Type
- Bachelor Thesis (15)
- Master's Thesis (2)
Keywords
- Information Retrieval (6)
- Data Mining (2)
- Deutsche Nationalbibliothek (2)
- Reproduzierbarkeit (2)
- A9 (1)
- Algorithmus (1)
- Amazon (1)
- Benutzerverhalten (1)
- Bias (1)
- Claim Detection (1)
The goal of this work is to detect "gender biases" in the communication of users of Subreddits on the platform Reddit. The analysis is carried out for eleven selected Subreddits. Furthermore, an attempt is made to identify different user types with the help of a k-means clustering and also to analyze "gender biases" in their communication. Based on the aggregated datasets, fasttext Word Embedding models are trained to identify terms that show high semantic relatedness in terms of cosine similarity of their word vectors with selected feminine and masculine terms.
To this end, the terms are analyzed for sentiment using the NRC-VAD Lexicon and tested for statistically significant differences. In addition, the Word Embedding Association Test (WEAT) is performed to check for subliminal associations. In relation to the considered text corpus, it is essentially observed that women are frequently associated with adjectives that associate them with appearances,
childbearing abilities or adaptability also in relation to the family. In contrast, men are associated with and measured by adjectives that refer to their prestige, strengths and weaknesses, career or physical characteristics.
Anforderungen der Bibliotheksnutzer und -Personal an den Webauftritt der Bücherei der Stadt Bingen
(2021)
Websites nehmen eine besondere Position im Marketing ein und sind ein Bestandteil der Kommunikationsstrategie von Unternehmen und Institutionen. Aktuell modernisiert sich die Bücherei³ in Bingen am Rhein. Aus diesem Grund soll die vorliegende Bachelorarbeit die Verbesserung der Website als Instrument des Marketings unterstützen.
Das Ziel der Forschung dieser Arbeit ist ein Webseitenkonzept für die Projektbibliothek Bücherei³ zu entwickeln. Im Fokus steht dabei ein Designkonzept mit technischen Erläuterungen. Um ein Konzept für eine Website auszuarbeiten, wird folgende Forschungsfrage repliziert: „Welche Anforderungen der Bibliotheksnutzer und -Personal gibt es an den Webauftritt der Bücherei³ der Stadt Bingen?“
Dazu werden zwei Fragebögen für vordefinierte Zielgruppen und das Personal der Bibliothek entwickelt und abgefragt. Somit werden die Anforderungen dieser Gruppen an eine für sie attraktive Website ermittelt. Zusätzlich wird ein Experteninterview mit einem Online-Redakteur der Stadt Bingen durchgeführt, das die Rahmenbedingungen für die Gestaltung der Website aufzeigt.
Die Auswertung zeigt, dass die Anforderungen von Personal und Zielgruppe sehr ähnlich sind. Die Zielgruppen bevorzugen eine informative Website, da sie sich in der Regel gerne vor Ort beraten lassen und in der Bibliothek verweilen. Es konnte ein erweitertes Webseitenkonzept entwickelt werden, in welches viele Wünsche beider Seiten einfließen konnten. Das Endkonzept wird durch Beispielbilder ergänzt. Weiterführende Schritte sind die Umsetzung des Konzeptes.
Die German Library Indexing Collection (GeLIC) soll dazu dienen, die Retrievalleistung von maschinellen und intellektuellen Schlagwörtern der Deutschen Nationalbibliothek (DNB) zu vergleichen. Das Verfahren zur Erzeugung des Korpus der Kollektion wurde im Verlauf dieser Arbeit automatisiert. Dafür musste zunächst der bestehende Korpus analysiert werden, um Ziele für den zu entwickelnden Prozess formulieren zu können. Darauf folgt ein State of the Art zu bibliothekarischen und universellen ETL-Lösungen. Es wurde entschieden, dass das automatische Verfahren mithilfe von Python realisiert werden sollte. Nachdem festgelegt wurde welche Daten benötigt werden, wurden die öffentlich verfügbaren Formate der DNB analysiert. Dabei wurde deutlich, dass in beiden Formaten maschinelle Schlagwörter nicht in jedem Fall von intellektuellen unterschieden werden können. Anschließend wurde das Package gelic_mt entwickelt und darauf aufbauend eine Pipeline für GeLIC. Bei der Prüfung des damit erzeugbaren Korpus, wurde erneut ersichtlich, dass die derzeitig öffentlich verfügbaren Daten keinen Korpus erlauben, der für die gewünschten Retrievaltests geeignet ist.
Wissenschaftliche Pressekonferenzen sind eine wertvolle Informationsquelle. Sie bestehen aus abwechselnden Reden von Expert:innen und Antworten auf Fragen aus dem Publikum und können daher zu einer faktenbasierten Berichterstattung beitragen. Obgleich Pressekonferenzen eine hohe Informationsdichte besitzen, ist das Extrahieren von relevanten Statements schwierig und zeitintensiv. Um diese Arbeit zu unterstützen, wird ein System vorgeschlagen, das automatisiert Statements aus Pressekonferenzen extrahiert. Claims, also Behauptungen über Sachverhalte, werden als zentrales Element eines Statements identifiziert und dienen als wichtigstes Feature, um Statements in Transkripten von Pressekonferenzen zu identifizieren. Hierzu wird ein zweistufiger Prozess vorgeschlagen.
Zunächst werden mithilfe einer Single Label Multi-Class Sequenzklassifikation Sätze identifiziert, welche ein Claim enthalten. Anschließend werden die Sätze weiterverarbeitet, um irrelevante Sätze und solche mit anaphorischen Verbindungen herauszufiltern oder die Länge der Statements zu beeinflussen. Die Ergebnisse lassen vermuten, dass das Identifizieren von Claims erfolgreich eingesetzt werden kann, um Statements in Pressekonferenzen zu finden. Obwohl viele Statements mit diesem automatisierten System extrahiert werden können, sind die extrahierten Sätze nicht immer schlüssig genug, um ohne weiteren Kontext verstanden zu werden und benötigen weitere Begutachtung durch fachkundige Personen.
As the information era progresses, the sheer volume of information calls for sophisticated retrieval systems. Evaluating them holds the key to ensuring the reliability and relevance of retrieved information. If evaluated with renowned methods, the measured quality is generally presumed to be dependable. That said, it is often forgotten that most evaluations are only snapshots in time and the reliability might be only valid for a short moment. Further, each evaluation method makes assumptions about the circumstances of a search and thereby has different characteristics. Achieving reliable evaluation is critical to retain the aspired quality of an IR system and maintain the confidence of the users. Therefore, we investigate how the evaluation environment (EE) evolves over time and how this might affect the effectiveness of retrieval systems. Further, attention is paid to the differences in the evaluation methods and how they work together in a continuous evaluation framework. A literature review was conducted to investigate changing components which are then modeled in an extended EE. Exemplarily, the effect of document and qrel updates on the effectiveness of IR systems is investigated through reproducibility experiments in the LongEval shared task. As a result, 11 changing components together with initial measures to quantify how they change are identifed, the temporal consistency of five IR systems could precisely be quantifed through reproducibility and replicability measures and the findings were integrated into a continuous evaluation framework. Ultimately, this work contributes to more holistic evaluations in IR.
Das Ziel dieser Bachelorarbeit ist es zu erläutern, wie der Algorithmus von Amazon funktioniert und welche Faktoren für das Ranking wichtig sind. Dazu wurden zwei Experimente durchgeführt, welche jeweils einen Ranking- und einen Performance-Faktor testen sollten. Die Ergebnisse aus diesen Tests zeigen, in wie weit ein Verkäufer das Ranking seiner Produkte manipulieren kann.
Ziel der vorliegenden Arbeit ist die Generierung einer möglichst vollständigen Sammlung von Metadaten, referenzierend auf Dissertationsschriften, die dem erweiterten Themenspektrum der Informationswissenschaft entsprechen. Hierzu stellen sich die folgenden Fragen: Welche Disziplinen können als relevant für das erweiterte Themenspektrum der Informationswissenschaft betrachtet werden? Existiert eine Vollständige Übersicht über die Landschaft der deutschen Hochschulschriftenserver? Wie muss das System aufgebaut werden um die Metadaten, die auf Dissertationsschriften referenzieren, zu beziehen, zu selektieren und zu homogenisieren? Um diese Fragen zu beantworten wird erarbeitet, aus welchen Disziplinen sich das erweiterte informationswissenschaftliche Themengebiet zusammensetzt. Ebenso wird eine Vollständige Liste aller deutschen Hochschulen und der identifizierten Hochschulschriftenserver angefertigt. Diese erarbeiteten Hochschulschriftenserver werden mittels eines Softwareentwurfs über das Open Archives Initiative Protocol for Metadata Harvesting abgefragt. Die erhaltenen Metadaten werden homogenisiert abgelegt. Weiter findet eine Schlagwortsuche nach programmatisch erstellten Schlagworten innerhalb der Disziplinen statt, die der Informationswissenschaft als nahestehend ermittelt wurden. Aus der Aufgabenstellung resultierend ergab sich, dass die Methoden und Erkenntnisse der Informatik und der Bibliothekswissenschaft als relevant für das erweiterte Themenspektrum der Informationswissenschaft betrachtet werden können. Durch den Harvesting Prozess konnten zwei Sammlungen von Metadatensätzen erstellt werden. Eine Sammlung umfasst 378 Metadatensätze, die ausschließlich Dissertationen aus den Bibliotheks- und Informationswissenschaften beinhalten und eine weitere Sammlung besteht aus 3.698 Metadatensätzen, die dem erweiterten Themenspektrum der Informationswissenschaft entsprechen.
Seit Herbst 2017 findet in der Deutschen Nationalbibliothek die Inhaltserschließung
bestimmter Medienwerke rein maschinell statt. Die Qualität dieses Verfahrens,
das die Prozessorganisation von Bibliotheken maßgeblich prägen
kann, wird unter Fachleuten kontrovers diskutiert. Ihre Standpunkte werden
zunächst hinreichend erläutert, ehe die Notwendigkeit einer Qualitätsprüfung
des Verfahrens und dessen Grundlagen dargelegt werden. Zentraler Bestandteil
einer künftigen Prüfung ist eine Testkollektion. Ihre Erstellung und deren
Dokumentation steht im Fokus dieser Arbeit. In diesem Zusammenhang werden
auch die Entstehungsgeschichte und Anforderungen an gelungene Testkollektionen
behandelt. Abschließend wird ein Retrievaltest durchgeführt, der
die Einsatzfähigkeit der erarbeiteten Testkollektion belegt. Seine Ergebnisse
dienen ausschließlich der Funktionsüberprüfung. Eine Qualitätsbeurteilung maschineller
Inhaltserschließung im Speziellen sowie im Allgemeinen findet nicht
statt und ist nicht Ziel der Ausarbeitung.
As a key part of human-computer interaction(HCI) and usability testing, the capturing and recording of key user interaction plays a center role for ensuring a reliable post-hoc analysis of collected user interaction data, thus improving the odds of insightful HCI and usability testing cycles for use cases such as the evaluation of interactive information retrieval Systems(IRR). As such, the practice of logging is of significant importance for multiple fields of study such as IIR, HCI and most recently also Living Lab approaches. Living lab approaches represent a user-centered research methodology with a focus on user involvement, experimental approaches and extensive collaboration for the sake of co-production of knowledge and as such, has a dire need for robust and easy to use logging solutions.
With past logging solutions being either expensive, hard to use or error-prone, recent conferences gave rise to new logging solutions using contemporary web technologies, which aim to improve the logging landscape within the research community. Over the course of this paper, two of these recent logging solutions, LogUI and Big Brother, are to be inspected for their key features and then evaluated, whether they are suitable logging solutions for living lab and IIR environments. Results and research indicate, that both logging solutions offer significant benefits for research using living lab and IIR approaches, with LogUI embracing many of the experimental paradigms that guide the living lab approach.