Refine
Document Type
- Bachelor Thesis (12)
- Master's Thesis (2)
Has Fulltext
- yes (14) (remove)
Keywords
- Information Retrieval (5)
- Data Mining (2)
- Deutsche Nationalbibliothek (2)
- Reproduzierbarkeit (2)
- Benutzerverhalten (1)
- Bias (1)
- Claim Detection (1)
- Computational Journalim (1)
- Continuous Evaluation (1)
- Datenmapping (1)
Die Reproduzierbarkeit von Ergebnissen ist das Fundament der Wissenschaft. Seit einigen Jahren bröckelt dieses Fundament jedoch und viele Forschende sind sich einig, dass es eine Reproduzierbarkeitskrise gibt. Grund dafür sind unter anderem die oft nicht zur Verfügung stehenden Daten aus den ursprünglichen Untersuchungen und mangelhafte Dokumentation. Seit einiger Zeit wird der Reproduzierbarkeit daher ein besonderes Augenmerk geschenkt. In der vorliegenden Arbeit wird die Reproduzierbarkeit von webbasiertem Pseudo-Relevanz-Feedback untersucht. Grossman und Cormack versuchten 2018 Relevanzurteile für Dokumente aus Testkollektionen mittels logistischer Regression herzuleiten. Ihre Trainingsdaten für ihr Modell bestanden aus Daten, die sie mittels Pseudo-Relevanz-Feedback aus dem Internet gewonnen hatten. Da das Internet einem permanenten Wandel unterlegen ist, ist absehbar, dass sich auf diese Weise gewonnene Trainingsdaten bei einer Reproduktion verändern und potentiell zu anderen Ergebnissen führen. 2019 haben Breuer und Schaer einen Reproduktionsversuch unternommen und dabei festgestellt, dass eine Reproduktion der Originalergebnisse trotz veränderter Datengrundlage möglich ist, sich aber Differenzen in den Resultaten aufgrund diverser Parameter wie verwendeter Suchmaschine und Geolocation ergeben. Im Rahmen dieser Bachelorarbeit wurde eine weitere Reproduktion unternommen, um zu prüfen, ob sich das Verfahren und die Ergebnisse von Breuer und Schaer reproduzieren lassen. In einer darauffolgenden Modifikation des Ansatzes wurden über zwei Wochen weitere Trainingsdaten erhoben und durch Ausschluss oder Einbezug von Begriffen rund um die Corona-Pandemie dabei der Einfluss von aktueller Berichterstattung auf die erhobenen Trainingsdaten und damit die Retrievalergebnisse untersucht. Ergebnisse wurden mittels TREC-EVAL evaluiert, durch einen t-Test wurden die Ergebnisse auf signifikante Unterschiede überprüft und über die Berechnung des Root Means Square Errors und der Effect Ratio die Qualität der Reproduktion untersucht. Die zugrunde liegenden Trainingsdaten wurden dann mithilfe des Rank Biased Overlap auf Überschneidungen überprüft. Der errechnete RBO wurde anschließend mit den Differenzen zwischen den Ergebnissen in Verhältnis gesetzt und mithilfe der Pearson-Korrelation auf signifikante Zusammenhänge getestet. Die Untersuchung ergab, dass eine Reproduktion zu großen Teilen erfolgreich war, die Ergebnisse von Breuer und Schaer jedoch nicht exakt reproduziert werden konnten. Die intensive Berichterstattung um die Corona-Pandemie hatte dabei keinen signifikanten Einfluss auf die Retrievalergebnisse. Mit zunehmender Zeit sank der RBO zwischen den erhobenen Daten, es konnte jedoch keine signifikante Korrelation zwischen dem RBO und den Differenzen in den Einzelergebnissen festgestellt werden.
Ziel der vorliegenden Arbeit ist die Generierung einer möglichst vollständigen Sammlung von Metadaten, referenzierend auf Dissertationsschriften, die dem erweiterten Themenspektrum der Informationswissenschaft entsprechen. Hierzu stellen sich die folgenden Fragen: Welche Disziplinen können als relevant für das erweiterte Themenspektrum der Informationswissenschaft betrachtet werden? Existiert eine Vollständige Übersicht über die Landschaft der deutschen Hochschulschriftenserver? Wie muss das System aufgebaut werden um die Metadaten, die auf Dissertationsschriften referenzieren, zu beziehen, zu selektieren und zu homogenisieren? Um diese Fragen zu beantworten wird erarbeitet, aus welchen Disziplinen sich das erweiterte informationswissenschaftliche Themengebiet zusammensetzt. Ebenso wird eine Vollständige Liste aller deutschen Hochschulen und der identifizierten Hochschulschriftenserver angefertigt. Diese erarbeiteten Hochschulschriftenserver werden mittels eines Softwareentwurfs über das Open Archives Initiative Protocol for Metadata Harvesting abgefragt. Die erhaltenen Metadaten werden homogenisiert abgelegt. Weiter findet eine Schlagwortsuche nach programmatisch erstellten Schlagworten innerhalb der Disziplinen statt, die der Informationswissenschaft als nahestehend ermittelt wurden. Aus der Aufgabenstellung resultierend ergab sich, dass die Methoden und Erkenntnisse der Informatik und der Bibliothekswissenschaft als relevant für das erweiterte Themenspektrum der Informationswissenschaft betrachtet werden können. Durch den Harvesting Prozess konnten zwei Sammlungen von Metadatensätzen erstellt werden. Eine Sammlung umfasst 378 Metadatensätze, die ausschließlich Dissertationen aus den Bibliotheks- und Informationswissenschaften beinhalten und eine weitere Sammlung besteht aus 3.698 Metadatensätzen, die dem erweiterten Themenspektrum der Informationswissenschaft entsprechen.
Wissenschaftliche Pressekonferenzen sind eine wertvolle Informationsquelle. Sie bestehen aus abwechselnden Reden von Expert:innen und Antworten auf Fragen aus dem Publikum und können daher zu einer faktenbasierten Berichterstattung beitragen. Obgleich Pressekonferenzen eine hohe Informationsdichte besitzen, ist das Extrahieren von relevanten Statements schwierig und zeitintensiv. Um diese Arbeit zu unterstützen, wird ein System vorgeschlagen, das automatisiert Statements aus Pressekonferenzen extrahiert. Claims, also Behauptungen über Sachverhalte, werden als zentrales Element eines Statements identifiziert und dienen als wichtigstes Feature, um Statements in Transkripten von Pressekonferenzen zu identifizieren. Hierzu wird ein zweistufiger Prozess vorgeschlagen.
Zunächst werden mithilfe einer Single Label Multi-Class Sequenzklassifikation Sätze identifiziert, welche ein Claim enthalten. Anschließend werden die Sätze weiterverarbeitet, um irrelevante Sätze und solche mit anaphorischen Verbindungen herauszufiltern oder die Länge der Statements zu beeinflussen. Die Ergebnisse lassen vermuten, dass das Identifizieren von Claims erfolgreich eingesetzt werden kann, um Statements in Pressekonferenzen zu finden. Obwohl viele Statements mit diesem automatisierten System extrahiert werden können, sind die extrahierten Sätze nicht immer schlüssig genug, um ohne weiteren Kontext verstanden zu werden und benötigen weitere Begutachtung durch fachkundige Personen.
Informationssuchende werden durch die zunehmende Informationsfülle und Menge an Webseiten im Internet immer abhängiger von Suchmaschinen. Während der Bias der Ausgaben dieser Suchmaschinen schon länger im Fokus der Forschung steht, gilt dies nicht für die Suchvorschläge. Diese werden den Suchenden zur Erweiterung oder Spezifizierung ihrer Suchen vorgeschlagen. An der Information Retrieval Research Group der TH Köln wird der Einfluss von Suchvorschlägen auf die politische Meinungsbildung untersucht. Für die Untersuchung dieser Suchvorschläge werden diese in dieser Bachelorbeit thematisch mit Daten aus dem sozialen Netzwerk Twitter in den Vormonaten der Bundestagswahl 2017 verglichen. Hierbei werden verschiedene Einflussfaktoren auf die Übereinstimmung der Themen und den Zeitversatz innerhalb der Zeitreihen der Suchvorschläge und der Themen aus Twitter untersucht. Es wird festgestellt, dass Suchvorschläge zu Personen der Parteien AFD und DIE LINKE deutlich abhängiger von den Diskussionen und dominierenden Themen auf Twitter sind. Themen auf Twitter tauchen zu Personen der AFD schneller und zu Personen der AFD und DIE LINKE stärker in den Suchvorschlägen auf als zu Personen anderer Parteien. Hierbei können jedoch nur sehr schwache systematische Unterschiede abhängig von der Kategorie der Themen festgestellt werden.
Seit Herbst 2017 findet in der Deutschen Nationalbibliothek die Inhaltserschließung
bestimmter Medienwerke rein maschinell statt. Die Qualität dieses Verfahrens,
das die Prozessorganisation von Bibliotheken maßgeblich prägen
kann, wird unter Fachleuten kontrovers diskutiert. Ihre Standpunkte werden
zunächst hinreichend erläutert, ehe die Notwendigkeit einer Qualitätsprüfung
des Verfahrens und dessen Grundlagen dargelegt werden. Zentraler Bestandteil
einer künftigen Prüfung ist eine Testkollektion. Ihre Erstellung und deren
Dokumentation steht im Fokus dieser Arbeit. In diesem Zusammenhang werden
auch die Entstehungsgeschichte und Anforderungen an gelungene Testkollektionen
behandelt. Abschließend wird ein Retrievaltest durchgeführt, der
die Einsatzfähigkeit der erarbeiteten Testkollektion belegt. Seine Ergebnisse
dienen ausschließlich der Funktionsüberprüfung. Eine Qualitätsbeurteilung maschineller
Inhaltserschließung im Speziellen sowie im Allgemeinen findet nicht
statt und ist nicht Ziel der Ausarbeitung.
As a key part of human-computer interaction(HCI) and usability testing, the capturing and recording of key user interaction plays a center role for ensuring a reliable post-hoc analysis of collected user interaction data, thus improving the odds of insightful HCI and usability testing cycles for use cases such as the evaluation of interactive information retrieval Systems(IRR). As such, the practice of logging is of significant importance for multiple fields of study such as IIR, HCI and most recently also Living Lab approaches. Living lab approaches represent a user-centered research methodology with a focus on user involvement, experimental approaches and extensive collaboration for the sake of co-production of knowledge and as such, has a dire need for robust and easy to use logging solutions.
With past logging solutions being either expensive, hard to use or error-prone, recent conferences gave rise to new logging solutions using contemporary web technologies, which aim to improve the logging landscape within the research community. Over the course of this paper, two of these recent logging solutions, LogUI and Big Brother, are to be inspected for their key features and then evaluated, whether they are suitable logging solutions for living lab and IIR environments. Results and research indicate, that both logging solutions offer significant benefits for research using living lab and IIR approaches, with LogUI embracing many of the experimental paradigms that guide the living lab approach.
Die German Library Indexing Collection (GeLIC) soll dazu dienen, die Retrievalleistung von maschinellen und intellektuellen Schlagwörtern der Deutschen Nationalbibliothek (DNB) zu vergleichen. Das Verfahren zur Erzeugung des Korpus der Kollektion wurde im Verlauf dieser Arbeit automatisiert. Dafür musste zunächst der bestehende Korpus analysiert werden, um Ziele für den zu entwickelnden Prozess formulieren zu können. Darauf folgt ein State of the Art zu bibliothekarischen und universellen ETL-Lösungen. Es wurde entschieden, dass das automatische Verfahren mithilfe von Python realisiert werden sollte. Nachdem festgelegt wurde welche Daten benötigt werden, wurden die öffentlich verfügbaren Formate der DNB analysiert. Dabei wurde deutlich, dass in beiden Formaten maschinelle Schlagwörter nicht in jedem Fall von intellektuellen unterschieden werden können. Anschließend wurde das Package gelic_mt entwickelt und darauf aufbauend eine Pipeline für GeLIC. Bei der Prüfung des damit erzeugbaren Korpus, wurde erneut ersichtlich, dass die derzeitig öffentlich verfügbaren Daten keinen Korpus erlauben, der für die gewünschten Retrievaltests geeignet ist.
Die Nutzung von Suchmaschinen ist im Alltag moderner Gesellschaften fest implementiert und gilt heute als eines der Fundamente digitaler Informationsbeschaffung.
Diverse Studien schreiben digitalen Informationsanbietern einen soziotechnologischen Charakter zu, welcher potenziell dazu in der Lage ist durch ein Konglomerat feinjustierter Algorithmen Gesellschaften zu beeinflussen und eine Steuergröße in demokratischen Prozessen abzubilden. Die vorliegende Bachelor-Thesis belegt durch die Analyse diverser Nationen mithilfe der Datamining-Umgebung RapidMiner die ungleiche Darstellung von Ethnien in Suchvervollständigungen durch Textminingverfahren wie TF-IDF-Gewichtung, Erhebung von Termhäufigkeiten und der Durchführung einer Sentimentanalyse.
Diese Arbeit beschäftigt sich mit der Frage, ob sich Personalisierung auf die Suchvorschläge bei Google auswirkt.
Zunächst wird beschrieben, inwiefern dies im Kontext gesellschaftlichen Diskurses relevant ist und was zur Entstehung von Filterblasen im Allgemeinen führen kann. Auch Google als Unternehmen und dessen Geschäftsmodell wird in dieser Arbeit betrachtet.
Zur Sammlung der Daten wurde eigenständig ein Programm entwickelt, welches sich automatisch in Google Accounts einloggt, Suchanfragen absendet und anschließend die Suchvorschläge speichert.
Mithilfe der Berechnung des Jaccard-Index und einer intellektuellen Auswertung der Daten konnte so festgestellt werden, ob es einen Einfluss der Personalisierung auf die Suchvorschläge gibt.
Es konnten zwar geringe Abweichungen zwischen einzelnen Tagen festgestellt werden, generell schlägt sich der Einfluss der Personalisierung allerdings nicht in den Ergebnissen dieser Arbeit nieder.