Investigating the impact of bibliometric Data Fusion for Biomedical Information Retrieval
- In a digital scientific landscape information seeking happens on digital platforms, the platforms stand before the challenge of retrieving the most relevant results for the user. Many factors go into a retrieval systems decision making of what is relevant, high user satisfaction correlates to high relevance of results. Many users of scientific digital platforms take in this decision the bibliometrics of the results into account, such as citations and Altmetric Score. This leads to the theory that taking this into account should raise the relevance of retrieval systems. This theory has been tested in a base paper, which this thesis is based on. To prove the reproducibility of the results and therefore that they are generally appliable this thesis retested the theory with a new test collection. The test colletion used is he „TREC Covid Complete“ test collection and enriched with bibliometric data from “Web of Science“ and „Altmetric Explorer“. The data enriched once was the full test collection and a second time just documents that had received a relevance judgment, as had been in the base paper. A addition metric was looked at, one that signified only the citations of relevant documents, a metric not used in the base paper. This data and a collection of retrieval systems results, online available, were fused using Reciprocal Rank Fusion. For this the same methods as in the base paper were used and the same relevant analysis were done. These analyses showed that the results of this thesis support the conclusions of the base paper, that for patient users’ data fusion improves the overall relevance. When including the additionmetric the results improved even further.While when, unlike in the base paper, the full test collection enriched data was used the results showed no improvement and even negative results. This shows that overall, the base paper conclusions can be generalized but for further testing when more data is included the fusion needs to be more refined to hold their positive results. It also shows that the inclusion of a metric that measuares only relevant results improves the overall results further.
- Wissenschaftliche Suchmaschinen stehen vor besonderen Herausforderungen bei der Informationsfindung von relevanten Objekten. In der wissenschaftlichen Informationsgewinnung ist eine vollständige und hohe Relevanz der wiedergegeben Objekte ein wichtiger Teil der Forschung. Während Suchmaschinen bereits mit direkten Relevanzindikatoren arbeiten, gibt es indirekte Indikatoren die speziell wissenschaftlichen Dokumente besitzen. Zitationsdaten und Altmetric Scores sind bereits oft teil der Entscheidung von Nutzern, ob ein Objekt relevant ist. Diese also für die Relevanzentscheidung der Suchmaschine mit einzubinden, sollte die Relevanz der wiedergegeben Dokumente verbessern. Dies wurde bereits in einem wissenschaftlichen Artikel getan und positive Ergebnisse durch die Nutzung von Daten Fusion erlangt. Um zu testen ob diese Ergebnisse universell sind, wird in dieser Arbeit mit den gleichen Methoden und einer anderen Test Collection gearbeitet, um die Ergebnisse zu reproduzieren. Des Weiteren wird getestet, ob die Inklusion einer Metrik, welcher nur die Zitationen von relevanten Dokumenten zählt, einen positiven Einfluss auf die Ergebnisse hat. Für diese Tests wurde die Test Collection „TREC Covid Complete” genutzt, und mit bibliometrischen Daten des Service „Web of Science“ und „Altmetric Explorer“ angereichert. Verschiedene Suchmaschinensysteme für die Test Collection wurden genutzt, um die Thesen großräumig zu testen. Hierbei wurden einmal nur Daten, welche eine Relevanz Entscheidung erhalten haben, angereichert, und einmal wurden auf den Suchmaschinensystemen basierend die Daten angereichert. Diese Daten wurden dann per Reciprocal Rank Fusion mit den Suchmaschinensystemen zusammengeführt und neu evaluiert. Die Analysen zeigten eine ähnliche Verbesserung, wie im Ursprungs Artikel, der Ergebnisse für die Daten, bei welchen nur die Relevanz entscheidungsbasierte Anreicherung geschah. Das bedeutet einen generelle Relevanzverbesserung für geduldige Nutzer, welche größere Teile der Ergebnisse angucken, und einen Relevanzverschlechterung für ungeduldige Nutzer. Dabei war die Verbesserung stärker, wenn die Metrik über relevante Zitate inkludiert war. Kaum eine Verbesserung, oder sogar eine Verschlechterung war bei den Tests zu erkennen, welche die Suchmaschinensystem basierten Anreicherung nutzten. Dies bedeutet das die Ergebnisse des Ursprungs Artikels genereller anwendbar sind, aber die Inklusion von mehr Daten zu negativen Effekten führen kann.
Author: | Janina Sophie Janßen |
---|---|
Document Type: | Bachelor Thesis |
Year of first Publication: | 2025 |
Date of final exam: | 2025/04/14 |
First Referee: | Philipp SchaerGND |
Advisor: | Dirk Tunger |
Degree Program: | Data and Information Science |
Language: | English |
Page Number: | 38 |
Tag: | Reciprocal Rank Fusion |
GND Keyword: | Bibliometrie; Datenfusion; Information Retrieval |
URN: | urn:nbn:de:hbz:79pbc-opus-26749 |
Licence (German): | ![]() |