Subjektivität von Relevanzurteilen im Kontext von Retrievaltests
- Die Kritik an Relevanz als Maßstab für Retrievaltests ist beinahe so alt wie die Methode an sich. Häufig ist Anstoß solcher Kritik die Laborsituation, in der diese Relevanzbeurteilungen erfolgen und der Situation eines reellen Nutzers eines Information Retrieval Systems nicht gerecht wird. Das Ziel dieser Arbeit ist es in Erfahrung zu bringen, inwiefern die Subjektivität von Relevanzbeurteilungen die Zuverlässigkeit der Ergebnisse eines Retrievaltests untergräbt. Dazu erfolgt eine Sichtung informationswissenschaftlicher Literatur in Bezug auf den Relevanzbegriff, der seit über 50 Jahren für kontroverse Diskussionen sorgt. Weiterhin werden empirische Studien betrachtet, welche die Relevanzkriterien reeller Nutzer in verschiedenen Informationsumgebungen untersuchen sowie Experimente, welche die Auswirkungen unterschiedlicher Relevanzbeurteilungen auf die Messergebnisse von Retrievaltests analysieren. Die Kriterien reeller Nutzer sind tatsächlich weitaus vielfältiger als die Laborsituation eines Retrievaltests es zulassen würde. Auch die Zuverlässigkeit der Ergebnisse von Retrievaltests leidet unter den Auswirkungen verschiedener Relevanzbewertungen. Allerdings kann dieser Effekt durch die Verwendung kompetenter und erfahrener Juroren abgemildert bzw. fast gänzlich neutralisiert werden. Zudem wird auf die Problematik der sogenannten Biased Collections verwiesen, die ebenfalls die Zuverlässigkeit der Messergebnisse eines Retrievaltests beeinflussen können.
- The criticism of relevance as a measurement for retrieval evaluation is almost as old as the method itself. Such criticism is often motivated by the laboratory situation in which these relevance assessments are made and in which the situation of a real user of an information retrieval system is not represented well. The aim of this thesis is to find out to what extent the subjectivity of relevance assessments undermines the reliability of the results of a retrieval evaluation. For this purpose, information science literature is examined with regard to the concept of relevance, which has been causing controversial discussions for over 50 years. Furthermore, empirical studies are mentioned which examine the relevance criteria of real users in different information environments as well as experiments which analyze the effects of different relevance assessments on the measurement results of retrieval tests. The criteria of real users are actually far more diverse than the laboratory situation of a retrieval test would allow. The reliability of the results of retrieval evaluation also suffers from the effects of various relevance assessments. However, this effect can be mitigated or almost completely neutralized by using competent and experienced jurors. In addition, reference is made to the problem of so-called biased collections, which can also influence the reliability of the measurement results of a retrieval test.
Author: | Sebastian Pommerencke |
---|---|
Document Type: | Bachelor Thesis |
Year of first Publication: | 2020 |
Date of final exam: | 2020/11/30 |
First Referee: | Philipp SchaerGND |
Advisor: | Klaus Lepsky |
Degree Program: | Bibliothekswissenschaft |
Language: | German |
Page Number: | 42 |
GND Keyword: | Evaluation; Information Retrieval |
Access Rights: | Zugriffsbeschränkt |
Licence (German): | Creative Commons - Namensnennung-Weitergabe unter gleichen Bedingungen |