Volltext-Downloads (blau) und Frontdoor-Views (grau)
  • search hit 9 of 535
Back to Result List

Continuous Evaluation in Information Retrieval

  • As the information era progresses, the sheer volume of information calls for sophisticated retrieval systems. Evaluating them holds the key to ensuring the reliability and relevance of retrieved information. If evaluated with renowned methods, the measured quality is generally presumed to be dependable. That said, it is often forgotten that most evaluations are only snapshots in time and the reliability might be only valid for a short moment. Further, each evaluation method makes assumptions about the circumstances of a search and thereby has different characteristics. Achieving reliable evaluation is critical to retain the aspired quality of an IR system and maintain the confidence of the users. Therefore, we investigate how the evaluation environment (EE) evolves over time and how this might affect the effectiveness of retrieval systems. Further, attention is paid to the differences in the evaluation methods and how they work together in a continuous evaluation framework. A literature review was conducted to investigate changing components which are then modeled in an extended EE. Exemplarily, the effect of document and qrel updates on the effectiveness of IR systems is investigated through reproducibility experiments in the LongEval shared task. As a result, 11 changing components together with initial measures to quantify how they change are identifed, the temporal consistency of five IR systems could precisely be quantifed through reproducibility and replicability measures and the findings were integrated into a continuous evaluation framework. Ultimately, this work contributes to more holistic evaluations in IR.
  • Das fortschreitendende Informationszeitalter und die damit einhergehende Menge an Informationen erfordern fortschrittliche Retrieval-Systeme. Um sicherzustellen, dass diese relevante Ergebnisse finden und somit zuverlässig funktionieren, ist eine Evaluation dieser Systeme unerlässlich. Gängige Evaluationsmethoden gelten hierzu als verlässlich. Da sie aber oft nur auf Momentaufnahmen basieren, könnte ihre Geltungsdauer begrenzt sein. Zudem trifft jede Evaluationsmethode unterschiedliche Annahmen über die Umstände einer Suche und kann daher auch entsprechend nur bestimmte Aspekte eines Retrieval-Systems zuverlässig bemessen. Verlässliche Evaluationen sind aber entscheidend, um die angestrebte Qualität des Retrieval-Systems zu erhalten und das Vertrauen der Nutzenden zu bewahren. Um diesem Problem zu begegnen, untersucht diese Arbeit, wie sich die Evaluation Environment (EE) im Laufe der Zeit entwickelt und inwiefern sich diese Entwicklung auf die Effektivität von Retrieval-Systemen auswirken könnte. Darüber hinaus werden die verschiedenen Evaluationsmethoden sowie deren mögliche Kombinationen im Rahmen von Continuous Evaluation in den Blick genommen. Durch eine umfassende Literaturrecherche wurden zunächst sich verändernde Komponenten identifiziert und die EE darauf basierend erweitert. Außerdem wurde mithilfe von Reproduzierbarkeitsexperimenten exemplarisch die Auswirkung von Dokument- und Qrel-Updates auf Retrieval-Systeme im Rahmen des Long-Eval Shared Task untersucht. Hierbei konnten 11 sich verändernde Komponenten sowie erste Maße zur Quantifizierung ihrer Veränderungen identifiziert werden. Weitergehend wurde die zeitliche Stabilität von fünf Retrieval-Systemen durch Reproduzierbarkeits- und Replizierbarkeitsmaße präzise bemessen. Die Ergebnisse wurden abschließend in ein Continuous Evaluation Framework integriert. So leistet diese Arbeit einen Beitrag zur ganzheitlichen Evaluation im Information Retrieval.

Download full text files

Export metadata

Additional Services

Search Google Scholar

Statistics

frontdoor_oas
Metadaten
Author:Jüri Keller
Document Type:Master's Thesis
Year of first Publication:2023
Date of final exam:2023/07/10
First Referee:Philipp SchaerGND
Advisor:Timo Breuer
Degree Program:Digital Sciences
Language:English
Page Number:76
Tag:Continuous Evaluation; Evaluation Environment; Longitudinal Evaluation
URN:urn:nbn:de:hbz:79pbc-opus-24407
Licence (German):License LogoCreative Commons - Namensnennung-Weitergabe unter gleichen Bedingungen