Volltext-Downloads (blau) und Frontdoor-Views (grau)

Reproduzierbarkeit von webbasierten Pseudo-Relevanz-Feedback

  • Die Reproduzierbarkeit von Ergebnissen ist das Fundament der Wissenschaft. Seit einigen Jahren bröckelt dieses Fundament jedoch und viele Forschende sind sich einig, dass es eine Reproduzierbarkeitskrise gibt. Grund dafür sind unter anderem die oft nicht zur Verfügung stehenden Daten aus den ursprünglichen Untersuchungen und mangelhafte Dokumentation. Seit einiger Zeit wird der Reproduzierbarkeit daher ein besonderes Augenmerk geschenkt. In der vorliegenden Arbeit wird die Reproduzierbarkeit von webbasiertem Pseudo-Relevanz-Feedback untersucht. Grossman und Cormack versuchten 2018 Relevanzurteile für Dokumente aus Testkollektionen mittels logistischer Regression herzuleiten. Ihre Trainingsdaten für ihr Modell bestanden aus Daten, die sie mittels Pseudo-Relevanz-Feedback aus dem Internet gewonnen hatten. Da das Internet einem permanenten Wandel unterlegen ist, ist absehbar, dass sich auf diese Weise gewonnene Trainingsdaten bei einer Reproduktion verändern und potentiell zu anderen Ergebnissen führen. 2019 haben Breuer und Schaer einen Reproduktionsversuch unternommen und dabei festgestellt, dass eine Reproduktion der Originalergebnisse trotz veränderter Datengrundlage möglich ist, sich aber Differenzen in den Resultaten aufgrund diverser Parameter wie verwendeter Suchmaschine und Geolocation ergeben. Im Rahmen dieser Bachelorarbeit wurde eine weitere Reproduktion unternommen, um zu prüfen, ob sich das Verfahren und die Ergebnisse von Breuer und Schaer reproduzieren lassen. In einer darauffolgenden Modifikation des Ansatzes wurden über zwei Wochen weitere Trainingsdaten erhoben und durch Ausschluss oder Einbezug von Begriffen rund um die Corona-Pandemie dabei der Einfluss von aktueller Berichterstattung auf die erhobenen Trainingsdaten und damit die Retrievalergebnisse untersucht. Ergebnisse wurden mittels TREC-EVAL evaluiert, durch einen t-Test wurden die Ergebnisse auf signifikante Unterschiede überprüft und über die Berechnung des Root Means Square Errors und der Effect Ratio die Qualität der Reproduktion untersucht. Die zugrunde liegenden Trainingsdaten wurden dann mithilfe des Rank Biased Overlap auf Überschneidungen überprüft. Der errechnete RBO wurde anschließend mit den Differenzen zwischen den Ergebnissen in Verhältnis gesetzt und mithilfe der Pearson-Korrelation auf signifikante Zusammenhänge getestet. Die Untersuchung ergab, dass eine Reproduktion zu großen Teilen erfolgreich war, die Ergebnisse von Breuer und Schaer jedoch nicht exakt reproduziert werden konnten. Die intensive Berichterstattung um die Corona-Pandemie hatte dabei keinen signifikanten Einfluss auf die Retrievalergebnisse. Mit zunehmender Zeit sank der RBO zwischen den erhobenen Daten, es konnte jedoch keine signifikante Korrelation zwischen dem RBO und den Differenzen in den Einzelergebnissen festgestellt werden.
  • Reproducibility is arguably one of the most important pillars of science. During the last few years this pillar lost its structural integrity, though, resulting in a widely acknowledged reproducibility crisis. Some of the reasons why reproducibility is so difficult to achieve are non-availiable data from the original experiments and lacking documentation. In the bachelor thesis on hand the reproducibility of web-based pseudo relevance feedback is investigated. In 2018 Grossman and Cormack tried to deduce relevance assessments for documents in test collections via the use of logistic regression. In order to obtain training data for their proposed model, they used pseudo relevance feedback to scrape web content. Since content on the web is perpetually changing, trying to reproduce this specific experiment will ultimately result in training data that is potentially very different from the one used in the original setup, probably resulting in differring outcomes. In 2019 Breuer and Schaer tried to reproduce this experiment and found that while a reproduction was generally successful, various parameters like what search engine or geolocation is used while collecting data, have a measurable impact on the results. For this bachelor thesis yet another reproduction was attempted in order to find out if the results of the reproduction can be reproduced. In a further modification of the setup, data is collected over the span of two weeks while specifically either including or exluding query terms related to the corona pandemic. Since the news had been reporting about the virus for weeks prior, this way the influence of current events on the training data and subsequently retrieval results was to be observed. Results were evaluated using TREC_EVAL. The significance of differences between results was tested with a two-tailed t-test, while the quality of the reproduction was measured by calculating the Root Mean Square Error and Effect Ratio. The underlying training data was examined for differences by calculating the Rank Biased Overlap, which in turn was tested for a significant correlation with differences in MAP, nDCG and P@10 between runs. The study showed that a reproduction was mostly successful, although the results obtained by Breuer and Schaer could not be reproduced exactly. The intense reporting on the coronavirus had no significant impact on the evaluation results. The more time passed, the more the RBO between data sets declined, but no significant Pearson correlation between RBO and differences in the runs could be observed.

Download full text files

Export metadata

Additional Services

Share in Twitter Search Google Scholar

Statistics

frontdoor_oas
Metadaten
Author:Melanie Pest
Document Type:Bachelor Thesis
Year of first Publication:2020
Date of final exam:2020/08/08
First Referee:Philipp SchaerGND
Advisor:Timo Breuer
Degree Program:Angewandte Informationswissenschaft
Language:German
Page Number:97
GND Keyword:Information Retrieval; Reproduzierbarkeit
URN:urn:nbn:de:hbz:79pbc-opus-17262
Licence (German):License LogoCreative Commons - Namensnennung-Weitergabe unter gleichen Bedingungen