@phdthesis{Pest2020, type = {Bachelor Thesis}, author = {Melanie Pest}, title = {Reproduzierbarkeit von webbasierten Pseudo-Relevanz-Feedback}, url = {https://nbn-resolving.org/urn:nbn:de:hbz:79pbc-opus-17262}, pages = {97}, year = {2020}, abstract = {Die Reproduzierbarkeit von Ergebnissen ist das Fundament der Wissenschaft. Seit einigen Jahren br{\"o}ckelt dieses Fundament jedoch und viele Forschende sind sich einig, dass es eine Reproduzierbarkeitskrise gibt. Grund daf{\"u}r sind unter anderem die oft nicht zur Verf{\"u}gung stehenden Daten aus den urspr{\"u}nglichen Untersuchungen und mangelhafte Dokumentation. Seit einiger Zeit wird der Reproduzierbarkeit daher ein besonderes Augenmerk geschenkt. In der vorliegenden Arbeit wird die Reproduzierbarkeit von webbasiertem Pseudo-Relevanz-Feedback untersucht. Grossman und Cormack versuchten 2018 Relevanzurteile f{\"u}r Dokumente aus Testkollektionen mittels logistischer Regression herzuleiten. Ihre Trainingsdaten f{\"u}r ihr Modell bestanden aus Daten, die sie mittels Pseudo-Relevanz-Feedback aus dem Internet gewonnen hatten. Da das Internet einem permanenten Wandel unterlegen ist, ist absehbar, dass sich auf diese Weise gewonnene Trainingsdaten bei einer Reproduktion ver{\"a}ndern und potentiell zu anderen Ergebnissen f{\"u}hren. 2019 haben Breuer und Schaer einen Reproduktionsversuch unternommen und dabei festgestellt, dass eine Reproduktion der Originalergebnisse trotz ver{\"a}nderter Datengrundlage m{\"o}glich ist, sich aber Differenzen in den Resultaten aufgrund diverser Parameter wie verwendeter Suchmaschine und Geolocation ergeben. Im Rahmen dieser Bachelorarbeit wurde eine weitere Reproduktion unternommen, um zu pr{\"u}fen, ob sich das Verfahren und die Ergebnisse von Breuer und Schaer reproduzieren lassen. In einer darauffolgenden Modifikation des Ansatzes wurden {\"u}ber zwei Wochen weitere Trainingsdaten erhoben und durch Ausschluss oder Einbezug von Begriffen rund um die Corona-Pandemie dabei der Einfluss von aktueller Berichterstattung auf die erhobenen Trainingsdaten und damit die Retrievalergebnisse untersucht. Ergebnisse wurden mittels TREC-EVAL evaluiert, durch einen t-Test wurden die Ergebnisse auf signifikante Unterschiede {\"u}berpr{\"u}ft und {\"u}ber die Berechnung des Root Means Square Errors und der Effect Ratio die Qualit{\"a}t der Reproduktion untersucht. Die zugrunde liegenden Trainingsdaten wurden dann mithilfe des Rank Biased Overlap auf {\"U}berschneidungen {\"u}berpr{\"u}ft. Der errechnete RBO wurde anschlie{\"s}end mit den Differenzen zwischen den Ergebnissen in Verh{\"a}ltnis gesetzt und mithilfe der Pearson-Korrelation auf signifikante Zusammenh{\"a}nge getestet. Die Untersuchung ergab, dass eine Reproduktion zu gro{\"s}en Teilen erfolgreich war, die Ergebnisse von Breuer und Schaer jedoch nicht exakt reproduziert werden konnten. Die intensive Berichterstattung um die Corona-Pandemie hatte dabei keinen signifikanten Einfluss auf die Retrievalergebnisse. Mit zunehmender Zeit sank der RBO zwischen den erhobenen Daten, es konnte jedoch keine signifikante Korrelation zwischen dem RBO und den Differenzen in den Einzelergebnissen festgestellt werden.}, language = {de} }