Large Language Models for Relevance Judgement in Table Retrieval
- Test collections are a valuable source for evaluating systems in the information retrieval domain. They consist of a set of documents, topics and corresponding relevance labels, allowing the assessment of whether the output of a retrieval system for a specific topic includes the relevant documents. For popular research fields like text retrieval, plenty of large-scale test collections exist, while for less popular research fields, like table retrieval, only a few exist. Greater amounts of test collections can allow for broader evaluations, but limited resources and a lack of expert assessors hinder the creation of table retrieval test collections. With the rise of Large Language Models, new possibilities arise. This work is concerned with creating a table retrieval test collection by utilizing Large Language models to judge tables for relevancy on a range of topics. First, different prompts are exhibited, then a complete Web Table retrieval collection is judged by GPT-3.5. The results indicate that Large Language models like GPT-3.5 can be used to assist humans with table retrieval test collection creation. While plenty of tables are judged correctly, the portion of incorrect ones may be too large to automatically create a test collection without human verification. Still, there is great potential in significantly reducing the price and amount of work it takes to create such a collection.
- Test Kollektionen sind eine wertvolle Ressource für die Bewertung eines Systems in der Information Retrieval Domäne. Sie bestehen aus einer Reihe von Dokumenten, Themen und korrespondierenden Relevanzbewertungen. Sie können verwendet werden, um zu testen, ob die Ausgabe eines Retrievalsystems für ein bestimmtes Thema aus den Dokumenten besteht, die für dieses Thema relevant sind. Für populäre Forschungsgebiete wie das Text Retrieval gibt es viele große Test Kollektionen, während für weniger populäre Forschungsgebiete wie das Tabellen Retrieval nur einige wenige existieren. Größere Mengen an Test Kollektionen können eine breitere Auswertungen ermöglichen, aber begrenzte Ressourcen und ein Mangel an Bewertungs-Experten behindern die Erstellung von Test Kollektionen für das Tabellen Retrieval. Mit dem Aufkommen von großen Sprachmodellen ergeben sich neue Möglichkeiten. Diese Arbeit befasst sich mit der Erstellung einer Tabellen Retrieval Test Kollektion unter Verwendung von großen Sprachmodellen zur Beurteilung von Tabellen auf Relevanz zu einer Reihe von Themen. Zunächst werden verschiedene Prompts ausprobiert. Anschließend wird eine komplette Web-Tabellen Test Kollektion mithilfe eines Sprachmodells (hier GPT-3.5) bewertet. Die Ergebnisse zeigen, dass große Sprachmodelle wie GPT-3.5 verwendet werden können, um Menschen bei der Erstellung von Test Kollektionen für das Tabellen Retrieval zu unterstützen. Während viele Tabellen korrekt bewertet werden, ist der Anteil der fehlerhaften Tabellen möglicherweise zu groß, um eine automatische Test Kollektion ohne menschliche Überprüfung zu erstellen. Dennoch besteht ein großes Potenzial, den Preis und den Arbeitsaufwand für die Erstellung einer solchen Kollektion erheblich zu senken.
Author: | Nils Grote |
---|---|
Document Type: | Bachelor Thesis |
Year of first Publication: | 2024 |
Date of final exam: | 2024/03/05 |
First Referee: | Philipp SchaerGND |
Advisor: | Engelmann |
Degree Program: | Data and Information Science |
Language: | English |
Page Number: | 38 |
Tag: | Large Language Models; Web tables |
GND Keyword: | Information Retrieval; Test |
URN: | urn:nbn:de:hbz:79pbc-opus-24851 |
Licence (German): | Creative Commons - Namensnennung-Weitergabe unter gleichen Bedingungen |