Implementierung einer automatischen DDC-Klassifikation für die Suchmaschine BASE auf Basis von Annif
- In der wissenschaftliche Suchmaschine BASE werden bereits seit Jahren Dokumente maschinell nach der Dewey Decimal Classification (DDC) erschlossen. Die vorliegende Arbeit beschreibt die Erstellung eines Systems des maschinellen Lernens mit dem Ziel, das mittlerweile veraltete Klassifikationssystem in BASE zu ersetzen. Zu diesem Zweck ist es erforderlich, Daten aus BASE zu gewinnen, die als Trainingsmenge eines maschinellen Lernverfahrens dienen können. Es wird gezeigt, wie mithilfe einer explorativen Analyse aus einem Korpus von über 220 Mio. Dokumenten geeignete Daten extrahiert, kuratiert und zu sprachspezifischen Lernkorpora umgearbeitet werden können, die hierzu entwickelte Software ist ein integraler Bestandteil dieser Arbeit. Auf dieser Grundlage werden mithilfe des Toolkits Annif eine Reihe von Klassifikatoren erstellt, deren Leistungsfähigkeit anschließend evaluiert und ein geeigneter Kandidat ausgewählt wird. Ein finaler Vergleich zeigt, dass das in dieser Ausarbeitung erstellte System dem zur Zeit im Einsatz befindlichen BASE-Klassifikator weit überlegen ist. Abschließende Betrachtungen zeigen allerdings auch verschiedene Schwächen des Ansatzes auf, die zugleich einen Bogen zu allgemeinen Erwägungen im Rahmen des derzeitigen „Frühlings“ der künstlichen Intelligenz schlagen.
- Automated subject indexing has been used for many years in the scientific search engine BASE to assign Dewey Decimal numbers to documents. This work describes the creation of a system based on supervised machine learning, with the intention of replacing the outdated BASE classifier. For this purpose it is necessary to gather data from BASE which may serve as a training set for the machine learning process. It is shown how explorative data analysis (EDA) is employed to extract and curate data from a corpus of more than 220 mio documents, leading to the creation of language-specific training sets. All software developed to this end is an integral part of this work. The Annif toolkit is then used to train a number of classifiers, with the aim of evaluating the results and selecting the best candidate. It can be shown that the selected system clearly outperforms the classifier currently employed in BASE. Concluding remarks point out possible shortcomings of the selected approach, while also relating our findings to discussions in terms of the ongoing “AI spring”.
Author: | Christoph Broschinski |
---|---|
Document Type: | Master's Thesis |
Year of first Publication: | 2024 |
Date of final exam: | 2024/05/17 |
First Referee: | Klaus LepskyGND |
Advisor: | Stefan Grün |
Degree Program: | Master in Library and Information Science |
Language: | German |
Page Number: | 77 |
Tag: | BASE |
GND Keyword: | Dewey-Dezimalklassifikation; Explorative Datenanalyse; Inhaltserschließung; Künstliche Intelligenz; Maschinelles Lernen |
URN: | urn:nbn:de:hbz:79pbc-opus-25138 |
Licence (German): | ![]() |