Refine
Year of publication
- 2020 (1)
Document Type
- Bachelor Thesis (1)
Language
- German (1)
Has Fulltext
- yes (1)
Keywords
Die German Library Indexing Collection (GeLIC) soll dazu dienen, die Retrievalleistung von maschinellen und intellektuellen Schlagwörtern der Deutschen Nationalbibliothek (DNB) zu vergleichen. Das Verfahren zur Erzeugung des Korpus der Kollektion wurde im Verlauf dieser Arbeit automatisiert. Dafür musste zunächst der bestehende Korpus analysiert werden, um Ziele für den zu entwickelnden Prozess formulieren zu können. Darauf folgt ein State of the Art zu bibliothekarischen und universellen ETL-Lösungen. Es wurde entschieden, dass das automatische Verfahren mithilfe von Python realisiert werden sollte. Nachdem festgelegt wurde welche Daten benötigt werden, wurden die öffentlich verfügbaren Formate der DNB analysiert. Dabei wurde deutlich, dass in beiden Formaten maschinelle Schlagwörter nicht in jedem Fall von intellektuellen unterschieden werden können. Anschließend wurde das Package gelic_mt entwickelt und darauf aufbauend eine Pipeline für GeLIC. Bei der Prüfung des damit erzeugbaren Korpus, wurde erneut ersichtlich, dass die derzeitig öffentlich verfügbaren Daten keinen Korpus erlauben, der für die gewünschten Retrievaltests geeignet ist.