Volltext-Downloads (blau) und Frontdoor-Views (grau)
  • search hit 1 of 1
Back to Result List

Aufbau einer Pipeline zur Transformation von Titeldaten der DNB

  • Die German Library Indexing Collection (GeLIC) soll dazu dienen, die Retrievalleistung von maschinellen und intellektuellen Schlagwörtern der Deutschen Nationalbibliothek (DNB) zu vergleichen. Das Verfahren zur Erzeugung des Korpus der Kollektion wurde im Verlauf dieser Arbeit automatisiert. Dafür musste zunächst der bestehende Korpus analysiert werden, um Ziele für den zu entwickelnden Prozess formulieren zu können. Darauf folgt ein State of the Art zu bibliothekarischen und universellen ETL-Lösungen. Es wurde entschieden, dass das automatische Verfahren mithilfe von Python realisiert werden sollte. Nachdem festgelegt wurde welche Daten benötigt werden, wurden die öffentlich verfügbaren Formate der DNB analysiert. Dabei wurde deutlich, dass in beiden Formaten maschinelle Schlagwörter nicht in jedem Fall von intellektuellen unterschieden werden können. Anschließend wurde das Package gelic_mt entwickelt und darauf aufbauend eine Pipeline für GeLIC. Bei der Prüfung des damit erzeugbaren Korpus, wurde erneut ersichtlich, dass die derzeitig öffentlich verfügbaren Daten keinen Korpus erlauben, der für die gewünschten Retrievaltests geeignet ist.
  • The German Library Indexing Collection (GeLIC) aims to provide a basis for comparing the retrieval performance of automatically and intellectually indexed subjects of the German National Library (DNB). In this thesis, the author automated the generation of the corpus. First, the existing version of the corpus had to be analyzed to make it possible to formulate objectives. Then, the author compared ETL-solutions in a State of the Art. The author then decided that the process should be automated with Python. After determining the needed data, the author analyzed the available public data formats. Notably, it is not always possible to differentiate between intellectual and automatic index terms. The development of the package gelic_mt and the pipeline followed. When examining the generated new corpus, it was apparent that it is impossible to create a corpus with the available data suitable for comparing the retrieval performance.

Download full text files

Export metadata

Additional Services

Share in Twitter Search Google Scholar

Statistics

frontdoor_oas
Metadaten
Author:Ina Böckmann
Document Type:Bachelor Thesis
Year of first Publication:2020
Date of final exam:2020/10/02
First Referee:Philipp SchaerGND
Advisor:Klaus Lepsky
Degree Program:Bibliothekswissenschaft
Language:German
Page Number:63
GND Keyword:Deutsche Nationalbibliothek; Extract Transform Load; Information Retrieval
URN:urn:nbn:de:hbz:79pbc-opus-16751
Licence (German):License LogoCreative Commons - Namensnennung-Weitergabe unter gleichen Bedingungen