@phdthesis{Boeckmann2020, type = {Bachelor Thesis}, author = {Ina B{\"o}ckmann}, title = {Aufbau einer Pipeline zur Transformation von Titeldaten der DNB}, url = {https://nbn-resolving.org/urn:nbn:de:hbz:79pbc-opus-16751}, pages = {63}, year = {2020}, abstract = {Die German Library Indexing Collection (GeLIC) soll dazu dienen, die Retrievalleistung von maschinellen und intellektuellen Schlagw{\"o}rtern der Deutschen Nationalbibliothek (DNB) zu vergleichen. Das Verfahren zur Erzeugung des Korpus der Kollektion wurde im Verlauf dieser Arbeit automatisiert. Daf{\"u}r musste zun{\"a}chst der bestehende Korpus analysiert werden, um Ziele f{\"u}r den zu entwickelnden Prozess formulieren zu k{\"o}nnen. Darauf folgt ein State of the Art zu bibliothekarischen und universellen ETL-L{\"o}sungen. Es wurde entschieden, dass das automatische Verfahren mithilfe von Python realisiert werden sollte. Nachdem festgelegt wurde welche Daten ben{\"o}tigt werden, wurden die {\"o}ffentlich verf{\"u}gbaren Formate der DNB analysiert. Dabei wurde deutlich, dass in beiden Formaten maschinelle Schlagw{\"o}rter nicht in jedem Fall von intellektuellen unterschieden werden k{\"o}nnen. Anschlie{\"s}end wurde das Package gelic\_mt entwickelt und darauf aufbauend eine Pipeline f{\"u}r GeLIC. Bei der Pr{\"u}fung des damit erzeugbaren Korpus, wurde erneut ersichtlich, dass die derzeitig {\"o}ffentlich verf{\"u}gbaren Daten keinen Korpus erlauben, der f{\"u}r die gew{\"u}nschten Retrievaltests geeignet ist.}, language = {de} }