Verbesserung der automatischen Dokument-Klassifikation für den Discovery Service LIVIVO von ZB MED
- Diese Arbeit beschreibt, wie eine Grundlage geschaffen wird, um die Dokumentenklassifikation der Suchmaschine LIVIVO durch eine Eigenentwicklung der ZB-Med zu ersetzen. Das bisher eingesetzte System basiert auf einer proprietären Software der Averbis GmbH und bietet keine Möglichkeit, diese von ZB-Med anpassen oder erweitern zu lassen. Damit die Klassifikation der Dokumente innerhalb der Datenbank, der Suchmaschine LIVIVO, verbessert werden kann, soll ein neues System entwickelt werden. Um dieses Ziel erreichen zu können, konzentriert sich diese Arbeit auf eine explorative Analyse der vorhandenen Daten sowie auf die Erstellung erster Klassifikationsmethoden und den damit verbundenen Aufbau eines Textkorpus. Diese neu erstellten Methoden basieren auf existierenden Klassifikationsmodellen wie Stochastic Gradient Descent Classifier (SGDC), Term-Frequenzy Inverse-Document-Frequenzy (TF-IDF) und Latent Dirichlet Allocation (LDA). Die Ergebnisse dieser Modelle werden diskutiert und evaluiert. Die erstellten Leistungskurven der Modelle und Textkorpi können somit als Vergleich, sowie Grundlage für weitere Arbeiten am System verwendet werden.
Author: | Max Prantz |
---|---|
Document Type: | Bachelor Thesis |
Year of first Publication: | 2023 |
Date of final exam: | 2023/03/31 |
First Referee: | Konrad FörstnerGND |
Advisor: | Klaus Lippert |
Degree Program: | Data and Information Science |
Language: | German |
Page Number: | 42 |
GND Keyword: | Klassifikation; ZB MED - Informationszentrum Lebenswissenschaften |
URN: | urn:nbn:de:hbz:79pbc-opus-20963 |
Licence (German): | Creative Commons - Namensnennung-Weitergabe unter gleichen Bedingungen |