Refine
Document Type
- Bachelor Thesis (3)
Has Fulltext
- yes (3) (remove)
Keywords
- Klassifikation (3) (remove)
Verbesserung der automatischen Dokument-Klassifikation für den Discovery Service LIVIVO von ZB MED
(2023)
Diese Arbeit beschreibt, wie eine Grundlage geschaffen wird, um die Dokumentenklassifikation der Suchmaschine LIVIVO durch eine Eigenentwicklung der ZB-Med zu ersetzen. Das bisher eingesetzte
System basiert auf einer proprietären Software der Averbis GmbH und bietet keine Möglichkeit, diese von ZB-Med anpassen oder erweitern zu lassen. Damit die Klassifikation der Dokumente innerhalb der Datenbank, der Suchmaschine LIVIVO, verbessert werden kann, soll ein neues System entwickelt werden.
Um dieses Ziel erreichen zu können, konzentriert sich diese Arbeit auf eine explorative Analyse der vorhandenen Daten sowie auf die Erstellung erster Klassifikationsmethoden und den damit verbundenen Aufbau eines Textkorpus. Diese neu erstellten Methoden basieren auf existierenden Klassifikationsmodellen wie Stochastic Gradient Descent Classifier (SGDC), Term-Frequenzy Inverse-Document-Frequenzy (TF-IDF) und Latent Dirichlet Allocation (LDA). Die Ergebnisse dieser Modelle
werden diskutiert und evaluiert. Die erstellten Leistungskurven der Modelle und Textkorpi können somit als Vergleich, sowie Grundlage für weitere Arbeiten am System verwendet werden.
Die vorliegende Arbeit gibt einen Überblick darüber, was Fake News sind, warum sie heutzutage so einfach entstehen und sich verbreiten und welche Folgen sich daraus ergeben. Ziel der Arbeit ist es, Anhaltspunkte für die Identifizierung herauszuarbeiten und eine Klassifizierung vorzunehmen. Dazu werden vier Fälle analysiert, die Aufschluss über die Art der Textmeldungen einschließlich der Websites und Facebook-Profile, welche sie veröffentlicht haben, geben. Ergänzend dazu wurden Experten befragt, die sich beruflich mit dem Thema beschäftigen und Tipps zur Identifikation gegeben haben. Die Bachelorarbeit ist für Leser relevant, denen bereits potenzielle Fake News aufgefallen sind. Ihnen werden Anhaltspunkte zur Identifikation gegeben und aufgezeigt, welche verschiedenen Arten existieren.
This thesis aims to extend an existing Open Educational Resource (OER), which is available as a GitHub repository, and provide an organized introduction to basic machine learning (ML) concepts and algorithms. Further models, followed by structured metadata for each object, will be included while adhering to the contribution guidelines of the OER and following the CC license. The Machine-Learning-OER Basics repository intends to provide a wide range of benefits by enabling diverse users to apply and distribute machine learning algorithms. The goal of this digital collection is to fill the existing gap for instructional material on using machine learning in OER as well as make it easier to learn ML concepts effectively. These ML models are developed using the programming language Python and the library scikit-learn, among other standard libraries. Jupyter Notebook will make it straightforward for the user to explore the code. In order to apply the models to various practical scenarios, a non-specific data set is selected. This work is considered a solution approach in that it includes adding classification models.
A performance comparison of the models is conducted. This comparative analysis evaluates the efficiency of each model. The examination includes various metrics for measurement. This work serves as a written extension, providing comprehensive background information on the algorithms utilized within the repositories and the performance comparison.