This thesis aims to extend an existing Open Educational Resource (OER), which is available as a GitHub repository, and provide an organized introduction to basic machine learning (ML) concepts and algorithms. Further models, followed by structured metadata for each object, will be included while adhering to the contribution guidelines of the OER and following the CC license. The Machine-Learning-OER Basics repository intends to provide a wide range of benefits by enabling diverse users to apply and distribute machine learning algorithms. The goal of this digital collection is to fill the existing gap for instructional material on using machine learning in OER as well as make it easier to learn ML concepts effectively. These ML models are developed using the programming language Python and the library scikit-learn, among other standard libraries. Jupyter Notebook will make it straightforward for the user to explore the code. In order to apply the models to various practical scenarios, a non-specific data set is selected. This work is considered a solution approach in that it includes adding classification models.
A performance comparison of the models is conducted. This comparative analysis evaluates the efficiency of each model. The examination includes various metrics for measurement. This work serves as a written extension, providing comprehensive background information on the algorithms utilized within the repositories and the performance comparison.
Verbesserung der automatischen Dokument-Klassifikation für den Discovery Service LIVIVO von ZB MED
(2023)
Diese Arbeit beschreibt, wie eine Grundlage geschaffen wird, um die Dokumentenklassifikation der Suchmaschine LIVIVO durch eine Eigenentwicklung der ZB-Med zu ersetzen. Das bisher eingesetzte
System basiert auf einer proprietären Software der Averbis GmbH und bietet keine Möglichkeit, diese von ZB-Med anpassen oder erweitern zu lassen. Damit die Klassifikation der Dokumente innerhalb der Datenbank, der Suchmaschine LIVIVO, verbessert werden kann, soll ein neues System entwickelt werden.
Um dieses Ziel erreichen zu können, konzentriert sich diese Arbeit auf eine explorative Analyse der vorhandenen Daten sowie auf die Erstellung erster Klassifikationsmethoden und den damit verbundenen Aufbau eines Textkorpus. Diese neu erstellten Methoden basieren auf existierenden Klassifikationsmodellen wie Stochastic Gradient Descent Classifier (SGDC), Term-Frequenzy Inverse-Document-Frequenzy (TF-IDF) und Latent Dirichlet Allocation (LDA). Die Ergebnisse dieser Modelle
werden diskutiert und evaluiert. Die erstellten Leistungskurven der Modelle und Textkorpi können somit als Vergleich, sowie Grundlage für weitere Arbeiten am System verwendet werden.
Die schnelle Verbreitung digitaler Musik im Internet stellt Benutzer in der
heutigen Zeit vor eine große Auswahl. Um bei diesem Übermaß an
Musikangeboten nicht den Überblick zu verlieren, haben Musikgenres eine
Klassifizierung ermöglicht. Das Hauptziel der Arbeit ist die Erfassung der
Entwicklung eines Klassifikationsschemas für moderne Musikgenres und die
Analyse potentieller Anwendungen in Hinblick auf die Bereiche Musik in der TVWerbung,
Musikfestivals und Musik-Streaming-Dienste. Zunächst wird darauf
eingegangen, wie sich die Musik in allen drei Bereichen entwickelt hat,
anschließend wird ein Klassifikationsschema erfasst, wobei
Persönlichkeitsmerkmale von Rezipienten und musikalische Daten erfasst
werden.
Im Anschluss wird in Kapitel 4 auf potentielle Anwendungen der erfassten
Daten eingegangen, woraufhin auch über die Problematik bei der
Musiksortierung und das veränderte Konsumverhalten der Rezipienten
gesprochen wird.
Die vorliegende Arbeit gibt einen Überblick darüber, was Fake News sind, warum sie heutzutage so einfach entstehen und sich verbreiten und welche Folgen sich daraus ergeben. Ziel der Arbeit ist es, Anhaltspunkte für die Identifizierung herauszuarbeiten und eine Klassifizierung vorzunehmen. Dazu werden vier Fälle analysiert, die Aufschluss über die Art der Textmeldungen einschließlich der Websites und Facebook-Profile, welche sie veröffentlicht haben, geben. Ergänzend dazu wurden Experten befragt, die sich beruflich mit dem Thema beschäftigen und Tipps zur Identifikation gegeben haben. Die Bachelorarbeit ist für Leser relevant, denen bereits potenzielle Fake News aufgefallen sind. Ihnen werden Anhaltspunkte zur Identifikation gegeben und aufgezeigt, welche verschiedenen Arten existieren.