Refine
Document Type
- Bachelor Thesis (8)
- Master's Thesis (1)
Keywords
- Klassifikation (2)
- Machine Learning (2)
- Anreicherung von Metadaten (1)
- Automatische Spracherkennung (1)
- Boosting (1)
- Datenbank (1)
- Decision Tree Classifier (1)
- Indexierung <Inhaltserschließung> (1)
- Metadaten (1)
- Nachnutzbarkeit (1)
Das stetige Wachstum von Datenmengen verursacht einen immer größer werdenden Bedarf an Analysemöglichkeiten von Daten. Unternehmen und Institutionen setzen vermehrt auf datengestützte Entscheidungsfindung, weshalb es notwendig ist, in diesem Bereich individuelle Lösungen zu schaffen und einzusetzen. Das Ziel der vorliegenden Arbeit ist es, ein webbasiertes Dashboard umzusetzen, welches einen Überblick über die Einträge in der Suchmaschine für Lebenswissenschaft LIVIVO ermöglicht.
Um ein optimales webbasiertes Dashboard aufzubauen, wurden zunächst quelloffene Lösungen evaluiert und verglichen. Hierbei wurde die Aktualität, Anpassbarkeit und Visualisierungstiefe besonders berücksichtigt. Die Evaluation der Lösungen hat gezeigt, dass viele Projekte mit solider Grundlage eingestellt wurden, aber dennoch eine große Breite an verschiedensten Lösungen verfügbar ist. Das webbasierte Dashboard wurde mit Grafana umgesetzt und bietet einen Überblick über die Gesamtzahl der Einträge in LIVIVO sowie verschiedene Metadaten und Kategorien, wobei sich eine solide Datengrundlage abgezeichnet hat. Weitere Entwicklungsmöglichkeiten sind die Bereinigung fehlerhafter Daten sowie eine zeitliche Vergleichbarkeit der vorhandenen Daten.
With the growing scientific output that is produced, its getting more important to automate the extraction of knowledge from articles. This bachelor thesis will describe an approach doing exactly this. Scientific articles will be obtained from a database.
These articles will be preprocessed to gain a set of training data, to update a language model that already exists for Python library spaCy. The model will be trained to recognize different sorts of entities regarding to the virus rabies. After this process the model will be used for ten articles and the extracted knowledge will be used to extend the Open Research Knowledge Graph.
Die Entwicklungen im Bereich der Informations- und Kommunikationstechnologie haben völlig neue Möglichkeiten des Datenaustausches und der Zusammenarbeit geschaffen. Das zeigt sich auch in der Lehre. Hier hat sich der Begriff der Open Educational Resources (OER) entwickelt, womit frei zugängliche Bildungsmaterialien bezeichnet werden. Um dieses Potential ausschöpfen zu können, braucht es innovative Herangehensweisen.
In dieser Arbeit wird ein neuer Ansatz vorgestellt. Anstatt Lehrmaterialien als Teil eines didaktischen Konzeptes zu betrachten, werden sie als Objekte einer digitalen Sammlung verstanden. Das erleichtert die Adaptierung der Materialien an die spezifischen Anforderungen von Lehrveranstaltungen. Konkret wird der Ansatz auf den Aufbau einer OER-Kollektion für Machine Learning angewendet. Denn gerade in diesem Bereich zeichnet sich ein hoher Bedarf an Kompetenzvermittlung ab, um Forschende auf die Anforderungen einer immer datenintensiveren Wissenschaft vorzubereiten.
Die gewonnenen Erfahrungen werden im Fazit als Lessons learned zusammengefasst, um damit andere bei der Umsetzung ähnlicher Vorhaben zu unterstützen.
Die OER-Kollektion ist zugänglich über die Online-Plattform GitHub unter dem Link:
https://github.com/Machine-Learning-OER-Collection/Machine-Learning-OER-Basics
Verbesserung der automatischen Dokument-Klassifikation für den Discovery Service LIVIVO von ZB MED
(2023)
Diese Arbeit beschreibt, wie eine Grundlage geschaffen wird, um die Dokumentenklassifikation der Suchmaschine LIVIVO durch eine Eigenentwicklung der ZB-Med zu ersetzen. Das bisher eingesetzte
System basiert auf einer proprietären Software der Averbis GmbH und bietet keine Möglichkeit, diese von ZB-Med anpassen oder erweitern zu lassen. Damit die Klassifikation der Dokumente innerhalb der Datenbank, der Suchmaschine LIVIVO, verbessert werden kann, soll ein neues System entwickelt werden.
Um dieses Ziel erreichen zu können, konzentriert sich diese Arbeit auf eine explorative Analyse der vorhandenen Daten sowie auf die Erstellung erster Klassifikationsmethoden und den damit verbundenen Aufbau eines Textkorpus. Diese neu erstellten Methoden basieren auf existierenden Klassifikationsmodellen wie Stochastic Gradient Descent Classifier (SGDC), Term-Frequenzy Inverse-Document-Frequenzy (TF-IDF) und Latent Dirichlet Allocation (LDA). Die Ergebnisse dieser Modelle
werden diskutiert und evaluiert. Die erstellten Leistungskurven der Modelle und Textkorpi können somit als Vergleich, sowie Grundlage für weitere Arbeiten am System verwendet werden.
Die Zahl der wissenschaftlichen Publikationen steigt von Jahr zu Jahr. Der technologische Fortschritt hat es den Forschenden erleichtert, Daten zu sammeln, zu analysieren und zu verarbeiten. Aufgrund von Faktoren wie dem starken Wettbewerb um Forschungsgelder, Arbeitsplätze und Anerkennung wird die Anzahl und Reichweite von Publikationen als ein wichtiger Indikator für die Leistung und den Erfolg von Wissenschaftlern angesehen. Die Zunahme von Publikationen kann aber auch zu einer Zunahme von unzureichend überprüften oder nicht reproduzierbaren Ergebnissen führen.
Die Integrität der wissenschaftlichen Literatur wird durch das Zurückziehen (engl. Retraction) fehlerhaft veröffentlichter Publikationen gewahrt. Die Kennzeichnung zurückgezogener Artikel in online verfügbaren Quellen ist daher von großer Bedeutung. In dieser Ausarbeitung wird die im Suchportal LIVIVO verfügbare Literatur auf zurückgezogene Artikel untersucht. Retraction Watch, ein amerikanischer Blog, bietet eine Datenbank zurückgezogener Artikel mit fast 40.000 Einträgen. Um die beiden Datensätze miteinander vergleichen zu können, wird eine lokale Datenbankanwendung entwickelt, die einen Abgleich und eine anschließende Analyse ermöglicht. Für die Anreicherung der Metadaten für LIVIVO wird empfohlen, den Digital Object Identifier (DOI), das Datum und die PubMedID, unter der der zurückgezogene Artikel veröffentlicht wurde, mit aufzunehmen.
Der Abgleich gibt einen ersten Eindruck über das Vorhandensein zurückgezogener Artikel im Suchportal. Es wurden 14.206 Einträge identifiziert, wobei in den letzten Jahren ein stetiger Anstieg in der Anzahl zu verzeichnen ist.
Wikidata ist eine frei zugängliche Plattform, die von Menschen und Maschinen bearbeitet werden kann. Um zu verstehen, wie die Plattform funktioniert und wie die Daten miteinander verknüpft sind, beschäftigt sich diese Bachelorarbeit mit dem Import von Orcid-autor:innen- und The Research Organization Registry (RoR)-Organisationsdaten in Wikidata und den Möglichkeiten, diesen Prozess zu automatisieren. Um dies herauszufinden, wurden verschiedene Ansätze untersucht, beschrieben beziehungsweise getestet. Beispiele sind der Wikidata Integrator, SPAQRL und Quickstatements. Die Tests wurden durchgeführt, indem einzelne Datensätze auf unterschiedliche Weise durch die Tools gelaufen wurden. Die Tools mit den größten Erfolgsaussichten waren Wikidata-integrator und Quickstatements. Beide ermöglichen das Hochladen von Daten per Skript. Wobei Quickstatements auch eine manuelle Eingabe der Daten ermöglicht, sofern sie als Quickstatements strukturiert sind. Das Ziel der Arbeit war, es die Autor:innen Metadatei „Affiliation“ auf Wikidata zu integrieren. Dies ist schlussendlich aus verschiedenen Gründen nicht gelungen. Diese werden ausführlich in den Problemen und Ergebnissen beschrieben. Als alternative wurde der RoR-Datensatz verwendet, um die Organisationsmetadaten „established“ auf Wikidata gepusht.
Der digitale Wandel, getrieben durch die Evolution von „New Media“ mit ihren interaktiven, multimedialen Merkmalen und globaler Zugänglichkeit, hat nachhaltige Auswirkungen auf die Bereiche Journalismus, Unterhaltung und Wissenschaftskommunikation hinterlassen. Innerhalb dieses Rahmens dienen Podcasts als zugängliche, offene Plattform zur Verbreitung wissenschaftlicher Informationen und zur Förderung interdisziplinärer Diskussionen, wobei Herausforderungen im Hinblick auf die auditiven Eigenschaften und die Notwendigkeit evidenzbasierter Kommunikation bestehen. Das Hauptziel dieser Studie besteht darin, die jüngsten Fortschritte in KI-gesteuerten Transkriptionsverfahren zu nutzen, um effiziente und hochwertige Transkriptionen zu realisieren. Darüber hinaus werden neue Ansätze zur Steigerung der Auffindbarkeit, Zugänglichkeit und Verbreitung wissenschaftlicher Inhalte diskutiert. Für diese Studie wurden Audio-Daten aus dem bilingualen Common Voice-Datensatz und dem englisch-sprachigen GigaSpeech-Datensatz verwendet, um automatisierte Transkriptionen zu erstellen. Die Transkriptionen wurden anschließend mithilfe von Metriken wie der Wortfehlerrate und des Jaro-Winkler-Ähnlichkeitsmaß bewertet. Die Ergebnisse dieser Untersuchung verdeutlichen, dass die Genauigkeit des ASR-Modells „Whisper“ von OpenAI von verschiedenen Faktoren abhängig ist. Hierzu zählen die Sprache, verschiedene Dialekte, Akzente, Altersgruppen und Themengebiete. Im Gesamten betrachtet konnte die Transkription von englischen im Vergleich zu deutschen Daten präziser durchgeführt werden. Trotz gelegentlicher Fehler zeigten die durch ASR generierten Transkriptionen eine signifikante Ähnlichkeit zur Ground Truth, was auf ihr Potenzial für die Transkription von Podcasts hinweist. Ein Vergleich verschiedener Modellgrößen ergab, dass größere Modelle eine überlegene Leistung erbrachten. Diese robusten Ergebnisse legen nahe, dass Transkriptionen eine sinnvolle Ergänzung zu den vorhandenen Metadaten von Podcasts darstellen und zur Verbesserung von Retrieval-Anwendungen genutzt werden können.
Des Weiteren bieten Transkriptionen eine solide Grundlage für die Anwendung fortgeschrittener Methoden des NLP zur Extraktion entscheidender Informationen, wie beispielsweise Verweise und Entitäten, welche in ein vernetztes System, wie Knowledge Graphs, integriert werden können, um Podcast-Inhalte auf effiziente Weise zu strukturieren und Verknüpfungen zu anderen Wissensquellen herzustellen.
This thesis aims to extend an existing Open Educational Resource (OER), which is available as a GitHub repository, and provide an organized introduction to basic machine learning (ML) concepts and algorithms. Further models, followed by structured metadata for each object, will be included while adhering to the contribution guidelines of the OER and following the CC license. The Machine-Learning-OER Basics repository intends to provide a wide range of benefits by enabling diverse users to apply and distribute machine learning algorithms. The goal of this digital collection is to fill the existing gap for instructional material on using machine learning in OER as well as make it easier to learn ML concepts effectively. These ML models are developed using the programming language Python and the library scikit-learn, among other standard libraries. Jupyter Notebook will make it straightforward for the user to explore the code. In order to apply the models to various practical scenarios, a non-specific data set is selected. This work is considered a solution approach in that it includes adding classification models.
A performance comparison of the models is conducted. This comparative analysis evaluates the efficiency of each model. The examination includes various metrics for measurement. This work serves as a written extension, providing comprehensive background information on the algorithms utilized within the repositories and the performance comparison.
Für die einfache Literaturrecherche von Fachinformationen bietet die ZB MED eine Literaturdatenbank namens LIVIVO an. Um eine thematische Suche zu ermöglichen, befasst sich diese Bachelorarbeit mit der Themenklassifikation der in der Datenbank vorhandenen Publikationen. Das Ziel der Arbeit besteht darin, den Korpus für eine automatisierte Klassifizierung aufzubereiten, um eine relevante Klasseneinteilung zu erzielen. Ausgehend von der Annahme, dass eine Textklassifizierung durch spezifische Terme und Schlüsselwörter gezieltere und aussagekräftigere Ergebnisse liefern kann, wird eine themenspezifische Aufbereitung mithilfe von Wissensorganisationssystemen (Thesauri) eingebunden. Hierzu wird im Vorhinein eine automatisierte Spracherkennung der Publikationen implementiert. Nach der Indexierung der Schlüsselwörter in den Dokumenten werden zwei statistische Klassifikationsmodelle für die Klassifizierung angewandt. Hierzu gehört die Latent Dirichlet Allocation, sowie der Stochastic Gradient Descent Classifier. Abschließend wird die automatische Schlagwortextraktion mit einer intellektuellen Themenanalyse verglichen und die Performance der Klassifizierung mit den aufbereiteten In Input-Daten auf eine Verbesserung hin analysiert.