Text Mining bietet die Möglichkeit, große Textmengen durch automatisierte Verfahren zu analysieren. Die vorliegende Arbeit beschäftigt sich mit der Anwendung und Evaluation solcher Methoden für die spezielle Textform freier Antworten aus Mitarbeiterbefragungen. Dabei werden verschiedene Techniken aus den drei Bereichen Phrasenextraktion, Sentimentanalyse und Kategorisierung dargestellt und an einer konkreten Umfrage angewendet. Die Ergebnisse werden jeweils durch Abgleich mit manuellen Ergebnissen bzw. durch manuelle Bewertungen evaluiert und die Resultate untereinander verglichen. Die genutzten Verfahren sollten ohne spezifische Trainingsdaten oder Projektinformationen anwendbar sein und sich somit auch für andere Mitarbeiterbefragungen eignen.
Die Phrasenextraktion wird auf drei verschiedene Weisen durchgeführt, wobei Part-of-Speech (POS)-Chunking, Stoppwortbegrenzung und Kookkurrenzen genutzt werden. Die Untersuchungen zeigen, dass mit dem POS-Chunking präziser die relevantesten Phrasen aus längeren Texten ermittelt werden können. Die Methode der Stoppwortbegrenzung extrahiert dagegen eine größere Vielfalt relevanter Phrasen auch aus kürzeren Texten. Manuelle Einschätzungen der Extraktionsergebnisse bewerten die Methode mit POS-Chunking am besten. Darüber hinaus wird eine automatisierte Zusammenfassung semantisch ähnlicher Phrasen durchgeführt, wodurch sich leichte Verbesserungen einiger Evaluationsergebnisse zeigten.
Für die Sentimentanalyse der freien Antworten wird eine Erweiterung eines bestehenden Verfahrens aus dem Social Media-Bereich dargestellt. Hierzu werden der Methode vier Regeln hinzugefügt, welche die Sentimentbewertung aufgrund bestimmter Syntaxformen in den freien Antworten verändern. Die Evaluation zeigt, dass drei der vier Regeln dazu beitragen, dass sich die automatisierte Bewertung manuellen Bewertungen annähert.
Die Kategorisierung wird durch die beiden Topic Modeling-Methoden Latent Dirichlet Allocation (LDA) und Non-negative Matrix Factorization (NMF) durchgeführt. NMF erreichte bei dem Abgleich mit einer manuellen Kategorisierung höhere Übereinstimmungen und zeichnete sich auch durch eine bessere Abgrenzung der Thematiken sowie eine bessere Interpretierbarkeit aus.
Die Text Mining-Methoden und deren Evaluationen werden für diese Arbeit in der Programmiersprache Python umgesetzt. Außerdem werden die Text Mining-Resultate in die Datenvisualisierungssoftware Tableau eingebunden.
In der vorliegenden Arbeit wird ein Einblick in Eignung und Unterschiede verschiedener Text Mining-Methoden in Bezug auf freie Antworten in Mitarbeiterbefragungen gegeben. Darüber hinaus wird dargestellt, dass auch spezifische Anpassungen an diese Textform möglich sind. Zusätzlich werden diverse Optimierungsansätze aufgezeigt, die den noch großen Weiterentwicklungsbedarf in diesem Bereich verdeutlichen.
Die Nutzung von Suchmaschinen ist im Alltag moderner Gesellschaften fest implementiert und gilt heute als eines der Fundamente digitaler Informationsbeschaffung.
Diverse Studien schreiben digitalen Informationsanbietern einen soziotechnologischen Charakter zu, welcher potenziell dazu in der Lage ist durch ein Konglomerat feinjustierter Algorithmen Gesellschaften zu beeinflussen und eine Steuergröße in demokratischen Prozessen abzubilden. Die vorliegende Bachelor-Thesis belegt durch die Analyse diverser Nationen mithilfe der Datamining-Umgebung RapidMiner die ungleiche Darstellung von Ethnien in Suchvervollständigungen durch Textminingverfahren wie TF-IDF-Gewichtung, Erhebung von Termhäufigkeiten und der Durchführung einer Sentimentanalyse.
With the growing scientific output that is produced, its getting more important to automate the extraction of knowledge from articles. This bachelor thesis will describe an approach doing exactly this. Scientific articles will be obtained from a database.
These articles will be preprocessed to gain a set of training data, to update a language model that already exists for Python library spaCy. The model will be trained to recognize different sorts of entities regarding to the virus rabies. After this process the model will be used for ten articles and the extracted knowledge will be used to extend the Open Research Knowledge Graph.