Volltext-Downloads (blau) und Frontdoor-Views (grau)

Anwendung und Evaluation von Text Mining Verfahren zur Analyse freier Antworten in Mitarbeiterbefragungen

  • Text Mining bietet die Möglichkeit, große Textmengen durch automatisierte Verfahren zu analysieren. Die vorliegende Arbeit beschäftigt sich mit der Anwendung und Evaluation solcher Methoden für die spezielle Textform freier Antworten aus Mitarbeiterbefragungen. Dabei werden verschiedene Techniken aus den drei Bereichen Phrasenextraktion, Sentimentanalyse und Kategorisierung dargestellt und an einer konkreten Umfrage angewendet. Die Ergebnisse werden jeweils durch Abgleich mit manuellen Ergebnissen bzw. durch manuelle Bewertungen evaluiert und die Resultate untereinander verglichen. Die genutzten Verfahren sollten ohne spezifische Trainingsdaten oder Projektinformationen anwendbar sein und sich somit auch für andere Mitarbeiterbefragungen eignen. Die Phrasenextraktion wird auf drei verschiedene Weisen durchgeführt, wobei Part-of-Speech (POS)-Chunking, Stoppwortbegrenzung und Kookkurrenzen genutzt werden. Die Untersuchungen zeigen, dass mit dem POS-Chunking präziser die relevantesten Phrasen aus längeren Texten ermittelt werden können. Die Methode der Stoppwortbegrenzung extrahiert dagegen eine größere Vielfalt relevanter Phrasen auch aus kürzeren Texten. Manuelle Einschätzungen der Extraktionsergebnisse bewerten die Methode mit POS-Chunking am besten. Darüber hinaus wird eine automatisierte Zusammenfassung semantisch ähnlicher Phrasen durchgeführt, wodurch sich leichte Verbesserungen einiger Evaluationsergebnisse zeigten. Für die Sentimentanalyse der freien Antworten wird eine Erweiterung eines bestehenden Verfahrens aus dem Social Media-Bereich dargestellt. Hierzu werden der Methode vier Regeln hinzugefügt, welche die Sentimentbewertung aufgrund bestimmter Syntaxformen in den freien Antworten verändern. Die Evaluation zeigt, dass drei der vier Regeln dazu beitragen, dass sich die automatisierte Bewertung manuellen Bewertungen annähert. Die Kategorisierung wird durch die beiden Topic Modeling-Methoden Latent Dirichlet Allocation (LDA) und Non-negative Matrix Factorization (NMF) durchgeführt. NMF erreichte bei dem Abgleich mit einer manuellen Kategorisierung höhere Übereinstimmungen und zeichnete sich auch durch eine bessere Abgrenzung der Thematiken sowie eine bessere Interpretierbarkeit aus. Die Text Mining-Methoden und deren Evaluationen werden für diese Arbeit in der Programmiersprache Python umgesetzt. Außerdem werden die Text Mining-Resultate in die Datenvisualisierungssoftware Tableau eingebunden. In der vorliegenden Arbeit wird ein Einblick in Eignung und Unterschiede verschiedener Text Mining-Methoden in Bezug auf freie Antworten in Mitarbeiterbefragungen gegeben. Darüber hinaus wird dargestellt, dass auch spezifische Anpassungen an diese Textform möglich sind. Zusätzlich werden diverse Optimierungsansätze aufgezeigt, die den noch großen Weiterentwicklungsbedarf in diesem Bereich verdeutlichen.
  • Text Mining offers the opportunity to analyse a large amount of text with automated processes. The present thesis addresses the utilisation and evaluation of such methods for the specific kind of text data in freely formulated text responses of employee surveys. In the course of this, disparate techniques out of the three fields phrase extraction, sentiment analysis and categorisation are outlined and applied to an exemplary survey. Results are evaluated by comparison to manual results or manual assessment respectively, thereby contrasting the different methods with each other. The techniques that were used should be applicable without specific training data or project information and thus, shall also be suitable for other employee surveys. Phrase extraction was conducted in three various ways, using part-of-speech (POS)-chunking, stopword boundaries and cooccurrences. The investigations show that POS-chunking could identify the most relevant phrases more accurately from larger quantities of text while the method with stopword boundaries was able to extract a bigger variation of relevant phrases even from smaller text samples. In the manual assessment, the method using POS-chunking got the highest ratings. In addition, an automated match of semantically similar phrases was carried out, which led to slight improvements of some evaluation results. For the purpose of analysing the sentiment of the free answers, this thesis shows an extension of an existing procedure from the domain of social media. To this end, four rules are added to the procedure, which modify the sentiment score by taking into account specific syntax patterns of the free answers. Evaluation shows that three out of four rules were able to increase the similarity between automated and manual sentiment ratings. Categorisation was carried out using the two topic models Latent Dirichlet Allocation (LDA) and Non-negative Matrix Factorization (NMF). In comparison with manual categorisation results NMF showed greater convergence and appeared with clearer distinctions of themes, thereby providing a better interpretability. The mentioned Text Mining methods and evaluations are realised in the programming language Python for this thesis. Furthermore, the Text Mining results are prepared for and integrated into the data visualisation software Tableau. This work provides an insight into suitability and differences of various Text Mining methods in relation to free answers of employee surveys. Moreover, the possibility of specific adjustments to this kind of text is shown. Multiple optimisation approaches are outlined, showing significant demand for further development in this domain.

Export metadata

Additional Services

Search Google Scholar

Statistics

frontdoor_oas
Metadaten
Author:Tina Hees
Document Type:Master's Thesis
Year of first Publication:2017
Date of final exam:2017/11/26
First Referee:Gernot Heisenberg
Advisor:Sabine Elias
Degree Program:Markt- und Medienforschung
Language:German
Page Number:133
Tag:Phrasenextraktion; Sentimentanalyse
GND Keyword:Mitarbeiterbefragung; Text Mining
Institutes:Institut für Informationswissenschaft der TH Köln
Access Rights:Zugriffsbeschränkt
Licence (German):License LogoCreative Commons - Namensnennung-Weitergabe unter gleichen Bedingungen