@phdthesis{Hees2017, type = {Master Thesis}, author = {Tina Hees}, title = {Anwendung und Evaluation von Text Mining Verfahren zur Analyse freier Antworten in Mitarbeiterbefragungen}, pages = {133}, year = {2017}, abstract = {Text Mining bietet die M{\"o}glichkeit, gro{\"s}e Textmengen durch automatisierte Verfahren zu analysieren. Die vorliegende Arbeit besch{\"a}ftigt sich mit der Anwendung und Evaluation solcher Methoden f{\"u}r die spezielle Textform freier Antworten aus Mitarbeiterbefragungen. Dabei werden verschiedene Techniken aus den drei Bereichen Phrasenextraktion, Sentimentanalyse und Kategorisierung dargestellt und an einer konkreten Umfrage angewendet. Die Ergebnisse werden jeweils durch Abgleich mit manuellen Ergebnissen bzw. durch manuelle Bewertungen evaluiert und die Resultate untereinander verglichen. Die genutzten Verfahren sollten ohne spezifische Trainingsdaten oder Projektinformationen anwendbar sein und sich somit auch f{\"u}r andere Mitarbeiterbefragungen eignen. Die Phrasenextraktion wird auf drei verschiedene Weisen durchgef{\"u}hrt, wobei Part-of-Speech (POS)-Chunking, Stoppwortbegrenzung und Kookkurrenzen genutzt werden. Die Untersuchungen zeigen, dass mit dem POS-Chunking pr{\"a}ziser die relevantesten Phrasen aus l{\"a}ngeren Texten ermittelt werden k{\"o}nnen. Die Methode der Stoppwortbegrenzung extrahiert dagegen eine gr{\"o}{\"s}ere Vielfalt relevanter Phrasen auch aus k{\"u}rzeren Texten. Manuelle Einsch{\"a}tzungen der Extraktionsergebnisse bewerten die Methode mit POS-Chunking am besten. Dar{\"u}ber hinaus wird eine automatisierte Zusammenfassung semantisch {\"a}hnlicher Phrasen durchgef{\"u}hrt, wodurch sich leichte Verbesserungen einiger Evaluationsergebnisse zeigten. F{\"u}r die Sentimentanalyse der freien Antworten wird eine Erweiterung eines bestehenden Verfahrens aus dem Social Media-Bereich dargestellt. Hierzu werden der Methode vier Regeln hinzugef{\"u}gt, welche die Sentimentbewertung aufgrund bestimmter Syntaxformen in den freien Antworten ver{\"a}ndern. Die Evaluation zeigt, dass drei der vier Regeln dazu beitragen, dass sich die automatisierte Bewertung manuellen Bewertungen ann{\"a}hert. Die Kategorisierung wird durch die beiden Topic Modeling-Methoden Latent Dirichlet Allocation (LDA) und Non-negative Matrix Factorization (NMF) durchgef{\"u}hrt. NMF erreichte bei dem Abgleich mit einer manuellen Kategorisierung h{\"o}here {\"U}bereinstimmungen und zeichnete sich auch durch eine bessere Abgrenzung der Thematiken sowie eine bessere Interpretierbarkeit aus. Die Text Mining-Methoden und deren Evaluationen werden f{\"u}r diese Arbeit in der Programmiersprache Python umgesetzt. Au{\"s}erdem werden die Text Mining-Resultate in die Datenvisualisierungssoftware Tableau eingebunden. In der vorliegenden Arbeit wird ein Einblick in Eignung und Unterschiede verschiedener Text Mining-Methoden in Bezug auf freie Antworten in Mitarbeiterbefragungen gegeben. Dar{\"u}ber hinaus wird dargestellt, dass auch spezifische Anpassungen an diese Textform m{\"o}glich sind. Zus{\"a}tzlich werden diverse Optimierungsans{\"a}tze aufgezeigt, die den noch gro{\"s}en Weiterentwicklungsbedarf in diesem Bereich verdeutlichen.}, language = {de} }