Web Scraping als Monitoring-Instrument für Massenmedien im Web
- Während traditionelle Medieninhaltsanalysen eine etablierte Methode in der empirischen Sozialforschung darstellen, so werden sie doch selten mit analytischen Verfahren zur Verarbeitung großer Dokumentenkollektionen kombiniert (Blei u.a., 2003), die Aufschluss über latente inhaltliche Schwerpunkte einzelner Nachrichtenportale sowie deren relative Themenverteilung liefern können. Im Vordergrund der Forschungsarbeiten stand daher die technische Realisierung eines automatisierten Verfahrens, das als Instrument zur Beobachtung der massenmedialen Agenda im Web dient. Zu diesem Zweck musste eine eigene Infrastruktur entwickelt werden, welche die Medienbeobachtung verschiedener Kanäle (u.a. “BILD”, “Spiegel”, “Junge Freiheit”) möglich machte. Im Fokus steht hierbei die Entwicklung von drei Kernelementen des Monitoring-Instruments, die für die Archivierung, die Aufbereitung und schließlich die inhaltliche Analyse der Artikel aus den RSS-Kanälen der einzelnen Nachrichtenportale zuständig sind. Neben dem o.g. Verfahren zur Aufdeckung latenter Themenkomplexe mithilfe des sogenannten LDA Topic Modellings bieten die in strukturierter Form vorliegenden Artikel aus dem Dokumentenkorpus ein breites Spektrum an weiteren Anwendungsmöglichkeiten. So wird das mittels Frequenzanalysen ermittelte Aufkommen von Themen in der massenmedialen Agenda ferner mit Umfragedaten kombiniert, die zukünftig Aufschluss über die öffentliche Meinungsbildung zu den in den Medien vorkommenden Themen liefern können. Insbesondere die Forschungsergebnisse der LDA-Analyse zeigen, dass die relative Themenverteilung der entsprechenden Nachrichtenportale auf einen Blick dargestellt werden kann; somit leisten die erzielten Ergebnisse einen Beitrag, ein tieferes Verständnis von komplexen sozialwissenschaftlichen Zusammenhängen, wie in diesem Fall der Agenda eines massenmedialen Akteurs, zu erlangen und diese mithilfe entsprechender Visualisierungen greifbar zu machen.
Author: | Philip Ehnert |
---|---|
Document Type: | Bachelor Thesis |
Year of first Publication: | 2018 |
Date of final exam: | 2018/11/23 |
First Referee: | Philip Schaer |
Advisor: | Sebastian Stier |
Degree Program: | Angewandte Informationswissenschaft |
Language: | German |
Page Number: | 46 |
Tag: | Web Scraping |
GND Keyword: | Daten; Elektronische Medien; Massenmedien |
Institutes: | Institut für Informationswissenschaft der TH Köln |
URN: | urn:nbn:de:hbz:79pbc-opus-12475 |
Licence (German): | Creative Commons - Namensnennung-Weitergabe unter gleichen Bedingungen |