Refine
Document Type
- Bachelor Thesis (5)
Language
- German (5)
Keywords
- Anfrage (1)
- Crawling (1)
- Daten (1)
- Datenextraktion (1)
- Elektronische Medien (1)
- Massenmedien (1)
- Open Source (1)
- Pandas (1)
- Python (1)
- Scrapy (1)
Die Technische Hochschule Köln bietet auf ihrer Webseite ein öffentliches Verzeichnis aller Beschäftigten an, welches Personendetailseiten mit Informationen zu Aufgabenbereichen, Lehrgebieten, Projekten, Publikationen, Lebensläufen etc. enthält. Die Hochschule erhält kontinuierlich Anfragen aus Wirtschaft und Öffentlichkeit, welche nach Experten in einem bestimmten Gebiet suchen, um Forschungsprojekte zu unterstützen oder Interviews zu aktuellen Situationen durchzuführen. Diese Anfragen können meist nur anhand von Erfahrungswerten an die passenden Ansprechpartner weitergegeben werden. Die Bachelorarbeit „Crawl Your Prof – Fact-Crawling von Hochschulseiten“ beschäftigt sich damit, öffentlich verfügbare Informationen über Professoren und andere Personen zu
sammeln, um ein Expertenprofil zu erstellen. Dabei werden gängige OSINT-Methodiken vorgestellt und mit Hilfe des Crawler-Frameworks Scrapy ein Prototyp erstellt, um die Personenrecherchen zu automatisieren. Des Weiteren wird ein Ausblick auf das Potential der gesammelten Daten mit beispielhaften Suchanfragen und Auswertungen durch das Python-Modul Pandas gegeben.
Während traditionelle Medieninhaltsanalysen eine etablierte Methode in der empirischen Sozialforschung darstellen, so werden sie doch selten mit analytischen Verfahren zur Verarbeitung großer Dokumentenkollektionen kombiniert (Blei u.a., 2003), die Aufschluss über latente inhaltliche Schwerpunkte einzelner Nachrichtenportale sowie deren relative Themenverteilung liefern können. Im Vordergrund der Forschungsarbeiten stand daher die technische Realisierung eines automatisierten Verfahrens, das als Instrument zur Beobachtung der massenmedialen Agenda im Web dient. Zu diesem Zweck musste eine eigene Infrastruktur entwickelt werden, welche die Medienbeobachtung verschiedener Kanäle (u.a. “BILD”, “Spiegel”, “Junge Freiheit”) möglich machte. Im Fokus steht hierbei die Entwicklung von drei Kernelementen des Monitoring-Instruments, die für die Archivierung, die Aufbereitung und schließlich die inhaltliche Analyse der Artikel aus den RSS-Kanälen der einzelnen Nachrichtenportale zuständig sind. Neben dem o.g. Verfahren zur Aufdeckung latenter Themenkomplexe mithilfe des sogenannten LDA Topic Modellings bieten die in strukturierter Form vorliegenden Artikel aus dem Dokumentenkorpus ein breites Spektrum an weiteren Anwendungsmöglichkeiten. So wird das mittels Frequenzanalysen ermittelte Aufkommen von Themen in der massenmedialen Agenda ferner mit Umfragedaten kombiniert, die zukünftig Aufschluss über die öffentliche Meinungsbildung zu den in den Medien vorkommenden Themen liefern können. Insbesondere die Forschungsergebnisse der LDA-Analyse zeigen, dass die relative Themenverteilung der entsprechenden Nachrichtenportale auf einen Blick dargestellt werden kann; somit leisten die erzielten Ergebnisse einen Beitrag, ein tieferes Verständnis von komplexen sozialwissenschaftlichen Zusammenhängen, wie in diesem Fall der Agenda eines massenmedialen Akteurs, zu erlangen und diese mithilfe entsprechender Visualisierungen greifbar zu machen.
State of Art - Web Scraping
(2019)
Die vorliegende Bachelorarbeit hat zum Ziel, dem allgemeinen Leser die aktuell genutzten Methoden des Web Scraping zur Extraktion von relevanten Daten aus vorher definierten Webseiten darzustellen und miteinander zu vergleichen.
Dafür wurde zunächst der Forschungsgegenstand in seiner Art und Funktionsweise definiert und gegen andere Informationsextraktionsverfahren abgegrenzt. Anschließend galt es grundlegende, aktuelle und innovative Techniken des Web Scraping anhand von ausgewählten Beispielen vorzustellen. Anhand von drei Kategorisierungsansätzen (Glez-Pena, Ferrara, Chang) wurden die verschiedenen Ebenen, auf denen ein Web Scraper zu betrachten ist, herausgearbeitet und in einer Gegenüberstellung der Ansätze auf Parallelen und Gegensätze dieser Kategorien überprüft.
Web Scraping bietet eine probate Methode, relevante Inhalte aus dem World Wide Web ohne erforderlichen Zugriff auf den jeweiligen Webserver der Zielseite zu extrahieren. Dabei führt die zunehmende Entwicklung von Web Scrapern hin zu einer benutzerfreundlichen visuellen Umgebung und einfachen Bedienung dazu, dass die Tools sich einem immer breiteren Anwenderpublikum öffnen.
Query Suggestion mit Siri
(2019)
Suchanfragen und automatische Vorschläge zu diesen, wenn der Nutzer die Anfrage gerade noch eintippt, gehören heutzutage zum Standard. Das nicht nur bei Suchen im Internet, sondern auch mithilfe von integrierten Assistenten an PC oder auf Mobilgeräten, wie Smartphones oder Tablets. Einer dieser persönlichen Assistenten ist Siri, eine Software auf iOS-Geräten des Technologiekonzerns Apple. Siri ist hauptsächlich bekannt dafür, als Sprachassistent auf gesprochene Anfragen zu reagieren. Allerdings bietet Siri auch eine Suchfunktion auf dem Homescreen des Geräts an, in die Suchen eingetippt werden können. Auch hier werden Vorschläge gemacht, die die Eingabe während des Schreibens automatisch vervollständigen. Dabei ist aber nicht klar, woher diese stammen. Gut denkbar ist eine Kooperation mit einem etablierten Anbieter einer Web-suchmaschinen. Aber klare Aussagen, von Apple selbst, finden sich nicht. Lässt sich dies eventuell auf experimentellem Weg ermitteln? Um sich der Lösung dieser Fragestellung zu nähern, stelle diese Bachelorarbeit die Umsetzung eines Versuchsaufbaus dar, bei dem über einen vierwöchigen Zeitraum definierte Suchanfragen an die Web-suchmaschinen Google, Bing, DuckDuckGo und an die Siri-Suche gestellt wurden. Durch Analysemethoden, wie unter anderem Rank-biased overlap (RBO), sollten so Gemeinsamkeiten ermittelt werden, die gegebenenfalls auf einen konkreten Partner schließen lassen. Zwar zeigten die Vergleichsmethoden durchaus Unterschiede auf, ein klares Ergebnis in Bezug auf eine der betrachteten Suchmaschinen, konnte allerdings nicht erzielt werden.
Die Deutsche Nationalbibliothek verzichtet seit 2010 auf die intellektuelle Erschließung in der Reihe O (Netzpublikationen) und seit September 2017 wird ebenfalls in den Reihen B (Monografien und Periodika außerhalb des Verlagsbuchhandels) und H (Hochschulschriften) automatisch inhaltlich erschlossen. Es stellten sich die Fragen, ob die Qualität der automatischen Verschlagwortung den bibliothekarischen Ansprüchen genügt und ob eine ebenso hohe Qualität wie bei der intellektuellen Verschlagwortung erreicht wird. Zur Beantwortung dieser Fragen müssen Retrieval-Tests durchgeführt werden. Eine Evaluation der Ergebnisse auf Basis einer Testkollektion mit 200.000 Dokumenten der Deutschen Nationalbibliothek, sind Hauptbestandteil dieser Arbeit. Es wird ein Überblick über die wichtigsten Punkte und Abläufe der Evaluation gegeben, sowie eine Analyse der Ergebnisse und eine erste Qualitätsbeurteilung. Eine genauere Darstellung der Entwicklung der Testkollektion wird nicht Bestandteil dieser Arbeit sein.