Refine
Document Type
- Bachelor Thesis (2)
Language
- German (2)
Has Fulltext
- no (2) (remove)
Keywords
- Crawling (1)
- Open Source (1)
- Pandas (1)
- Python (1)
- Scrapy (1)
Die Deutsche Nationalbibliothek verzichtet seit 2010 auf die intellektuelle Erschließung in der Reihe O (Netzpublikationen) und seit September 2017 wird ebenfalls in den Reihen B (Monografien und Periodika außerhalb des Verlagsbuchhandels) und H (Hochschulschriften) automatisch inhaltlich erschlossen. Es stellten sich die Fragen, ob die Qualität der automatischen Verschlagwortung den bibliothekarischen Ansprüchen genügt und ob eine ebenso hohe Qualität wie bei der intellektuellen Verschlagwortung erreicht wird. Zur Beantwortung dieser Fragen müssen Retrieval-Tests durchgeführt werden. Eine Evaluation der Ergebnisse auf Basis einer Testkollektion mit 200.000 Dokumenten der Deutschen Nationalbibliothek, sind Hauptbestandteil dieser Arbeit. Es wird ein Überblick über die wichtigsten Punkte und Abläufe der Evaluation gegeben, sowie eine Analyse der Ergebnisse und eine erste Qualitätsbeurteilung. Eine genauere Darstellung der Entwicklung der Testkollektion wird nicht Bestandteil dieser Arbeit sein.
Die Technische Hochschule Köln bietet auf ihrer Webseite ein öffentliches Verzeichnis aller Beschäftigten an, welches Personendetailseiten mit Informationen zu Aufgabenbereichen, Lehrgebieten, Projekten, Publikationen, Lebensläufen etc. enthält. Die Hochschule erhält kontinuierlich Anfragen aus Wirtschaft und Öffentlichkeit, welche nach Experten in einem bestimmten Gebiet suchen, um Forschungsprojekte zu unterstützen oder Interviews zu aktuellen Situationen durchzuführen. Diese Anfragen können meist nur anhand von Erfahrungswerten an die passenden Ansprechpartner weitergegeben werden. Die Bachelorarbeit „Crawl Your Prof – Fact-Crawling von Hochschulseiten“ beschäftigt sich damit, öffentlich verfügbare Informationen über Professoren und andere Personen zu
sammeln, um ein Expertenprofil zu erstellen. Dabei werden gängige OSINT-Methodiken vorgestellt und mit Hilfe des Crawler-Frameworks Scrapy ein Prototyp erstellt, um die Personenrecherchen zu automatisieren. Des Weiteren wird ein Ausblick auf das Potential der gesammelten Daten mit beispielhaften Suchanfragen und Auswertungen durch das Python-Modul Pandas gegeben.