Refine
Year of publication
- 2019 (1)
Document Type
- Bachelor Thesis (1)
Language
- German (1) (remove)
Has Fulltext
- yes (1)
Keywords
- Datenextraktion (1) (remove)
State of Art - Web Scraping
(2019)
Die vorliegende Bachelorarbeit hat zum Ziel, dem allgemeinen Leser die aktuell genutzten Methoden des Web Scraping zur Extraktion von relevanten Daten aus vorher definierten Webseiten darzustellen und miteinander zu vergleichen.
Dafür wurde zunächst der Forschungsgegenstand in seiner Art und Funktionsweise definiert und gegen andere Informationsextraktionsverfahren abgegrenzt. Anschließend galt es grundlegende, aktuelle und innovative Techniken des Web Scraping anhand von ausgewählten Beispielen vorzustellen. Anhand von drei Kategorisierungsansätzen (Glez-Pena, Ferrara, Chang) wurden die verschiedenen Ebenen, auf denen ein Web Scraper zu betrachten ist, herausgearbeitet und in einer Gegenüberstellung der Ansätze auf Parallelen und Gegensätze dieser Kategorien überprüft.
Web Scraping bietet eine probate Methode, relevante Inhalte aus dem World Wide Web ohne erforderlichen Zugriff auf den jeweiligen Webserver der Zielseite zu extrahieren. Dabei führt die zunehmende Entwicklung von Web Scrapern hin zu einer benutzerfreundlichen visuellen Umgebung und einfachen Bedienung dazu, dass die Tools sich einem immer breiteren Anwenderpublikum öffnen.