Volltext-Downloads (blau) und Frontdoor-Views (grau)
  • search hit 4 of 774
Back to Result List

State of Art - Web Scraping

  • Die vorliegende Bachelorarbeit hat zum Ziel, dem allgemeinen Leser die aktuell genutzten Methoden des Web Scraping zur Extraktion von relevanten Daten aus vorher definierten Webseiten darzustellen und miteinander zu vergleichen. Dafür wurde zunächst der Forschungsgegenstand in seiner Art und Funktionsweise definiert und gegen andere Informationsextraktionsverfahren abgegrenzt. Anschließend galt es grundlegende, aktuelle und innovative Techniken des Web Scraping anhand von ausgewählten Beispielen vorzustellen. Anhand von drei Kategorisierungsansätzen (Glez-Pena, Ferrara, Chang) wurden die verschiedenen Ebenen, auf denen ein Web Scraper zu betrachten ist, herausgearbeitet und in einer Gegenüberstellung der Ansätze auf Parallelen und Gegensätze dieser Kategorien überprüft. Web Scraping bietet eine probate Methode, relevante Inhalte aus dem World Wide Web ohne erforderlichen Zugriff auf den jeweiligen Webserver der Zielseite zu extrahieren. Dabei führt die zunehmende Entwicklung von Web Scrapern hin zu einer benutzerfreundlichen visuellen Umgebung und einfachen Bedienung dazu, dass die Tools sich einem immer breiteren Anwenderpublikum öffnen.

Download full text files

Export metadata

Additional Services

Share in Twitter Search Google Scholar

Statistics

frontdoor_oas
Metadaten
Author:Kolja Maxim Günter
Document Type:Bachelor Thesis
Year of first Publication:2019
Date of final exam:2019/08/28
First Referee:Philip Schaer
Second Referee:Mandy Neumann
Degree Program:Angewandte Informationswissenschaft
Language:German
Pagenumber:43
Tag:Datenextraktion; Web Harvesting
URN:urn:nbn:de:hbz:79pbc-opus-14428
Licence (German):License LogoCreative Commons - Namensnennung-Weitergabe unter gleichen Bedingungen