TY - THES U1 - Bachelor Thesis A1 - Günter, Kolja Maxim T1 - State of Art - Web Scraping N2 - Die vorliegende Bachelorarbeit hat zum Ziel, dem allgemeinen Leser die aktuell genutzten Methoden des Web Scraping zur Extraktion von relevanten Daten aus vorher definierten Webseiten darzustellen und miteinander zu vergleichen. Dafür wurde zunächst der Forschungsgegenstand in seiner Art und Funktionsweise definiert und gegen andere Informationsextraktionsverfahren abgegrenzt. Anschließend galt es grundlegende, aktuelle und innovative Techniken des Web Scraping anhand von ausgewählten Beispielen vorzustellen. Anhand von drei Kategorisierungsansätzen (Glez-Pena, Ferrara, Chang) wurden die verschiedenen Ebenen, auf denen ein Web Scraper zu betrachten ist, herausgearbeitet und in einer Gegenüberstellung der Ansätze auf Parallelen und Gegensätze dieser Kategorien überprüft. Web Scraping bietet eine probate Methode, relevante Inhalte aus dem World Wide Web ohne erforderlichen Zugriff auf den jeweiligen Webserver der Zielseite zu extrahieren. Dabei führt die zunehmende Entwicklung von Web Scrapern hin zu einer benutzerfreundlichen visuellen Umgebung und einfachen Bedienung dazu, dass die Tools sich einem immer breiteren Anwenderpublikum öffnen. KW - Datenextraktion KW - Web Harvesting Y2 - 2019 U6 - https://nbn-resolving.org/urn:nbn:de:hbz:79pbc-opus-14428 UN - https://nbn-resolving.org/urn:nbn:de:hbz:79pbc-opus-14428 SP - 43 S1 - 43 ER -