@phdthesis{Guenter2019, type = {Bachelor Thesis}, author = {Kolja Maxim G{\"u}nter}, title = {State of Art - Web Scraping}, url = {https://nbn-resolving.org/urn:nbn:de:hbz:79pbc-opus-14428}, pages = {43}, year = {2019}, abstract = {Die vorliegende Bachelorarbeit hat zum Ziel, dem allgemeinen Leser die aktuell genutzten Methoden des Web Scraping zur Extraktion von relevanten Daten aus vorher definierten Webseiten darzustellen und miteinander zu vergleichen. Daf{\"u}r wurde zun{\"a}chst der Forschungsgegenstand in seiner Art und Funktionsweise definiert und gegen andere Informationsextraktionsverfahren abgegrenzt. Anschlie{\"s}end galt es grundlegende, aktuelle und innovative Techniken des Web Scraping anhand von ausgew{\"a}hlten Beispielen vorzustellen. Anhand von drei Kategorisierungsans{\"a}tzen (Glez-Pena, Ferrara, Chang) wurden die verschiedenen Ebenen, auf denen ein Web Scraper zu betrachten ist, herausgearbeitet und in einer Gegen{\"u}berstellung der Ans{\"a}tze auf Parallelen und Gegens{\"a}tze dieser Kategorien {\"u}berpr{\"u}ft. Web Scraping bietet eine probate Methode, relevante Inhalte aus dem World Wide Web ohne erforderlichen Zugriff auf den jeweiligen Webserver der Zielseite zu extrahieren. Dabei f{\"u}hrt die zunehmende Entwicklung von Web Scrapern hin zu einer benutzerfreundlichen visuellen Umgebung und einfachen Bedienung dazu, dass die Tools sich einem immer breiteren Anwenderpublikum {\"o}ffnen.}, language = {de} }