Refine
Year of publication
- 2019 (3) (remove)
Document Type
- Bachelor Thesis (3)
Language
- German (3)
Keywords
- Anfrage (1)
- Datenextraktion (1)
- Suchmaschine (1)
- Web Harvesting (1)
Die Deutsche Nationalbibliothek verzichtet seit 2010 auf die intellektuelle Erschließung in der Reihe O (Netzpublikationen) und seit September 2017 wird ebenfalls in den Reihen B (Monografien und Periodika außerhalb des Verlagsbuchhandels) und H (Hochschulschriften) automatisch inhaltlich erschlossen. Es stellten sich die Fragen, ob die Qualität der automatischen Verschlagwortung den bibliothekarischen Ansprüchen genügt und ob eine ebenso hohe Qualität wie bei der intellektuellen Verschlagwortung erreicht wird. Zur Beantwortung dieser Fragen müssen Retrieval-Tests durchgeführt werden. Eine Evaluation der Ergebnisse auf Basis einer Testkollektion mit 200.000 Dokumenten der Deutschen Nationalbibliothek, sind Hauptbestandteil dieser Arbeit. Es wird ein Überblick über die wichtigsten Punkte und Abläufe der Evaluation gegeben, sowie eine Analyse der Ergebnisse und eine erste Qualitätsbeurteilung. Eine genauere Darstellung der Entwicklung der Testkollektion wird nicht Bestandteil dieser Arbeit sein.
Query Suggestion mit Siri
(2019)
Suchanfragen und automatische Vorschläge zu diesen, wenn der Nutzer die Anfrage gerade noch eintippt, gehören heutzutage zum Standard. Das nicht nur bei Suchen im Internet, sondern auch mithilfe von integrierten Assistenten an PC oder auf Mobilgeräten, wie Smartphones oder Tablets. Einer dieser persönlichen Assistenten ist Siri, eine Software auf iOS-Geräten des Technologiekonzerns Apple. Siri ist hauptsächlich bekannt dafür, als Sprachassistent auf gesprochene Anfragen zu reagieren. Allerdings bietet Siri auch eine Suchfunktion auf dem Homescreen des Geräts an, in die Suchen eingetippt werden können. Auch hier werden Vorschläge gemacht, die die Eingabe während des Schreibens automatisch vervollständigen. Dabei ist aber nicht klar, woher diese stammen. Gut denkbar ist eine Kooperation mit einem etablierten Anbieter einer Web-suchmaschinen. Aber klare Aussagen, von Apple selbst, finden sich nicht. Lässt sich dies eventuell auf experimentellem Weg ermitteln? Um sich der Lösung dieser Fragestellung zu nähern, stelle diese Bachelorarbeit die Umsetzung eines Versuchsaufbaus dar, bei dem über einen vierwöchigen Zeitraum definierte Suchanfragen an die Web-suchmaschinen Google, Bing, DuckDuckGo und an die Siri-Suche gestellt wurden. Durch Analysemethoden, wie unter anderem Rank-biased overlap (RBO), sollten so Gemeinsamkeiten ermittelt werden, die gegebenenfalls auf einen konkreten Partner schließen lassen. Zwar zeigten die Vergleichsmethoden durchaus Unterschiede auf, ein klares Ergebnis in Bezug auf eine der betrachteten Suchmaschinen, konnte allerdings nicht erzielt werden.
State of Art - Web Scraping
(2019)
Die vorliegende Bachelorarbeit hat zum Ziel, dem allgemeinen Leser die aktuell genutzten Methoden des Web Scraping zur Extraktion von relevanten Daten aus vorher definierten Webseiten darzustellen und miteinander zu vergleichen.
Dafür wurde zunächst der Forschungsgegenstand in seiner Art und Funktionsweise definiert und gegen andere Informationsextraktionsverfahren abgegrenzt. Anschließend galt es grundlegende, aktuelle und innovative Techniken des Web Scraping anhand von ausgewählten Beispielen vorzustellen. Anhand von drei Kategorisierungsansätzen (Glez-Pena, Ferrara, Chang) wurden die verschiedenen Ebenen, auf denen ein Web Scraper zu betrachten ist, herausgearbeitet und in einer Gegenüberstellung der Ansätze auf Parallelen und Gegensätze dieser Kategorien überprüft.
Web Scraping bietet eine probate Methode, relevante Inhalte aus dem World Wide Web ohne erforderlichen Zugriff auf den jeweiligen Webserver der Zielseite zu extrahieren. Dabei führt die zunehmende Entwicklung von Web Scrapern hin zu einer benutzerfreundlichen visuellen Umgebung und einfachen Bedienung dazu, dass die Tools sich einem immer breiteren Anwenderpublikum öffnen.