Refine
Document Type
- Bachelor Thesis (15)
- Master's Thesis (2)
Keywords
- Information Retrieval (6)
- Data Mining (2)
- Deutsche Nationalbibliothek (2)
- Reproduzierbarkeit (2)
- A9 (1)
- Algorithmus (1)
- Amazon (1)
- Benutzerverhalten (1)
- Bias (1)
- Claim Detection (1)
Seit Herbst 2017 findet in der Deutschen Nationalbibliothek die Inhaltserschließung
bestimmter Medienwerke rein maschinell statt. Die Qualität dieses Verfahrens,
das die Prozessorganisation von Bibliotheken maßgeblich prägen
kann, wird unter Fachleuten kontrovers diskutiert. Ihre Standpunkte werden
zunächst hinreichend erläutert, ehe die Notwendigkeit einer Qualitätsprüfung
des Verfahrens und dessen Grundlagen dargelegt werden. Zentraler Bestandteil
einer künftigen Prüfung ist eine Testkollektion. Ihre Erstellung und deren
Dokumentation steht im Fokus dieser Arbeit. In diesem Zusammenhang werden
auch die Entstehungsgeschichte und Anforderungen an gelungene Testkollektionen
behandelt. Abschließend wird ein Retrievaltest durchgeführt, der
die Einsatzfähigkeit der erarbeiteten Testkollektion belegt. Seine Ergebnisse
dienen ausschließlich der Funktionsüberprüfung. Eine Qualitätsbeurteilung maschineller
Inhaltserschließung im Speziellen sowie im Allgemeinen findet nicht
statt und ist nicht Ziel der Ausarbeitung.
Das Ziel dieser Bachelorarbeit ist es zu erläutern, wie der Algorithmus von Amazon funktioniert und welche Faktoren für das Ranking wichtig sind. Dazu wurden zwei Experimente durchgeführt, welche jeweils einen Ranking- und einen Performance-Faktor testen sollten. Die Ergebnisse aus diesen Tests zeigen, in wie weit ein Verkäufer das Ranking seiner Produkte manipulieren kann.
Die Reproduzierbarkeit von Ergebnissen ist das Fundament der Wissenschaft. Seit einigen Jahren bröckelt dieses Fundament jedoch und viele Forschende sind sich einig, dass es eine Reproduzierbarkeitskrise gibt. Grund dafür sind unter anderem die oft nicht zur Verfügung stehenden Daten aus den ursprünglichen Untersuchungen und mangelhafte Dokumentation. Seit einiger Zeit wird der Reproduzierbarkeit daher ein besonderes Augenmerk geschenkt. In der vorliegenden Arbeit wird die Reproduzierbarkeit von webbasiertem Pseudo-Relevanz-Feedback untersucht. Grossman und Cormack versuchten 2018 Relevanzurteile für Dokumente aus Testkollektionen mittels logistischer Regression herzuleiten. Ihre Trainingsdaten für ihr Modell bestanden aus Daten, die sie mittels Pseudo-Relevanz-Feedback aus dem Internet gewonnen hatten. Da das Internet einem permanenten Wandel unterlegen ist, ist absehbar, dass sich auf diese Weise gewonnene Trainingsdaten bei einer Reproduktion verändern und potentiell zu anderen Ergebnissen führen. 2019 haben Breuer und Schaer einen Reproduktionsversuch unternommen und dabei festgestellt, dass eine Reproduktion der Originalergebnisse trotz veränderter Datengrundlage möglich ist, sich aber Differenzen in den Resultaten aufgrund diverser Parameter wie verwendeter Suchmaschine und Geolocation ergeben. Im Rahmen dieser Bachelorarbeit wurde eine weitere Reproduktion unternommen, um zu prüfen, ob sich das Verfahren und die Ergebnisse von Breuer und Schaer reproduzieren lassen. In einer darauffolgenden Modifikation des Ansatzes wurden über zwei Wochen weitere Trainingsdaten erhoben und durch Ausschluss oder Einbezug von Begriffen rund um die Corona-Pandemie dabei der Einfluss von aktueller Berichterstattung auf die erhobenen Trainingsdaten und damit die Retrievalergebnisse untersucht. Ergebnisse wurden mittels TREC-EVAL evaluiert, durch einen t-Test wurden die Ergebnisse auf signifikante Unterschiede überprüft und über die Berechnung des Root Means Square Errors und der Effect Ratio die Qualität der Reproduktion untersucht. Die zugrunde liegenden Trainingsdaten wurden dann mithilfe des Rank Biased Overlap auf Überschneidungen überprüft. Der errechnete RBO wurde anschließend mit den Differenzen zwischen den Ergebnissen in Verhältnis gesetzt und mithilfe der Pearson-Korrelation auf signifikante Zusammenhänge getestet. Die Untersuchung ergab, dass eine Reproduktion zu großen Teilen erfolgreich war, die Ergebnisse von Breuer und Schaer jedoch nicht exakt reproduziert werden konnten. Die intensive Berichterstattung um die Corona-Pandemie hatte dabei keinen signifikanten Einfluss auf die Retrievalergebnisse. Mit zunehmender Zeit sank der RBO zwischen den erhobenen Daten, es konnte jedoch keine signifikante Korrelation zwischen dem RBO und den Differenzen in den Einzelergebnissen festgestellt werden.
Die Kritik an Relevanz als Maßstab für Retrievaltests ist beinahe so alt wie die Methode an sich. Häufig ist Anstoß solcher Kritik die Laborsituation, in der diese Relevanzbeurteilungen erfolgen und der Situation eines reellen Nutzers eines Information Retrieval Systems nicht gerecht wird. Das Ziel dieser Arbeit ist es in Erfahrung zu bringen, inwiefern die Subjektivität von Relevanzbeurteilungen die Zuverlässigkeit der Ergebnisse eines Retrievaltests untergräbt. Dazu erfolgt eine Sichtung informationswissenschaftlicher Literatur in Bezug auf den Relevanzbegriff, der seit über 50 Jahren für kontroverse Diskussionen sorgt. Weiterhin werden empirische Studien betrachtet, welche die Relevanzkriterien reeller Nutzer in verschiedenen Informationsumgebungen untersuchen sowie Experimente, welche die Auswirkungen unterschiedlicher Relevanzbeurteilungen auf die
Messergebnisse von Retrievaltests analysieren. Die Kriterien reeller Nutzer sind tatsächlich weitaus vielfältiger als die Laborsituation eines Retrievaltests es zulassen würde.
Auch die Zuverlässigkeit der Ergebnisse von Retrievaltests leidet unter den Auswirkungen verschiedener Relevanzbewertungen. Allerdings kann dieser Effekt durch die Verwendung kompetenter und erfahrener Juroren abgemildert bzw. fast gänzlich neutralisiert werden. Zudem wird auf die Problematik der sogenannten Biased Collections verwiesen, die ebenfalls die Zuverlässigkeit der Messergebnisse eines Retrievaltests beeinflussen können.
Die German Library Indexing Collection (GeLIC) soll dazu dienen, die Retrievalleistung von maschinellen und intellektuellen Schlagwörtern der Deutschen Nationalbibliothek (DNB) zu vergleichen. Das Verfahren zur Erzeugung des Korpus der Kollektion wurde im Verlauf dieser Arbeit automatisiert. Dafür musste zunächst der bestehende Korpus analysiert werden, um Ziele für den zu entwickelnden Prozess formulieren zu können. Darauf folgt ein State of the Art zu bibliothekarischen und universellen ETL-Lösungen. Es wurde entschieden, dass das automatische Verfahren mithilfe von Python realisiert werden sollte. Nachdem festgelegt wurde welche Daten benötigt werden, wurden die öffentlich verfügbaren Formate der DNB analysiert. Dabei wurde deutlich, dass in beiden Formaten maschinelle Schlagwörter nicht in jedem Fall von intellektuellen unterschieden werden können. Anschließend wurde das Package gelic_mt entwickelt und darauf aufbauend eine Pipeline für GeLIC. Bei der Prüfung des damit erzeugbaren Korpus, wurde erneut ersichtlich, dass die derzeitig öffentlich verfügbaren Daten keinen Korpus erlauben, der für die gewünschten Retrievaltests geeignet ist.
Die Nutzung von Suchmaschinen ist im Alltag moderner Gesellschaften fest implementiert und gilt heute als eines der Fundamente digitaler Informationsbeschaffung.
Diverse Studien schreiben digitalen Informationsanbietern einen soziotechnologischen Charakter zu, welcher potenziell dazu in der Lage ist durch ein Konglomerat feinjustierter Algorithmen Gesellschaften zu beeinflussen und eine Steuergröße in demokratischen Prozessen abzubilden. Die vorliegende Bachelor-Thesis belegt durch die Analyse diverser Nationen mithilfe der Datamining-Umgebung RapidMiner die ungleiche Darstellung von Ethnien in Suchvervollständigungen durch Textminingverfahren wie TF-IDF-Gewichtung, Erhebung von Termhäufigkeiten und der Durchführung einer Sentimentanalyse.
Diese Arbeit beschäftigt sich mit der Frage, ob sich Personalisierung auf die Suchvorschläge bei Google auswirkt.
Zunächst wird beschrieben, inwiefern dies im Kontext gesellschaftlichen Diskurses relevant ist und was zur Entstehung von Filterblasen im Allgemeinen führen kann. Auch Google als Unternehmen und dessen Geschäftsmodell wird in dieser Arbeit betrachtet.
Zur Sammlung der Daten wurde eigenständig ein Programm entwickelt, welches sich automatisch in Google Accounts einloggt, Suchanfragen absendet und anschließend die Suchvorschläge speichert.
Mithilfe der Berechnung des Jaccard-Index und einer intellektuellen Auswertung der Daten konnte so festgestellt werden, ob es einen Einfluss der Personalisierung auf die Suchvorschläge gibt.
Es konnten zwar geringe Abweichungen zwischen einzelnen Tagen festgestellt werden, generell schlägt sich der Einfluss der Personalisierung allerdings nicht in den Ergebnissen dieser Arbeit nieder.
Anforderungen der Bibliotheksnutzer und -Personal an den Webauftritt der Bücherei der Stadt Bingen
(2021)
Websites nehmen eine besondere Position im Marketing ein und sind ein Bestandteil der Kommunikationsstrategie von Unternehmen und Institutionen. Aktuell modernisiert sich die Bücherei³ in Bingen am Rhein. Aus diesem Grund soll die vorliegende Bachelorarbeit die Verbesserung der Website als Instrument des Marketings unterstützen.
Das Ziel der Forschung dieser Arbeit ist ein Webseitenkonzept für die Projektbibliothek Bücherei³ zu entwickeln. Im Fokus steht dabei ein Designkonzept mit technischen Erläuterungen. Um ein Konzept für eine Website auszuarbeiten, wird folgende Forschungsfrage repliziert: „Welche Anforderungen der Bibliotheksnutzer und -Personal gibt es an den Webauftritt der Bücherei³ der Stadt Bingen?“
Dazu werden zwei Fragebögen für vordefinierte Zielgruppen und das Personal der Bibliothek entwickelt und abgefragt. Somit werden die Anforderungen dieser Gruppen an eine für sie attraktive Website ermittelt. Zusätzlich wird ein Experteninterview mit einem Online-Redakteur der Stadt Bingen durchgeführt, das die Rahmenbedingungen für die Gestaltung der Website aufzeigt.
Die Auswertung zeigt, dass die Anforderungen von Personal und Zielgruppe sehr ähnlich sind. Die Zielgruppen bevorzugen eine informative Website, da sie sich in der Regel gerne vor Ort beraten lassen und in der Bibliothek verweilen. Es konnte ein erweitertes Webseitenkonzept entwickelt werden, in welches viele Wünsche beider Seiten einfließen konnten. Das Endkonzept wird durch Beispielbilder ergänzt. Weiterführende Schritte sind die Umsetzung des Konzeptes.
Ziel der vorliegenden Arbeit ist die Generierung einer möglichst vollständigen Sammlung von Metadaten, referenzierend auf Dissertationsschriften, die dem erweiterten Themenspektrum der Informationswissenschaft entsprechen. Hierzu stellen sich die folgenden Fragen: Welche Disziplinen können als relevant für das erweiterte Themenspektrum der Informationswissenschaft betrachtet werden? Existiert eine Vollständige Übersicht über die Landschaft der deutschen Hochschulschriftenserver? Wie muss das System aufgebaut werden um die Metadaten, die auf Dissertationsschriften referenzieren, zu beziehen, zu selektieren und zu homogenisieren? Um diese Fragen zu beantworten wird erarbeitet, aus welchen Disziplinen sich das erweiterte informationswissenschaftliche Themengebiet zusammensetzt. Ebenso wird eine Vollständige Liste aller deutschen Hochschulen und der identifizierten Hochschulschriftenserver angefertigt. Diese erarbeiteten Hochschulschriftenserver werden mittels eines Softwareentwurfs über das Open Archives Initiative Protocol for Metadata Harvesting abgefragt. Die erhaltenen Metadaten werden homogenisiert abgelegt. Weiter findet eine Schlagwortsuche nach programmatisch erstellten Schlagworten innerhalb der Disziplinen statt, die der Informationswissenschaft als nahestehend ermittelt wurden. Aus der Aufgabenstellung resultierend ergab sich, dass die Methoden und Erkenntnisse der Informatik und der Bibliothekswissenschaft als relevant für das erweiterte Themenspektrum der Informationswissenschaft betrachtet werden können. Durch den Harvesting Prozess konnten zwei Sammlungen von Metadatensätzen erstellt werden. Eine Sammlung umfasst 378 Metadatensätze, die ausschließlich Dissertationen aus den Bibliotheks- und Informationswissenschaften beinhalten und eine weitere Sammlung besteht aus 3.698 Metadatensätzen, die dem erweiterten Themenspektrum der Informationswissenschaft entsprechen.