Refine
Document Type
- Bachelor Thesis (7)
- Master's Thesis (2)
Language
- German (9)
Keywords
- Inhaltserschließung (4)
- Allegro-Neutralformat (1)
- Arbeitsgemeinschaft der Öffentlich-Rechtlichen Rundfunkanstalten der Bundesrepublik Deutschland (1)
- BASE (1)
- Bibliographische Datenkonvertierung (1)
- Bibliothek (1)
- Cranfield Paradigma (1)
- Datenkonvertierung (1)
- Datenkonvertierungsprogramm (1)
- Dewey-Dezimalklassifikation (1)
Deutsch
Mit Hilfe eines algorithmisch arbeitenden Verfahrens können Mehrwortgruppen aus elektronisch vorliegenden Texten identifiziert und extrahiert werden.
Als Datengrundlage für diese Arbeit dienen kunsthistorische Lexikonartikel des Reallexikons zur Deutschen Kunstgeschichte. Die linguistisch, wörterbuchbasierte Open-Source-Software Lingo wurde in dieser Studie genutzt. Mit Lingo ist es möglich, auf Basis erstellter Wortmuster, bestimmte Wortfolgen aus elektronisch vorliegenden Daten algorithmisch zu identifizieren und zu extrahieren. Die erstellten Wortmuster basieren auf Wortklassen, mit denen die lexikalisierten Einträge in den Wörterbüchern getaggt sind und dadurch näher definiert werden. So wurden individuelle Wortklassen für Fachterminologie, Eigennamen, oder Adjektive vergeben. In der vorliegenden Arbeit werden zusätzlich Funktionswörter in die Musterbildung mit einbezogen. Dafür wurden neue Wortklassen definiert. Funktionswörter bestimmen Artikel, Konjunktionen und Präpositionen. Ziel war es fachterminologische Mehrwortgruppen mit kunsthistorischen Inhalten zu extrahieren unter der gezielten Einbindung von Funktionswörtern. Anhand selbst gebildeter Kriterien, wurden die extrahierten Mehrwortgruppen qualitativ analysiert. Es konnte festgestellt werden, dass die Verwendung von Funktionswörtern fachterminologische Mehrwortgruppen erzeugt, die als potentielle Indexterme weitere Verwendung im Information Retrieval finden können.
Das Ziel dieser Bachelorarbeit ist es, die Unterschiede zwischen dem MARC-XML-Format und einem Solr kompatiblen XML-Format zu analysieren, um die Daten einer DNB-Testkollektion für ein Retrievaltest-Projekt der TH Köln mit der Software trec_eval auswerten zu können. Dazu wird die Datenstruktur der Dokumente der Testkollektion im MARC-XML-Format auf die für den Test relevanten Inhalte reduziert. Es wird dargestellt, wie diese Datenstruktur an das Zielformat XML angepasst und konvertiert wird, um einen Retrievaltest durchführen zu können. Die nach einer Datenkonvertierung entstehenden Probleme sollen durch das Erstellen einer Konkordanz abgebildet werden. Exemplarisch werden die Kategorien innerhalb der Dokumente der Testkollektion untersucht, die maschinell und intellektuell Erschlossene Metadaten enthalten. Abschließend wird darauf hingewiesen, welche Auswirkungen fehlerhafte Kategorieninhalte auf einen Retrievaltest haben können. Ziel soll es sein eine Empfehlung dahingehend abzugeben, wie die Testkollektion den Qualitätsanforderungen des TH-Projekts entsprechend verbessert werden kann, um eine Evaluation der DNB-Sacherschließungspraxis zu ermöglichen.
Der 1926 geborene Jurist und Rechtsphilosoph Hermann Klenner gilt als einer der angesehensten Rechtswissenschaftler der DDR. Die auf Vollständigkeit ausgelegten Hermann-Klenner-Schriften (HKS) umfassen die von ihrem Autoren gesammelten Publikationen von 1952 bis in die heutige Zeit. Ende 2021 übergab Klenner die HKS an die wissenschaftliche Spezialbibliothek der Rosa-Luxemburg-Stiftung (RLSB) in Berlin. Die vorliegende Arbeit rekonstruiert die Integration der HKS als moderne Sondersammlung in den Bestand der RLSB unter dem Aspekt der inhaltlichen Erschließung. Nach Herausarbeitung des Stellenwerts inhaltlicher Erschließung in der einschlägigen Literatur zu Sondersammlungen werden zunächst mit der Thomas-Mann-Sammlung der ULB Düsseldorf und der Wilhelm-Fraenger-Bibliothek in Potsdam zwei Fallbeispiele moderner Sondersammlungen im Hinblick auf Besonderheiten bei der Indexierung analysiert. Im Anschluss wird aus den Faktoren Zielgruppe, Rahmenbedingungen und Charakter der HKS das angepaßte Erschließungskonzept der RLSB abgeleitet und expliziert sowie einer kritischen Bewertung unterzogen. Im letzten Kapitel werden die Ergebnisse zusammengefasst und Optimierungspotenziale identifiziert.
Aktuell ist kein Expertensuchsystem auf Webseite der TH Köln vorhanden, über das Interessierte oder Forschende nach Themengebieten bzw. Wissenschaftsfächer der jeweiligen Experten suchen können. Im Rahmen des Projekts Research Knowledge Discovery – Detektion von Experten und Aufbau eines Recommender-Systems für die TH Köln wurden einige Arbeitsergebnisse geschafft, wie die durchgeführte inhaltliche Erschließung und somit die Erstellung eines einfachen Erschließungskonzept. Da bei der Strukturierung des Vokabulars Verbesserungsmöglichkeiten vorhanden sind, ist das Ziel der vorliegenden Bachelorarbeit die Erstellung eines systematischen Thesaurus der TH Köln für ein Expertensuchsystem auf Basis der durch Research Knowledge Discovery – Detektion von Experten und Aufbau eines Recommender-Systems für die TH Köln gemachten Projekte. Sowohl für ein Suchsystem als auch Expertensuchsystem ist eine Navigations- und Suchfunktion erforderlich. Infolgedessen wird das Vokabular für das Navigieren benötigt.
Um dies zu erzielen, wurden im Programm MIDOS6 – MIDOSThesaurus Thesaurus und Systematik der Wissenschaftsfächer der TH Köln entwickelt. Vor der Erstellung des Thesaurus in der Kombination mit Systematik wurde die inhaltliche Erschließung der ausgewählten Datenbasis in der Excel-Datei durchgeführt. Inhaltlich erschlossene Begriffe wurden als Deskriptoren der dritten Hierarchiestufe im Thesaurus zugeordnet.
In weiterführenden Projektarbeiten kann der systematische Thesaurus weiter mit Verbesserungsvorschlägen optimiert und in ein Expertensuchsystem eingebaut werden, sodass die Suche der Interessierten oder Forschenden nach Experten der jeweiligen Wissenschaftsfächer erleichtert wird.
Implementierung einer automatischen DDC-Klassifikation für die Suchmaschine BASE auf Basis von Annif
(2024)
In der wissenschaftliche Suchmaschine BASE werden bereits seit Jahren Dokumente maschinell nach der Dewey Decimal Classification (DDC) erschlossen. Die vorliegende Arbeit beschreibt die Erstellung eines Systems des maschinellen Lernens mit dem Ziel, das mittlerweile veraltete Klassifikationssystem in BASE zu ersetzen.
Zu diesem Zweck ist es erforderlich, Daten aus BASE zu gewinnen, die als Trainingsmenge eines maschinellen Lernverfahrens dienen können. Es wird gezeigt, wie mithilfe einer explorativen Analyse aus einem Korpus von über 220 Mio. Dokumenten geeignete Daten extrahiert, kuratiert und zu sprachspezifischen Lernkorpora umgearbeitet werden können, die hierzu entwickelte Software ist ein integraler Bestandteil dieser Arbeit.
Auf dieser Grundlage werden mithilfe des Toolkits Annif eine Reihe von Klassifikatoren erstellt, deren Leistungsfähigkeit anschließend evaluiert und ein geeigneter Kandidat ausgewählt wird. Ein finaler Vergleich zeigt, dass das in dieser Ausarbeitung erstellte System dem zur Zeit im Einsatz befindlichen BASE-Klassifikator weit überlegen ist. Abschließende Betrachtungen zeigen allerdings auch verschiedene Schwächen des Ansatzes auf, die zugleich einen Bogen zu allgemeinen Erwägungen im Rahmen des derzeitigen „Frühlings“ der künstlichen Intelligenz schlagen.
Die Konvertierung von bibliographischen Daten in andere Formate stellt eine häufige Herausforderung in der bibliothekarischen Arbeit dar, wie die Systemumstellung vieler Bibliotheken auf das Bibliotheksmanagementsystem Alma zeigt. Dabei ist die verlustfreie Durchführung dieses Prozesses eine besondere Schwierigkeit, die aus der Verschiedenheit der Formate resultiert. Ein konkretes Beispiel für eine solche zu konvertierende Datenmenge ist die Literaturdatenbank "Literatur zur Informationserschließung", welche 44.218 bibliographische Einträge enthält und von einer modifizierten Form des Allegro-Neutralformats in das RIS-Format konvertiert werden soll. Dabei wird auf der Grundlage von erarbeiteten Konkordanzen zwischen beiden Formaten und Untersuchungen der Datenbank mit regulären Ausdrücken, sowie einem Pythonskript ein Programm geschrieben, das die Datenbank in das Zielformat konvertieren soll. Das Ergebnis wird anhand einer proportionalen Schichtenstichprobe evaluiert. Abschließend werden der Entwicklungsprozess und das Ergebnis hinsichtlich des stattgefundenen Informationsverlustes bei dem Konvertierungsprozess reflektiert.
Die Retrievalforschung in der Bibliothekswissenschaft hat in den letzten Jahrzehnten beachtliche Fortschritte gemacht. Automatische Indexierungsmethoden werden immer häufiger angewendet, obwohl dieses Thema in der Bibliothekswelt kontrovers diskutiert wird. Die Ergebnisse maschineller Erschließungsarbeit werden anhand von Retrievaltests festgehalten. Der Gegenstand dieser Arbeit ist die Darstellung von Retrievalexperimenten mit bibliothekarischen Daten. Zu Beginn werden die Grundlagen solcher Retrievaltests sowie das Cranfield-Paradigma erläutert. Es folgt eine Vorstellung verschiedener wissenschaftlicher Projekte aus diesem Forschungsfeld in chronologischer Reihenfolge. Wenn Verbindungen oder Einflussnahmen zwischen den einzelnen Projekten bestehen, werden diese herausgestellt. Im besonderen Umfang wird das Retrievalprojekt GELIC der TH Köln beschrieben, an dem der Autor dieser Arbeit beteiligt war. Obwohl es isolierte Retrievalprojekte gibt, lässt sich aus methodischer Sicht eine Verbindung von den frühesten Experimenten zu den heutigen Retrievalexperimenten herstellen. Diese Entwicklung ist noch nicht abgeschlossen.
Im Laufe der letzten Jahre haben sich immer mehr, vor allem wissenschaftliche Bibliotheken, zu Verbünden zusammengeschlossen, um die Zusammenarbeit untereinander besser zu koordinieren und in ihrer Arbeit gemeinsame Ressourcen nutzen zu können. Vor allem die Katalogisierung in eine gemeinsam genutzte Datenbank, die am Ende auch für alle teilnehmenden Institutionen einsehbar ist, spielt bei der Arbeit dieser Verbundkataloge eine wichtige Rolle.
Das Ziel dieser Arbeit ist es, anhand einer Literatur-Arbeit und einer Analyse der Vor- und Nachteile, herauszustellen, ob eine Teilnahme an einem solchen Bibliotheksverbund für die Bibliotheken lohnenswert sein kann. Behandelt wird dies innerhalb dieser Arbeit am Beispiel des „Hochschulbibliothekszentrums des Landes Nordrhein-Westfalen“.
In dieser Masterarbeit werden die Herausforderungen und Möglichkeiten geschlechtergerechter Sprache in der Mediendokumentation am Beispiel der ARD-Sachklassifikation untersucht. Bereits seit den 1990ern wurden Initiativen für eine geschlechtergerechte Sprache in der Inhaltserschließung gestartet, damit Diskriminierungen und die "Unsichtbarmachung" von Geschlechtern nicht weiter aufrechterhalten werden. Ausgehend von der Erkenntnis, dass sich gesellschaftliche Wertvorstellungen in der Terminologie von Klassifikationen widerspiegeln, wurde im Rahmen der vorliegenden Forschungsarbeit eine qualitative Analyse des bestehenden Wissensorganisationssystems durchgeführt. Das Ergebnis ist eine Typologie mit vier merkmalshomogenen Typen, die als Ausgangspunkt für die Umsetzung geschlechtergerechter Sprache in Klassifikationen dienen kann. Unter Berücksichtigung linguistischer und praktischer Aspekte der Mediendokumentation werden konkrete Empfehlungen für eine geschlechtergerechte Überarbeitung der ARD-Sachklassifikation entwickelt. Die Arbeit leistet damit einen Beitrag zur Weiterentwicklung inklusiver Erschließungsinstrumente im Medienbereich und zeigt praktische Wege auf, wie Klassifikationssysteme diskriminierungsfreier gestaltet werden können.