Transkription wissenschaftlicher Podcasts unter Verwendung von automatischen Spracherkennungssystemen
- Der digitale Wandel, getrieben durch die Evolution von „New Media“ mit ihren interaktiven, multimedialen Merkmalen und globaler Zugänglichkeit, hat nachhaltige Auswirkungen auf die Bereiche Journalismus, Unterhaltung und Wissenschaftskommunikation hinterlassen. Innerhalb dieses Rahmens dienen Podcasts als zugängliche, offene Plattform zur Verbreitung wissenschaftlicher Informationen und zur Förderung interdisziplinärer Diskussionen, wobei Herausforderungen im Hinblick auf die auditiven Eigenschaften und die Notwendigkeit evidenzbasierter Kommunikation bestehen. Das Hauptziel dieser Studie besteht darin, die jüngsten Fortschritte in KI-gesteuerten Transkriptionsverfahren zu nutzen, um effiziente und hochwertige Transkriptionen zu realisieren. Darüber hinaus werden neue Ansätze zur Steigerung der Auffindbarkeit, Zugänglichkeit und Verbreitung wissenschaftlicher Inhalte diskutiert. Für diese Studie wurden Audio-Daten aus dem bilingualen Common Voice-Datensatz und dem englisch-sprachigen GigaSpeech-Datensatz verwendet, um automatisierte Transkriptionen zu erstellen. Die Transkriptionen wurden anschließend mithilfe von Metriken wie der Wortfehlerrate und des Jaro-Winkler-Ähnlichkeitsmaß bewertet. Die Ergebnisse dieser Untersuchung verdeutlichen, dass die Genauigkeit des ASR-Modells „Whisper“ von OpenAI von verschiedenen Faktoren abhängig ist. Hierzu zählen die Sprache, verschiedene Dialekte, Akzente, Altersgruppen und Themengebiete. Im Gesamten betrachtet konnte die Transkription von englischen im Vergleich zu deutschen Daten präziser durchgeführt werden. Trotz gelegentlicher Fehler zeigten die durch ASR generierten Transkriptionen eine signifikante Ähnlichkeit zur Ground Truth, was auf ihr Potenzial für die Transkription von Podcasts hinweist. Ein Vergleich verschiedener Modellgrößen ergab, dass größere Modelle eine überlegene Leistung erbrachten. Diese robusten Ergebnisse legen nahe, dass Transkriptionen eine sinnvolle Ergänzung zu den vorhandenen Metadaten von Podcasts darstellen und zur Verbesserung von Retrieval-Anwendungen genutzt werden können. Des Weiteren bieten Transkriptionen eine solide Grundlage für die Anwendung fortgeschrittener Methoden des NLP zur Extraktion entscheidender Informationen, wie beispielsweise Verweise und Entitäten, welche in ein vernetztes System, wie Knowledge Graphs, integriert werden können, um Podcast-Inhalte auf effiziente Weise zu strukturieren und Verknüpfungen zu anderen Wissensquellen herzustellen.
- The digital transformation, led by "New Media"with its interactive, multimedia, and globally accessible features, has significantly impacted journalism, entertainment, and science communication. In this context, podcasts offer an easily accessible, open platform for sharing scientific knowledge, but their auditory nature and the need for evidence-based communication pose challenges. The primary objective of this study is to harness recent advancements in AI-driven transcription methodologies, striving to achieve efficient and high-quality transcription. Additionally, the study discusses novel avenues for enhancing the retrieval, accessibility, and dissemination of scientific content. Using audio data from Common Voice and GigaSpeech datasets, automated transcripts, created by the ASR-model "Whisper", were evaluated using metrics like Word Error Rate and Jaro-Winkler Similarity. The outcomes revealed that the accuracy is contingent on various factors, including language, dialects, accents, age groups, and topic categories. On the whole, English data yielded more precise transcriptions in comparison to German. Despite the presence of occasional errors, ASR-generated transcripts exhibited a notable similarity to the ground truth, signifying their potential utility in podcast transcription. A comparative analysis of various model sizes demonstrated that larger models outperformed their smaller counterparts. These robust findings suggest that transcripts complement existing podcast metadata and can be employed to enhance retrieval applications. The integration of transcripts into metadata facilitates content-based searches, offering opportunities to enhance retrieval efficiency, augment information density, and improve the transparency of podcasts. Furthermore, transcripts can serve as the foundation for the implementation of advanced NLP methods aimed at extracting crucial information, such as references and entities. These extracted insights can be integrated into an interconnected network, utilizing knowledge graphs to effectively organize podcast content and establish connections with other knowledge sources.
Author: | Robin Hilbrecht |
---|---|
Document Type: | Bachelor Thesis |
Year of first Publication: | 2023 |
Date of final exam: | 2023/10/21 |
First Referee: | Konrad FörstnerGND |
Advisor: | Benjamin Wolff |
Degree Program: | Data and Information Science |
Language: | German |
Page Number: | 69 |
Tag: | Wissenschaftspodcast; natürliche Sprachverarbeitung |
GND Keyword: | Automatische Spracherkennung; Open Science; Transformer; Transkription |
URN: | urn:nbn:de:hbz:79pbc-opus-24169 |
Licence (German): | Creative Commons - Namensnennung-Weitergabe unter gleichen Bedingungen |