OPUS 4 | Search

1088 search hits

8 to 8

Transkription wissenschaftlicher Podcasts unter Verwendung von automatischen Spracherkennungssystemen (2023)

Der digitale Wandel, getrieben durch die Evolution von „New Media“ mit ihren interaktiven, multimedialen Merkmalen und globaler Zugänglichkeit, hat nachhaltige Auswirkungen auf die Bereiche Journalismus, Unterhaltung und Wissenschaftskommunikation hinterlassen. Innerhalb dieses Rahmens dienen Podcasts als zugängliche, offene Plattform zur Verbreitung wissenschaftlicher Informationen und zur Förderung interdisziplinärer Diskussionen, wobei Herausforderungen im Hinblick auf die auditiven Eigenschaften und die Notwendigkeit evidenzbasierter Kommunikation bestehen. Das Hauptziel dieser Studie besteht darin, die jüngsten Fortschritte in KI-gesteuerten Transkriptionsverfahren zu nutzen, um effiziente und hochwertige Transkriptionen zu realisieren. Darüber hinaus werden neue Ansätze zur Steigerung der Auffindbarkeit, Zugänglichkeit und Verbreitung wissenschaftlicher Inhalte diskutiert. Für diese Studie wurden Audio-Daten aus dem bilingualen Common Voice-Datensatz und dem englisch-sprachigen GigaSpeech-Datensatz verwendet, um automatisierte Transkriptionen zu erstellen. Die Transkriptionen wurden anschließend mithilfe von Metriken wie der Wortfehlerrate und des Jaro-Winkler-Ähnlichkeitsmaß bewertet. Die Ergebnisse dieser Untersuchung verdeutlichen, dass die Genauigkeit des ASR-Modells „Whisper“ von OpenAI von verschiedenen Faktoren abhängig ist. Hierzu zählen die Sprache, verschiedene Dialekte, Akzente, Altersgruppen und Themengebiete. Im Gesamten betrachtet konnte die Transkription von englischen im Vergleich zu deutschen Daten präziser durchgeführt werden. Trotz gelegentlicher Fehler zeigten die durch ASR generierten Transkriptionen eine signifikante Ähnlichkeit zur Ground Truth, was auf ihr Potenzial für die Transkription von Podcasts hinweist. Ein Vergleich verschiedener Modellgrößen ergab, dass größere Modelle eine überlegene Leistung erbrachten. Diese robusten Ergebnisse legen nahe, dass Transkriptionen eine sinnvolle Ergänzung zu den vorhandenen Metadaten von Podcasts darstellen und zur Verbesserung von Retrieval-Anwendungen genutzt werden können. Des Weiteren bieten Transkriptionen eine solide Grundlage für die Anwendung fortgeschrittener Methoden des NLP zur Extraktion entscheidender Informationen, wie beispielsweise Verweise und Entitäten, welche in ein vernetztes System, wie Knowledge Graphs, integriert werden können, um Podcast-Inhalte auf effiziente Weise zu strukturieren und Verknüpfungen zu anderen Wissensquellen herzustellen.

8 to 8

Open Access

Refine

Author

Year of publication

Document Type

Language

Has Fulltext

Keywords

1088 search hits