Transkription generieren
Generative KI-Modelle spielen eine zunehmend wichtige Rolle im Bereich der Speech-to-Text-Technologien. Diese Modelle sind darauf ausgelegt, gesprochene Sprache in Text zu transkribieren. Durch den Einsatz grosser Datenmengen und fortgeschrittener Architekturen, wie zum Beispiel Transformer- und Diffusionsmodelle, können sie komplexe Sprachmuster erkennen und in Text umwandeln.
Der Einsatz von generativer KI für Speech-to-Text basiert auf der Fähigkeit dieser Modelle, nicht nur vorhandene Muster in Daten zu erkennen, sondern auch neue Inhalte zu generieren, wenn die Eingabe unscharf oder unvollständig ist. Dies ist besonders nützlich in Szenarien, in denen die Audioqualität schlecht ist oder Hintergrundgeräusche die Verständlichkeit beeinträchtigen. Generative Modelle lernen aus grossen, vielfältigen Datensätzen und sind somit in der Lage, selbst komplexe und mehrsprachige Transkriptionen zu erstellen, ohne dass spezifisches Fine-Tuning für jede Sprache oder Aufgabe erforderlich ist (1).
Generative KI-Modelle wie OpenAI's Whisper bieten hohe Transkriptionsgenauigkeit und können flexibel in verschiedenen Sprachen und Aufgabenbereichen eingesetzt werden, ohne spezifische Anpassungen an neue Sprachen oder Dialekte zu benötigen, was ihre Vielseitigkeit erhöht (1). Ein Nachteil dieser Modelle ist jedoch das Auftreten von Halluzinationen, bei denen nicht vorhandene Inhalte generiert werden, was potenziell schädlich sein kann, besonders bei Sprechern mit Sprachstörungen wie Aphasie (2). Modelle wie Whisper setzen Massstäbe in der Spracherkennung, zeigen aber Schwächen bei bestimmten Sprechergruppen, während andere Ansätze wie Generative Spoken Language Modeling auf unüberwachtem Lernen basieren und Sprache direkt aus rohen Audioaufnahmen modellieren (3).
Tools für diesen Anwendungsfall
-
Mac Whisper
Mit MacWhisper können auf einfache Weise hochwertige Transkriptionen erstellt werden.
Chancen
Entlastung durch Automatisierung
Durch den Einsatz von KI-Systemen können Nutzer:innen ihre Arbeitsprozesse automatisieren.
Sprachliche Barrieren auflösen
Eine weitere Chance von KI in der Bildung besteht darin, sprachliche Barrieren aufzulösen.
Über diesen Beitrag
Beim Verfassen dieses Beitrags haben die Autor:innen ChatGPT 4o (Ver. 09.09.2024) verwendet, um die sprachliche Darstellung ihrer Gedanken zu verbessern. Die volle Verantwortung für den Inhalt liegt bei den Autor:innen.
Quellen
-
Radford A, Kim JW, Xu T, Brockman G, McLeavey C, Sutskever I. Robust speech recognition via large-scale weak supervision. In: Proceedings of the 40th International Conference on Machine Learning. Honolulu, Hawaii, USA: JMLR.org; 2023. p. 28492–518. (ICML’23; vol. 202).
-
Koenecke A, Choi ASG, Mei KX, Schellmann H, Sloane M. Careless Whisper: Speech-to-Text Hallucination Harms. In: Proceedings of the 2024 ACM Conference on Fairness, Accountability, and Transparency [Internet]. New York, NY, USA: Association for Computing Machinery; 2024 [cited 2024 Aug 23]. p. 1672–81. (FAccT ’24). Available from: https://dl.acm.org/doi/10.1145/3630106.3658996
-
Lakhotia K, Kharitonov E, Hsu WN, Adi Y, Polyak A, Bolte B, et al. On Generative Spoken Language Modeling from Raw Audio. Roark B, Nenkova A, editors. Transactions of the Association for Computational Linguistics. 2021;9:1336–54.