Transkription funktioniert bei hochdeutschen Aufnahmen meistens schon sehr gut. Doch wenn die Aufnahmen auf bayerisch sind, kommen automatische Spracherkennungs-Systeme ins Schleudern. Das zeigt ein im Rahmen des AI for Media Network entstandenes Forschungsprojekt von Bayerischem Rundfunk und der LMU München anhand von Gute-Nacht-Geschichten.

Das AI for Media Network will Kooperationen auf Projektebene fördern, sei es zwischen Medien untereinander oder zwischen Medien und Wissenschaft. So wie jetzt zwischen Bayerischem Rundfunk (BR) und der Ludwig-Maximilians-Universität (LMU) München. Vertreter des BR-Archivs und des Centrums für Informations- und Sprachverarbeitung (CIS) an der LMU lernten sich 2024 im Rahmen des „Science meets Journalism“-Workshops des AI for Media Network kennen. Dort hatten das Team von Prof. Barbara Plank, Inhaberin des Lehrstuhls für KI und Computerlinguistik an der LMU, sowie Gabriele Wenger-Glemser, Leiterin der Abteilung Dokumentation & Recherche im BR, festgestellt, dass die Dialekt-Transkription ein Thema von gemeinsamem Interesse ist. Kurz darauf vereinbarten sie ein gemeinsames Forschungsprojekt: Wie gut sind Automatic Speech-Recognition-Systeme (ASR) darin, Aufnahmen, in denen bayerisch gesprochen wird, ins Hochdeutsche zu transkribieren?
Das Zentrum für Informations- und Sprachverarbeitung der Ludwig-Maximilians-Universität Münchenfütterte die drei verschiedene Automatic Speech-Recognition-Modellfamilien Whisper, XLS-R und MMS mit sechs Stunden Dialektdaten aus dem BR. “Die KI-Forschung kann hier von unseren Archivinhalten profitieren, und uns als BR steht es gut zu Gesicht, auf Vielfalt und Regionalität von KI-Modellen zu achten”, sagt Archiv-Leiterin Wenger-Glemser. In den KI-Richtlinien des BR ist die Arbeit an „Sprachmodellen, die mit Dialekten der Region umgehen können“ unter dem Punkt „Vielfalt und Regionalität“ explizit erwähnt.
Konkret handelte es sich bei den Dialekt-Aufnahmen um eine Reihe von „Betthupferl“ genannten Gute-Nacht-Geschichten für Kinder in den drei Dialektgruppen Fränkisch (Unterfränkisch, Mittelfränkisch, Oberfränkisch), Bairisch (Oberbairisch, Niederbaierisch, Oberpfälzisch) und Schwäbisch. Weil die Sendungen von professionellen Sprecherinnen und Sprechern und im Studio aufgenommen wurden, also keine Störgeräusche vorhanden sind, handelt es sich um qualitativ hochwertige Daten. Zum Vergleich speisten die Forscherinnen auch Aufnahmen in Hochdeutsch ein. Auftrag in beiden Fällen: Ein Trankskript in Hochdeutsch zu erstellen.
Bei der Transkription von Dialektdaten kann der Sinn verloren gehen
Das Resultat: Die Spracherkennungs-Modelle machen bei der Transkription der Dialektaufnahmen deutlich mehr Fehler als bei der Transkription von Audios in Hochdeutsch. Dieses Transkript verglichen die Forscherinnen der LMU mit zwei Transkripten, die sie selbst manuell erstellt hatten: einem hochdeutschen Manuskript und einem Manuskript im jeweiligen Dialekt. Die Modelle hatten zum einen Probleme, die einzelnen Worte richtig zu transkribieren. Ein Beispiel: In einem mittelfränkischen Betthupferl kam folgender Satz vor:
„Sofort alle ausschwärma und da Mathilda ihr Geldstückle sung, sonst zach ich eich, wo da Bartl an Most hoid.“
Der hochdeutsche Referenzsatz würde lauten:
„Sofort alle ausschwärmen und Mathildas Geldstück suchen, sonst zeige ich euch, wo’s langgeht.“
Das Spracherkennungs-Modell Whisper large-v3 – wie ChatGPT ein Produkt der Firma Open AI – machte daraus:
„Sofort alle Ausschwärmer und der Mathilda ihr Geldstück lesung. Sonst zeig ich euch, wo der Badl den Most holt.“
In diesem Beispiel geht in der Transkription der Sinn des im Dialekt gesprochenen Satzes verloren. Das wichtigste Qualitätskriterium ist aber die Wort-Fehler-Rate, die besagt, wie viel Prozent der Wörter falsch transkribiert wurden. Insgesamt schnitt das Modell Whisper large-v3 am besten ab, bei der Transkription der Betthupferl-Daten lag die Wort-Fehler-Rate bei 31 Prozent. Bei der Transkription der hochdeutschen Aufnahmen betrug die Wort-Fehler-Rate dagegen nur 9 Prozent. Whisper (und auch andere Spracherkennungs-Modelle) können Hochdeutsch also viel besser transkribieren als Bayerisch.
LMU prüft, ob Finetuning mit Dialektdaten möglich ist
Nach Einschätzung von Verena Blaschke, wissenschaftliche Mitarbeiterin am CIS, liegt das an fehlenden Trainingsdaten. Die ASR-Modelle wurden in der Regel mit deutschen oder englischen Sprachdaten trainiert, aber nicht mit bayerischen: „Ich vermute, dass die Transkriptionsergebnisse besser wären, wenn die Modelle mit süddeutschen Dialektdaten trainiert worden wären“.
Damit die ASR-Modelle die Transkription bayerischer Dialektdaten besser meistern, müssten sie nachtrainiert werden. Das CIS prüft gerade, ob die vom BR überlassenen „Betthupferl“-Daten dafür ausreichen.
Die Ergebnisse der Studie, die bereits als Vorab-Publikation veröffentlicht wurden, stellt Blaschke am 18. August auf der Interspeech-Fachkonferenz in Rotterdam vor. Sie erhofft sich davon noch die eine oder andere Anregung, wie das Finetuning am besten umzusetzen ist. Die LMU hatte in Absprache mit dem BR Open-Source-Modelle ausgesucht, weil sie anderen Forschenden ermöglichen, die Untersuchung zu reproduzieren. Außerdem lassen sich Open-Source-Modelle im Gegensatz zu geschlossenen Systemen finetunen.
Modell für bayerische Dialekte wäre wertvoll
Würde es der LMU gelingen, Modelle für die einzelnen bayerischen Dialekte zu trainieren, hätte das nicht nur für den BR große Vorteile. In Dialekt gesprochene Audios und Videos könnten dann weitgehend fehlerfrei transkribiert werden. Damit könnten Passagen, die in bayerischen Dialekten gesprochen werden, auf Hochdeutsch untertitelt werden. „Der Klassiker ist das Landwirtschaftsmagazin „Unser Land“. Da kommen bayerische Landwirtinnen und Landwirte vor und die brauchen oft Untertitel, sonst versteht man sie nicht, wenn man nicht aus der Region kommt. Dieser Dialekt soll mit Speech-To-Text-Modellen transkribiert werden und je besser die funktionieren, desto weniger Korrektur-Aufwand hat die Untertitelredaktion“, sagt Constantin Förster vom BR-Archiv.
Außerdem würden sich Audios und Videos nach bestimmten Schlagworten durchsuchen lassen, das wäre zum Beispiel für die Suche nach bestimmten O-Töne nützlich. Auch für die Zusammenfassungen des Inhalts von Radiosendungen, die auf einer zuverlässigen Transkription beruhen, wäre ein Spracherkennungs-Modell, das Bayerisch versteht, nützlich.
Dieses Dialekt-Transkriptions-Projekt ist ein Paradebeispiel für eine praktische Kooperation zwischen Medien und Wissenschaft, die zu den erklärten Zielen des AI for Media Network zählt. Wir werden über den Projektforschritt berichten.
Wer jetzt neugierig geworden ist und selbst Mundart-Betthupferl anhören möchte, findet sie als Podcast in der ARD Audiothek – und überall, wo es Podcasts gibt. Die Mundart-Betthupferl erscheinen immer samstags.