KI-Experiment — BR-Podcast goes English
Kann Künstliche Intelligenz ein Beitrag zur Barrierefreiheit sein?
“Die US-Wahl, Trump und die Demokratie” ist unser Staffelthema im Oktober. Warum nicht KI nutzen und den BR-Podcast ins Englische übersetzen? Ein Experiment ist geboren. Was wir noch nicht ahnen: Die Lernkurve wird steil.
Autorin: Carola Brand, Politik und Hintergrund
Um es gleich vorwegzunehmen: Die Idee, mithilfe von KI eine ganze Podcaststaffel mit vier Folgen im Handumdrehen ins Englische zu transferieren, entpuppt sich als illusorisch. Viel zu aufwändig. Deshalb beschränken wir von der BR-Politikredaktion das Experiment auf eine Episode unseres Podcasts “Die Entscheidung”.
Hier die von der KI ins Englische übersetzte Folge: Die Entscheidung — “The call” — English version by KI — Die Entscheidung. Politik, die uns bis heute prägt | BR Podcast
Zunächst einmal macht die KI ihren Job. Aus den deutschen Sprachaufnahmen von Host Jasmin Brock und Reporter Jasper Ruppert generiert das Tool von ElevenLabs die englische Hörfassung mit “Tschasmin” und “Tschasper”. Die beiden haben die Oktober-Staffel des Politikpodcasts “Die Entscheidung. Politik, die uns bis heute prägt” recherchiert. Mit dem Thema “Die US-Wahl, Trump und die Demokratie” haben sie in der Podcastwelt einen Nerv getroffen, sie avanciert zur meistgehörten Staffel unseres noch jungen Podcasts.
💡 Das Team aus der Politikredaktion nimmt sich jeden Monat eine historische Entscheidung vor und fragt, wie diese heute noch unser Leben beeinflusst. Im Oktober ist das Thema Donald Trump, der 2020 seine Niederlage gegen Joe Biden nicht anerkennt und im Januar 2021 beim Wahlleiter in Georgia anruft, damit der dem Noch-Präsidenten die fehlenden Stimmen für eine zweite Amtszeit beschafft.
Hier die deutsche Folge: (1/4) Der Anruf | Die US-Wahl, Trump und die Demokratie — Die Entscheidung. Politik, die uns bis heute prägt | BR Podcast
Jasmins Wow-Moment: Bin ich das?
“Ich bin’s, ich bin’s auch nicht — ein richtiger Twist. Klingt sehr, sehr echt”, ist Jasmin Brocks Reaktion, als sie den ersten KI-generierten Probe-Clip hört: “Ich bilde mir ein, ich höre mich selbst.” Sie findet, die Sprachmelodie passt — das Tempo, die Pausen, die Intonation. Und so mühelos wie die KI hätte sie die englische Version wohl nicht hingekriegt, räumt Brock ein, auch wenn ihr eigenes Englisch sehr gut sei.
Die künstliche Intelligenz schafft den Stimmentransfer ins Englische mit etwas menschlicher Nachhilfe “fast beängstigend gut”, stellt Politik-Teamleiter Ingo Lierheimer fest. Jasmin Brock, die dem Experiment ebenso wie ihr Podcast-Reporter Jasper Ruppert zuvor schriftlich zugestimmt hat, findet die KI-Performance aber auch “gruselig” und fragt sich mit Blick auf die Zukunft: “Was, wenn jemand die Technik missbraucht?”
Regel Nummer 1: KI muss Mehrwert bieten
Der BR ist sich der Risiken bewusst und setzt solchen Experimenten mit KI klare Grenzen: “Wir setzen nur Technologie ein, die den Mitarbeitenden im BR und unseren Nutzenden einen tatsächlichen Mehrwert bietet. Dabei bleiben unsere Mitarbeitenden unersetzlich”, heißt es in den KI-Richtlinien des Bayerischen Rundfunks.
💡 Dem BR geht es darum, Machine-Learning-Modelle zu benutzen, etwa um die journalistische Arbeit effizienter zu gestalten und dem Publikum einen Mehrwert bieten zu können. Gleichzeitig müssen “Wirkungen und Nebenwirkungen” bedacht werden. Redaktionelle Kontrolle und Transparenz müssen dabei in Menschenhand bleiben, legt die KI-Richtlinie des BR fest: “Die Verantwortung für automatisiert erstellte Inhalte liegt immer bei Menschen und Redaktionen, nie bei dem System, das die Inhalte erstellt hat.”
Ziel: Barrierefreiheit
Für unser Experiment heißt das: Wir müssen dem KI-Board des BR genau begründen, was der Mehrwert für die Hörerinnen und Hörer sein könnte. Dass wir mit einer englischen Version über Deutschland hinaus User und Userinnen gewinnen könnten, zählt nicht. Unser Argument ist ein anderes: Wir wollen für mehr Barrierefreiheit sorgen. Unseren Podcast sollen auch Menschen verstehen können, die zwar hier leben, aber besser Englisch als Deutsch sprechen.
Wir bekommen das Go für das Experiment, immerhin bietet sich die Chance, perspektivisch auch andere Sprachen zu generieren. Das kann nützlich sein in Situationen, in denen Nachrichten für möglichst viele zugänglich gemacht werden müssen — während der Corona-Pandemie gab es etwa die wichtigsten Meldungen zu Pandemie-Regeln mehrsprachig im BR.
Auflagen des KI-Boards sind: Für die Hörerinnen und Hörer muss transparent gemacht werden, dass KI benutzt wurde. Darauf weisen wir im Podcast mehrmals hin, ebenso im Text der Folgenbeschreibung. Zudem werten wir unsere Erfahrungen aus und bedienen auch die Meta-Ebene: In BR24 Medien greifen wir das Thema auf und berichten darüber. Beide Audios — KI-Übersetzung und Mediensendung — bieten wir auf den Podcast-Plattformen im Paket an, BR24 Medien auch linear im Radio.
Den Einsatz Künstlicher Intelligenz erprobt für den BR das AI + Automation Lab, eine eigene Redaktion, die mit ihrer Expertise das Experiment der Politikredaktion unterstützt.
💡 Das AI + Automation Lab arbeitet interdisziplinär im BR an der Schnittstelle von Journalismus, Informatik und Produktentwicklung. Das Team beschäftigt sich mit Künstlicher Intelligenz und Automatisierung, um sie für einen nutzerzentrierten Journalismus einzusetzen und investigativ zu hinterfragen.
Leiterin des AI + Automation Lab im BR ist Uli Köppen, die ein junges Team leitet. Dazu gehört Luca Zug.
Für die KI-Übersetzung des Podcasts “Die Entscheidung” nutzt Luca Zug den Text-To-Speech and AI Voice Generator von ElevenLabs. Podcast-Host “Tschasmin” aka Jasmin Brock ist auf Anhieb erkennbar. Mit Jasper Ruppert tut sich die die Künstliche Intelligenz hörbar schwerer. Das von ihm immer wieder verwendete Stilmittel der Ironie oder auch mancher Schalk in der Stimme bekommt der Generator nur semi-gut transferiert.
KI-Tschasper bleibt seelenlos, obwohl Luca Zug das Maximum an Varianz aus dem Generator herausholt und obwohl er über das Voice-to-Voice-Tool sogar seine eigene Intonation im Studio hinzugibt, um die Emotionalität zu verbessern.
KI klont deutschen Akzent
Auch die Gesprächsatmosphäre, die im Podcast von starken Dialogen zwischen Host und Reporter lebt, bleibt bis zum Ende sehr steril. Inhaltlich wirkt die Übersetzung tadellos. Allerdings ist der deutsche Akzent von Host und Reporter deutlich hörbar. Die Voreinstellungen der KI sind im Punkt “Similarity” zweischneidig: Je ähnlicher die Stimmen ihrem Original klingen, umso deutscher wird es auch in der englischen Fassung.
Und noch etwas bereitet allen Beteiligten Kopfzerbrechen: Die KI als Assistenzsystem erweist sich als betreuungsintensiv. Statt personelle Ressourcen und Zeit zu sparen, entpuppt sich die Mischung als enorm aufwändig. Einen ganzen Produktionstag verbringen Studiotechniker Helge Schwarz und KI-Experte Luca Zug damit, die KI-generierten Clips immer wieder anzupassen und so zu mixen, dass der Dialog geschmeidiger klingt. Viel mehr Zeit hätte eine Neuproduktion auch nicht benötigt. Wohl aber noch mehr Personaleinsatz — immerhin mussten Host und Reporter für die englische Version des Podcasts nicht mehr extra antreten.
Doch selbst die professionellste Mischung kann das Team in der Produktion am Ende nicht darüber hinwegtäuschen: Der Podcast ist KI-generiert und über eine Länge von 40 Minuten potenziell anstrengend zum Hören. Zu allem Überfluss sind alle nach dem überraschend großen Aufwand entsetzlich genervt. Wir hatten uns die Umsetzung einfacher vorgestellt, hätten uns das Ergebnis organischer gewünscht.
Bis die KI auch Dialog und Emotionen lernt, ist es vermutlich nur eine Frage der Zeit. Was den Aufwand angeht, gäbe es schon eine Lösung. Darauf weist auch AI+Automation Lab-Mitarbeiter Luca Zug hin: Man könnte einen solchen Übersetzungs- und Voice-to-Voice Generator in die BR-eigene Technik implementieren. Aber die Entscheidung muss auf einer ganz anderen Ebene fallen und sie muss die BR-Standards im Blick haben.
Volle Transparenz für User
Denn: Die Authentizität leidet unter dem Einsatz von KI, ebenso wie die Transparenz: Wie kann man überhaupt noch erkennen, ob man echte Menschen hört oder eine schlaue Maschine? Deshalb sind unsere Transparenz-Regeln wichtig: Wenn KI für ein Medienprodukt genutzt wird, muss erklärt werden, wo und wie Technologie zum Einsatz kommt.

