Sind Künstliche Intelligenzen die besseren Journalist:innen?

Marco Lehner
BR Next
Published in
8 min readDec 21, 2021

Von Computern geschriebene Texte werden im Journalismus irgendwo zwischen Schreckensszenario und universalem Glücksversprechen gehandelt. Im AI + Automation Lab des BR arbeiten wir mit verschiedenen Technologien zur Textgenerierung, wie z. B. Neuronalen Sprachmodellen wie GPT-3 sowie anderen Technologien auf Basis von künstlicher Intelligenz (KI). Aber was eignet sich wirklich für den Einsatz im Journalismus und kann KI tatsächlich wie ein Mensch schreiben? Wir fassen unsere Erfahrungen für euch zusammen.

Bild: Alina Constantin / Better Images of AI / Handmade A.I. / CC-BY 4.0

Als der Guardian im letzten September einen von einem Computer geschriebenen Artikel veröffentlichte, fragten die Autor:innen provokativ in der Überschrift: “Are you scared yet, human?” Und spielten damit auf die Angst von Journalist:innen an, irgendwann von KI ersetzt zu werden.

Der Guardian benutzte das Sprachmodell GPT-3, um den Artikel zu generieren. Sprachmodelle sind mathematische Modelle, die natürliche Sprache abbilden sollen. Dafür werden sie auf einer großen Menge an Text trainiert.

Wo sind all die Texte von Maschinen?

Die journalistische Karriere von GPT-3 ist seitdem ziemlich stagniert — im Lab ist uns nur noch eine Buchrezension in der New York Times aufgefallen, die zu Teilen von GPT-3 geschrieben wurde¹. Und auch der Artikel im Guardian ist nicht allein von einem Computer verfasst:

GPT-3 produced eight different outputs, or essays. Each was unique, interesting and advanced a different argument. The Guardian could have just run one of the essays in its entirety. However, we chose instead to pick the best parts of each, in order to capture the different styles and registers of the AI.

Bei diesem Text von GPT-3 hat also ein Mensch eingegriffen. Aber: Viele maschinell erstellte Texte werden seit Jahren veröffentlicht, auch bei uns im BR. Bei diesen Texten kommen Verfahren zum Einsatz, die stärker daten- und regelbasiert sind. Das macht sie berechenbar und verlässlich.

GPT-3 und die Fakten: Es ist kompliziert

In unserem Experiment im Rahmen der Journalism AI Collab der London School of Economics haben wir Infokästen für Klimawandelthemen mit Hilfe von KI- und Automatisierungsverfahren erstellt.

Damit haben wir die Faktentreue von GPT-3 auf die Probe gestellt. Unser System sollte zu einem beliebigen Artikel automatisch einen Infokasten mit den wichtigsten Hintergrundinformationen erstellen. Den Inhalt des Infokastens bezogen wir aus einer Datenbank des Science Media Center. GPT-3 sollte dann die Statements aus der Datenbank zu einem flüssigen Text zusammenschreiben.

Beispiel eines Infokastens wie er bereits auf BR24 eingebettet wird.

Im nächsten Schritt gaben wir diese Texte unseren Kolleg:innen, die die Infokästen schreiben. Und die erste Abnahme zeigte: Im generierten Text tauchte eine erfundene Zahl auf! Danach war der Kollegin klar: Jede einzelne Aussage des Textes muss kontrolliert werden.

Bis hierhin ist dies nicht unüblich, denn die Schlussredaktion macht das auch mit Texten, die von Menschen geschrieben werden. Allerdings geben diese ihre Quellen an. GPT-3 macht das nicht und deshalb dauert der Fact-Check der Texte unfassbar lange. Denn wenn in dem Text etwa eine konkrete Zahl genannt wird, muss genau diese Zahl auch be- oder widerlegt werden.

Wenn diese Zahl aber vom Sprachmodell frei erfunden ist, so kann es ziemlich zeitaufwändig und schwierig werden, das herauszufinden. Das Fazit der Kollegin lautete deshalb: Es ist einfacher und schneller, den ganzen Text selbst zu recherchieren und zu schreiben statt den geschriebenen Text abzunehmen.

Sprach-KI verantwortlich einsetzen

An diesem Beispiel zeigt sich ein wichtiger Grundsatz für den Einsatz von KI, wie er in den Richtlinen des AI + Automation Labs festgeschrieben ist:

“Unser Prüfstein für den Einsatz: Bietet die Technologie den Mitarbeitenden im BR und unseren Nutzer:innen tatsächlich einen Mehrwert?

Unsere Journalist:innen bleiben dabei unersetzlich. Die Arbeit mit neuen Technologien wird ihren Beitrag zusätzlich stärken und neue Aktivitäten und Rollen in den Redaktionen mit sich bringen.”

KI ist kein Selbstzweck, sondern soll uns helfen, besseren Journalismus zu machen. In unserem Experiment macht GPT-3 den Arbeitsablauf aber nicht einfacher, sondern sogar komplizierter. Deshalb werden wir GPT-3 für diesen Anwendungsfall nicht einsetzen.

Allerdings haben wir einiges über hybride Workflows gelernt und werden deshalb die Idee hinter den automatisierten Infokästen mit den Redakteur:innen aus dem Archiv weiterentwickeln.

Drei Arten von Automatisierung

Uns war es im Rahmen der JournalismAI Collab wichtig, verschiedene Herangehensweisen auszuprobieren und die Ergebnisse auch öffentlich zu reflektieren. Deshalb möchten wir die drei derzeit wichtigsten Ansätze zur Textgenerierung noch eingehender betrachten. Diese sind:

  1. Lückentext
  2. Regelbasierte Texte
  3. Sprachmodelle

In jeder der genannten Automatisierungsvarianten spielt die Erfahrung von Journalist:innen eine tragende Rolle. Wir zeigen euch, welche das sind.

Lückentext mit Daten

Die einfachste Variante der Textautomatisierung ist der Lückentext. Diesen benutzen wir im Lab etwa bei der Automatisierung des Corona-Newsletters.

Der Lückentext wird von Journalist:innen verfasst, so als ob sie einen normalen Artikel schreiben würden. Die Journalist:innen kennen den Datensatz, der hinter dem Artikel steht. Wenn sich die Daten verändern, passt sich der Text so daran an, wie es die Journalist:innen vorgesehen haben.

Im Lückentext können einzelne Wörter getauscht werden, wenn die Inzidenzen fallen oder steigen — aber in seinem Aufbau bleibt der Text gleich. Wenn etwas im Satzbau geändert werden soll, so muss der Satz von Menschen geschrieben werden und dem System als Alternative für gewisse Fälle übergeben werden.

Die Stärke dieser Form der Automatisierung ist es, dass Journalist:innen das Wording genau steuern können. Gerade beim Corona-Newsletter ist das wichtig: Gemeldete Neuinfektionen sind genau das — Neuinfektionen, die gemeldet wurden und nichts anderes. Sprachliche Varianz ist hier ein potenzielles Einfallstor für Fehler.

Der Lückentext wird dann einmal abgenommen, bevor er veröffentlicht wird. Die Möglichkeiten, die der Text annehmen kann, sind endlich und wir können jede Option einmal durchspielen, um sie zu überprüfen. Danach kann der Newsletter vollautomatisch verschickt werden, weil wir immer wissen, dass er korrekt ist.

Regelbasierte Texte mit Grammatik

Bei der Automatisierung der Basketball-Berichterstattung haben wir andere Herausforderungen. Hier sollen keine zwei gleichen Texte veröffentlicht werden. Deshalb arbeiten wir hier mit einem Gerüst aus Regeln, das vorgibt, wie die einzelnen Teile eines Satzes aneinandergereiht werden, aber nicht en détail wie jeder Satz auszusehen hat. Die Grundlage dafür ist immer noch eine Tabelle mit Daten.

Ein automatisch generierter Text über ein Spiel der Basketball Bundesliga und der Code der den Text geschrieben hat. Bild: Marco Lehner, BR.

So ist es leichter, die Sätze zu verändern. Wenn wir ein Synonym verwenden möchten, dann müssen wir uns etwa keine Gedanken um den Artikel machen: Wir sagen dem Programm einfach, dass wir manchmal statt “Team” das Wort “Mannschaft” verwenden wollen und es schließt daraus selbst, dass es in einem korrekten Satz “das Team” und “die Mannschaft” heißen muss.

Nachdem das Programm sich jeden Satz als Muster aus Regeln merkt, kann es Sätze auch von selbst umstellen, wenn wir das möchten. Anders als beim Lückentext müssen wir die Sätze dafür nicht neu schreiben.

Jeder erstellte Text wird ins CMS der Sportredaktion gegeben, damit er von Journalist:innen abgenommen werden kann. So können etwa wichtige Hintergrundinformationen hinzugefügt werden oder die Kolleg:innen ergänzen Inhalte, die nicht in den Daten zu finden sind.

Sprachmodelle und stochastische Papageien

Sprachmodelle generieren Texte, ohne dass ein:e Journalist:in Struktur oder Inhalt genau vorgeben kann. Für die Textgenerierung haben wir vor allem mit GPT-3 experimentiert, deshalb beschreiben wir unsere Erfahrungen mit diesem Modell. Die Erkenntnisse lassen sich nach unserer Einschätzung aber auf viele andere Modelle übertragen.

Bei Sprachmodellen kann die Struktur nicht vorgegeben werden und das bringt ein großes Problem mit sich, wie eines unserer Experimente gezeigt hat: Wie bereits beschrieben, tauchten in einem Infokasten zur Klimaerwärmung auf einmal Zahlen auf, die nicht im Input waren.

Auch nach längerer Recherche konnten wir keine Belege für die Zahlen finden — das Modell hat sie sich einfach ausgedacht. Wie kann das passieren?

Um einen Infokasten glattzuschreiben, geben wir dem Modell ein paar Beispiele. Diese bestehen aus einem Satz wie “Ich bin Wissenschaftsjournalist und möchte aus diesen Sätzen einen Artikel schreiben:”, worauf einige Kernaussagen des Infokastens folgen. Dann zeigen wir dem Modell wie der Infokasten dazu aussehen kann.

Das letzte Beispiel ist unser eigentlicher Input. Hier zeigen wir GPT-3 keinen Infokasten, sondern lassen ihn uns generieren, wie im Screenshot unten zu sehen ist. Der fett gedruckte Text ist unser Input, der dünn gedruckte Text wurde von GPT-3 selbst generiert.

Screenshot des Eingabefeldes für GPT-3. Der dicke Text ist unser Input, der dünne Text wurde vom Sprachmodell selbst generiert. Er zeigt die beschriebenen Fehler: GPT-3 erfindet den Namen des Wissenschaftlers und fügt im letzten Satz Aussagen hinzu, die nicht im Input stehen.

Durch die Beispiele wird es wahrscheinlicher, dass das Modell tatsächlich einen Infokasten liefert, weil es den einleitenden Satz und die Beispiele so ähnlich bereits in den Trainingsdaten gesehen hat. Aber wenn in diesem Kontext in den Trainingsdaten häufig konkrete Zahlen auftauchen, dann ist GPT-3 verleitet sie uns zu geben, auch wenn der Input das nicht hergibt.

Große Sprachmodelle wurden in einem Paper etwas despektierlich als “Stochastische Papageien” bezeichnet, denn sie verstehen den Text nicht, den sie schreiben, sondern plappern nach, was sie kennen und in dem Moment für den wahrscheinlichsten Output halten.

Indem wir GPT-3 Beispiele geben, erhöhen wir die Wahrscheinlichkeit für einen gewünschten Output. Nachdem das Modell aber nicht versteht, was der Input bedeutet, kann man nie sicher sein, dass der Output tatsächlich das ist, was man haben möchte.

Deshalb muss jeder Text eines Sprachmodells redaktionell abgenommen werden. Zwar sind die Texte stilistisch und sprachlich bedeutend vielfältiger als Texte aus den rigideren Kategorien. Die Abnahme ist im Vergleich zu den anderen beiden Methoden aber recht aufwändig und lohnt sich aus unserer Perspektive nur in Ausnahmefällen.

Unser Ansatz: Hohe Kontrolle durch hybride Workflows

Wenn wir Künstliche Intelligenz im BR einsetzen, fragen wir uns immer zuerst, welche Technologie der beste Match für die Problemstellung ist, die wir von unseren Usern geschildert bekommen.

Bei der Textgenerierung wägen wir ab, wie das Verhältnis von stilistischer Varianz und Kontrollierbarkeit im Ergebnis sein muss, und wählen dann aus unterschiedlichen Technologiegruppen die passende aus. Der nächste Schritt ist es dann, mit den Usern zusammen den richtigen Workflow zu finden und Verantwortlichkeiten und Abnahmeprozesse zu definieren.

Das Corona-Briefing mit den wichtigsten Zahlen zur Pandemie kann z.B. täglich automatisch veröffentlicht werden, weil die eingehenden Daten vom Robert Koch-Institut im Grundsatz immer nach dem gleichen Schema ankommen und aufbereitet werden.

Die automatisch generierten Artikel zu den Basketball-Spielen erstellen wir auf Basis von Daten des Deutschen Sportverlags. In den Texten kann allerdings nur stehen, was in den Daten vorkommt und beim Entwurf des Textes mitbedacht wurde.

Wenn etwas Außergewöhnliches passiert, wie ein Gleitschirm-Flieger, der ins Stadion fliegt wie bei einem Spiel der Fußball-EM, steht das nicht in den Daten — obwohl das vielleicht sogar das wichtigste Ereignis des Spiels war. In solchen Fällen muss der Mensch vor der Veröffentlichung nachbessern. Deshalb kommen die Artikel automatisch als Entwurf im CMS an, werden aber von der Sportredaktion geprüft, ergänzt und dann veröffentlicht.

Und — sind KI die besseren Journalist:innen?

Festzuhalten ist: Bei gut geeigneten Darstellungsformen wie dem Spielbericht, sind maschinell erstellte Texte von menschlich geschriebenen kaum zu unterscheiden. Doch bei der Konzeption, Kontrolle und Freigabe der Inhalte bleibt der Mensch unverzichtbar!

Die redaktionelle Verantwortung lässt sich nicht an einen Computer abschieben; einem Rechner fehlt das Verständnis von Wahrheit und er hat kein Wissen über die Welt da draußen. Weltwissen ist allerdings nötig, um zu beurteilen, ob ein Artikel die Wirklichkeit widerspiegelt.

Wenn die Workflows für die Abnahme gut funktionieren, können wir mit KI unseren Kolleg:innen die Arbeit erleichtern. So bleibt ihnen Zeit für kreative Aufgaben und Recherchen, die mehr Spaß machen, als Zahlenreihen aus Tabellen abzutippen.

Das AI + Automation arbeitet im BR an der Schnittstelle von Journalismus, Informatik und Produktentwicklung. Unsere Mission ist es, die Vorteile von KI und Automatisierung für den Journalismus nutzbar zu machen. Dabei achten wir besonders auf die ethische Dimension von neuen Technologien und dass unsere Lösungen einen Mehrwert für die Nutzer:innen bringen. Journalistisch liegt unser Schwerpunkt im Algorithmic Accountability Reporting.

¹ GPT-3 wird in vielen anderen Bereichen bereits sehr erfolgreich kommerziell eingesetzt: Paperwebsite.com benutzt es als Rechtschreibkorrektur, Duolingo um im Französisch-Kurs die Grammatik zu überprüfen und viele weitere Beispiele können auf gpt3demo.com eingesehen werden.

--

--

Marco Lehner
BR Next
Writer for

Data journalist and developer at the BR AI + Automation Lab.