Blackbox-Reporting

Published in

BR Next

6 min readAug 9, 2023

Wie Journalist*innen über KI und Algorithmen berichten können

Mit Tools wie ChatGPT oder Midjourney sind künstliche Intelligenz und Algorithmen im Bewusstsein der Gesellschaft angekommen — und damit auch in den Schlagzeilen. Wir von BR Data und dem AI +Automation Lab des Bayerischen Rundfunks teilen unsere erprobten Recherche-Ansätze, mit denen Journalist*innen KI-Systeme und Algorithmen untersuchen und hinterfragen können.

*Dieser Blogbeitrag ist die Kurzfassung unseres 19-seitigen* *Whitepapers* *“Blackbox Reporting”, das frei zum Download verfügbar ist.*

Von Katharina Brunner, Rebecca Ciesielski, Uli Köppen, Cécile Schneider
Design: Max Brandl

Berichterstattung zu Algorithmen und KI ist häufig in Technik-Ressorts verortet und nur wenige Medienhäuser investieren in investigative Recherchen zu Algorithmen, wie das Medienmagazin journalist berichtet.

Mit der gestiegenen Aufmerksamkeit wird KI zum Querschnittsthema, das ebenso wie etwa der Klimawandel viele verschiedene Fachredaktionen betrifft: In Wirtschaft, Medizin, Landwirtschaft und vielen anderen Bereichen spielen KI und Algorithmen eine immer wichtigere Rolle.

Hier befindet sich die ausführliche Version des Artikels als Whitepaper zum Download.

Fakten gegen übertriebene Ängste und Hoffnungen

Dabei gewinnen investigative und erklärende Ansätze an Relevanz, um übertriebenen Ängsten und Hoffnungen Fakten entgegenzusetzen. Der amerikanische Journalismus-Forscher Nicholas Diakopoulos hat den Begriff „Algorithmic Accountability Reporting“ geprägt. Der Datenjournalist Lorenz Matzat hat diese Recherche-Methoden übersetzt mit „Rechenschaft für Rechenverfahren“.

Damit gemeint sind das Recherchieren und Berichten zu Algorithmen. So können wir menschliche Entscheidungen hinter algorithmischen Systemen sichtbar machen, damit Akteure wie Firmen oder Regierungen für ebendiese Entscheidungen zur Verantwortung gezogen werden können.

Was braucht man für Algorithmic Accountability Reporting?

Algorithmic Accountability Reporting ist ein junges Genre. Für das Berichten über Algorithmen notwendig sind tiefes technisches Verständnis, Statistikkenntnisse, journalistisches Handwerk und Erfahrung bei der Wahl der richtigen Recherchestrategie für das System, das untersucht werden soll.

Der Bayerische Rundfunk hat früh in journalistische Technik-Expertise investiert und 2015 das datenjournalistische Team BR Data gegründet. Das Team arbeitet eng mit den investigativen Journalist*innen bei BR Recherche zusammen. 2020 kommt das AI + Automation Lab hinzu und bringt Kompetenz in den Bereichen Machine Learning, künstliches Generieren von Sprache (Natural Language Generation) und Produktentwicklung mit.

Interdisziplinäre Zusammenarbeit zwischen Technik und Journalismus

Die Mitglieder unserer drei Teams arbeiten interdisziplinär an der Schnittstelle von Programmierung und Journalismus an investigativen Daten- und KI-Recherchen. Dabei haben wir uns auf technische Experimente und Datenanalysen spezialisiert, die Einblicke in das Funktionieren von KI-Systemen und Algorithmen ermöglichen.

Mit solchen Ansätzen haben wir wegweisende Recherchen veröffentlicht, die deutschlandweit und international wahrgenommen wurden, zum Beispiel:

Der Rohstoff der KI sind wir (2023 zu Trainingsdaten-Sammlungen)
Fairness oder Vorurteil? (2021 zu KI-Recruiting-Systemen)
Erhöhtes Risiko (2018 zur Funktionsweise der Schufa mit “Der Spiegel”)

Unsere Expert*innen für Algorithmic Accountability Reporting arbeiten hauptsächlich mit vier Recherche-Ansätzen, die wir im folgenden näher vorstellen.

1. Wichtig ist, was rauskommt: Recherche mit Experimenten

Für die Recherche „Zu sexy: Wie KI-Algorithmen Frauen benachteiligen können“ untersuchte ein BR-Reporterinnen-Team vier kommerzielle Bilderkennungssysteme.

Im Fokus: Dienste, die sexuelle Anzüglichkeit auf Bildern messen. Dafür haben wir mehr als 3.000 Bilder verschiedener Kategorien, von Unterwäsche über Sport bis zum Business-Look, bewerten lassen. Das Ergebnis: deutliche Hinweise auf geschlechtliche Diskriminierung (Gender Bias). Die Aufnahmen von Frauen werden im Vergleich zu Bildern von Männern häufiger als anzüglich eingestuft und büßen dadurch Sichtbarkeit im Internet ein.

BR-Reporter Max Osenstätter ohne und mit BH vor der Bewertungsskala der KI-Algorithmen: mit BH wird das Bild als viel anzüglicher eingeschätzt von der KI.

Um Blackbox-Algorithmen zu untersuchen, sind Experimente oft die einzige Möglichkeit einer Annäherung. Journalist*innen bestimmen die Eingaben (Input) für einen Algorithmus und beobachten die Ausgaben (Output) — was dazwischen passiert, ist für die Reporter*innen nicht einsehbar. Neben dem Sammeln von ausreichend Daten ist es dabei wichtig, mögliche unterwünschte Einflüsse auf der Input-Seite so weit wie möglich zu eliminieren.

Wir nutzen diese Art von Experimenten, um zu verstehen, ob Algorithmen tun, wofür sie vorgesehen sind oder ob die Systeme diskriminieren, fehlerhafte und damit unbrauchbare Ergebnisse liefern, oder ihre Nutzer*innen auf manipulative Weise beeinflussen.

Weitere Beispiele:

2. Software auf dem Prüfstand: Recherche mit technischen Experimenten

Um herauszufinden, ob Apps heimlich zuhören können, haben wir die Smartphone-Betriebssysteme Android und iOS auf den Prüfstand gestellt. Wir haben für die Recherche eine eigene Smartphone-App programmiert. Sie zeigt, dass bei älteren, aber weit verbreiteten Android-Versionen alle Apps unter bestimmten Umständen völlig unbemerkt Audio-Signale mitschneiden können. War der Bildschirm ausgeschaltet, die App aber nicht geschlossen, klappte die versteckte Aufnahme über eine Stunde lang.

In einem weiteren Test konnten wir zeigen, dass auch Programme, die auf PCs laufen, unter Umständen lange heimlich filmen, zuhören und den Bildschirminhalt abfotografieren können.

Für diese Recherche haben Programmierer*innen mit Journalist*innen eng zusammengearbeitet.

Mit solchen Tests und Methoden des Reverse-Engineerings — also der technischen Analyse von Systemen — untersuchen Journalist*innen die Funktionalität und Sicherheitslücken von Software. Dass die Ergebnisse dieser Recherchen auf breites Interesse stoßen, zeigt die Puls Reportage „Können iPhone und Android Handys heimlich mithören? Wir programmieren Apps, um das zu beweisen!“, die über eine Million Aufrufe auf YouTube zählt.

3. Recht auf Einblick: Recherche mit juristischen Mitteln

Wir haben sogenannte „Selbstauskünfte“ von Lieferando-Fahrer*innen ausgewertet, um herauszufinden, ob die Lieferando-App die Beschäftigten unzulässig überwacht. Diese hatten mehrere Rider gemäß der europäischen Datenschutz-Grundverordnung (DSGVO) von ihrem Arbeitgeber angefordert.

Aus den Unterlagen geht hervor, dass die App für eine einzige Essenslieferung 39 Datenpunkte erhebt: Sekundengenau ist nachvollziehbar, wann ein Fahrer eine Bestellung zugeteilt bekommt, diese abholt und ausliefert. Zusätzlich wird hinterlegt, ob der Rider einzelne Zeitvorgaben einhält oder nicht. Kommt ein Fahrer zu spät bei einem Restaurant oder Kunden an, wird das vermerkt.

Die Daten sind personalisiert, können also einzelnen Arbeitnehmerinnen oder Arbeitnehmern zugeordnet werden. In einigen uns vorliegenden Fällen wurden so für vollbeschäftigte Rider in einem Jahr mehr als 100.000 Datenpunkte erfasst.

Überwachung mit Daten war das Thema bei der Lieferando-Recherche.

Seit Inkrafttreten der DSGVO haben Personen das Recht, Auskunft darüber zu verlangen, welche personenbezogenen Daten Unternehmen und Arbeitgeber über sie speichern. Je nachdem, wie detailliert die Antworten ausfallen, eignen sie sich als Tool für investigative Recherchen über Algorithmen, die in die Privatsphäre von Menschen eingreifen.

Auch die Geschichte “Der Rohstoff der KI sind wir”, in der BR-Journalistin Elisa Harlan ihr persönliches Foto durch Sammlungen von KI-Trainingsdaten verfolgt, nutzt diese Methode.

4. Erklär mir den Algorithmus: Interviews und Anfragen

Das Ehepaar Peter und Erika S. aus dem Landkreis München ist in der höchsten Priorisierungsgruppe für die Corona- Schutzimpfung. Er ist 81 und wurde bereits einmal geimpft, seine 80-jährige Ehefrau wartet seit Wochen. Beide haben sich über die Software BayIMCO des Freistaats Bayern für einen Impftermin registriert. Doch nach welchen Kriterien die Termine genau vergeben werden, ist ihnen nicht klar.

Das Terminvergabe-System BayIMCO ordnete 2021 jeder registrierten Person einen Scorewert zu. Bei älteren Menschen entsprach dieser Wert dem Alter. Jüngere erhielten einen Zufallswert, der der Altersverteilung der Priorisierungsgruppe entsprach — in der Prio-Gruppe 1 etwa ein Zufallswert zwischen 80 und 90. Je höher der Wert, desto schneller bekommt man einen Termin.

Dieses „Würfeln“ war möglicherweise der Grund, warum die 80-jährige Erika S. lange auf ihren Impftermin warten musste. Statistisch war sie mit ihrem verhältnismäßig niedrigen Altersscore gegenüber den zugeteilten Zufallszahlen im Nachteil.

Für die Impf-Recherche reichten Fragen zum Algorithmus aus.

Um genauer zu verstehen, wie der Algorithmus funktioniert, konnten wir mit dem Einverständnis des Ehepaars im örtlichen Impfzentrum Oberhaching deren Datenbankeinträge einsehen. Diese Daten sowie Interviews mit Betreiber*innen von Impfzentren und Anfragen an das bayerische Gesundheitsministerium lieferten konkrete Hinweise, warum der bayerische Impfalgorithmus ältere Menschen benachteiligte. Hier geht’s zum Artikel.

Die Teams

Die drei Teams BR Data, BR Recherche und das AI + Automation Lab arbeiten zusammen mit zahlreichen Kolleg*innen im BR und in der ARD an diesen Recherchen. Die Recherchen haben dabei die BR-Ethik-Guidelines zum Einsatz von KI und Automatisierung im Blick, die die Leitplanken für den verantwortlichen Einsatz von Technologie im BR sind.