Offene Machine-Learning-Modelle in der öffentlichen Verwaltung

Ein mehrstufiger Vorschlag für vollständige Transparenz beim Einsatz von Machine-Learning-Algorithmen im öffentlichen Sektor

Christian Ruiz
OpenZH
8 min readMay 18, 2022

--

Hinweis: Dieser Beitrag wurde ursprünglich am 10. Dezember 2021 auf dem Z01-Blog von Christian Ruiz publiziert.

Der Bedarf nach rechtlichen und ethischen Leitplanken im Umgang mit Machine-Learning-Algorithmen (ML) wächst bei staatlichen Akteuren rasant. Diese haben zunehmend nicht nur die Regulierung von Unternehmen im Blick, sondern sie sind auch selbst Technologienutzende geworden. Das Gebot nach Transparenz findet man in allen Leitlinien und Studien dazu wieder, da es für das Vertrauen in den öffentlichen Sektor zentral ist. Das Vertrauen beruht auf Grundpfeilern wie Nichtdiskriminierung, Legalität und Legitimität staatlichen Handelns. Doch fehlen konkrete Vorgaben, wie eine solche Transparenz genau erreicht werden kann. Folgend wird ein mehrstufiges praxisnahes Konzept vorgeschlagen.⁰

Titelseite der Studie der Universität Basel und Algorithm Watch Schweiz

Dieser Beitrag lehnt sich in theoretischer Hinsicht stark an die Studie «Einsatz Künstlicher Intelligenz in der Verwaltung: rechtliche¹ und ethische Fragen»² an, die eine wichtige Lücke schliesst. Der ethische Teil der Studie behandelt sieben ethische Grundsätze — einer davon ist Transparenz.

Was Transparenz leistet

Die Studie erwähnt vier unterschiedliche Transparenztheorien³:

  1. Eine davon ist die Stärkung der kollektiven Autonomie, die für die öffentliche Debatte in demokratischen Prozessen essenziell ist. Das ist auch eine Grundauffassung, die man in Leitlinien der OECD und der Europäischen Kommission findet: Transparenz ermöglicht den Bürger:innen nachzuvollziehen, wie «ML-basierte Entscheidungen zustande kommen, um diese anfechten zu können»⁴. Nachverfolgbarkeit und Erklärbarkeit⁵ machen dadurch einen wichtigen Teil der Transparenz aus.
  2. Transparenz kann auch eine Rolle als «Desinfektionsmittel» haben (Die Studie zitiert dabei Louis Brandeis: «Sonne ist das beste Desinfektionsmittel»⁶). Wenn ein Prozess offengelegt ist, dann führt dies zu einer Vermeidung von unethischen Verhalten aber auch zu einer generellen Schadensvermeidung durch unbeabsichtigte Elemente.
  3. Transparenz kann auch zu technologischer Optimierung durch den aktiven Einbezug eines grösseren Netzwerks führen. Experten und Laien können dadurch Verbesserungen vorschlagen.
  4. Zuletzt kann Transparenz, neben der erstgenannten kollektiven Autonomie, auch die individuelle Autonomie stärken, da das Individuum durch Information eine fundierte Entscheidung treffen kann.

Berechtigt könnte man kritisieren, dass ein Blick auf die Transparenz allein andere wichtige Grundprinzipien ausser Acht lässt. Ich würde aber behaupten, dass es ohne Transparenz nicht geht: Sie ist notwendig, aber nicht ausreichend, um die ethischen Bedürfnisse abzudecken. Dazu kommt, dass die oben genannten vier Transparenzdimensionen sich stark mit den anderen sechs Grundsätzen der Studie überschneiden. Ohne diese Grundsätze hier im Detail zu beschreiben, möchte ich einige Beispiele geben:

  • «Schadensvermeidung» und «Benefizienz»: Man kann einen ML-Algorithmus am besten entwickeln, wenn der gesamte Prozess transparent ist. So kann man auch ungewollten Schaden abwenden, da Fehler, Biases u.ä. früh erkannt werden. Die «Möglichkeit, mithilfe von KI-Systemen Gutes zu tun»⁷, lässt sich mit Transparenz besser bewerkstelligen, da man vor, während und nach der Implementierung überprüfen kann, ob man wirklich Gutes tut.
  • «Gerechtigkeit und Fairness»: Je transparenter der gesamte Prozess ist, desto wahrscheinlicher wird es, dass «nur faire und gerechte Datensätze verwendet werden», dass «angemessene Funktionen, Prozesse und analytische Strukturen in die Modellarchitektur aufgenommen werden», dass «das System [keine] diskriminierende Auswirkungen hat», und dass «das System unvoreingenommen implementiert» wird⁸.
  • «Autonomie»: Deckt sich sehr stark sowohl mit der kollektiven wie auch mit der individuellen Autonomie, die oben beschrieben wurde.
  • «Kontrolle» und «Rechenschaftspflicht»: Beide instrumentellen und aufsichtsrechtlichen Elemente bedingen, dass man kontrollieren und für etwas rechenschaftspflichtig sein kann. Transparenz erscheint mir dafür eine wichtige Voraussetzung.

Wie Transparenz schaffen — vier Stufen

Wie könnte eine praxisnahe Umsetzung von Transparenz über ML-Algorithmen aussehen, welche die ethischen Erwartungen auch erfüllt?

Stufe 1

Die aktuelle Praxis in einigen Ländern stellt die Kommunikation und Offenlegung der verwendeten Algorithmen in den Mittelpunkt. Dabei gibt es zwei Alternativen:

  • Ein technischerer Ansatz in Grossbritannien sieht neu einen «Algorithmic transparency data standard»⁹ vor, mit dem man sehr detailliert eine möglichst genaue Dokumentation von im öffentlichen Sektor verwendeten Algorithmen erstellen kann.
  • Statt eines technischen Zielpublikums lässt sich auch eine grössere Öffentlichkeit erreichen: u.a. die Städte Amsterdam und Helsinki haben dies mit einem Register erreicht, in dem jeder Algorithmus in einigen Paragraphen mit Ziel und Zweck erläutert wird¹⁰.

Transparenz wird dabei bloss als Kommunikation verstanden. Dabei kann man durchaus auch detailliert erklären, welche Überlegungen und Massnahmen man z.B. gegen Nichtdiskriminierung oder zur Schadensminimisierung durchgeführt hat. Aber es bleibt bei einer Dokumentation, die man nicht nachprüfen oder nachrechnen kann. Nichtsdestotrotz ist es ein absolutes Minimum, ein solches Register mit öffentlich zugänglichen Informationen zu haben.

Stufe 2

In einer zweiten Stufe könnte man sowohl Computercode als auch Machine Learning Modelle offenlegen. Das ist zwar eine technische Forderung, aber sie ermöglicht zivilgesellschaftlichen und privaten Akteuren den vollständigen Zugang zum Algorithmus. Und in der Regel dürfte es kein Problem für Verwaltungen darstellen, beides zu veröffentlichen.

Die Formel aus dem Modell¹¹ ermöglicht die exakte Nachberechnung eines Resultats: Man setzt die Inputwerte ein und erhält den vom Algorithmus berechneten Output. Ein «Modell» kann man sich auch als eine Datei vorstellen: In der Praxis kann beim Trainieren eines Algorithmus eine Datei abgespeichert werden, die dann zur Berechnung verwendet werden kann. Man könnte diese Datei öffentlich zugänglich machen.

(Bild: CC0 / Pixabay / Elchinator)

Neben dem offenen Computercode und den offenen Modellen, stellt sich auch die Frage nach offenen Behördendaten (Open Government Data, OGD). Hier setzt sich in der Verwaltung bereits das Prinzip «open by default» durch, das besagt, dass alle nicht schützenswerten Daten veröffentlicht werden sollen.

Falls es sich um schützenswerte Daten handelt, könnte man drei Sachen andenken:

  • Einerseits kann man mittels Datenschutzverträgen in bestimmten vordefinierten Fällen unter bestimmten Bedingungen den Zugriff auf die Daten erhalten.
  • Zweitens könnte man in einer «KI-Sandbox» oder geschützten Umgebung einen Zugang bekommen, wie das gerade im Kanton Zürich, und davor schon in Grossbritannien, Norwegen und Frankreich versucht wird¹².
  • Drittens könnte man einen Beispieldatensatz mit synthetischen Daten mitliefern, so dass zumindest die Schwelle für die Nachvollziehbarkeit möglichst gering ist. Da ‘Bias’ auch als Muster in den Daten selbst entstehen kann, ist dies nicht die geeignetste Variante.

Stufe 3

Eine nächste Stufe von Transparenz wäre erreicht, wenn der Lebenszyklus eines Algorithmus vollständig erfasst werden würde. Dies bedingt zwei Elemente:

  • Erstens, und zusätzlich zur Veröffentlichung der Modelle und des Computercodes, stellt sich die Frage nach einer strikten Versionierung. Was bei Computercode geläufig ist, wird in der Industrie teilweise auch bei ML-Modellen angewandt. Denn nur so kann man rückwirkend vollständig nachvollziehen, welcher Algorithmus in welchem Moment verwendet wurde. In der Praxis werden die Modelle häufig aktualisiert oder verändert. So kann diese dynamische Komponente mitberücksichtigt werden.
  • Zweitens braucht es eine regelmässig stattfindende Kontrolle — ein Monitoring, das öffentlich ist und mindestens jährlich stattfindet. Ähnlich dem britischen «algorithmic data transparency standard», könnte man sich auch hier eine Art Standardprotokoll überlegen. Dieses Monitoring ermöglicht auch zu erkennen, ob die Ziele und der gewünschte Nutzen erreicht wurden.

Stufe 4

Ein offenes ML-Modell bleibt eine «black box», da man das Innere eines komplexen Algorithmus nicht menschlich simpel nachvollziehen kann. Diese Problematik basiert auf «Ockhams Dilemma»: Man kann entweder Algorithmen mit sehr genauen Vorhersagen oder menschlich verständliche/interpretierbare Algorithmen haben, aber nicht beides gleichzeitig¹³. Beispielsweise werden simplere Regressionen in der Wissenschaft verwendet, da dort die Erklärbarkeit und nicht die genauste Vorhersage im Mittelpunkt stehen. Eine weitere Stufe wären deshalb begleitende simplere Algorithmen (z.B. lineare Modelle oder Ceteris-Paribus-Annahmen¹⁴) parallel zu trainieren und zu veröffentlichen.

S. 18 aus Schlussbericht Plausi++ zeigt den Ceteris-Paribus-Ansatz, um die berüchtigte «black box» zu öffnen.

Ein solcher Ansatz wurde im Bundesamt für Statistik im Pilotprojekt Plausi++ versucht: Der komplexe Algorithmus war für die genauste Berechnung der Plausibilisierung zuständig, während ein simples Modell eine menschlich verständliche Erklärung für die Entscheidung der Plausibilisierung liefern soll¹⁵.

Technisch könnte es sein, dass dies nicht in allen Anwendungsfällen möglich ist oder zu guten Resultaten führt. Aber selbst bei Bilddaten kann man mit linearen Modellen Erklärungsansätze für die Entscheidungen erhalten: So kann man beispielsweise den Bildabschnitt gezeigt bekommen, der für die Vorhersage am relevantesten war¹⁶.

Einschätzung und offene Fragen

Die vorgestellten vier Stufen stellen einen neuen praxisnahen Vorschlag für eine vollständige Transparenz dar. Wie oben erwähnt, denke ich, dass Transparenz eine notwendige aber nicht ausreichende Bedingung ist, um die in der Theorie behandelten ethischen Erwägungen ganzheitlich zu erfüllen. Somit müssen zwangsläufig weitere Überlegungen angestellt werden.

Beispielsweise kann Transparenz einen diskriminierenden Effekt eines Algorithmus sichtbar machen, aber dadurch ist die durch ihn entstandene Diskriminierung noch nicht beseitigt — «Diskriminierung kann auch transparent, nachvollziehbar und verstehbar erfolgen»¹⁷.

Weiter gibt es Fälle, wo «bias» nicht vermieden werden kann¹⁸. Prof. Rayid Ghani zeigte beispielsweise an einer Präsentation an der EPFL Anwendungsfälle auf, bei denen ein Algorithmus entweder auf Effizienz, Gleichheit oder Gleichwertigkeit optimiert werden kann — mit unmittelbaren Nachteilen für die jeweils anderen beiden Dimensionen¹⁹.

Auf bewährte Prinzipien setzen — z.B. CARE

Ein Transparenzverständnis, wie es hier beschrieben wird, ist in der öffentlichen Verwaltung gerade im Bereich der Datenbewirtschaftung nicht neu: So haben sich offene Behördendaten und Prinzipien wie «open by default» weiter durchgesetzt.

Ein weiteres Puzzleteil (Bild CC0 / Pixabay / Alexas_Fotos).

Eine vollständige Transparenz im Einsatz von ML-Algorithmen ist ein weiteres Puzzleteil in diesem bereits existierenden Selbstverständnis. Es zeigt sich , dass man bestehende Grundprinzipien in der Datenbewirtschaftung auf angepasste Weise auch auf Algorithmen anwenden könnte, ohne das Rad neu zu erfinden — z.B. die vier CARE-Prinzipien²⁰:

  1. Collective Benefit: Machine-Learning-Ansätze müssen einen öffentlichen und öffentlich legitimierten Nutzen haben.
  2. Authority to Control: Die Stärkung der kollektiven wie auch individuellen Autonomie.
  3. Responsibility: Verantwortung im Umgang mit den Modellen, Prozessen und Daten.
  4. Ethics: Schadensvermeidung und Benefizienz im gesamten Lebenszyklus eines Algorithmus.

[0]: Ich bedanke mich sehr herzlich bei allen Personen, die mir Feedback zu diesem Blogartikel gegeben haben!
[1]: Nachtrag am 20.12.2021 aufgrund von juristischem Feedback zur Präzisierung des Begriffs Transparenz: Juristisch kann hier Transparenz “am ehesten … i.S. des Öffentlichkeitsgesetzes verstanden werden, nämlich dahingehend, dass breite Kreise (Zivilgesellschaft, Medien, Interessierte etc.) Zugang zu den Informationen erhalten. Eine andere Form der Transparenz verlangt das Datenschutzgesetz (nämlich die Transparenz über die Nutzung der eigenen Daten). Und noch einmal etwas anderes ist die Tranparenz i.S. der verfassungsrechtlichen Begründungspflicht (bei staatlichem ADM), welche die grds. Nachvollziehbarkeit einer Entscheidung im Einzelfall fordert”. Vielen Dank an Prof. Dr. iur. Nadja Braun Binder für diese Präzisierung!
[2]: «Einsatz Künstlicher Intelligenz in der Verwaltung: rechtliche und ethische Fragen», Juristische Fakultät der Universität Basel und Algorithm Watch Schweiz, siehe S. 72 ff.
[3]: ibid.
[4]: AI-Principles der OECD 2018, übersetzt durch den Autor.
[5]: Ethik-Leitlinien für eine vertrauenswürdige KI der Europäischen Kommission, 2018, siehe z.B. S. 17.
[6]: Op. Cit.: S. 72.
[7]: Op. Cit.: S. 70.
[8]: Op. Cit.: S. 68.
[9]: https://www.gov.uk/government/publications/algorithmic-transparency-data-standard
[10]: Siehe z.B. Stadt Amsterdam oder Stadt Helsinki.
[11]: Auch wenn eine Formel hier sprichwörtlich gemeint ist, ist ein Modell wortwörtlich tatsächlich eine Art komplexe Formel.
[12]: Siehe beispielsweise https://www.eipa.eu/publications/briefing/sandboxes-for-responsible-artificial-intelligence/ oder https://www.huntonprivacyblog.com/2021/02/25/regulatory-sandboxes-are-gaining-traction-with-european-data-protection-authorities/
[13]: Siehe z.B. https://unece.org/fileadmin/DAM/stats/documents/ece/ces/ge.44/2018/T4_Switzerland_RUIZ_Paper.pdf, S. 6 und ff.
[14]: Siehe z.B. das Buch von Christoph Molnar: https://christophm.github.io/interpretable-ml-book
[15]: Siehe Bericht dazu: https://www.bfs.admin.ch/bfs/de/home.assetdetail.9847917.html
[16]: https://towardsdatascience.com/interpretable-machine-learning-for-image-classification-with-lime-ea947e82ca13
[17]: Präsentation von Prof. Dr. Bettina Berendt anlässlich der Veranstaltung «KI: Rechtliche Rahmenbedingungen für die künstliche Intelligenz in der Schweiz».
[18]: Wie es z.B. N der Veranstaltung «KI: Rechtliche Rahmenbedingungen für die künstliche Intelligenz in der Schweiz» mehrmals erwähnt wurde.
[19]: https://z01.ch/post/2021-01-26-amld-ai-democracy/
[20]: Siehe z.B. in: Kommunikation mit Daten, von Matthias Mazenauer, Statistisches Amt Kanton Zürich, S. 9.

--

--

OpenZH
OpenZH

Published in OpenZH

Wir unterstützen die Verwaltung und Organe des Kantons Zürich bei der Veröffentlichung von Behördendaten, machen Zusammenarbeit über Grenzen und Silos möglich, sammeln Fachwissen und stellen es offen zur Verfügung.