Künstliche Intelligenz und sensible Lohndaten — passt das zusammen?

DATEV eG
DATEV TechBlog
Published in
7 min readFeb 1, 2024

Frank Eichinger

Um es vorwegzunehmen: ja, das kann zusammenpassen. Aber Datenschutz hat seinen Preis und bei DATEV unternehmen wir große Anstrengungen, um sicherzustellen, dass die Privatsphäre der Arbeitnehmenden nicht verletzt wird. Dies gilt auch dann, wenn wir jeden Monat 5 Millionen Gehaltsabrechnungen für anonyme Statistiken verwenden und eine künstliche Intelligenz (KI) durch maschinelles Lernen auf Basis dieser Daten trainieren. Und nicht nur die Privatsphäre der Arbeitnehmenden muss dabei geschützt werden, auch Geschäftsgeheimnisse der Unternehmen, wie z. B. das Gehaltsniveau, sind schützenswert. Um die Frage, wie der Schutz der Privatsphäre sichergestellt wird und zu welchem Preis das geschieht, soll es in diesem Beitrag gehen.

Marktwertprognosen und statistische Gehaltsanalysen mit DATEV Personal-Benchmark online

Die Idee hinter dem Produkt DATEV Personal-Benchmark online (PBo) ist schnell erklärt: Basierend auf Lohnabrechnungen aus dem DATEV-Rechenzentrum erschaffen wir ein Produkt, was Steuerberatenden und Unternehmen hilft, ein marktgerechtes Gehalt für neue und bestehende Mitarbeitende zu finden. Im Gegensatz zu zahlreichen Online-Anwendungen am Markt, die oft auf Nutzereingaben basieren, baut dieses Produkt auf Millionen von echten Abrechnungen der DATEV-Lohnabrechnungsprogramme auf. Also auf Fakten, die jeden Monat aktualisiert werden. Es sind dabei keine fehleranfälligen Nutzereingaben notwendig. Monatlich aktualisierte Gehaltsprognosen oder -statistiken in diesem Umfang bietet auch die Bundesagentur für Arbeit und das statistische Bundesamt nicht.

Das Produkt Personal-Benchmark online besteht aus zwei Teilen, die auf den gleichen Daten basieren: der Marktwertprognose und der regionalen Gehaltsverteilung. Die Marktwertprognose nutzt ein neuronales Netzwerk, also KI, wo der Benutzende einen Arbeitnehmenden mit acht Attributen wie Beruf, Ort und Berufserfahrung beschreibt und eine konkrete Marktwertprognose in Euro erhält (wer sich für Details interessiert, findet die Ergebnisse der Voruntersuchung hier im TechBlog und in dieser wissenschaftlichen Veröffentlichung). Die regionale Gehaltsverteilung liefert Statistiken, wie das Jahres- und Monatsgehalt einer bestimmten Berufsgruppe in einer bestimmten Region verteilt ist. Beispielsweise, in welcher Gehaltsspanne Köchinnen und Köche in der Region Süd außerhalb von Großstädten verdienen und was das Mediangehalt dieser Gruppe ist.

Einfache Techniken zur Anonymisierung reichen nicht!

Ein naheliegender Gedanke wie die Privatsphäre geschützt werden kann, ist die Bildung von Aggregaten über bestimmte Gruppen, also z. B. das Mediangehalt der Köchinnen und Köche in einer bestimmten Region. Geht hier eine hinreichend große Anzahl an Personen ein, geht die oder der Einzelne in der Masse unter. Etwas technischer spricht man von k-Anonymität: Pro Gruppe, aus der ein Aggregat wie der Median gebildet wird, gibt es immer mindestens k Individuen. Diese Technik nutzen wir bei den Statistiken zur regionalen Gehaltsverteilung. Hier setzen wir immer mindestens 100 Unternehmen voraus (nicht Mitarbeitende), also k=100. Der Wechsel von Mitarbeitenden zu Unternehmen bietet weiteren Schutz davor, dass das Lohnniveau eines Unternehmens abgeleitet werden kann. Konkret gehen in die Statistik nicht direkt die Daten von den Mitarbeitenden ein, sondern Aggregate über die Mitarbeitenden eines Unternehmens.

So einfach k-Anonymität auch ist, hat sie doch bekannte Schwächen. In unserem Kontext ist es vor allem das Hintergrundwissen von potenziellen Angreifenden, im schlechtesten Fall Steuerberatende, die den Markt in einer bestimmten Region und einzelne Player mitunter sehr genau kennen. Eine konkrete Schwäche sind dann z. B. zeitliche Angriffe: Weiß ein Angreifender, welche Unternehmen neu zu DATEV kommen oder aus dem Markt ausscheiden, ändern sich die Statistiken bei der nächsten dreimonatlichen Aktualisierung. Änderungen können dann einem bestimmten Unternehmen zugeschrieben werden. Auch bei der regionalen Gehaltsverteilung setzen wir nicht ausschließlich auf k-Anonymität. Dazu gleich mehr.

Abwägung zwischen Nützlichkeit und Datenschutz

Bei der Bestimmung des Parameters k der k-Anonymität zeigt sich bereits die grundsätzliche Abwägung zwischen Nützlichkeit und Datenschutz: Ist k klein, ist der Datenschutz nicht gewährleistet. Im schlechtesten Fall, k=1, werden Informationen über Individuen veröffentlicht. Ist k groß, was auch aus Gründen der statistischen Validität anzustreben ist, ist der Datenschutz gewahrt. Eine Aussage, dass Köche im bundesweiten Median 32.000 Euro jährlich verdienen (hohes k), ist aber auch nicht besonders hilfreich, um das Gehalt einer unerfahrenen Köchin (niedriges Gehalt!) am Starnberger See (hohes Gehalt?) festzulegen. Wenn die Nutzenden einer Anwendung aus nachvollziehbaren Gründen weitere Kriterien wie Berufserfahrung, Firmengröße und Branche sowie seltener vorkommende Berufe betrachten wollen, werden die Gruppen schnell sehr klein. Sind es nur wenige Individuen und arbeitet man z. B. mit k=50, können gar keine Statistiken mehr berechnet werden. Um den Nutzenden der Anwendung möglichst viele Freiheitsgrade zu geben, haben wir die Marktwertprognose basierend auf maschinellem Lernen umgesetzt. Dabei können acht Eigenschaften eines Arbeitnehmenden angegeben werden. Hier ist k-Anonymität nicht mehr möglich — es sind sogar Prognosen für Arbeitnehmende möglich, zu denen es keine einzige Beispiellohnabrechnung zum Lernen gibt. Das bedeutet konkret, dass mit acht Eigenschaften Beschäftigte schon oft einzigartig in den Daten beschrieben werden und damit von einem Angreifenden identifiziert werden könnten. Unsere Anonymisierungslösung, wenn k-Anonymität nicht mehr geht, ist „Differential Privacy“ in Kombination mit weiteren Techniken, was wir ergänzend auch bei der regionalen Gehaltsverteilung einsetzen.

Differential Privacy als mathematisches Konzept der Privatheit

Im Jahr 2006 hat die Informatikerin Cynthia Dwork bei Microsoft Research das Konzept der differentiellen Privatheit („Differential Privacy“) beschrieben, wobei bestimmte Unzulänglichkeiten von einfacheren Anonymisierungsverfahren überwunden werden. Es werden dabei mathematische Garantien zum Schutz der Privatsphäre gegeben. Grundsätzlich werden bei der Umsetzung von Differential Privacy Ergebnisse (wie ein Median) oder Zwischenergebnisse (wie bei neuronalen Netzwerken) verrauscht, indem kleine Zufallswerte addiert oder subtrahiert werden. Die Ergebnisse sind also weniger genau, dafür kann man bei dem Ergebnis nicht mehr darauf rückschließen, ob ein bestimmtes Individuum in der Grundmenge enthalten war. Entsprechend können auch keine Informationen wie das Gehalt von Individuen abgeleitet werden. Aber auch Differential Privacy hat seinen Preis: Die Menge an Rauschen wird durch einen Parameter gesteuert, dem sogenannten Privatsphäre-Budget ε. Ist das Rauschen hoch, ist der Datenschutz gewährleistet, aber die Ergebnisse wenig präzise. Ist das Rauschen gering, ist die Anonymität eventuell nicht mehr gegeben.

Die schwierige Frage bei Differential Privacy ist also die Wahl des Parameters ε. In der Theorie muss hier ein ε<1,10 genommen werden, um auf der sicheren Seite zu sein. Das ist in der Praxis aber nicht erreichbar, weil resultierende Statistiken und Produkte zu stark verrauscht und daher nicht mehr nützlich sind. In der Praxis sind ε-Werte von bis zu 10 üblich und auch Werte von knapp 20 kommen zum Einsatz. Wir mussten also viel rechnen und simulieren, um die verbleibenden Risiken für die Privatsphäre bei bestimmten Parametrisierungen von Differential Privacy und ergänzenden Techniken zu beurteilen und das ε zu wählen. Wir haben ε=4,5 für die Marktwertprognose und einen weiteres ε=4,5 für alle Aggregate der der regionalen Gehaltsverteilung zusammen gewählt. So sind wir mit ε=9 also immer noch unter der Schwelle von 10. Allerdings reicht Differential Privacy mit den genannten Parametern und der k-Anonymität bei der regionalen Gehaltsverteilung noch nicht aus, um die letzten, oft eher theoretischen, Risiken auszuschließen. Deswegen bedienen wir uns zusätzlich verschiedener Techniken der „Privacy Amplifikation“.

„Verstärkung“ der Privatsphäre

Um die Wirkung von Differential Privacy noch zu verstärken, setzt „Privacy Amplifikation“ auf den Zufall: Wenn zufällig Datenpunkte vor der Bildung der Statistik oder dem maschinellen Lernen entfernt werden, weiß ein Angreifender nicht, ob ein bestimmter Datensatz tatsächlich in die Berechnung eingegangen ist. Entsprechend laufen Angriffe, bei denen etwas über einzelne Individuen herausgefunden werden soll, ins Leere. Konkret entfernen wir bei der regionalen Gehaltsverteilung durch Stichprobenziehung zufällig 10% der Daten. Bei der Marktwertprognose sind es durch die beim maschinellen Lernen übliche Aufteilung in Trainings-, Test- und Validierungsdaten sogar 20%.

Als nächstes müssen wir auch bei der Marktwertprognose den Einfluss von Unternehmen begrenzen, die in einer bestimmten Region viele Arbeitnehmende mit dem gleichen Beruf und weiteren identischen Eigenschaften beschäftigen. Große Bäckereiketten beispielsweise beschäftigen in einer bestimmten Region viele Personen im Verkauf. Dieses Unternehmen könnte so die Vorhersagen dominieren. Durch das zufällige Entfernen von den zugehörigen Arbeitnehmenden begrenzen wir diesen Einfluss und haben einen weiteren Stichproben-Effekt: Etwa weitere 10% der Daten werden dadurch entfernt.

Die bis hier beschriebenen zufallsbasierten Techniken allein reichen allerdings noch immer nicht. Wir schließen deshalb bei der Marktwertprognose einen Schritt „Ziehen mit Zurücklegen“ an, der eine sehr ähnliche Wirkung hat wie die zuvor beschriebenen Stichprobenbildungen. Dabei wird bei n Datensätzen in der Grundmenge n-mal ein Datensatz genommen („gezogen“) und als Kopie in den Trainingsdatensatz getan, dabei aber nicht aus der Grundmenge entfernt („zurückgelegt“). Auch wenn der Trainingsdatensatz so wie die Grundmenge n Datensätze enthält, fallen dadurch einzelne Datensätze heraus (im Schnitt sind es weitere 37%) — andere werden durch „gezogen werden“ nach dem Zurücklegen vervielfältigt. Beides erschwert potentielle Angriffe abermals durch den zufallsbasierten Stichproben-Effekt.

Und das reicht, um die Privatsphäre zu schützen?

Die beschriebenen Maßnahmen k-Anonymität, Differential Privacy und Privacy Amplifikation schützen im Zusammenspiel die Daten unserer Kunden — verbleibende Restrisiken sind quasi nicht existent. Auch wenn unser monatlich aktualisiertes neuronales Netzwerk durch Differential Privacy und Privacy Amplifikation als anonym gilt, veröffentlichen wir es nicht (was bestimmte Angriffsszenarien vereinfachen würde), sondern gewähren Zugriff nur über das Programm. Hier wird der Zugriff nur authentifizierten Nutzenden gewährt und Zugriffe werden protokolliert. Das Gesamtpaket aus den hier beschriebenen und weiteren Maßnahmen haben wir in einer Datenschutz-Folgenabschätzung beschrieben und alle Risiken zusammen mit den Gegenmaßnahmen mit Experten diskutiert und beurteilt.

Was ist der Preis?

Wie beschrieben bekommt man Datenschutz immer nur im Rahmen einer Abwägung mit der Nützlichkeit. Für uns ist es sehr wichtig, diese so zu treffen, dass die Daten geschützt sind und die Kundinnen und Kunden dennoch ein nützliches Produkt bekommen. Doch wie sehr wird die Nützlichkeit eingeschränkt, wenn man einen großen Teil der Daten absichtlich nicht nutzt und den Rest wie oben beschrieben mit Zufallswerten verrauscht? Unsere Experimente haben durch die Maßnahmen zum Datenschutz einen Anstieg des Fehlers bei der Marktwertprognose um etwa 7% ergeben. Das sollte für die Nutzenden tolerierbar sein, da eine Prognose ohnehin nur Anhaltspunkte liefert und Gehälter basierend auf Lohnabrechnungsdaten allein nicht perfekt geschätzt werden können.

--

--

DATEV eG
DATEV TechBlog

DATEV eG steht für qualitativ hochwertige Softwarelösungen und IT-Dienstleistungen für Steuerberater, Wirtschaftsprüfer, Rechtsanwälte und Unternehmen.