Causal Data Science Meeting 2021 — Ein Erfahrungsbericht

DATEV eG
DATEV TechBlog
Published in
5 min readJan 4, 2022

Von: Dr. Matthias Dorner

Am 15./16. November 2021 fand das 2. Causal Data Science Meeting (CDSM) virtuell statt. Die Organisatoren von der Copenhagen Business School sowie der Maastricht University wollen durch die CDSM Konferenz eine Plattform für den Wissensaustausch zwischen Industrie und Wissenschaft schaffen, um die Verbreitung von Data Science Anwendungen mit Fokus auf Kausalanalysen zu fördern. Mit mehr als 1,200 Teilnehmenden rund um den Globus konnte die Resonanz gegenüber dem CDSM 2020 nochmal um rund 30 Prozent gesteigert werden. Das Programm der Konferenz umfasste insgesamt 34 Vorträge und 2 Keynote Speeches, eine davon vom frisch gekürten Wirtschafts-Nobelpreisträger Guido Imbens. Die Beiträge aus Wissenschaft und Industrie hielten sich in etwa die Waage. Hier geht es zum Programm.

Was ist eigentlich „Causal Inference“ und warum ist das Thema relevant für KI/Data Science?

Kausalität ist seit langem ein wichtiges Thema in verschiedenen Disziplinen wie Informatik, Statistik, Sozial-/Wirtschaftswissenschaften, aber auch in der Philosophie. Man strebt an, echte kausale Aussagen treffen zu können wie in den Naturwissenschaften, deren Modus Operandi vor allem durch Experimente geprägt ist. Durch das Verhalten von Menschen, ethische Probleme oder fehlende Daten/Messbarkeit ist es in vielen Fällen nicht ohne weiteres möglich analog zu den Naturwissenschaften kausale Schlüsse zu ziehen. Kausalanalysen sind ein Toolset verschiedenster v.a. statistischer Methoden und Forschungsdesigns, um die genannten Hürden überwinden zu können.

In den letzten Jahren ist insbesondere auch in der Wirtschaft ein zunehmendes Interesse an Kausalanalysen entstanden. Sobald man anfängt, nach Kausalität zu suchen, findet man sie in vielen der erfolgreichsten Wirtschaftstrends. Der Grund: Unternehmerische Entscheidungen beruhen implizit auf kausalen kontrafaktischen Entscheidungen/Entwicklungen. Dies bedeutet vereinfacht, dass es nicht darum geht, ob die Gewinne höher waren, als in der Vergangenheit Maßnahme A durchgeführt wurde (=Korrelation), sondern ob die Gewinne höher wären, wenn in der Zukunft Maßnahme A durchgeführt würde (=Kausalität). Kausale Fragestellungen in dieser Form sind für die Entscheidungsfindung in der Wirtschaft von wesentlicher Bedeutung. Dementsprechend werden sowohl experimentelle (A/B-Testing, Reinforcement Learning usw.) als auf Beobachtungsdaten basierende Kausalanalysen (Regression, Instrumentalvariablen, Discontinuity-Ansätze usw.) auch von Praktikern in der Industrie immer häufiger angewendet.

Der zweitägige Online-Workshop hat sowohl Wissenschaftler als auch Data Scientisten aus der Industrie zusammengebracht, um die neuesten methodischen Fortschritte, praktische Aspekte und organisatorische Herausforderungen im Zusammenhang mit Kausalanalysen zu diskutieren.

Besondere Highlights aus der Sicht des AI Office

In zwei Sessions wurden die Python Libraries cause2e sowie CausalML vorgestellt. Diese Python Libraries umfassen eine Vielzahl von Algorithmen und Tools zur Durchführung von Kausalanalysen. Cause2e stammt aus dem Machine Learning Reseach bei OSRAM in Regensburg und ermöglicht End2End Kausalanalysen mit verschiedenen Algorithmen und generiert dabei u.a. Visualisierungen wie Graphen der Kausalstruktur und einen PDF Report. CausalML stammt vom Tech Giganten Uber. Stärke des Packages ist die sehr große Zahl an Algorithmen für die Kausalanalyse und die umfangreiche online Dokumentation.

Interessant war aus der Governance Perspektive vor allem der Vortrag von Iavor Bojanov, Assistant Professor an der Harvard Business School. Bojanov stellte die Kernbotschaften eines u.a. von ihm verfassten Überblicksartikels im Harvard Data Science Review (Paper) vor und welche Forschungsansätze es im Bereich Data Science gibt (Descriptive, Predictive, Causal). Diese konzeptionelle Unterscheidung ist essenziell, denn wenn kausale Fragestellungen mit den falschen Ansätzen (d.h. für Korrelationen) bearbeitet werden, ergeben sich nicht selten falsche Business Entscheidungen, die Vertrauen in Machine Learning insgesamt unterminieren. Im Vortrag zeigt der Referent wie LinkedIN eine neue integrierte Daten- und Machine Learning und Informations-Plattform mit einheitlicher Governance aufgesetzt hat. Diese Plattform umfasst auch explizit Kausalanalysen, die gerade bei LinkedIN eine hervorgehobene Rolle für wichtige Business Entscheidungen spielen. Von der Plattform profitieren im Alltag sowohl Data Scientists (einheitlicher Datenzugriff, Standardisierung von Code, Automatisierung, Datensicherheit/-schutz) als auch Entscheidungsträger (Information, Zertifizierung).

Im Bereich der Industrie-Anwendungen wurden zahlreiche spannende Use Cases vorgestellt.

  • Patrick de Oude hat gezeigt, wie die Lebensmittelkette Albert Heyn in den Niederlanden dynamische Rabattsysteme, die in einzelnen Shops eingeführt wurden, mit Matchingansätzen gegenüber einer Kontrollgruppe evaluiert. So kann mit einem Quasi-Experiment die Frage beantwortet werden, ob durch intelligente Rabattsysteme die Kosten durch Entsorgung von abgelaufenen Lebensmitteln verringert werden können (Blogbeitrag).
  • Kausalanalyen werden auch bei Booking.com (Christina Katsimerou) eingesetzt, um die Wirkungen „Stornierungsoptionen“ auf das Buchungsverhalten zu analysieren. Durch Kausalmodelle (Graphen) können die Effekte von unbeobachteten Einflussvariablen in Modellen besser modelliert und in den geschätzten Effekten berücksichtigt werden (Blogbeitrag).
  • Für visuelle Analysen mit Representation Learning hat Yixin Wang (University of Michigan) einen durch Kausalansätze getriebene Methode vorgestellt, die es erlaubt durch Kausalmodelle sog. „spurious features“ zu identifizieren. Dadurch kann die Modellgüte bei der Klassifikation von Bildern substanziell verbessert werden (Folien).

Zum Abschluss der Konferenz sprach der im Oktober frisch gekürte Nobelpreisträger für Wirtschaftswissenschaften Guido Imbens (mehr dazu hier) zum Thema „Synthetic Control Groups“ / Synthetische Kontrollgruppen (SC). SC sind fiktive Vergleichsgruppen, die in Beobachtungsdaten helfen kausale Effekte zu messen. Zum Einsatz kommt eine solche Technik in Quasi-Experimenten, wenn man beispielsweise anhand von Beobachtungsdaten abschätzen möchte welchen Effekt die deutsche Wiedervereinigung auf Westdeutschland und dessen Wirtschaftsleistung hatte. Mit der Methode kann anhand von historischen Beobachtungen vor 1990 aus anderen OECD Ländern über mehrere Dimensionen (z.B. Arbeitslosigkeit, Wirtschaftsstruktur, Demographie) ein fiktives Westdeutschland mittels Gewichtungen der anderen Beobachtungen erzeugt werden, welches dem tatsächlichen vor 1990 gleicht und ab der Wiedervereinigung als Vergleichsgruppe herangezogen werden kann. Durch Differenzbildung und Inferenzstatistik kann dann ein kausaler Effekt der Wiedervereinigung geschätzt werden. Dieses Verfahren ist in der Evaluierung von Politikmaßnahmen (z.B. Einführung Mindestlohn, Effekte von Bildungsreformen im Gymnasium) heute Standard. Über die allgemeine Intuition des Verfahrens hinaus, hat Imbens in der Keynote einen neuen besonders vorteilhaften Schätzer („Modified Unbiased Synthetic Control Estimator“) vorgestellt, der in der Praxis bei randomisierten Experimenten mit wenigen Einheiten in der Treatment Gruppe bessere Ergebnisse liefert (Paper).

Die Keynote Speech am ersten Tag hielt Sara Maglicane die im MIT-IBM Watson Lab und an der Vrije Universität Amsterdam als Assistant Professor tätig ist. In Ihrer Keynote (Folien) diskutierte Sie wie Kausalanalyse hilft die negativen Auswirkungen von sogenannte „Distributional Shifts“ auf die Güte von Machine Learning zu verbessern. Dieses Problem tritt immer auf, wenn sich durch neue Daten die Verteilungen gegenüber dem ursprünglich trainierten Modell mehr oder weniger stark verändern. Durch Kausalmodelle gelingt die Adaption von Modellen auf neue Daten besser, wie die Referentin anhand von Beispielen u.a. aus dem MIT-IBM Watson Lab zeigt.

Zusammenfassung und Ausblick

Die Konferenz hat gezeigt, dass Causal Data Science nicht nur ein wichtiges Thema in Forschung und Wissenschaft ist, sondern auch zunehmend im Portfolio von Data Scientisten in der Industrie angewendet wird. Mehr Beispiele auch in diesem Blog.

Auch bei DATEV sind diverse Ansatzpunkte denkbar, in denen speziell Kausalanalysen sinnvoll und notwendig werden (u.a. Forschungsprojekt CoyPu). Deshalb soll in Zukunft auch die Entwicklung dieser Community aktiv weiterverfolgt werden (u.a. Teilnahme auf Konferenzen). Auch die Anwendung der Methodiken in POCs ist angedacht.​

Photo by Alex wong on Unsplash

--

--

DATEV eG
DATEV TechBlog

DATEV eG steht für qualitativ hochwertige Softwarelösungen und IT-Dienstleistungen für Steuerberater, Wirtschaftsprüfer, Rechtsanwälte und Unternehmen.