Nichts geht von alleine, nichts macht sich von selber — Daten als Rohstoff begreifen

In Bezug auf die segensreichen Neuerungen der Digitalisierung wird in Hinsicht auf die Generierung und Analyse von anfallenden Daten eine Erwartungshaltung generiert, die uns glauben machen soll, dass das alles quasi mehr oder weniger von alleine funktioniert. Sieht man sich die entsprechenden Websites von Betreibern hoch gehandelter Softwareanbieter an, erhält man den Eindruck, dass wenige Klicks ausreichen um zu verwertbaren Resultaten zu gelangen. Unter der Voraussetzung, dass Daten bereinigt und in hoher Qualität vorliegen, stimmt das in gewisser Weise sogar. Das Problem liegt aber u.a. an genau diesen Stellschrauben und an der immer noch leichtfertigen Bereitschaft, Daten generell und ungeprüft viel zu viel Glauben zu schenken.

Selbst wenn z.B. Power-BI einen „frei formulierbaren“ Abfrage-Generator anbietet, der unter Einhaltung gewisser Regeln sogar verblüffend gut funktioniert, in Excel „Auto-Pivot-Tabellen“ angeboten werden, die bei bereinigten Daten überraschend gute Vorschläge liefern und Tableau-Online sich mit vorgefertigten Dashboards versucht, muss der Anwender immer noch sehr genau wissen, was er/sie eigentlich an Ergebnisse und Aussagen aus den Daten erwartet. Werden die Daten überhaupt sinnhaft zusammengestellt? Sind die Daten überhaupt fehlerfrei und plausibel?

Nicht selten erlebe ich, dass nach der zur-Verfügung-Stellung von Daten „zu tief in den Topf gegriffen“ wird. Daten werden ungeprüft aggregiert und den Ergebnissen wird einfach geglaubt. Erst bei Filterungen, sofern verwendet, werden Anomalien auffällig, aber manchmal nicht mal das, obwohl die Ergebnisse mitunter mehr als „seltsam“ aussehen.


Auch wenn uns mittlerweile sensationell gute Software zur Verfügung steht, ist es unumgänglich, Daten, also den Rohstoff, konzeptionell zu betrachten und überhaupt einfach deutlich ernster zu nehmen:

· Wo kommen die Daten her?

· In welchen Intervallen werden die Daten aktualisiert?

· Sind die Daten bei der Erfassung vor-geprüft, gibt es also Plausibilitäts-Prüfungen, kann ich den Daten “vertrauen”?

· Sind die Daten “vollständig” in der horizontalen und/oder vertikalen Ausprägung?

· Sind „Un-Plausibilitäten“ möglicherweise unter gewissen Umständen doch plausibel und wenn ja, wie soll damit umgegangen werden?

Einfache Beispiele:

o Lieferdatum vor Bestellerfassung (Bestellungen werden an bestimmten Tagen gebucht? Ist die Differenz dann 1 oder 0?)

o Entlassung eines Patienten vor Aufnahmedatum (Fehl-Erfassung?)

o Negative Mengen-Angaben bei Bestellungen oder Produktionsplanungen (Stornobuchung? Wenn ja, müssen diese Werte irgendwo „abgebucht“ werden?).

o Zeitangaben bei Projekt- oder Einsatzplanungen außerhalb der „üblichen“ Zeiten oder an Feiertagen

o Ende-Zeit vor Start-Zeit (ggf. liegt ein Tageswechsel vor?)

Stimmt das so, oder sieht es einfach nur “irgendwie richtig” aus?

· Wie verteilen sich welche Daten in welchen Mengen und Häufigkeiten (Datenbeschreibung)?

· Was „bedeuten“ welche Spalten überhaupt, wo finde ich die für mich relevanten Daten?

· Wie können funktionale und/oder logische Abhängigkeiten definiert oder erkannt werden?

· Sind Stamm-Daten an der signifikanten Stelle eindeutig?

· Gibt es für gleiche Inhalte unterschiedliche Bezeichner/Schreibweisen, die abgeglichen/bereinigt werden müssen?

· Sind bei Verknüpfungen von Tabellen Outer-Joins zu berücksichtigen?

· Existiert die Möglichkeit einer Gegenprüfung von Ergebnissen?

· Gibt es eine bevorzugte Analyse-Struktur?

Auch wenn Erfahrung mit Daten-Analyse vorliegt, sollten Sie keine Angst vor „anderen“ Betrachtungen haben. Haben Sie mal Ihre Daten im Streudiagramm oder Boxplot betrachtet? Kennen Sie eine Kohortenanalyse? Nutzen die Sie Möglichkeiten der Korrelationsbetrachtungen? Kennen Sie die Vorteile von Heatmaps oder Gantt-Diagrammen?

Analysen bzw. Visualisierungen müssen nicht nur aus Balken und Linien bestehen, aber für welche Formen und Farben Sie sich auch immer entscheiden, wesentlich ist die „Rohstoff“. Aber auch ETL-Systeme (Stichwort “Data-Discovery”) erledigen ihre Aufgabe eben nicht von selber.

Like what you read? Give Thorsten Lieder a round of applause.

From a quick cheer to a standing ovation, clap to show how much you enjoyed this story.