Aus Daten folgen Taten — wie geht das? III

the peak lab.
the peak lab.
Published in
5 min readOct 25, 2018

By Andy Meinke

Eine Data-Science Artikelserie

Credit: Benjamin Jopen, Unsplash

Neben dem im Artikel von Moritz Mönning beschriebenen Sichtbarmachen von Daten, können mithilfe der Data Science auch Auffälligkeiten in Datenmengen erkannt und herausgearbeitet werden. Auf Grundlage dieser Auffälligkeiten können im Anschluss gegebenenfalls Handlungsanweisungen erfolgen. So können beispielsweise datengetriebene Anwendungen dank der zugrundeliegenden und mittels der Data Science erarbeiteten Muster, Ereignisse mit einer gewissen Wahrscheinlichkeit vorhersagen.

Um dies zu veranschaulichen, haben wir die Polizeidaten der Stadt New York City analysiert. Die untersuchten Daten beinhalten die Aufzeichnung aller im Zeitraum von Ende 2013 bis Ende 2015 aufgezeichneten Verbrechen in den Bezirken Bronx, Brooklyn, Manhattan, Queens und Staten Island. Die Erhebung ergibt für diesen Zeitraum 1.048.575 Rohdaten, wobei 1.016.158 davon geo-annotiert, das heißt standortspezifisch sind. Nach Bereinigung dieser Daten durch unser the peak lab. Data-Science Team, sprich Entfernen von fehlenden und falschen Werten, sind insgesamt 842.416 Datensätze übrig geblieben, auf die wir zugreifen konnten.

Was wir herausgefunden haben? Auf den ersten Blick wird deutlich, dass Staten Island im untersuchten Zeitraum der Stadtteil mit der geringsten Verbrechensrate ist, nämlich circa 40.000 Straftaten. In Brooklyn hingegen wurde von den Behörden die höchste Anzahl an Verbrechen erfasst. Hier waren es mehr als 250.000.

Credit: the peak lab.

Teilt man die verschiedenen Verbrechen in Kategorien wie Körperverletzung (Assault), Einbruch (Burglary), Drogendelikte (Dangerous Drugs), schwerer Diebstahl (Grand Larceny), Belästigung (Harrassment) und leichter Diebstahl (Petit Larceny) ein, so ergibt die Analyse, dass leichte Diebstähle in New York City über die Stadtteile verteilt prozentual den größten Anteil ausmachen. Der Besitz von gefährlichen Drogen sowie Einbrüche hingegen den geringsten Anteil.

Credit: the peak lab.

Doch was bedeutet das nun für unsere Untersuchung? Wie zuvor beschrieben, kann Data Science dazu dienen Ereignisse auf Grundlage von Mustern in Daten vorherzusagen. Somit können also beispielsweise Menschen — in unserem Fallbeispiel etwa die Polizeibehörde von New York — dazu befähigt werden zu reagieren. Unsere Analyse zeigt, dass von allen oben aufgeführten Verbrechen, der Einbruch (Burglary) das einzige Verbrechen ist, das auf eine bestimmte Uhrzeit und einen bestimmten Ort hin vorhergesagt werden kann.

Credit: the peak lab.

Nachdem wir aus den 1.016.158 aufgezeichneten Verbrechen alle Einbr­üche gefiltert haben, konnten wir nicht nur Gebiete mit besonders hohen Einbruchsraten erkennen, sondern auch feststellen, dass drei Adressen in Brooklyn besonders auffällig sind.

Insgesamt wurde in den Apartmenthäusern an der Adresse im oben genannten Zeitraum 71 Mal eingebrochen. Warum aber waren genau diese Standorte in der Vergangenheit so häufig bevorzugtes Ziel von Einbrechern geworden? Eine Antwort auf diese Frage liefert eine Recherche im Netz: Dank der Geo-Annotation der Daten, konnten wir die Gebäude über Google Maps ausfindig machen. Bei Betrachtung der Häuser über Google Streetview fiel folgendes auf:

Wir konnten erkennen, dass bei allen drei Häusern direkt unter den Feuerleitern ein Zaun installiert war. Es war daher ein Leichtes für Einbrecher, die Feuerleiter mit Hilfe des Zauns zu erreichen. Wir glauben, dass dies einer der entscheidenden Gründe für die hohe Einbruchsrate bei diesen Wohnkomplexen sein kann.

Credit: Google Maps
Credit: Google Maps
Credit: Google Maps

Ausgehend von diesen drei Wohnhäusern, haben wir im nächsten Schritt weitere Faktoren bestimmt: Die bevorzugte Uhrzeit, den bevorzugten Monat, sowie den bevorzugten Wochentag.

Credit: the peak lab.
Credit: the peak lab.
Credit: the peak lab.

Die Analyse zeigt, dass vermehrt zwischen 5 Uhr und 10 Uhr, an Freitagen und primär in den Sommermonaten eingebrochen wurde. Diese drei Beispielinformationen dürfen allerdings nicht getrennt voneinander, sondern nur im Kontext betrachtet werden. Man muss also Wochentage und Uhrzeit miteinander kombinieren, um genauere Vorhersagen treffen zu können.

Credit: the peak lab.

Wie können solche Erkenntnisse nun der Stadt New York City dabei helfen, Stadtteile sicherer zu machen? Ganz einfach: Um auf den Daten basierend vorherzusagen, wann und wo die Einbruchsgefahr besonders hoch ist, müssen große in mehrere kleine Gebiete geclustert und ähnliche Muster angewendet werden. Auf diese Weise kann die New Yorker Polizeibehörde entsprechende, auf Daten basierende Handlungsanweisungen umsetzen, um beispielsweise Einsätze von Streifenwagen in bestimmten Gebieten zielgerichteter planen und einsetzen zu können, damit Verbrechen möglicherweise bereits im Vorfeld vereitelt werden können.

Natürlich ist dies nur eins von vielen Beispielen, wie Data Science eingesetzt werden können. Ein weiterer interessanter Anwendungsfall für den positiven Einsatz von Data Science in New York ist die Initiative von PASSNYC, einer datengetriebenen non-profit Organisation. Sie hat sich zum Ziel gesetzt, mit Hilfe von Data Science, die Diversität innerhalb des öffentlichen New Yorker Schulsystems zu erhöhen sowie Schulmittel gleichmäßig und gerecht zu verteilen.

Unsere beiden Beispiele von Moritz Mönning und Andy Meinke zeigen, dass Data Science — bestehend aus einem großen Satz an wissenschaftlichen Techniken — nicht nur genutzt werden kann, um in der Theorie Auffälligkeiten und Muster zu erkennen und sichtbar zu machen. Vielmehr kann der richtige Einsatz von Data Science Menschen dazu befähigen ungeahnte Probleme zu erkennen, zu analysieren und zu lösen.

--

--

the peak lab.
the peak lab.

the peak lab. is a design driven software company based in Oldenburg, Germany. We create, design & develop innovative software, smart apps & digital products.