Visualisasi Kriminalitas dengan Merekayasa Citra Geospasial (GEO-AI), Serumit Apa, sih?
“Bro, lu kan anak IT? Tolong hack Google dong biar di aplikasi Sistem Informasi Geografisnya nampilin kalo kota x itu banyak kejahatan? Soalnya emak gue ngotot pengen kesana mulu,”
Sebagai pembuka, itulah cuplikan drama fiktif yang bakalan dialami oleh setiap mahasiswa rumpun Teknologi dan Informasi yang katanya jago meretas, tapi untuk kali ini, kita gak bakal bicara tentang retas-meretas. Kita bakal seru-seruan menjelajah dunia dengan ilmu matematika sebagai bensinnya, dan mengoding sebagai kendaraannya.
Lalu, bagaimanakah konsep dan kasus singkatnya?
Begini, singkat cerita, ada kumpulan data yang mencatat kasus kriminalitas tiap tahunnya. Lalu, bagaimana cara agar data tersebut menjadi lebih bermakna dan mudah diinformasikan? Agar lebih kekinian, kita gunakan konsep Machine Learning.
Apa itu Machine Learning? Lengkapnya kalian bisa memahami dari salah satu kasus di tulisan rekan saya mengenai Image Recognition disini. Yang pasti jika kalian tertarik di bidang ilmu komputer dan kecerdasan buatan yang satu ini, diwajibkan untuk menguasai bahasa pemrograman, matematika dan statistika sebagai fondasi utamanya.
Dalam kasus sekarang, penulis bakal merekayasa data terkait kasus kriminalitas di kota Chicago, suatu kota terbesar di negara bagian Amerika Serikat, menggunakan bahasa program Python. Tanpa basa-basi lagi, mari kita langsung ngoding.
PREPARATION
Kita akan menggunakan Google Colab, atau Jupyter Notebook dalam menyusunnya.
Pertama, kita siapkan library yang dibutuhkan untuk membangun sebuah programnya.
# Kita gunakan pandas dan numpy untuk mengolah dataframe
import pandas as pd
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
import numpy as np# Gunakan inline untuk membuat plot pada peramban
%matplotlib inline
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns sns.set_style("darkgrid")
font = {'size': 12}
mpl.rc('font', **font)# Gunakan Folium untuk visualisasi peta
import folium
from folium.plugins import MarkerCluster
from folium.plugins import FastMarkerCluster
from folium import plugins
# Modul untuk konversi alamat ke nilai latitude dan longitude
from geopy.geocoders import Nominatimimport yaml
with open("./capstone_data/config.yaml", "r") as f:
cfg = yaml.load(f)
search_params = {
'client_id': cfg['client_id'],
'client_secret': cfg['client_secret'],
'intent': 'browse',
'limit': 50,
'v': cfg['version']
}# Modul di library SciKit yang digunakan
from sklearn import preprocessing
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import BernoulliNB
from sklearn.ensemble import RandomForestClassifier
from sklearn import metrics
from sklearn.model_selection import KFold, cross_val_scoredef cross_validate(model, n_splits = 10):
k_fold = KFold(n_splits = n_splits)
scores = [model.fit(X[train], y[train]).score(X[test], y[test]) for train, test in k_fold.split(X)]
scores = np.percentile(scores, [40, 50, 60])
return scores
Selanjutnya, kita unduh dataset agar bisa kita olah, data bisa diunduh disini
IMPORT AND SERVE THE DATA
# Kita akan membuat kolom yang akan disimpan
# Kolom dalam tabel yang tidak tercantum, tidak akan ikut diolah
crime_keep_columns = ['CASE#',
'DATE OF OCCURRENCE',
'BLOCK',
' PRIMARY DESCRIPTION',
'WARD',
'LATITUDE',
'LONGITUDE']
# unduh csv
!wget -O crimes.csv https://data.cityofchicago.org/api/views/x2n5-8w5q/rows.csv?accessType=DOWNLOAD
# import data csv sesuai lokasi data yang telah diunduh disimpan
df = pd.read_csv('#lokasi data yang disimpan ',
usecols=crime_keep_columns)
Mari kita lihat tabelnya
df.head()
df.tail()
DATA ANALYZING, CLEANING AND PREPARING
Selanjutnya, kita analisis dan “bersihkan” datanya. Kita akan mengubah beberapa strukturnya dengan opsi yang mudah untuk dipelajari.
# Strip leading & trailing whitespace
df.columns = df.columns.str.strip()
# Mengubah spasi ganda menjadi
df.columns = df.columns.str.replace('\s{2,}', ' ')
# Mengubah tanda '#' menjadi ruang kosong
df.columns = df.columns.str.replace('#', '')
# Mengubah spasi menjadi _
df.columns = df.columns.str.replace(' ', '_')
# Konversi ke huruf kecil
df.columns = df.columns.str.lower()
# Ubah Tanggal Bulan September 2017 ke September 2018
df.date_of_occurrence.replace(to_replace="(09/\\d+)/2017", value=r"\1/2018", regex=True, inplace=True)# Tampilkan jenis dari masing-masing kolom
df.dtypes
Selanjutnya mari kita field tanggal kejadian peristiwa ke date/ time object, tambahkan kolom baru untuk jam, hari, bulan dan tahun saat kejadian kriminal, dan yang terakhir, pisahkan zip_code dan street.
# Mengubah format date/time object
df['date_of_occurrence'] = pd.to_datetime(df['date_of_occurrence'], format='%m/%d/%Y %I:%M:%S %p')# Tambahkan kolom baru
df['hour'] = df['date_of_occurrence'].dt.hour df['day_name'] = df['date_of_occurrence'].dt.day_name() df['day'] = df['date_of_occurrence'].dt.dayofweek + 1 df['month_name'] = df['date_of_occurrence'].dt.month_name() df['month'] = df['date_of_occurrence'].dt.month df['year'] = df['date_of_occurrence'].dt.year df['year_month'] = df['date_of_occurrence'].dt.to_period('M')# Pisahkan blok zip_code dan street
df['zip'] = df.block.str.split(' ').str[0] df['street'] = df.block.str.split(' ').str[1:].apply(', '.join)
Selanjutnya, kita verifikasi bahwa baris-baris tabel telah valid
df.isna().sum()
Tampilkan tabelnya
df.dropna(inplace=True)
df.reindex()
df.head()
Data telah siap untuk divisualisasikan.
DATA VISUALIZATION
Visualisasi kasus kejahatan tiap bulan
df.groupby('year_month').count().plot(y = 'case',
kind='bar',
figsize=(10,6),
width=0.85,
fontsize=12,
colormap='tab20')
.legend(bbox_to_anchor=(1,1),
prop={'size': 12})plt.xlabel('Month')
plt.ylabel('Count of Cases')
plt.title('Count of Cases Per Month', loc='left', fontsize=18)
Visualisasi kasus kejahatan tiap hari
df.groupby('day').count().plot(y = 'case',
kind='bar',
figsize=(10,6),
width=0.85,
fontsize=12,
colormap='tab20')
.legend(bbox_to_anchor=(1,1),
prop={'size': 12})
plt.xlabel('Day of Week')
plt.ylabel('Count of Cases per Day')
plt.title('Count of Cases Per Day of Week [1 is a Tuesday]', loc='left', fontsize=18)
Selanjutnya, mari kita kategorikan daftar sesuai jenis kriminalnya
# Membuat 10 daftar kriminal paling banyak
top_crimes = df[['primary_description', 'case']]
.groupby(['primary_description'])
.count()
.sort_values('case', ascending=False[:10]
.axes[0]
.tolist()# Membuat daftar 3 kriminalitas paling banyak
top_three_crimes = df[['primary_description', 'case']]
.groupby(['primary_description'])
.count()
.sort_values('case', ascending=False)[:3]
.axes[0]
.tolist()
# Membuat daftar 2 kriminalitas paling banyak
top_two_crimes = df[['primary_description', 'case']]
.groupby(['primary_description'])
.count()
.sort_values('case', ascending=False[:2]
.axes[0]
.tolist()# Membuat dataframe baru dengan top 10 kriminalitas
df_top_crimes = df[df['primary_description'].isin(top_crimes)].copy()
# Membuat dataframe baru dengan top 3 kriminalitas
df_top3_crimes = df[df['primary_description'].isin(top_three_crimes)].copy()
df_top3_crimes[['case', 'primary_description', 'year_month']]
.pivot_table(index='year_month',
columns='primary_description',
fill_value=0,
aggfunc='count')
.plot(kind='area',
stacked=True,
figsize=(15, 6),
fontsize=12,
colormap='tab20')
df_top3_crimes[['case', 'primary_description', 'hour']]
.pivot_table(index='hour',
columns='primary_description',
fill_value=0,
aggfunc='count')
.plot(kind='area',
stacked=True,
figsize=(15, 6),
fontsize=12,
colormap='tab20')plt.xlabel('Hour of Day')
plt.ylabel('Count of Cases per Hour')
plt.title('Count of Cases Per Hour]', loc='left', fontsize=18)
Menerapkan warna di peta
# Membuat daftar warna
# Menerapkan warna di Daftar 10 kriminalitas # Membuat kamus warna
colors = [
'red',
'blue',
'gray',
'orange',
'beige',
'green',
'purple',
'pink',
'cadetblue',
'black'
]
dict_colours = dict(zip(top_crimes, colors))# Tambahkan warna di tiap dataframe
df_top_crimes['colour'] = df_top_crimes.primary_description.map(dict_colours)# Inisialisasi top kriminalitas di Bulan Agustus 2018
df_top_crimes_august = df_top_crimes[df_top_crimes.month_name == 'August'] df_top_crimes_august.to_pickle('crimes_august.pkl')
Tampilan Peta Pertama
# Inisialisasi koordinat geolokasi Chicago
chicago_latitude = 41.85
chicago_longitude = -87.75
# Inisialisasi peta dunia sekitar Chicago
chicago_map = folium.Map(location=[chicago_latitude, chicago_longitude], zoom_start=11)
# Menampilkan peta dunia
chicago_map# Inisialisasi insiden grup di dataframe
incidents = folium.map.FeatureGroup()# Loop sekitar 100 kejahatan dan tambahkan ke insiden grup
for lat, lng, col in zip(df_top_crimes_august.latitude,
df_top_crimes_august.longitude,
df_top_crimes_august.colour):
incidents.add_child(folium.features
.CircleMarker([lat, lng],radius=1, # Inisialisasi ukuran tanda lingkaran
color=col,
fill = True,
fill_color=col,
fill_opacity=0.6
)
)
# Tambahkan Insiden ke peta
chicago_map.add_child(incidents)
mc = MarkerCluster()# Inisialisasi oeta dunia di sekitar Chicago dengan ukuran diperbesar
chicago_cluster = folium.Map(location=[chicago_latitude, chicago_longitude], zoom_start=11)
# Tampilan Peta Dunia
chicago_cluster
# Membuat tanda top kriminalitas
for row in df_top_crimes_august.itertuples():
mc.add_child(folium.Marker(
location=[row.latitude, row.longitude],
popup=row.primary_description))
chicago_cluster.add_child(mc)
chicago_cluster
from folium import plugins
from folium.plugins import HeatMap
chicago_heatmat = folium.Map(location=[chicago_latitude, chicago_longitude], zoom_start=11)
heat_data = [[row['latitude'],
row['longitude']] for index, row in df_top_crimes_august.iterrows()]
# Input ke peta
HeatMap(heat_data,
min_opacity=0.5,
max_zoom=18,
max_val=1.0,
radius=15,
blur=20,
gradient=None,
overlay=True).add_to(chicago_heatmat)
# Tampilkan Peta Final
chicago_heatmat
Bagaimana, cukup pusing bukan? Memang awalnya pasti sangat membingungkan menyatukan algoritma dari beberapa sub-ilmu berbeda. Ini hanyalah kasus sederhana dari satu kota saja. Bayangkan jika kita membuat visualisasi kriminalitas di suatu negara, atau mungkin di dunia?! Dunia IT benar-benar menantang, bukan?
Sekian pemaparan dari penulis, semoga cukup membantu dalam membuat projek sederhana dan mengembangkan minat Data Science kita. Penulis membuka sesi diskusi, dan terbuka untuk masukan agar kita bisa berkembang bersama-sama. Kalian bisa menghubungi melalui linked.in penulis.
Sampai jumpa di tulisan berikutnya, daah!