Exploratory Data Analysis: Data Visualization & Correlation

My Skill
5 min readSep 20, 2023

--

| Python for Data Analysis Series from Data Science & Data Analysis Path MySkill.id

Data Visualization

Bagaimana data yang kompleks bisa dipahami dengan jelas? Bagaimana kita bisa merangkum ribuan data menjadi satu gambar yang memberikan wawasan mendalam? Pertanyaan-pertanyaan ini dapat kita jawab dengan teknik yang disebut dengan “Data Visualization”.

Data Visualization. Sumber : thenewstack

Data visualization merupakan proses menyajikan data dengan penggunaan berbagai teknik dan alat untuk menggambarkan data dalam bentuk grafik, diagram, atau visualisasi lainnya. Data visualization bertujuan untuk tuk mengubah data yang kompleks menjadi representasi visual yang lebih mudah dipahami.

Data visualization sangat penting dalam analisis data karena membantu kita memahami distribusi data, dan berkomunikasi hasil analisis dengan cara yang mudah dimengerti oleh orang lain. Dengan visualisasi yang tepat, kita dapat mengungkap wawasan yang mungkin tersembunyi dalam data.

A. Principles in Data Visualization

  1. Sampaikan Fakta Sesungguhnya
    Dalam data visualization, inti dari visualisasi adalah menyampaikan fakta yang sesuai dan akurat. Tanpa keakuratan, visualisasi data bisa menjadi ilusi yang salah mengarah dan berpotensi membingungkan.
  2. Kenali Audiens
    Setiap visualisasi data memiliki audiens yang berbeda. Apakah kita akan berhadapan dengan seorang CEO yang membutuhkan gambaran besar, seorang analis yang memerlukan detail teknis, atau mungkin masyarakat umum yang harus memahami konsep yang kompleks?.
  3. Pemilihan Grafik yang Tepat
    Tidak semua grafik cocok untuk semua jenis data. Misalnya, bar chart bisa lebih baik untuk membandingkan kategori, sementara line chart lebih baik untuk melihat tren seiring waktu. Pemilihan grafik yang tepat akan membuat pesan lebih jelas.
  4. Tekankan/Highlight Bagian yang Penting, Buang yang Tidak Penting:
    Visualisasi yang efektif harus memberi tahu audiens di mana harus fokus. Ini bisa dilakukan dengan cara menggarisbawahi poin penting atau menggunakan warna untuk membedakan data. Tetapi juga penting untuk tidak membingungkan audiens dengan terlalu banyak informasi yang tidak diperlukan.
  5. Sesuaikan Bentuk Grafik dengan Fungsi dari Visualisasi Data:
    Setiap visualisasi data memiliki tujuan atau fungsi tertentu. Apakah itu untuk membandingkan, menggambarkan distribusi, atau menyoroti anomali, bentuk grafik harus dipilih sesuai dengan tujuan tersebut.

Kinds of Data Visualization

Terdapat berbagai cara atau metode yang digunakan untuk memvisualisasikan data. Ini mencakup beragam tipe grafik, diagram, dan alat visual lainnya yang dapat digunakan untuk mewakili data dengan cara yang berbeda.

Beberapa jenis data visualization yang umum digunakan dalam data visualization :

Tabel Pivot
Tabel pivot sering digunakan untuk menampilkan summary dari data dengan detail nilai summary data tersebut.

Tabel Pivot. Sumber : GeekforGeeks

Grafik Batang (Bar Chart)
Digunakan untuk membandingkan data kategori atau menampilkan nilai tertentu perbandingan antara beberapa kategori. Bar chart cocok digunakan untuk membandingkan penjualan produk di beberapa bulan.

Bar Chart. Sumber : onestringlab

Histogram
Umumnya histogram digunakan ketika kita ingin menampilkan distribusi frekuensi data numerik, khususnya kontinu. Histogram membantu dalam memahami bagaimana data terdistribusi, apakah simetris, miring ke kanan, atau ke kiri.

Histogram. Sumber : tibco

Grafik Garis (Line Chart)
Line Chart kita gunakan ketika kita ingin menampilkan tren data. Line Chart sering digunakan dalam analisis data temporal seperti saham atau cuaca.

Line Chart. Sumber : bitlabs

Grafik Lingkaran (Pie Chart)
Pie Chart sering digunakan untuk menampilkan kontribusi dari data kategorikal. Pie Chart cocok untuk data yang dapat dibagi menjadi bagian-bagian yang saling eksklusif, seperti pangsa pasar.

Pie Chart. Sumber : binus

Grafik Sebar (Scatterplot)
Umumnya scatterplot digunakan ketika kita ingin menampilkan sebaran dan hubungan dari 2 variabel kontinu. Dengan scatterplot, kita dapat melihat pola korelasi antara variabel-variabel tersebut.

Scatterplot. Sumber : medium

Grafik Kotak-Garis (Boxplot)
Boxplot berguna untuk menggambarkan distribusi data, terutama ketika ada outlier. Ini menunjukkan kuartil, nilai tengah, dan outlier potensial.

Boxplot. Sumber : builtin

Heatmap
Umumnya heatmap digunakan ketika kita ingin menampilkan kejadian khusus tertentu pada suatu lokasi di dalam data dengan kode warna yang berbeda. Heatmap sering digunakan dalam analisis data besar dan data tingkat tinggi.

Heatmap. Sumber : medium

Perform Data Visualization

  1. Tabel Pivot
    Struktur :
    pd .pivot table (df,
    values= [‘value_to _agg1 ‘,’value_to_agg2'],
    index= [‘column as rowl ‘,’column as row2'],
    columns= [‘column_as_column1 ‘,’column_as_column2'],
    aggfunc= {‘value_to_agg1 ‘: [agg_function1, agg_function2]
    ‘value_to_agg2’: [agg_function3, agg_function4]
    }
  2. Grafik Batang (Bar Chart)
    Struktur :
    import matplotlib.pyplot as plt
    fig = plt.figure (figsize= (width_in_inches, height_in_inches))
    fig = plt.figure(figsize=width_in_inches
    plt.bar (df [‘categorical_column’], df [‘value_to_display’], color= ‘preferred_color’,
    width= preferred_bar_width)
    plt.show ()
  3. Histogram
    Struktur :

    import matplotlib.pyplot as plt
    fig = plt.figure (figsize= (width_in_inches, height_in_inches))
    plt.hist (df [‘value_to_display’], bins, color= ‘preferred_color’)
    plt.show ()
  4. Grafik Garis (Line Chart)
    Struktur :
    import matplotlib.pyplot as plt
    fig = plt.figure (figsize= (width_in_inches, height_in_inches))
    plt.plot (‘column_for_x_axis’, ‘column_for_y_axis’, data= df, color= ‘preferred_color’,
    marker=’preferred_marker’, linestyle= ‘preferred_linestyle’
    plt.show ()
  5. Grafik Lingkaran (Pie Chart)
    Struktur :
    import matplotlib.pyplot as plt
    fig = plt.figure (figsize= (width_in_inches, height_in_inches)) plt.pie (df [‘slice’], labels= df [‘labels’], autopct= ‘preferred_percentage_labels’,
    startangle= preferred_startangle)
    plt.show ()
  6. Grafik Sebar (Scatterplot)
    Struktur :
    import matplotlib.pyplot as plt
    fig = plt.figure(figsize=(width_inches, height_inches))
    plt .scatter(df [‘column_for_x_axis’ ] , df [‘column_for_ y_ axis’ ] , c= ‘preferred_color’,
    marker= ‘preferred_marker’)
    plt .show ()
  7. Grafik Kotak-Garis (Boxplot)
    Struktur :

    import seaborn as sns
    fig = plt.figure (figsize= (width_in_inches, height_in_inches)) sns.boxplot(data=df, x= ‘column_for_x_axis’, y= ‘column_for_y_axis’, color= ‘preferred_color’)
  8. Heatmap
    Struktur :
    import seaborn as sns
    fig = plt.figure (figsize= (width_in_inches, height_in_inches))
    sns .heatmap (df, annot=True/False , fmt= ‘preferred_label_format’)

Dari pembelajaran kali ini, kita memahami bahwa data visualization membantu kita mengubah data yang rumit menjadi representasi visual yang mudah dipahami. Beberapa prinsip penting dalam data visualization adalah menyampaikan fakta yang akurat, mengenali audiens yang berbeda, memilih grafik yang tepat sesuai dengan jenis data, dan lain-lain.menekankan bagian penting, dan sesuaikan bentuk grafik dengan tujuan visualisasi data.

Learn more via https://myskill.id/course/data-visualization-correlation

--

--