Data Analyst 6: Jenis-Jenis Metode Analisis dan Visualisasi Data

Andi Eka Nugraha
12 min readSep 7, 2023

--

Photo by Agence Olloweb on Unsplash

Halo semuanya! sekarang kita bakal ngobrolin tentang yang namanya visualisasi data. Ini kayak seni gitu, di mana data yang ribet jadi digambar atau dibikin grafik biar kita bisa lebih mudeng. Banyak banget digunakan sama para jago data buat menggali info penting dari data. Jadi, kita akan coba jelajahi macam-macam visualisasi data yang sering dipake sama para data analyst, dan kita juga akan lihat contoh nyata biar lebih nyambung.

Kenapa sih Visualisasi Data itu penting banget?

  1. Biar Gampang Dimengerti: Data yang ditampilin dalam bentuk grafik atau gambar itu lebih gampang dimengerti daripada tabel data yang ribet banget. Jadi, kita bisa langsung lihat pola, tren, atau yang aneh-aneh dari datanya.
  2. Ngebantu Ngebongkar Hubungan: Dengan visualisasi data, kita bisa dengan mudah nyari hubungan antara berbagai variabel yang ada. Jadi, bisa lebih gampang nangkep korelasi atau penyebab akibat yang mungkin ada dalam data.
  3. Nyari Keputusan yang Bener: Visualisasi data ini bikin pengambilan keputusan jadi lebih oke. Dengan melihat data dalam bentuk gambar, kita bisa bandingin opsi, lihat hasil dari keputusan yang berbeda, dan akhirnya bisa ambil tindakan yang lebih terinformasi.
  4. Buat Ngejelasin Temuan: Visualisasi data ini juga cara yang mantap buat ngomongin temuan analisis sama orang lain. Jadi, kita bisa lebih gampang jelasin hasil analisis ke orang-orang yang mungkin gak paham banget sama data.

Dalam melakukan analisis visualisasi ada beberapa metode yang dapat digunakan, Analisis Univariate, Bivariate, dan Multivariate adalah pendekatan yang berbeda dalam statistik dan analisis data yang digunakan untuk menggali informasi dari dataset. Setiap jenis analisis memiliki tujuan dan metode yang berbeda, serta jenis grafik yang sesuai untuk menggambarkan hasilnya.

Analisis Univariate

Coba kita bahas nih yang namanya Analisis Univariate. Ini tuh kayak jalan awal buat ngehantam data, di mana kita fokus ke satu variabel aja dalam satu dataset. Gampangnya, kita mau tau karakteristik dasarnya variabel ini.

Jadi, Apa yang Kita Lakukan di Analisis Univariate?

Kita tuh pertama-tama pengen paham banget sama variabel ini. Kita ngecek statistik dasarnya, kayak rata-rata, median, yang sering muncul, dan lain-lain. Ini buat ngasih kita gambaran tentang data ini. Terus, kita bikin grafik juga buat nunjukin bentuk distribusi datanya, misalnya pake histogram atau diagram batang.

Pokoknya, Analisis Univariate ini kayak langkah pertama yang penting banget sebelum kita melangkah ke analisis yang lebih rumit, kayak yang nyambungin dua variabel atau lebih dalam Analisis Bivariate atau Multivariate.

Langkah-langkah yang kita lakukan dalam Analisis Univariate:

  1. Ngeliat Statistik Dasar: Pertama-tama, kita hitung angka-angka dasar, kayak rata-rata, nilai tengah, yang sering muncul, deviasi standar, kuartil, sama rentang variabelnya. Jadi, ini buat ngasih kita gambaran umum tentang data ini, biar kita tau sebaran dan pusat datanya.
  2. Visualisasi: Nah, selanjutnya, kita buat grafik-grafik buat nunjukin gimana datanya. Ada beberapa jenis grafik yang bisa kita gunain, kayak: Histogram, Ini buat nunjukin distribusi frekuensi data angka, Diagram Batang (Bar Chart) Ini cocok buat data yang kategorinya atau data diskrit, Diagram Lingkaran (Pie Chart) Berguna buat nunjukin proporsi kategori dalam variabel kategorinya.
  3. Ngecek Outlier: Jangan lupa cek juga apakah ada nilai yang aneh banget atau outlier dalam data. Outlier ini bisa pengaruh besar, jadi kita harus perhatiin.
  4. Uji Hipotesis Simpel: Terkadang, kita juga bisa coba uji hipotesis sederhana buat ngeliat apakah karakteristik variabelnya ada hubungannya sama nilai tertentu.
  5. Ngepahami Distribusinya: Terakhir, kita juga coba pahami jenis distribusi yang dimiliki oleh variabel. Yang paling sering tuh distribusi normal, tapi ada juga yang lain, kayak Poisson, eksponensial, dll.

Jadi, dengan langkah-langkah ini, kita bisa bener-bener kenal sama variabel yang kita analisis dalam Analisis Univariate!

Analisis Bivariate

Jadi, ini tuh analisis yang melibatkan dua variabel dalam satu dataset. Ide utamanya adalah buat pahamin hubungan atau interaksi antara kedua variabel ini. Analisis Bivariate ini bermanfaat banget buat jawab pertanyaan apakah ada korelasi, perbedaan, atau hubungan apa gitu antara dua variabel yang kita intip.

Analisis Bivariate ini berguna banget buat kita dalam berbagai konteks, misalnya buat pengambilan keputusan, bikin model prediksi, atau buat paham lebih dalam tentang data. Biasanya, ini jadi langkah penting sebelum kita berani maju ke analisis yang lebih rumit, kayak Analisis Multivariate yang melibatkan tiga variabel atau lebih.

Beberapa grafik yang biasa kita gunain buat Analisis Bivariate:

  1. Scatter Plot: Ini grafik buat nunjukin hubungan antara dua variabel numerik. Tiap titik di plot ini merepresentasikan pasangan nilai dari kedua variabel.
  2. Box Plot: Buat nunjukin perbandingan distribusi antara dua atau lebih kelompok atau kategori.
  3. Heatmap: Nah, ini digunakan buat nunjukin korelasi antara dua variabel numerik dalam bentuk matriks warna yang gampang dimengerti.

Analisis Multivariate

Jadi, ini adalah jenis analisis statistik yang melibatkan tiga variabel atau lebih dalam satu dataset. Tujuannya adalah buat pahamin hubungan kompleks dan interaksi antara semua variabel ini secara bersama-sama. Analisis Multivariat ini tuh bikin kita bisa ngedalamin pola, struktur, dan info-info penting dalam data yang melibatkan banyak variabel.

Ini tuh bener-bener bermanfaat banget dalam berbagai bidang, kayak analisis bisnis, ilmu sosial, sains, dan juga buat bikin model prediksi. Sebelum kita neken gas buat Analisis Multivariat, biasanya kita bakal ngelakuin Analisis Univariate dan Bivariate dulu buat ngerti data kita lebih dalam.

Nah, untuk nunjukin hasil Analisis Multivariat, kita punya beberapa grafik

  1. Multivariate Scatter Plot: Ini buat nunjukin hubungan antara beberapa variabel numerik sekaligus. Tapi ini bakal pake plot multidimensi atau teknik kayak PCA buat nunjukin datanya.
  2. Diagram Radar: Cocok banget buat bandingin beberapa variabel dalam bentuk poligon dengan sudut yang berbeda.
  3. Diagram 3D: Nah, ini buat nunjukin hubungan antara tiga variabel numerik dalam tiga dimensi. Bikin data lebih hidup!

Jadi, dengan Analisis Multivariat, kita bisa dapetin wawasan yang lebih dalam dan kaya tentang data kita.

Visualisasi Dalam Analisis Data

Yuk, kita bahas yang namanya analisis visualisasi antar fitur! Jadi, ini adalah cara kita jalan-jalan di dalam data dan coba pahami gimana hubungan antara fitur atau variabel yang berbeda-beda dalam dataset. Kita gunain teknik visualisasi buat bikin itu semua jadi lebih nyata.

Nah, tujuannya utamanya adalah buat kita bisa nangkep pola-pola, korelasi, atau cara fitur-fitur ini saling berhubungan. Ini bisa ngasih kita wawasan yang super berguna buat lebih memahami data kita.

Jadi, dengan analisis visualisasi antar fitur ini, kita bisa jadi detektif data dan ngebongkar hubungan-hubungan yang mungkin kita gak sadar sebelumnya. 😄

Histogram

Mari kita bahas tentang histogram. Jadi, histogram itu seperti tampilan yang nunjukin sebaran data dalam interval-interval angka yang sama.

Coba kita lihat contohnya di atas. Ada tujuh “Class Interval” dengan rentang angka yang ditampilin di atas sumbu X. Nah, semakin tinggi batang di histogram ini, berarti frekuensinya juga semakin tinggi. Setiap batang di histogram ini punya lebar yang sama, yaitu 10 angka, dan nilai terendah ada di sebelah kiri, terus semakin ke kanan nilainya semakin tinggi.

Jadi, pokoknya, histogram ini buat nunjukin cara data tersebar dalam interval angka yang sama!

Boxplot

Selanjutnya, kita punya yang namanya boxplot, yang bisa dibilang kayak versi singkat dari histogram. Boxplot ini cuma nunjukin 5 statistik penting dari data.

Pertama, ada “Lower Whisker,” yang adalah nilai batas bawah yang dianggap wajar. Ini dihitung dengan rumus (Q1–1.5 x IQR). Terus, ada nilai Q1 yang ditandai dengan ujung dari kotak, terus di dalam kotak itu ada median. Terus, kotaknya ditutup sama nilai Q3, dan setelah itu ada “Higher Whisker.” Nah, nilai di luar dari kotak ini bakal jadi titik-titik kecil yang nunjukin kalau itu data yang keluar dari norma alias outlier.

Oke, sekarang coba kita lihat contohnya gimana kita bisa menginterpretasikan boxplot ini. Misalnya, kita punya empat skor berbeda dan kita pengen tau metode mana yang paling bagus buat ngasih skor tertinggi. Nah, dari boxplot ini, kita bisa lihat bahwa metode tiga itu punya variasi yang paling tinggi, soalnya kotaknya dari rendah banget sampe tinggi banget. Sementara metode dua itu lebih konsisten karena kotaknya lebih sempit. Cuma ada satu nilai yang tinggi sekitar 35. Nah, metode empat ini yang paling tinggi skornya, karena nilai-nilai Quartil satu, dua, dan tiga lebih tinggi dibandingin tiga metode lainnya.

Scatter Plot

Selanjutnya, ada yang namanya scatter plot, yang cocok banget buat nunjukin hubungan antara dua variabel angka. Di sini, tiap titik di grafik itu mewakili satu pengamatan. Coba liat grafik di atas, itu nunjukin hubungan antara skor kepuasan pasien sama waktu konsultasi dengan dokter.

Misalnya, di grafik di atas, kita lihat hubungan antara skor kepuasan pasien sama waktu konsultasi dengan dokter. Keliatannya, kebanyakan pasien yang konsultasi selama 20 menit kasih penilaian sangat baik. Dan, bentuk grafiknya menunjukkan ada korelasi positif antara skor dan waktu konsultasi.

Terus, di sini ada scatter plot dari 13 data yang berbeda-beda. Meskipun data-data ini beda-beda, tapi ada kesamaan lho! Rata-rata dari kedua variabelnya sama di semua scatter plot ini. Standar deviasi juga sama, dan korelasinya mendekati nol.

Ini namanya “Datasaurus Dozen.” Jadi, pesannya di sini adalah kadang-kadang data kita yang cuma angka gak cukup buat kita dapetin gambaran yang jelas. Visualisasi tuh penting banget, soalnya bisa ngasih kita wawasan yang lebih baik tentang data kita. Gak boleh cuma lihat angka doang, bisa-bisa bikin kesimpulan yang keliru!

Pie Chart

Nah, kita bahas nih yang namanya Diagram Pie Chart, atau sering disebut “grafik lingkaran.” Jadi, ini tuh salah satu cara buat nunjukin proporsi atau persentase dari suatu keseluruhan.

Gimana bentuknya? Ya, bentuknya lingkaran, dan lingkaran ini dibagi-bagi jadi beberapa “potongan” atau “sektor” yang nunjukin berbagai kategori atau bagian dari data dalam satu lingkaran. Tiap sektor punya ukuran yang mencerminkan proporsi atau persentase mereka dalam keseluruhan.

Nah, buat apa sih diagram pie chart ini?

  1. Menunjukkan Proporsi atau Persentase: Jadi, ini alat bagus buat nunjukin gimana suatu keseluruhan dibagi-bagi jadi bagian-bagian yang berbeda. Jadi, kita bisa lihat sejauh mana setiap bagian berkontribusi ke total.
  2. Membandingkan Komponen: Diagram pie chart ini bantu kita buat bandingin komponen atau kategori yang berbeda dengan cepat. Jadi, kita bisa lihat kategori mana yang dominan atau punya proporsi terbesar.
  3. Menggambarkan Persentase dengan Jelas: Diagram ini ngasih representasi visual yang jelas tentang seberapa besar atau sekecilnya bagian-bagian dalam keseluruhan.
  4. Mengkomunikasikan Informasi: Ini sering digunakan buat laporan atau presentasi biar info yang kita sampaikan jadi lebih menarik dan gampang dimengerti sama audiens.

Tapi ingat, pie chart ini paling efektif kalo kita punya beberapa kategori yang bisa dibandingkan dengan mudah. Kalo kategorinya terlalu banyak atau bedanya tipis banget, mungkin pie chart ini gak jadi pilihan yang terbaik.

Line Chart

Nah, sekarang kita bahas tentang Line chart, atau yang sering disebut “grafik garis.” Jadi, ini tipe visualisasi yang berguna banget buat nunjukin perubahan atau tren data seiring berjalannya waktu.

Gimana bentuknya? Ya, ini tuh kumpulan titik data yang dihubungin dengan garis lurus, jadi kita bisa lihat gimana data ini berubah atau fluktuasi sepanjang waktu.

Ini tujuan utamanya:

  1. Menggambarkan Perubahan seiring Waktu: Jadi, line chart ini bener-bener bagus buat nunjukin perubahan dalam data seiring waktu. Kita bisa lihat tren, fluktuasi, dan pola dalam data itu.
  2. Membandingkan Serangkaian Data: Bisa buat bandingin perubahan atau tren dalam data-data yang berbeda, misalnya penjualan bulanan selama beberapa tahun.
  3. Mengidentifikasi Puncak dan Lembah: Ini membantu kita buat nangkep puncak dan lembah data, jadi kita bisa lihat kapan terjadi perubahan penting dalam suatu kejadian.
  4. Memonitor Pertumbuhan atau Penurunan: Line chart bisa digunakan buat monitor pertumbuhan atau penurunan dalam berbagai parameter, seperti pendapatan perusahaan, harga saham, atau suhu seiring waktu.
  5. Prediksi atau Peramalan: Kita bisa coba prediksi tren masa depan berdasarkan data historis, yang sering digunakan dalam analisis peramalan.
  6. Memahami Hubungan Sebab-Akibat: Line chart juga bantu kita buat paham hubungan sebab-akibat antara dua variabel. Misalnya, gimana perubahan harga minyak berpengaruh ke harga bensin.

Nih, contohnya ada grafik tren di atas, nunjukin perbandingan total pelanggan di dua hotel yang beda. Dari grafik ini, kita bisa lihat low season tuh biasanya di bulan Februari dan Maret, yang jadi titik terendah di grafik. Terus, titik tertingginya biasanya di akhir tahun, khususnya di city hotel. Buat seorang data analyst, grafik kaya gini bisa nunjukin banyak insight dan rekomendasi yang berguna banget.

Pair Plot

Nah, selanjutnya ada yang namanya Diagram Pair Plot atau sering disebut juga Scatterplot Matrix. Ini adalah jenis visualisasi data yang pas banget buat menjelajahi hubungan antara pasangan-pasangan variabel dalam dataset.

Jadi, kalo kita punya banyak variabel dan pengen tahu ada hubungan atau pola menarik di antara mereka, pair plot ini bisa jadi pilihan. Ini beberapa hal yang bisa kita lakuin pake pair plot:

  1. Mengidentifikasi Pola dan Hubungan: Pair plot ini bantu kita untuk dengan cepat lihat pola dan hubungan antara variabel-varibel yang berbeda di dataset kita. Jadi, kita bisa paham gimana variabel-varibel ini berkaitan satu sama lain.
  2. Mendeteksi Korelasi: Kita bisa pake pair plot buat ngidentifikasi korelasi atau hubungan statistik antara variabel-varibel. Ini bisa ngebantu kita paham apakah ada hubungan positif atau negatif antara variabel-varibel itu.
  3. Mengidentifikasi Outlier: Pair plot bisa bantu kita nemuin outlier atau nilai yang ekstrem dalam dataset. Ini penting karena bisa berpengaruh ke hasil analisis kita.
  4. Eksplorasi Data Multivariat: Kalo punya banyak variabel dalam dataset, pair plot ini bisa jadi alat yang oke buat ngeliat secara keseluruhan gimana variabel-varibel itu terhubung dan memengaruhi satu sama lain.

Jadi, kalo lagi nyelamatin data yang kompleks, pair plot ini bisa jadi sahabat baik kita buat ngungkapin cerita-cerita menarik di balik angka-angka.

Diagram Heatmap

Heatmap atau yang sering disebut Diagram Heatmap adalah jenis visualisasi data yang sangat menarik. Ini bikin data kita jadi kayak matriks warna, di mana warnanya nunjukin intensitas atau nilai dari tiap elemen dalam matriks itu.

Jadi, kalo kita punya data yang kompleks dan punya dua dimensi, kayak data tabel silang atau matriks, heatmap ini bener-bener membantu buat nunjukin pola, korelasi, atau perbedaan dalam data itu.

Kalo kita lihat heatmap-nya, kita bisa interpretasi hasilnya dari pola warna. Warna yang lebih terang atau lebih gelap biasanya nunjukin nilai yang lebih tinggi atau lebih rendah, sementara perbedaan warna bisa nunjukin perbedaan intensitas atau korelasi antara variabel.

Fungsinya kayak gini:

  1. Menggambarkan Korelasi: Heatmap ini sering banget dipake buat nunjukin hubungan atau korelasi antara dua variabel atau lebih. Buat analisis statistik atau ilmu data, ini bisa bantu kita lihat gimana variabel-varibel itu nyambung satu sama lain.
  2. Menyoroti Pola: Heatmap ini juga berguna buat nyorotin pola dalam data. Kita bisa lihat dengan cepat area mana di data yang punya nilai tinggi atau rendah, dan kita juga bisa lihat area dengan pola yang mirip.
  3. Mengidentifikasi Outlier: Dengan warna yang berbeda, heatmap bisa bantu kita nemuin outlier atau nilai yang ekstrem dalam data dengan mudah.
  4. Menggambarkan Distribusi: Kita bisa pake heatmap buat nunjukin distribusi data dalam matriks, jadi kita bisa lihat gimana data tersebar dalam berbagai konteks.

Diagram Join Plot

Ini jenis visualisasi data yang bikin kita bisa cek hubungan antara dua variabel numerik dengan tampilan yang komplit. Jadi, kita bisa melihat distribusi masing-masing variabel dan sejauh mana mereka berkorelasi.

Ada beberapa hal yang bisa kita lakukan dengan joint plot:

  1. Menggambarkan Scatter Plot: Di tengah-tengah joint plot, kita bisa lihat scatter plot yang nunjukin titik-titik data yang nyambungin dua variabel itu. Ini bikin kita bisa lihat ada pola atau tren apa enggak dalam data.
  2. Menggambarkan Distribusi Variabel: Di sekitar scatter plot, joint plot juga kasih kita histogram dari kedua variabel. Jadi kita bisa lihat gimana bentuk distribusi variabelnya, apakah simetris atau miring, dan apakah ada nilai-nilai ekstrem yang mencolok.
  3. Menghitung Korelasi: Biasanya, joint plot juga nunjukin nilai korelasi Pearson. Ini kayak ukuran seberapa erat hubungan linier antara dua variabel. Jadi kita bisa langsung tahu tingkat korelasi antara mereka.

Jadi, setelah punya joint plot, kita bisa lihat pola titik-titik di scatter plot, distribusi variabel di histogram, dan nilai korelasi yang mungkin disertakan. Semua ini bisa bantu kita ambil kesimpulan tentang hubungan antara dua variabel yang kita analisis.

Contohnya, mereka bisa lihat hubungan antara kekuatan (strength) dan jumlah semen (cement) dalam bangunan. Scatter plot-nya nunjukin kalo ada korelasi positif antara kekuatan dan jumlah semen (jadi semakin banyak semen, semakin kuat bangunannya). Terus, histogram-nya juga nunjukin gimana distribusi keduanya. Ini bisa bantu mereka validasi temuan mereka dan lihat seberapa kuat hubungannya.

Penutup

Jadi, sekarang kita udah tahu nih, teman-teman! Visualisasi data itu bener-bener menarik dan penting banget dalam dunia analisis data. Dari histogram sampe scatter plot, semuanya punya peran masing-masing buat bantu kita eksplorasi data dengan lebih dalam. Jadi, jangan takut buat jadi detektif data dan ngejelajahi hubungan-hubungan yang mungkin tersembunyi di balik angka-angka.

Ingat, visualisasi data tuh bukan cuma buat para ahli data, tapi juga buat kita yang gak terlalu paham soal statistik. Dengan grafik dan diagram yang jelas, kita bisa lebih mudeng lihat pola, trend, dan temuan menarik dalam data. Jadi, selamat belajar dunia visualisasi data, dan semoga artikel ini bisa bantu kamu lebih paham dan tertarik sama topik ini!

--

--