Alasan kenapa standar deviasi adalah cara terbaik untuk mengukur sebaran distribusi data

Adi masmudi
GDSC Trunojoyo
Published in
5 min readJun 11, 2022

halo temen2, kali ini aku mau share sedikit tentang materi statistik dasar yaitu distribusi data. Meskipun mungkin materinya sedikit dan dasar diharapkan dapat mudah dimengerti dan saya akan berusaha untuk menjelaskannya dengan cara yang sederhana agar mudah dimengerti, bahkan oleh mereka yang pertama kali belajar statistik. So, tanpa berlama-lama mari kita mulai materinya.

Distribusi data pada dasarnya adalah bagaimana sebuah data disajikan atau diperlihatkan. Data-data tersebut biasanya paling sering dibentuk histogram, bar chart atau bahkan tabel frekuensi. Nah, penyajian data tersebut biasanya dapat juga memperlihatkan banyaknya data pada keadaan tertentu, range, atau bahkan penyimpangan datanya. Untuk lebih jelasnya bisa dilihat pada gambar di bawah ini:

distribusi data dengan bar chart
distrbusi data dengan bar chart
distribusi data dengan tabel frekuensi
distribusi data dengan tabel frekuensi

Nah, gambar di atas menunjukkan cara penyajian data menggunakan bar chart dan juga tabel frekuensi. Pada kasus pencarian sebaran data, kedua data tersebut bisa saja digunakan, akan tetapi menggunakan bar chart akan lebih mudah untuk divisualisasikan.

Ok, setelah mengetahui apa itu distribusi data, sekarang kita cari tahu apa itu sebaran data dan untuk apa digunakan. So, sebaran data pada dasarnya adalah selisih antara suatu nilai tertentu terhadap nilai tengah atau pun rata-ratanya. Penggunaan atau pencarian sebaran data ini digunakan untuk menunjukkan seberapa jauh sebuah data menyebar terhadap nilai rata-rata atau nilai tengahnya (saya bilang nilai tengah karena sangat mungkin nilai rata-rata adalah nilai tengah data). Gambar contoh dari sebaran data bisa dilihat pada gambar di bawah ini:

contoh sebaran data

Gambar di atas adalah pengukuran tinggi dari hewan peliharaan yang divisualisasikan. Jika kita anggap garis hijau adalah rata-rata dari tinggi hewan peliharaan pada gambar, maka objek berwarna merah adalah tinggi dari setiap hewan peliharaan. Maka, jarak dari objek berwarna merah ke garis berwarna hijau adalah sebaran atau penyimpangan datanya. Seperti terlihat pada gambar di bawah ini:

sebaran data 2
gambar sebaran data

Nah, dalam hal pencarian penyimpangan data yang paling populer adalah simpangan rata-rata dan juga simpangan baku atau standar deviasi. Lalu, apa perbedaan antara kedua cara pengukuran penyimpangan tersebut? well, let’s go kita bahas.

Penyimpangan rata-rata adalah pengukuran suatu nilai terhadap rata-rata dari distribusi data tersebut. Singkatnya, semua nilai dikurangi dengan rata-rata kemudian dijadikan nilai mutlak (jarak tidak mungkin negatif). Ok, mari kita mulai sedikit demi sedikit menghitung. Note: disini saya akan menggunakan pendekatan kalimat daripada penghitungan dengan menampilkan rumus.

Pada nilai di atas, rata-rata dapat dihitung dengan menjumlahkan seluruh tinggi hewan menjadi 600 + 470 + 170 + 430 + 300 = 1970, kemudian nilai hasil penjumlahan tersebut dibagi dengan banyaknya hewan yaitu 5, sehingga hasilnya menjadi 1970/5=394. Ok, kita sudah tau berapa rata-ratanya, sekarang kita bisa cari nilai simpangannya.

Pada perhitungan penyimpangan rata-rata dilakukan pengurangan setiap nilai distribusi terhadap nilai rata-rata, sehinga menjadi:

|600–394| + |470–394| + |170–394| + |430–394| + |300–394| = 636

Hasilnya kemudian dibagi dengan banyaknya data, yaitu 5 sehingga hasilnya menjadi : 636/5=127.2.

Yeps, sekarang kita sudah mengetahui bahwa penyimpangan rata-rata yang sudah kita dapatkan adalah 127.2. Sekarang kita, akan membandingkan dengan standar deviasi sekaligus penjabaran alasan kenapa standar deviasi adalah yang terbaik untuk pengukuran penyimpangan atau sebaran data.

Standar deviasi memiliki cara penghitunga yang hampir mirip dengan simpangan rata-rata, perbedaannya adalah jika pada simpangan rata-rata setiap nilai hasil pengurangan dengan rata-rata di mutlakkan sedangkan pada simpangan baku atau standar deviasi nilainya dikuadratkan. Alasan pengkuadradan nilai daripada dimutlakkan karena standar deviasi biasanya diasosiasikan dengan nilai rata-rata aritmatika yang mana nilai tersebut meminimalkan jumlah perbedaan kuadratnya (mungkin bisa kita bahas lain kali hehe). Setelah data tersebut dikurangi dengan nilai rata-rata dan dikuadratkan, maka selanjutnya tambahkan semua datanya kemudian bagi dengan banyaknya data. (dalam beberapa kasus juga bisa dibagi dengan banyaknya data -1, penentuannya dari penggunaan data apakah data tersebut adalah populasi atau sampel). Jika dilakukan dengan cara tersebut, maka yang kita dapatkan adalah variansinya, untuk mendapatkan nilai standar deviasinya kita bisa akarkan variansi tersebut.

Ok, dengan data yang sama maka kita bisa dapatkan standar deviasinya sebagai berikut:

(600–394)² + (470–394)² + (170–394)² + (430–394)² + (300–394)², sehingga nilai yang didapat adalah 108.520. Setelah itu, kita bagi dengan banyaknya data yaitu 5, sehingga hasilnya adalah 21.704.

Ok sekarang kita sudah mendapatkan nilai variansinya. Nah, untuk mendapatkan nilai standar deviasnya yang bisa kita lakukan adalah mengakarkan nilai variansinya, sehingga hasil yang didapat adalah √21.704 = 147.32…

Kita lakukan saja pembulatan sehingga menjadi 147. Kemudian muncul pertanyaan. Nilai penyimpangan rata-rata dan standar deviasi berbeda? lalu mana yang paling benar?

Well, dalam hal ini akan saya bilang nilai standar deviasi adalah lebih benar yang bisa kita buktikan di bawah ini:

Dalam pencarian nilai rata-rata dengan menjumlahkan nilai, nilai negatif akan menghilangkan nilai positif dengan angka yang sama. contoh:

4 + 4 -4 -4 = 0.

nilai penyimpangan data absolute karena semua nilai sama

sehingga simpangan rata-ratanya akan tetap bernilai 4 karena punya 4 nilai sama jika di mutlakkan. Terlihat bagus untuk kasus ini, lalu bagaimana dengan kasus lain, contohnya:

7,1,-6–2.

Penyimpangan data harusnya bukan lagi 4, tapi menyebar lebih jauh

rata-rata dari nilai di atas adalah 0. kemudian jika kita hitung simpangan rata-ratanya akan didapatkan 16/4 = 4. so, nilainya tetap 4, padahal data tersebut harusnya mimiliki penyimpangan yang lebih menyebar. Seperti terlihat pada gambar.

Nah, sekarang kita coba hitung dengan standar deviasi, maka akan kita dapatkan hasil seperti berikut:

7²+1²+(-6)²+(-2)² = 49+1+36+4 = 90

√(90/4) = 4.74

Well, bisa kita lihat bahwa standar deviasi memiliki akurasi yang lebih baik untuk menghitung penyimpangan suatu data . Setidaknya memiliki penyimpangan data yang melebihi dari rata-rata pada nilai absolut. Sehingga, standar deviasi inilah yang memang lebih sering digunakan pada kasus-kasus di dunia nyata terutama di bidang data science.

Ok, terimakasih teman-teman sudah membaca artikel ini sampai selesai. Semoga bermanfaat, Jika ada kesalahan atau kekurangan mohon untuk berikan kritik atau saran. Sekian :)

--

--