Yuk! Mengenal Data Pencilan (Outlier)

Mrhy Ikhal
Machine Learning Kelompok 2
3 min readOct 31, 2019

Ada beberapa definisi dari data pencilan (Outlier) itu sendiri. diantaranya :

  1. Menurut Ferguson (1961), pencilan didefinisikan sebagai suatu data yang menyimpang dari sekumpulan data yang lain.
  2. Menurut Barnett (1981), pencilan adalah pengamatan yang tidak mengikuti sebagian besar pola dan terletak jauh dari pusat data.
  3. Menurut R.K Sembiring (1950), Pencilan adalah pengamatan yang jauh dari pusat data yang mungkin berpengaruh besar terhadap koefesien regresi, (Soemartini, 2007).

Identifikasi Data Pencilan

Suatu data mungkin letaknya terpencil, tapi bila pengaruhnya terhadap koefisien kecil maka kita tidak perlu memberi perhatian besar padanya. Makin besar ukuran sampel “n” makin kecil pengaruh suatu titik data. Pengaruh suatu data mungkin merupakan pencilan bila menggunakan suatu model, tapi tidak bila model lain yang digunakan.

Model Pendeteksian Pencilan

Terdapat banyak cara untuk mengidentifikasi adanya pencilan atau tidak pada sekumpulan data. Disini, akan dijelaskan dua cara untuk mengidentifikasi pencilan, diantaranya adalah diagram pencar dan boxplot.

  1. Diagram Pencar

Untuk melihat apakah terdapat pencilan atau tidak pada sekumpulan data dapat dilakukan dengan memplot data dengan observasi ke-i (i=1, 2, 3, …,n)seperti pada gambar dibawah ini :

Dari contoh di atas, dapat dilihat bahwa terdapat salah satu data yaitu observasi ke-28 yang mengindikasikan pencilan.

Kelemahan data dari metode ini adalah keputusan bahwa data adalah suatu pencilan sangat tergantung pada judgement peneliti. Oleh karena itu dibutuhkan seseorang yang ahli dan berpengalaman dalam menginterpretasikan plot tersebut.

2. BoxPlot

Pencilan dapat dideteksi dengan menggunakan boxplot. Metode ini sangat terkenal dalam mendeteksi pencilan. Metode ini menggunakan nilai quartil. Quartil 1,2,dan 3 akan membagi sebuah urutan data menjadi empat bagian. Jangkauan (Interquartile (IQR)) didefinisikan sebagai selisih antara quartil 1 dan quartil 3, atau IQR = Q3-Q1.

Menurut Soemartini (2007), Data-data pencilan dapat ditentukan, yaitu nilai yang kurang dari 1.5*IQR terhadap quartil 1 dan nilai yang lebih dari 1.5*IQR terhadap quartil 3.

Dampak atau Pengaruh Pencilan

Keberadaan data pencilan akan mengganggu dalam proses analisis data dan harus dihindari dalam banyak hal. salah satunya terhadap nilai mean dan standar deviasi.

Pencilan (Outlier) dapat menyebabkan hal hal berikut :

  1. Varians data menjadi besar.
  2. Interval data dan range menjadi lebar.
  3. Mean tidak dapat menunjukkan nilai yang sebenarnya (bias).
  4. Pada beberapa analisa data, outlier dapat menyebabkan kesalahan dalam
    pengambilan keputusan dan kesimpulan.

Demikianlah beberapa hal tentang data pencilan (Outlier), semoga artikel ini dapat bermanfaat dan menambah wawasan.

Sekian, Terima Kasih.

--

--