How to get simple initial insight from datasets using “python”?

Rizki Alifah Putri
Make-AI Data Stories
6 min readAug 1, 2019
Source: https://realpython.com/start-here/

Hello, Good People! Dewasa ini seringkali kita bertemu dan berhadapan dengan “data” yang begitu besar namun tak jarang dibuat bingung seperti harus diolah seperti apa data tersebut, hingga berakhir ke pertanyaan bagaimana mendapatkan kesimpulan awal yang sederhana terkait data yang dimiliki.

Berbicara tentang data sama saja berbicara tentang informasi. Kenapa begitu? Seperti yang diketahui bahwa setiap data pastinya mengandung informasi yang bermakna. Namun, yang perlu ditekankan disini ialah data dan informasi tidak sama.

Data adalah suatu fakta mentah yang biasanya diperoleh dari suatu pengamatan, penelitian, atau observasi tertentu yang bisa berupa angka, sifat, ataupun lambang. Sedangkan informasi merupakan suatu hasil akhir dari pengolahan data yang telah dilakukan dan dapat digunakan untuk mengambil sebuah keputusan.

Nah, sampai disini paham ya? Kalau belum paham, monggo dibaca sampai paham dulu. Tapi kalau sudah paham bisa dilanjut cuss…

Ada hal yang perlu diperhatikan sebelum melakukan pengolahan data. Diantaranya, melihat informasi terkait data yang dimiliki seperti jenis, tipe, jumlah data, hingga jumlah variabel yang digunakan.
Lalu, jenis pengolahan data seperti apa yang dapat dikatakan baik sehingga bisa mendapatkan kesimpulan yang baik?

Source: http://sehat-menarik.blogspot.com/

Menurut saya, data diibaratkan seperti bahan makanan. Setiap data memiliki cara tersendiri untuk diolah seperti halnya bahan makanan.

Sebagai ilustrasi, saya ingin memasak bahan makanan di kulkas untuk makan malam dan menemukan ayam mentah, bayam, wortel, tomat, dan cabai. Untuk mengolah itu semua pasti berbeda-beda caranya. Misal, untuk ayam akan enak disantap jika diolah dengan digoreng atau dibakar, begitupun untuk bahan makanan lainnya memiliki caranya tersendiri untuk diolah menjadi sesuatu yang enak untuk dimakan.

Bahan makanan diatas diibaratkan seperti tipe data dan hasil bahan makanan yang sudah dimasak diibarakan seperti “insight” data yang telah diolah.
Dari ilustrasi diatas dapat diketahui bahwa dalam mengolah data perlu mengetahui lebih dulu informasi apa saja yang terkandung didalamnya kemudian diolah sesuai kebutuhan menggunakan cara yang tepat untuk jenis data tersebut, sehingga kita bisa menggali informasi lebih dan mendapatkan kesimpulan yang baik sesuai dengan yang diinginkan.

Sebagai contoh, saya mendapatkan data dari situs kaggle.com. Data tersebut merupakan data makanan favorit mahasiswa dari salah satu universitas di dunia. Permasalahannya adalah saya belum mengetahui isi dari data yang dimiliki beserta akan diolah seperti apa data tersebut. Di dalam artikel ini saya akan membahas terlebih dahulu bagaimana mendapatkan insight sederhana berupa nilai statistik deskriptif dari data yang dimiliki menggunakan python.

Statistics are the initial key

Source: https://www.google.com/

Kita semua tahu bahwa statistik memiliki nilai dan peranan yang cukup penting dalam pengambilan keputusan. Hanya dengan mengetahui 1 nilai statistik misal mean dari suatu data kita bisa menyimpulkan rata-rata nilai dari data yang dimiliki berkisar dari range berapa sampai berapa dan selanjutnya bisa diambil kesimpulan awal terkait data tersebut.

Secara umum, statistik terbagi kedalam 2 jenis yaitu:
1. Statistik Deskriptif, merupakan suatu teknik statistik yang bertujuan memberikan informasi tentang data tetapi tidak sampai pada tahap melakukan pengujian hipotesis. Dimana, pada bagian ini hanya mencakup seperti perhitungan frekuensi, mean, modus, median, simpangan baku, range, serta pembuatan grafik).
2. Statistika Inferensial, merupakan suatu teknik statistik yang bertujuan untuk melakukan inferensi (pengambilan keputusan) yang bersifat general pada suatu sampel untuk semua populasi. Dimana, pada bagian ini juga mencakup pengujian hipotesis pada suatu data.

Python for Tools

Saat ini terdapat beragam alat yang dapat digunakan untuk melakukan pengolahan data, analisis, pembuatan model hingga melakukan prediksi pada suatu data salah satunya yaitu python. Didalam python mengenal suatu package yang merupakan alat yang berguna untuk pemrosesan data sesuai dengan fungsinya masing-masing.
Nah, dikarenakan saya ingin melakukan analisis statistika deskriptif pada python maka saya perlu mengimport beberapa package dibawah ini.

Picture1.
Picture 1. Package in Python

Note:
1. numPy — Berfungsi untuk menangani operasi aritmatika seperti matriks dan vektor dalam mengelola array dan multi-dimensi array yang besar.
2. Pandas Python Data Analysis Library salah satu package yang digunakan untuk analisis data, manipulasi, hingga pembersihan data yang mendukung pembacaan data berdasarkan spreadsheet excel yang selanjutnya akan terbentuk menjadi dataframe tabel pada python.
3. Seaborn — Suatu library untuk visualisasi data berdasarkan matPlotLib yang menyediakan antarmuka tingkat tinggi untuk menggambar grafik statistik yang menarik dan informatif.

GIF yang bertuliskan “out[3]” merupakan output data saya yang sebelumnya memiliki format .csv pada excel. Sementara perintah “pd.set_option” diatas berfungsi untuk menampilkan keseluruhan variabel yang terdapat pada data. Tapi, jika ingin lebih tahu berapa jumlah variabel dan jumlah data yang digunakan dapat menggunakan 2 perintah dibawah ini.

Picture 2. Shape

Perintah “food.shape” menunjukkan bahwa “food” merupakan nama data dan “shape” merupakan perintah untuk melihat suatu bentuk data. Dimana output “(125,61)” menunjukkan bahwa data terdiri dari 125 baris(125 data) dengan 61 kolom(61 variabel).

Picture 3. Data Info

Sementara perintah “.info” diatas bertujuan untuk menampilkan informasi dari data yang dimiliki seperti yang ditunjukkan dengan point 1, saya dapat melihat bahwa jumlah data terdiri dari 125 entries (125 data/baris) dengan indeks yang dimulai dari indeks 0 sampai indeks 124. Perlu diingat ya, maksud dari indeks disini adalah hanya sebatas penomoran pada tabelnya saja.

Lalu di point ke-2, pada kolom pertama menunjukkan nama variabel yang terdapat pada data, kolom kedua menunjukkan jumlah data pada variabel tersebut (jika data tidak berjumlah 125 seperti informasi diatas maka pada data tersebut terdapat missing value yang selanjutnya jika ingin melakukan pemodelan pada data harus di tangani terlebih dahulu).

Untuk cara menangani missing value akan saya bahas pada artikel selanjutnya.

Pada GIF diatas merupakan hasil perhitungan deskriptif dari data saya. Terdapat beberapa output seperti count(jumlah data), unique(jumlah kategori yang terdapat pada data), top (jenis kategori yang paling banyak muncul), freq (frekuensi berdasarkan top), mean, std(standar deviasi), dll.

Jika dilihat, hasil diatas terdapat nilai NaN (Not a Number). Seperti yang saya jelaskan diatas bahwa tiap data memiliki tipe datanya tersendiri. Sebagai contoh, hasil output variabel GPA memiliki hasil NaN untuk nilai mean hingga nilai max sebab variabel bertipe data “object” atau memiliki jenis kategori data tertentu tidak dapat dengan mudah dilakukan perhitungan mean,median, dll. Untuk dapat menghasilkan nilai tersebut tentunya harus diubah ke dalam tipe data “numerical” atau “integer”. Meskipun begitu, pada variabel tersebut dapat menghasilkan output dimana terdapat 38 nilai unique dan nilai yang paling banyak muncul yaitu ketika GPA sebesar 3.5 sebanyak 13 kali.

Begitupun untuk variabel calories_chicken yang memiliki tipe data “int/integer” menghasilkan NaN untuk unique, top, dan freq. Namun memiliki output mean sebesar 577.32 yang artinya rata-rata dari calori chicken sebesar 577.32; dengan std/standar deviasi sebesar 131.214 yang artinya bahwa persebaran data calori chicken berada disekitar 131.214 yang menunjukkan bahwa titik data individu jauh dari nilai rata-rata; dsbnya.

Terakhir, yang perlu diperhatikan dalam melihat standar deviasi dimana suatu nilai standar deviasi dari kumpulan data yang menghasilkan nilai sama dengan nol menunjukkan bahwa semua nilai dalam kumpulan tersebut adalah sama. Sedangkan, ketika nilai standar deviasi lebih besar akan menunjukkan bahwa titik data individu jauh dari nilai rata-rata.

Gimana? Mudah kan mencari nilai statistik deskriptif menggunakan python?

Pada artikel selanjutnya saya akan membahas bagaimana cara menangani missing value pada data yang dimiliki. Jadi, jangan lupa untuk selalu mengikuti seri teknik pengolahan data di Make-AI Data Stories.

Ingin belajar Data Science lebih dalam? Yuk belajar di Make-AI Data Science Online Course!

References:

  1. Kaggle.com.
  2. Jenis-Jenis Statistika.
  3. Tipe Data.
  4. Package di Python.

--

--