Ask The Expert: Statistika

IYKRA
4 min readJan 29, 2019

--

Statistika adalah kemampuan penting untuk bisa berkecimpung dalam dunia teknologi data. Kali ini, yang menjadi expert pilihan kami adalah, Tuti Purwaningsih. Seorang dosen Geostatistic and Big Data UII. Sebelum menjadi pengajar, ia adalah seorang consultant of statistic di USAID IAFCS, dan juga mantan data analyst di World Bank Group.

Yuk mari kita simak yang menjadi pertanyaan terpilih dan jawaban dari sang expert.

Paham bedanya

Sebelum masuk lebih jauh, ada hal yang perlu diperhatikan mengenai statistik yang sering kali kita ngga engeh. Statistik dan statistika adalah dua hal yang berbeda meskipun berhubungan. statistik itu datanya, sedangkan statistika adalah ilmu yang mempelajari bagaimana merencanakan, mengumpulkan, menganalisis, menginterpretasi, dan mempresentasikan data tersebut

Jadi penggunaan kata statistik dan statistika mulai sekarang sudah bisa dibedakan ya penggunaannya. Kalau statistik, itu data. Makanya, namanya Badan Pusat Statistik. Karena mereka lembaga yang menjadi pusat data dan kalau mau jadi data scientist, salah satu ilmu yang harus dikuasai adalah statistika.

Ilmu Statistika & Baurannya dengan ilmu lain

Pernah dengar tentang normalisasi data? Distribusi normal atau chi square? Sudah paham apa fungsinya? Tuti menjawab pertanyaan tersebut demikian,

Normalisasi data itu banyak manfaatnya, salah satunya ketika kita akan membandingkan dua variabel yang memiliki perbedaan satuan, dengan normalisasi maka akan terlihat perbandingannya lebih tepat. Untuk distribusi normal dan chi square itu satu keturunan. Distribusi normal biasanya digunakan untuk menjadi asumsi berbagai pembentukan model linear dalam statistika.

Ilmu statistika tentu mengajarkan bagaimana menghasilkan statistik yang presisi. Dalam statistika, supaya sampel yang diambil bisa representatif terhadap keseluruhan maka, harus menyesuaikan kondisi target populasi ketika akan menggunakan teknik pengambilan sampel.

Ada banyak tehniknya, tapi secara umum terbagi menjadi 2 yaitu probability sampling technique and non prob sampling technique. Masing-masing memiliki berbagai metode melakukan sampling bergantung dari kondisi populasinya. Dalam probability sampling dikenal ada:

  1. simple random sampling
  2. systematic sampling
  3. stratified sampling
  4. multistage sampling

Kemudian dalam non probability sampling dikenal ada:

  • Snowball sampling
  • Quota sampling
  • Voluntary sampling
  • dll.

Bersinggungan dengan hal diatas, valid dan reliable sering menjadi acuan ketika melakukan pengukuran terhadap suatu populasi. Dari hal tersebut bisa timbul pertanyaan, apakah instrumen yang digunakan valid dan juga reliable? Valid sendiri berarti dapat dipercaya, alat ukur (biasanya kuesioner) yang digunakan dapat dipercaya akan menghasilkan temuan yang sesuai dengan realitas dilapangan, sedangkan reliable sendiri berarti konsisten, bahwa alat ukur tersebut akan konsisten ketka diaplikasikan untuk objek lainnya dalam sample.

Selain itu, statistika juga beririsan dengan ilmu lain. Tidak jarang banyak dari kita sulit membedakan statistik dengan algebra atau bahkan matematika. Padahal mereka adalah hal yang berbeda. Penting untuk diketahui kalau, statistik itu data, dan algebra itu salah satu metode untuk memodelkan data itu. Probabilistik dipakai untuk melihat seberapa besar peluang suatu kejadian A terjadi misalkan, sedangkan aritmatika adalah salah satu cabang ilmu matematika yang mempelajari dasar operasi bilangan.

Karena matematika dan statistika beririsan, untuk praktisi data terapannya cukup banyak. Salah satunya adalah profesi aktuaris. Seorang aktuaris perlu paham tentang math karena perhitungan dalam actuarial science cukup kompleks dan sangat membutuhkan kemampuan math cukup tangguh.

Pada intinya, statistika itu ada matematikanya dan kemudian diterjemahkan ke komputasi sehingga memudahkan perhitungan segala hal. jadinya, saling mendukung.

Statistika Untuk dunia kerja

Ada beberapa hal dari statistika secara mendasar yang perlu dikuasai kalau kamu ingin berkarier menjadi data scientist. Beberapa diantaranya:

• Tahu bagaimana cara mendapatkan data

• Bagaimana cara mencari ukuran pemusatan data, ukuran penyebaran data

• kemudian juga harus bisa membedakan perbedaan berbagai tipe data berdasarkan skala pengukurannya (nominal, ordinal, interval, rasio),

• Tahu bagaimana menerapkan teknik sampling, re-sampling dengan berbagai metodenya

• Dan dapat membedakan kapan harus menggunakan korelasi, kapan menggunakan regresi.

Singkatnya, hal diatas adalah bagian dari Data Engineering, Data Modelling dan Data Visualization. Terdengar rumit dan sulit, tapi kalau mau jadi praktisi data professional hal diatas memang baiknya dikuasai dan dipelajari.

Mengenai pemahaman metode statistika yang dipakai oleh model, seberapa dalam perlu dipahami oleh data scientist tergantung dari role diperusahaan serta data-data apa saja yang si perusahaan perlu generate. Hal ini akan mempengaruhi kebutuhan kemampuan seperti apa as data scientist yang harus dikuasai, tidak harus tau semua, yang penting tau konsep dasar dalam pembentukan model serta hati-hati dalam memilih model yang tepat.

Bicara model, salah satu model yang banyak digunakan dalam data science adalah model regresi. Banyak sekali digunakan untuk memodelkan suatu variabel yang diduga dipengaruhi oleh variabel lain sebagai variabel prediktornya.

Ada banyak macam-macam regresi yang sering digunakan, contohnya:

  • Regresi berganda
  • Regresi logistik ketika respon variabelnya berupa data binary/multinomial,
  • Regresi data panel ketika data yang kita gunakan berasal dari individu/object/wilayah tertentu dengan pendataan secara periodik,
  • kemudian ada regresi spasial dimana mengakomodir efek kedekatan antar lokasi didalamnya,
  • lalu regresi poisson ketika respon variabelnya memiliki frekuensi kejadian dengan nilai harapan nol, dan masih banyak lainnya.

Statistik juga berbauran dengan machine learning. Membahasnya secara teknis, machine learning sendiri sudah bebas asumsi, jadi tidak peduli apakah itu parametrik atau non parametrik, yang perlu dipedulikan adalah bagaimana mengkobinasikan berbagai variabel agar menemukan solusi yang paling akurat, efisien dan efektif.

Nah untuk kaliah yang masih kuliah atau masih pemula dalam mempelajari data science, ada dua software yang perlu dikuasai. Satu ini kita tentu sudah familiar dari sekolah, Microsoft Excel dan satunya mungkin software yang baru dikenal, yaitu R.

R sendiri adalah software yang sangat powerful. Banyak digunakan untuk berbagai kebutuhan analisa. Baik skala data kecil hingga yang sangat besar. Dari sederhana hingga kompleks.

Statistika juga banyak penerapannya ke industri. Salah satu contohnya adalah, quality control suatu produk. Jika produk yang dihasilkan itu agak menyimpang dari standar deviasi maksimal yang harus dicapai maka dianggap produk tersebut gagal dan tidak lolos QC.

Nah sekian deh bahasan kita mengenai, statistika! Semoga membantu teman-teman, selanjutnya kita akan membahas mengenai Data Literacy. Hal sederhana tapi sering kali kita lupakan. Ikuti pembahasan kami selanjutnya ya.

--

--

IYKRA

Crafting Technology Capabilities, IYKRA’s vision is to build an Artificial Intelligence (AI) Talent Ecosystem in Indonesia. www.iykra.com