Saran dalam Merintis Karier Sebagai Ilmuwan Data

Ali Akbar Septiandri
Tentang Data
Published in
3 min readDec 29, 2020

Beberapa tahun terakhir, banyak sekali orang yang ingin berkarier sebagai ilmuwan data dari berbagai latar belakang keilmuan. Apakah memang bidang ini seterbuka itu? Poin apa yang sebenarnya penting untuk dipelajari?

Belajar probabilitas dan statistika

Di zaman seperti sekarang, banyak ilmuwan data yang sebetulnya memiliki latar belakang ilmu komputer. Banyak yang berpikir, selama bisa pemrograman dalam bahasa Python, menguasai pustaka seperti scikit-learn, dan bisa main-main dengan dataset latihan seperti MNIST, Boston housing, atau Titanic, plus coba-coba di Kaggle sedikit, maka sudah sah menyandang gelar ilmuwan data. Padahal, salah satu komponen paling penting dari seorang ilmuwan data adalah kemampuan bercerita. Bagaimana mungkin kita bisa membuat cerita yang runut dengan konteks yang baik tanpa memahami apa yang sebenarnya terjadi di balik layar?

Belajar probabilitas dan statistika adalah salah satu cara terbaik untuk membantu menyusun cerita yang akan disajikan ke orang bisnis. Faktanya, pertanyaan orang bisnis itu lebih banyak berurusan dengan kausalitas, e.g.

“Kalau kita buat inisiatif X, kira-kira dampaknya berapa besar pada penjualan ya?”

Foto oleh Campaign Creators di Unsplash

Model seperti regresi linear adalah salah satu yang paling mudah untuk dijelaskan ke orang bisnis. Namun, tanpa pemahaman yang memadai, Anda bisa jadi “salah” dalam membuat modelnya, misalnya karena confounding variables atau multicollinearity. Kasus yang terakhir ini, menariknya, akan menghasilkan prediksi dengan galat yang cukup kecil pada data latih Anda, tapi bisa jadi sangat kacau untuk data yang baru Anda lihat. Anda juga akan jadi salah dalam menginterpretasi koefisiennya.

Sebagai contoh, bayangkan Anda diminta untuk memprediksi tinggi badan dari panjang kaki kiri. Anda mungkin akan mendapatkan model regresi

𝑡𝑖𝑛𝑔𝑔𝑖 = 44.71+1.62 panjang kaki kiri

Jadi, setiap penambahan 1 cm pada kaki kiri Anda, maka tinggi Anda dapat diprediksi 1.62 cm lebih tinggi. Jadi, jika kaki kiri Anda panjangnya 80 cm, tinggi Anda seharusnya sekitar 174 cm. Cukup masuk akal kan?

Kalau Anda dengan naif menambahkan variabel panjang kaki kanan dalam model Anda, besar kemungkinan Anda akan berakhir dengan model regresi

𝑡𝑖𝑛𝑔𝑔𝑖 = 44.57−19.27 panjang kaki kiri+20.88 panjang kaki kanan

Nah loh, kok kalau kaki kiri tambah panjang, kita jadi tambah pendek?

Itulah dampak dari multicollinearity dari penambahan variabel. Tebakan hasil akhirnya mungkin benar, tapi koefisien regresinya tidak lagi bisa diinterpretasi dengan tepat. Tanpa belajar statistika inferensi dengan baik, kecil kemungkinannya Anda akan sadar hal tersebut untuk kasus yang lebih kompleks.

Ketika belajar probabilitas dan statistika, Anda kemungkinan akan menemukan aplikasi dari kalkulus, seperti turunan parsial dan integral, dan aljabar linear untuk kasus multivariabel. Jadi, Anda tidak lagi belajar teori yang tidak jelas juntrungannya, tetapi bisa langsung dihubungkan dengan kasus di depan mata.

Sebagai referensi, saya suka materi dari Stanford CS109 dan Harvard Stat110 untuk pengenalan probabilitas dan statistika. Stanford CS109 juga memberikan pendekatan programatis sehingga lebih mudah bagi saya untuk membayangkan dan melakukan simulasi perhitungannya dengan Python atau R. Untuk buku, saya menyarankan untuk membaca Introduction to Statistical Learning dan Statistical Rethinking.

Ngomong-ngomong, secara khusus, belajar statistika Bayesian juga merupakan salah satu hal yang penting berdasarkan pengalaman saya. Jauh lebih mudah untuk bercerita ke orang-orang bisnis dengan pendekatan Bayesian dibandingkan frequentist. Enggak perlu tuh judulnya menghafal berbagai macam uji statistika seperti gambar di bawah ini.

Sumber: A Painless Guide to Statistics

Anda “hanya” perlu tahu rumus sakti

𝑝(𝐴|𝐵)=𝑝(𝐵|𝐴)𝑝(𝐴) / 𝑝(𝐵)

dan beberapa distribusi yang sering muncul saja. Interpretasi hasilnya pun cukup intuitif. Sebagai awal untuk belajar statistika Bayesian, Anda bisa mencoba buku Bayesian Methods for Hackers. Buku itu dilengkapi dengan kode untuk pemrograman probabilistik dan contoh-contoh yang menarik. Keren deh!

Supaya lebih sahih sebagai ilmuwan data, Anda juga perlu belajar teknik visualisasi yang efektif seperti yang diberikan di Harvard CS109. Mengapa ini penting? Karena hampir semua orang bisa membuat grafik, tapi untuk membuat grafik yang bisa dicerna dalam waktu kurang dari 30 detik oleh pembaca itu butuh keahlian khusus. Hal ini juga terkait dengan proses menyusun cerita yang tadi.

Sejatinya, ilmuwan data tak ubahnya pendongeng dengan angka dan fakta.

Tulisan ini pernah dimuat di Quora dengan beberapa perubahan

--

--

Ali Akbar Septiandri
Tentang Data

Data Scientist at Revolut. Adjunct Lecturer at Universitas Al Azhar Indonesia. https://aliakbars.id