Kurikulum Data Scientist yang Dibutuhkan Industri

Mulai karirmu sebagai profesional Data Scientist!

Novindra Prasetio
Data Science Indonesia
11 min readJan 29, 2023

--

Photo by Stephen Phillips - Hostreviews.co.uk on Unsplash

Motivasi

Digitalisasi industri di Indonesia berkembang dengan pesat mengikuti tren dunia. Penggunaan Artifical Inteligence (AI) /Machine Learning (ML)ini digunakan di berbagai kepentingan seperti urusan pribadi, bisnis, dan pemerintahan serta berbagai bidang seperti bidang transportasi, agriculture, keuangan, education, e-commerce, healthcare, dan lain sebagainya membuat kebutuhan akan talent data scientist di berbagai industri dan pemerintahan meningkat. Untuk itu peningkatan kualitas perlu dilakukan agar data scientist Indonesia dapat bersaing secara global dan berkompeten.

Kaggle 2021 Survey of Data Science

Kaggle, platform komunitas data science, melakukan survei di tahun 2021 dengan responden lebih dari 25.000 data scientist dan ML engineer. Dari hasil survei tersebut, latar belakang pendidikan responden mayoritas adalah master, diikuti dengan sarjana dan doktoral. Di luar pendidikan formal, responden survei juga menggunakan sumber belajar lain berupa massive open online courses (MOOC) seperti Coursera, Udemy, DataCamp. Fenomena ini juga terlihat di Indonesia dengan adanya MOOC seperti Pacmann, Narasio, Rakamin, Binar, Hacktiv8, Purwadhika, dan lain sebagainya. Hal ini menunjukkan sumber belajar untuk menjadi seorang data scientist tidak hanya diperoleh dari pendidikan formal tapi juga pendidikan non formal.

Lalu bagaimana upaya yang sudah dilakukan Indonesia?

Untuk menyamaratakan standar kompetensi data scientist di Indonesia, pemerintah melalui Kementerian Ketenagakerjaan telah menerbitkan Keputusan Menteri Ketenagakerjaan RI No 299 Tahun 2020 mengenai Standar Kompetensi Kerja Nasional Indonesia (SKKNI) untuk bidang Artificial Intelligence khususnya subbidang Data Science. SKKNI ini merupakah langkah awal yang baik bagi pembangunan kualitas data scientist di Indonesia. SKKNI ini diperuntukkan bagi institusi pendidikan dan pelatihan, dunia industri, dan institusi penyelenggara pengujian dan sertifikasi.

Akan tetapi, perkembangan industri yang sangat cepat dan masif menjadi tantangan tidak hanya oleh pemerintah, tapi juga Industri dan para peminat data science, atau yang biasa disebut dengan data science enthusiast. Apakah SKKNI yang telah dibuat pemerintah masih sesuai dengan kondisi industri saat ini?

Data Science Indonesia (DSI), sebagai komunitas data profesional terbesar di Indonesia dengan lebih dari 18.000 anggota terdaftar, juga berupaya untuk membantu pemerintah untuk meningkatkan kompetensi talenta digital dengan menggali kebutuhan hard-skill ataupun soft-skill yang harus dimiliki bagi seorang data scientist khususnya bagi industri.

Untuk itulah, kami melakukan riset kebutuhan skill data science yang hasilnya dapat digunakan sebagai pedoman dalam pembelajaran menjadi data scientist, menyiapkan diri menjadi data scientist yang berguna bagi dunia industri, dan pembuatan kurikulum yang mengacu ke SKNNI.

Metodologi

Secara umum, riset dilakukan dalam 4 tahap, yaitu:

1. Studi Literatur

Di awal riset, kami mengumpulkan beberapa literatur untuk kebutuhan skill dan penyusunan kurikulum. Untuk kebutuhan penyusunan market signal, kami mengulas dari

  • SKKNI bidang Artificial Intelligence Subbidang Data Science

Berisi penjelasan kompetensi end-to-end development yang harus dimiliki seorang data scientist yang mengikuti kerangka kerja Cross Industry Standard Process for Data Mining (CRISP-DM). Dimulai dari penentuan objektif bisnis, rencana proyek sampai deployment dan evaluasi dari user bisnis. Untuk lebih detailnya, silakan kunjungi di sini.

  • Kurikulum DSI

Pada November 2021, DSI telah merilis Data Scientist Learning Path yang berisi segala hal yang perlu dipelajari secara teknis untuk menjadi seorang data scientist beserta resource yang dapat digunakan untuk belajar lebih dalam. Learning path ini dapat digunakan untuk panduan dalam belajar bagi orang yang mulai terjun ke dunia data. Untuk lebih lengkapnya, silakan kunjungi di sini.

Road To Data Science Expert by Data Science Indonesia
  • Buku Panduan Penyusunan Kurikulum Pendidikan Tinggi di Era Industri 4.0

Buku ini perisi panduan penyusunan kurikukulum pendidikan tinggi mulai dari analisis kebutuhan dan visi ilmu hingga nantinya menjadi mata kuliah dan menjadi perangkat pembelajaran seperti rencana tugas, evaluasi, dan rubrik penilaian.

Buku Panduan Penyusunan Kurikulum Pendidikan Tinggi
  • Computing Competencies for Undergraduate Data Science Curricula [link]

Dibuat oleh ACM Data Science Task Force, suatu gugus tugas dari ACM yang dibentuk untuk mengeksplor dan memproses kurikulum data science, buku ini membahas kurikulum data science apa saja yang perlu dipelajari sebagai data scientist yang disesuaikan dengan dengan industri ke depan seperti mengapa belajar data science, kebutuhan data science, kompetensi data science, dan berbagai rekomendasi kurikulum data science.

  • Riset Data Talent Gap

Riset ini dibuat oleh DSI dan dipublikasikan tahun 2020. DSI mencoba mengatasi masalah data talent gap secara sistematis. Bahasan yang dilakukan:

a. memahami profil dan kondisi data talent (business analyst, data analyst, data engineer, data scientist, dan researcher) di Indonesia berdasarkan kelompok usia, pendidikan terakhir, alasan memilih tempat kerja, industri, kanal mencari pekerjaan.

b. skillset dari data talent. Setiap kelompok keprofesian memiliki poin penting yang perlu ditonjolkan dari tiga skillset yakni business & communication, programming language, dan statistics & ML. Kemudian, dilihat kondisi skill dari masing-masing data talent untuk melihat gapnya.

2. Analisis Kuantitatif

Untuk melihat kebutuhan data science di dunia industri, dilakukan juga Crawling Data Linkedin dengan kata pencarian “data science”. Crawling ini dilakukan pada tanggal 27 agustus 2022 dan diperoleh 158 lowongan. Kemudian, dilakukan word count pada bagian “about the job” dari masing-masing lowongan dan diambil 181 kata yang paling banyak muncul.

Dari daftar kata tersebut terdapat beberapa kata yang dapat menjadi kata kunci kebutuhan industri terdapat hardskill dan softskill yang perlu dimiliki oleh seorang data scientist.

Hardskill

  • Mathematics and statistics
  • Python
  • SQL
  • Spark/Big Data
  • Cloud
  • ETL/Pipeline
  • Modeling
  • Recommendation

Softskill

  • Business
  • Cross-functional
  • Communication
  • Research
  • Analysis
  • Team
  • English

What Data Scientist Do (Verb)

  • Learn/Understanding
  • Creating/Build/Develop/Implement/Improve
  • Maintain
  • Help
  • Design
  • Responsibilities
  • Identify
  • Solve

3. Interview

Dari ulasan literatur yang sudah dilakukan, instrumen interview dibuat dengan poin sebagai berikut

  • End-to-end Data Scientist Do

Bagaimana seorang data scientist melakukan pekerjaannya dari menerima data hingga menjadi sebuah model prediksi/rekomendasi/ clustering/analisis yang memberikan manfaat bagi organisasi.

  • Bekal menjadi Data Scientist

Hal-hal yang perlu dipersiapkan menjadi data scientist seperti platform, pengetahuan dasar, sumber belajar, dan informasi mengenai seleksi kerja.

  • Perkembangan Data Scientist

Data scientist merupakan pekerjaan yang paling dicari oleh banyak organisasi. Bagaimana perkembangan data scientist di banyak organisasi.

Masing-masing instrumen di atas terdiri dari beberapa pertanyaan dengan jumlah total 33 pertanyaan. Pertanyaan tersebut kami bahas dengan narasumber menurut pengalaman mereka masing-masing.

Interview dilakukan kepada 5 narasumber dari berbagai sektor industri, meliputi:

Pelaksanaan interview dilakukan dalam rentang waktu 7 Oktober sampai 4 November 2022 secara daring. Narsumber bervariasi mencakup berbagai macam industri dan tingkat jabatan.

Hasil Riset

Dari 5 wawancara yang dilakukan, kemudian dibentuk profil capaian seorang data scientist berdasarkan respon dari masing-masing narasumber.

Untuk melakukan itu, dibutuhkan 2 komponen yaitu analisis kebutuhan pasar dan visi misi ilmu. Komponen pertama dibuat dengan membagi kebutuhan keahlian dari masing-masing respon narasumber menjadi hard skill dan soft skill. Kemudian, SKKNI dan riset DSI tentang Data Talent Gap digunakan sebagai komponen kedua yaitu visi misi ilmu.

Adapun kebutuhan hard skill data scientist yang kami susun terdiri atas 9 knowledge area:

1. Pemrograman, Struktur Data, dan Algoritma (PSA)

Area ini adalah poin awal yang harus dipelajari karena seorang data scientist nantinya akan bertugas membuat model dan analisis yang mana dibuat dari pemrograman ini.

Beberapa kompetensi yang tergolong dalam area ini seperti penulisan kode yang jelas dan benar (clean code), pemanfaatan library suatu pemrograman, perancangan algoritma, penggunaan object oriented programming (OOP), optimasi, dan lainnya.

Bahasa pemrograman yang sering digunakan adalah Python. Python ini dipilih karena fleksibibilitasnya, terdapat library yang mendukung pekerjaan data scientist, dan open source sehingga ketika terdapat masalah python dapat kita tanyakan pada komunitas seperti stackoverflow.

2. Matematika dan Statistika (MS)

Area ini menjadi sangat penting karena merupakan pondasi penting bagi data scientist misalnya untuk mengetahui cara kerja model, analisis statistika, dan lain-lain. Kompetensi di area ini mulai dari konsep persamaan/pertidaksamaan, fungsi, turunan fungsi, dan konsep lainnya dalam kalkulus, sampai dengan konsep statistika seperti statistika inferensial, probabilitas, dan uji hipotesis.

3. Basis Data (BD)

Basis data adalah kumpulan data yang terorganisir dan dapat diakses dengan mudah. Dalam dunia data science, basis data sangat penting karena merupakan tempat penyimpanan data yang akan dianalisis.

Untuk menguasai basis data, seorang data scientist setidaknya memenuhi beberapa kompetensi yang meliputi fundamental dari sistem basis data, model basis data seperti entity relationship diagram (ERD) sampai SQL.

Ada banyak tools yang digunakan untuk mengelola database, di antaranya adalah MySQL. MySQL merupakan salah satu sistem manajemen database relasional / Relational Database Management System (RDBMS) yang paling populer. MySQL digunakan dalam berbagai aplikasi web, termasuk WordPress, Joomla, dan Drupal. Contoh aplikasi penerapan MySQL adalah sebagai database dari website e-commerce. Jenis database yang lain seperti Microsoft SQL Server, BigQuery, Apache Hive, PostgreSQL, dan lain-lain.

4. Pengembangan Perangkat Lunak (PPL)

Data scientist diharapkan dapat mengembangkan sistem yang dapat digunakan untuk tujuan analisis data atau untuk menerapkan hasil dari analisis data. Untuk tujuan ini, mereka harus familiar dengan prinsip-prinsip dasar dan praktik pengembangan perangkat lunak.

Beberapa kompetensi yang termasuk pada area ini yaitu membuat proyek perangkat lunak berskala kecil yang menggunakan standar program yang sudah ditentukan dan melakukan pengujian program.

Salah satu tools software development menggunakan Python untuk data science adalah Flask. Flask adalah microframework web yang ditulis dalam Python. Flask digunakan untuk membuat aplikasi web sederhana dan sangat fleksibel. Contoh penerapan Flask dalam data science adalah membuat sebuah aplikasi web yang dapat menerima input dari pengguna (seperti dataset atau parameter model), melakukan proses pemrosesan data (seperti pemodelan atau analisis statistik), dan menampilkan hasilnya ke pengguna (seperti grafik atau hasil prediksi).

Tools lain yang dapat membantu workflow dalam pengembangan ML dapat digunakan Airflow dan MLFlow. Airflow digunakan untuk menjadwalkan dan mengatur data pipeline atau workflow sedangkan MLFlow dapat membantu melakukan tracking hasil eksperimen model machine learning yang sudah diproduksi. Dengan pengembangan perangkat lunak ini tentu pekerjaan data scientist akan lebih dimudahkan.

5. Artificial Intelligence (AI)

Artificial Intelligence (AI) meliputi metodologi untuk memodelkan dan mensimulasikan beberapa kemampuan manusia yang diterima secara luas sebagai representasi dari kecerdasan. Oleh karena itu, artificial Intellegence ini biasanya dihubungkan dengan robotika yang dapat melakukan hal seperti manusia seperti menerjemahkan dari speech-to-text (berhubungan dengan Natural Language Processing) dan mengklasifikasikan gambar yang dilihat (berhubungan dengan Computer Vision).

Kompetensi dari area ini meliputi kemampuan dalam memahami area penerapan dari kecerdasan buatan beserta konteks dari metode yang dapat diterapkan, memahami langkah-langkah dalam merepresentasikan informasi ke dalam bentuk formal logika dan probabilitas serta menerapkan metode penalaran yang sesuai.

6. Data mining (DM)

Area data mining ini melibatkan proses pemrosesan, analisis, dan penyajian data untuk mendapatkan informasi yang bermanfaat. Jenis analisisnya meliputi clustering, klasifikasi, regresi, pattern mining, prediksi, asosiasi, dan deteksi outlier dengan berbagai bentuk data termasuk data time series dan data web. Data mining sudah dikenal terlebih dahulu daripada ML dan lebih dikenalkan oleh ilmuwan statistik sedangkan machine learning lebih dikenalkan oleh ilmuwan ilmu komputer.

Untuk menguasai data mining, seorang data scientist setidaknya memenuhi beberapa kompetensi yang meliputi kemampuan dalam memahami teknik-teknik yang dapat digunakan untuk data mining beserta algoritma yang sesuai sampai mengidentifikasi dan menggunakan tools dan teknik data mining yang tersedia.

Pada data mining ini juga dikenal framework CRISP-DM yang sering digunakan sebagai dasar pengerjaan data science khususnya pemodelan machine learning.

7. Machine learning (ML)

Machine learning ini merupakan bidang AI yang berfokus pada teknik dan metodologi untuk membuat sistem yang memiliki kemampuan untuk belajar atau memiliki pengetahuan. Terdapat tiga jenis machine learning yaitu supervised learning, unsupervised learning, dan reinforcement learning.

Untuk menguasai machine learning, kita perlu mengetahui bagaimana cara kerja dari model machine learning dan bagaimana cara menangani berbagai keadaan yang dapat mengurangi performa dari model seperti overfitting dan imbalance data. Library pada Python yang banyak digunakan untuk mengerjakan machine learning antara lain sklearn, tensorflow, Pytorch, statsmodels, dan lain-lain.

8. Sistem Big Data (SBD)

Big data ini merupakan istilah untuk menggambarkan 5V yakni volume (jumlah data), velocity (kecepatan data bergerak), variety (beragam tipe data), veracity (kualitas dan keakuratan data), dan value (yang dapat dilakukan perusahaan dengan data). Semakin besarnya ukuran perusahaan, akan semakin besar juga customer yang dipunya dan diiringi oleh besarnya jumlah data. Library Python yang biasa digunakan untuk big data adalah Pyspark. Untuk teknologi big data dapat diaplikasikan secara onpremise atau oncloud. Berbagai cloud yang bisa digunakan seperti Google Cloud Platform, AWS, Azure, dan lain-lain.

9. Visualisasi Data (VD)

Visualisasi data adalah teknik yang digunakan untuk menyajikan data dalam bentuk visual seperti diagram, grafik, atau peta. Beberapa kompetensi yang termasuk pada area ini yaitu mengenali pengetahuan umum yang mendukung pendekatan dalam melakukan visualisasi data, memahami kemampuan dan teknik (termasuk tools) yang dapat digunakan dalam mengatasi setiap tantangan proses visualisasi data untuk membuat hasil yang efisien dan efektif, sampai menerapkan pemilihan tools yang sesuai dengan ukuran data yang digunakan.

Tools yang biasa digunakan untuk membuat dashboard antara lain Tableau, PowerBI, dan Looker. Selain itu, bisa juga membuat dashboard menggunakan library Python seperti Dash Plotly.

Adapun kebutuhan soft skill data scientist yang kami susun terdiri atas 4 knowledge area:

1. Analisis Data dan Bisnis (ADB)

Analisis data adalah hal yang sangat penting dalam mengambil keputusan bisnis yang tepat. Dengan mengumpulkan dan menganalisis data yang tepat, kita dapat mengetahui tren pasar, kebutuhan konsumen, dan banyak lagi. Hal ini memungkinkan kita untuk mengambil tindakan yang tepat untuk meningkatkan keuntungan dan efisiensi bisnis.

Kompetensi dari area ini meliputi kemampuan dalam memahami dan menghadapi berbagai situasi bisnis, segala risiko, dan peluangnya serta kemampuan dan teknik (termasuk tools) yang dapat digunakan dalam mengatasi setiap tantangan proses analisis untuk membuat hasil yang efisien dan efektif.

2. Profesionalisme (PR)

Pada kegiatan yang bersifat teknis, data scientist harus memiliki sikap bertanggung jawab dalam membawa nama profesinya. Salah satu aspeknya adalah bersikap positif dan proaktif untuk menghasilkan manfaat, melakukan perkembangan positif dan melakukannya dengan cara yang bertanggung jawab dan etis.

Untuk menjadi seorang profesional, seorang data scientist setidaknya memenuhi beberapa kompetensi yang meliputi pengetahuan umum mengenai pendekatan profesionalisme sebagai data scientist dan bagaimana cara menerapkannya sampai pengaturan prioritas pekerjaan dan waktu secara efektif dan efisien.

3. Privasi Data (PD)

Data scientist harus mampu mempertimbangkan masalah privasi data dan tantangan terkaitnya ketika memperoleh, memproses, dan menghasilkan data. Mereka harus mengenali kelebihan dan kekurangan antara berbagi dan melindungi informasi sensitif dan bagaimana hak privasi domestik dan internasional berdampak pada tanggung jawab perusahaan untuk mengumpulkan, menyimpan, dan menangani data.

Beberapa kompetensi yang termasuk pada area ini yaitu pemahaman konsep privasi meliputi definisi dari sisi sosial mengenai mana yang merupakan informasi pribadi dan kelebihan maupun kekurangan antara privasi individu dan keamanan, pemahaman kelebihan dan kekurangan antara hak privasi individu dan kebutuhan masyarakat umum, sampai bagaimana cara organisasi yang bersifat internasional mengatasi perbedaan dalam peraturan, regulasi, dan standar privasi di seluruh tempat organisasi tersebut beroperasi.

4. Komunikasi dan Presentasi (KP)

Komunikasi dan presentasi adalah keterampilan yang esensial dalam dunia bisnis. Kemampuan untuk menyampaikan ide dengan jelas dan efektif, serta menyajikan informasi dengan baik, dapat membuat perbedaan besar dalam mencapai tujuan bisnis.

Kompetensi dari area ini meliputi pengenalan tentang pengetahuan umum komunikasi dan presentasi, kemampuan dalam menjelaskan hasil analisis data dengan bahasa sederhana dan jelas, sampai kemampuan berkomunikasi menggunakan bahasa asing secara tulis maupun verbal.

Kesimpulan

Dari profil capaian seorang data scientist berdasarkan respon dari masing-masing narasumber dihasilkan knowledge area yang meliputi hard skill dengan 9 knowledge area dan softskill dengan 4 knowledge area. Hasil riset ini kemudian akan dijadikan sebagai referensi dalam menyusun kurikulum data science dalam bentuk yang lebih formalnya yang mana akan dijelaskan lebih detail lagi untuk masing-masing knowledge area.

--

--