Ubah Data Menjadi Lebih Bermakna di Data Science Academy Camp 2

Amira Husna
COMPFEST
Published in
8 min readSep 4, 2021

COMPFEST 13, Jakarta 一 Camp 2 Data Science Academy telah dilaksanakan secara online mulai tanggal 23 Agustus 2021 sampai dengan 29 Agustus 2021 melalui platform Zoom. Peserta Camp 2 Data Science Academy merupakan 10 tim terbaik yang berhasil melewati tahap seleksi COMPFEST. Camp ini dihadiri oleh sejumlah pembicara yang berpengalaman dan ahli di bidangnya. Penasaran dengan serunya Camp 2 Data Science Academy? Yuk simak keseruan dari rangkaian kegiatan di Camp 2!

Day 1 一 Modelling Overview

Materi yang dibawakan pada hari pertama Camp 2 Data Science Academy bertema Modelling Overview. Materi pertama dibawakan oleh Kak Elisafina Siswanto yang lebih akrab disapa Kak Fina, selaku Senior Data Scientist di Tiket.com.

Sebelum memulai sesi pertama, Kak Fina memperkenalkan Tiket.com beserta latar belakang dan tujuan didirikannya Tiket.com. Setelah itu, Kak Fina menyebutkan submateri yang akan dibahas pada pertemuan pertama, yaitu Machine Learning Overview dan Machine Learning Framework.

Pertama-tama, Kak Fina memberikan gambaran mengenai Machine Learning yang mencakup definisi singkat Machine Learning, perbedaan manusia dengan Machine Learning, alasan dibutuhkannya Machine Learning, dan implementasinya. Kak Fina menjelaskan bahwa model Machine Learning mampu menyelesaikan masalah dengan lebih efisien dan memberikan solusi yang fleksibel dalam beradaptasi. Hal tersebut sulit dilakukan jika dipelajari oleh manusia secara konvensional.

Selanjutnya, Kak Fina menyebutkan serta menjelaskan masing-masing poin framework dari Machine Learning. Menurut Kak Fina, hal pertama yang harus dilakukan dalam membangun model Machine Learning adalah menentukan tujuan dan pengukuran kesuksesan dari Machine Learning yang akan dibuat. Tanpa menentukan ukuran kesuksesan dari Machine Learning, tentu kita tidak akan mengetahui apakah ML tersebut sudah berhasil. Setelah itu Kak Fina menjelaskan tipe-tipe dari Machine Learning beserta dua proses modelling, yaitu training dan predicting. Terakhir, Kak Fina menjelaskan berbagai jenis evaluasi model Machine Learning dan dilanjutkan dengan sesi Q&A yang disambut dengan antusias oleh peserta DSA.

Tidak berhenti sampai disitu, kegiatan dilanjutkan dengan sesi Hands-On. Pada sesi ini, Kak Fina mempraktekan materi yang telah dibawakan secara langsung.

Day 2 一 A Classical Learning: Supervised Learning

Materi hari kedua Camp 2 Data Science Academy dipaparkan oleh Kak Yoga Pratama Aliarham, selaku Data Scientist Lead di Tiket.com. Kak Yoga membawakan materi tentang Classical Learning: Supervised Learning. Kak Yoga menjelaskan, meskipun Supervised Learning termasuk Classical Learning, Supervised Learning masih banyak dipakai dalam implementasi Machine Learning.

Sebelum memulai materi Supervised Learning, Kak Yoga mengulang kembali sedikit materi hari pertama, yaitu definisi Machine Learning dan perbedaannya dengan pemrograman tradisional. Menurut Kak Yoga, perbedaan Supervised Learning dengan Unsupervised Learning hanya pada eksistensi label data. Supervised Learning membutuhkan label data, berbeda dengan Unsupervised Learning yang tidak memerlukan label data. Selanjutnya, Kak Yoga mengumpamakan Supervised Learning dengan pemetaan fungsi lalu meminta peserta menjawab contoh soal yang diberikan.

Setelah peserta berhasil menjawab pertanyaan Kak Yoga, barulah Kak Yoga menjelaskan dua metode pada Supervised Learning, yaitu Regresi dan Klasifikasi. Regresi merupakan Supervised Learning yang digunakan untuk memprediksi output dengan input data baru setelah dilakukan training menggunakan data yang dimiliki. Selanjutnya terdapat klasifikasi dengan definisi berupa metode untuk mengkategorikan objek-objek yang ada berdasarkan label yang diberikan. Selain itu, Kak Yoga juga menjelaskan kelebihan serta kekurangan dari masing-masing metode serta implementasinya dalam kehidupan sehari-hari. Setelah materi tersampaikan, Kak Yoga menutup materi dengan rangkuman yang dilanjutkan dengan sesi tanya jawab.

Sama seperti hari pertama, terdapat sesi Hands-On untuk memberikan pemahaman yang lebih baik kepada peserta dengan mempraktekkan materi yang telah dibawakan. Pada sesi ini, Kak Yoga sendiri yang memandu peserta untuk mempraktekkan Supervised Learning secara langsung.

Day 3 一 Unsupervised Learning

Hari ketiga Camp 2 Data Science Academy diisi dengan materi yang dibawakan oleh Kak Muhammad Adib Imtiyazi, selaku Senior Data Scientist di Tiket.com. Kak Adib membawakan materi mengenai Unsupervised Learning yang merupakan lanjutan dari materi sebelumnya, Supervised Learning.

Sebelum memaparkan materi, Kak Adib memberikan skenario dimana terdapat kasus terkait promosi dengan goals meningkatkan customer retention. Namun, pada kasus tersebut belum terdapat data customer yang memadai. Kak Adib mengajak peserta untuk memberikan pendapatnya terkait kasus tersebut. Setelah peserta berhasil menjawab, Kak Adib mulai menjelaskan perbedaan antara Supervised Learning dengan Unsupervised Learning. Perbedaan dari kedua jenis Machine Learning tersebut yaitu Supervised Learning membutuhkan data beserta labelnya, sedangkan Unsupervised Learning memiliki definisi berupa salah satu metode Machine Learning yang digunakan untuk menganalisis dan mencari tahu sebuah informasi dari sebuah data yang tidak memiliki label. Oleh karena itu, Unsupervised Learning cocok untuk menyelesaikan kasus tersebut. Kak Adib mengatakan, meskipun data yang digunakan pada Unsupervised Learning tidak memiliki label, bukan berarti penggunaannya tidak memiliki tujuan. Kita harus mengetahui tujuan apa yang ingin diraih dari implementasi Unsupervised Learning yang dilakukan.

Selanjutnya, Kak Adib mulai menjelaskan tiga scope Unsupervised Learning, yaitu Clustering, Pattern Search, dan Generalization. Pattern Search merupakan scope Unsupervised Learning yang digunakan untuk menemukan pola dari urutan sebuah kejadian, contohnya seperti memberikan rekomendasi produk yang sekiranya akan dibeli oleh pengguna setelah membeli produk yang relevan. Selanjutnya terdapat scope lain dari Unsupervised Learning, yaitu Generalization yang digunakan ketika kolom pada data sangat banyak atau biasa disebut dengan high dimensional data. Scope terakhir dari Unsupervised Learning yaitu Clustering. Clustering adalah sebuah teknik yang digunakan untuk memisahkan data berdasarkan kemiripan karakteristiknya. Clustering dibagi menjadi dua jenis, yaitu Distance Based dan Probability Based. Menurut Kak Adib, jangan sampai kita berfokus pada cluster yang tidak mampu menggambarkan data kita dengan benar. Oleh karena itu, teknik Clustering dapat membantu dalam memahami data yang kita miliki dengan lebih baik.

Setelah itu, Kak Adib menyebutkan implementasi Unsupervised Learning pada Tiket.com. Beberapa diantaranya yaitu pada Flight SRP Tiket.com dan personas clusters yang akan berguna sebagai acuan dalam melakukan pricing dan promosi. Terakhir, Kak Adib menjelaskan mengenai salah satu contoh Clustering, yaitu K-Means. Setelah materi selesai dipaparkan, Kak Adib melanjutkan materi dengan mempraktekannya pada sesi Hands-On lalu ditutup dengan sesi tanya jawab.

Day 4 一 Intro to Deep Learning

Berbeda dengan beberapa hari sebelumnya, agenda hari keempat Data Science Academy Camp 2 diisi dengan sesi study case terlebih dahulu. Study case dibawa langsung oleh Kak Vincent Tatan, selaku Senior Machine Learning Engineer di Google. Setelah panitia membagikan kelompok study case, Kak Vincent langsung memberikan arahan terkait study case kepada seluruh peserta. Study case yang harus diselesaikan oleh para peserta pada hari keempat ini bertema klasifikasi dengan judul Who’s Quitting Today?. Peserta diminta untuk mengklasifikasi keinginan karyawan untuk keluar dari sebuah perusahaan atau tidak.

Setelah peserta berhasil menyelesaikan study case, Kak Vincent menjelaskan jawaban dari case yang diberikan. Kak Vincent berkata bahwa hal pertama yang harus dilakukan sebelum menggunakan sebuah himpunan data yaitu memahami data tersebut secara menyeluruh. Setelah itu, kita harus melihat karakteristik dari data yang dimiliki. Setelah kita memahami dan melihat karakteristik dari data tersebut, barulah dapat dilakukan pengolahan data menggunakan tools machine learning yang sesuai.

Sesi selanjutnya diisi dengan pemaparan materi yang dibawakan oleh Kak Vincent bertema Intro to Deep Learning. Pada sesi kali ini, Kak Vincent menjelaskan lebih detail mengenai Machine Learning pada image recognition, prinsip CNN (Convolutional Neural Network), dan CNN stacks. “Jika dilakukan secara manual, image recognition itu sulit.” ujar kak Vincent. “Oleh karena itu, we need a way to determine the features scalably,” lanjutnya. Kesulitan tersebut dapat diatasi dengan menggunakan prinsip-prinsip dari CNN, yaitu convolution, ReLU, dan Max Pooling. Convolution merupakan prinsip untuk memanipulasi fitur-fitur pada suatu gambar yang nantinya akan dibedakan dengan lebih jelas mana yang dapat dinyatakan sebagai fitur dan mana yang bukan dengan menggunakan ReLU, sedangkan Max Pooling digunakan untuk melihat mana yang penting dan tidak begitu penting dari sebuah fitur.

Day 5 一 Hyperparameter Tuning

Hari kelima merupakan hari terakhir dari rangkaian kegiatan Data Science Academy Camp 2. Kegiatan diawali dengan pemaparan materi dari Kak Louis Owen, selaku AI Research Engineer di Bukalapak. Materi yang dibawakan oleh Kak Louis bertema Hyperparameter Tuning. Sebelum memulai sesi materi, Kak Louis memberikan motivasi terkait pentingnya mempelajari Hyperparameter Tuning. Kak Louis berkata bahwa terdapat dua opsi untuk meningkatkan performa dari model Machine Learning yang telah dibangun. Kedua opsi tersebut yaitu model-centric approach yang berarti mengatur model yang telah dibangun atau data-centric approach yang berarti meninjau kembali data yang dimiliki. Hyperparameter Tuning merupakan salah satu model-centric approach yang mampu meningkatkan performa model tanpa harus mengubah model machine learning yang telah dibangun.

Materi diawali dengan penjelasan Kak Louis mengenai definisi dari Hyperparameter. Paremeter merupakan variabel internal dari suatu model yang berarti variabel tersebut dapat diestimasi dari data yang ada. Sedangkan Hyperparameter memiliki arti berupa variabel eksternal dari model sehingga tidak dapat diestimasi dari data yang ada. Contoh umum dari sebuah parameter yaitu koefisien pada linear regression, sedangkan contoh hyperparameter yaitu maximum gap dari decision tree. Kak Louis menjelaskan, tujuan utama dari Hyperparameter Tuning yaitu untuk mencapai performa model yang optimal.

Menurut penjelasan Kak Louis, terdapat beberapa metode untuk melakukan Hyperparameter Tuning, yaitu Grid Search, Random Search, Coarse to Fine Search yang merupakan perpaduan dari Grid Search dengan Random Search, Bayesian Search, Genetic Algorithm, dan Manual Search. Seluruh metode tersebut memiliki kelebihan dan kekurangannya masing-masing sehingga kita harus mengetahui waktu dan kondisi yang tepat untuk setiap metode yang digunakan.

Kegiatan selanjutnya diisi dengan kegiatan Hands-On. Hands-On pada sesi kali ini sedikit berbeda dengan sesi Hands-On pada hari-hari sebelumnya. Para peserta diminta berdiskusi dengan timnya untuk menyelesaikan case yang diberikan oleh Kak Louis. Case tersebut mengharuskan peserta untuk meningkatkan performa model yang telah disediakan seoptimal mungkin. Tim yang berhasil meningkatkan performa model paling tinggi akan mendapatkan hadiah spesial dari Kak Louis.

Setelah sesi Hands-On selesai, terdapat tiga tim terpilih yang melakukan presentasi hasil penyelesaian case tersebut. Akhirnya, sesi Hands-On pada pertemuan kali ini dimenangkan oleh tim CascadePEOW yang diumumkan langsung oleh Kak Louis.

Setelah rangkaian Camp 2 selesai, kami mendapatkan kesempatan untuk mewawancarai Kak Louis Owen selaku AI Research Engineer di Bukalapak. Menurut Kak Louis, Compfest harus tetap ada, khususnya Data Science Academy untuk melahirkan data scientist baru di masa depan. “Portofolio itu penting banget ya, jadi perbanyak portofolio data science. Entah itu dimasukin ke GitHub atau punya personal website,” pesan kak Louis untuk data science enthusias. “Itu bakal penting banget untuk dimasukin ke CV. Bahkan saat interview pun akan banyak dibahas.” lanjutnya. Menurut Kak Louis, dari pada hanya sekadar mengumpulkan sertifikat teori, akan lebih impactful jika kita langsung mempraktekkannya lewat proyek data science secara langsung untuk dimasukkan ke portofolio.

Selain itu, kami juga berkesempatan untuk mewawancarai salah satu peserta Data Science Academy, yaitu Bram yang merupakan anggota dari tim Brifko. Menurut Bram, kegiatan Data Science Academy Camp 2 sangat berkesan, khususnya sesi study case pada hari keempat. Bram senang karena study case menjadi ajang untuk mengenal orang-orang baru. “Kegiatan di Data Science Academy ini sangat interaktif antara peserta dengan pemateri.” Ujar Bram. Bram berharap peserta Data Science Academy Compfest bisa diperbanyak lagi karena Bram yakin masih banyak orang di luar sana yang memiliki minat dalam bidang data science namun tidak memiliki wadah untuk mempelajarinya.

Masih banyak keseruan lainnya di Compfest! Terus pantau informasi mengenai keseruan acara Compfest lainnya dengan mengikuti media sosial kami di Twitter @COMPFEST, Instagram @COMPFEST, serta situs kami di compfest.id (Editorial Marketing/Amira).

--

--