Tantangan Ikut Kompetisi Data Science di Kaggle

AC
Data Folks Indonesia
3 min readJan 25, 2019

Artikel kali ini sedikit lebih santai, daripada membahas sesuatu hal yang teknikal terus menerus ada baiknya berbagi pengalaman tentang kompetisi data science.

Saya pribadi waktu awal belajar tentang data science sering kali membuka website kaggle, karena disana banyak kernel (semacam jupyter notebook atau script) yang bisa dipelajari bagaimana orang orang yang melakukan modeling terhadap dataset dari kompetisi tersebut. Kaggle juga ada tab discussion tentang kompetisinya sehingga memudahkan kita-kita yang kurang mengerti tentang data yang diberikan.

Menurut saya kompetisi yang kategorinya “beginner” kurang berasa feelnya, karena sudah banyak orang yang ngerjain, tutorialnya tersebar dimana mana contohnya kompetisi Titanic dan House Prices. Tapi tidak masalah jika baru baru mengerjakan project data science lalu memakai dataset tersebut untuk memulai, daripada mengolah dataset yang langsung sulit lalu semangat langsung surut kan :) kasian.

Saya sendiri mengikuti beberapa kompetisi termasuk yang saya sebut diatas, selain itu juga saya ikut kompetisi yang Santander Value Prediction Challenge disini petualangan baru dimulai. Waktu itu saya melihat kompetisi ini baru dimulai, jadi enak untuk mengikuti diskusinya dari awal dengan drama drama macam “data leak” yang terjadi, sehingga setiap kali pulang kerja langsung mengikuti discussionnya, data yang diberikan juga cukup menantang, data sparse dengan size trainset ~60MB dan testset (untuk submit) ~1GB, menarik bukan? dan nama columnnya itu encoded sehingga kita tidak tahu sebenarnya kolom tersebut menjelaskan apa. Kompetisi ini betul betul memerlukan keahlian Machine Learning dan Statistics. Jika tidak percaya silahkan download datasetnya dan ikuti disucssionnya, disana terdapat hal-hal “magic” yang jarang terpikirkan namun ada.

Namun mengerjakan kompetisi tersebut saya tidak sendirian, saya bersama teman saya brainstorming dengan teknik teknik machine learning yang sudah kita lakukan namun masih jelek hasilnya. Mau tau hasilnya? silahkan chat saya. Saya sendiri lebih merasa atmosphere ketika ikut kompetisi yang masih “fresh” karena kita tahu kejadian kejadian secara real-time. Tujuannya memang bukan untuk menang, karena saya sendiri mengobservasi orang yang leading dalam kompetisi ini mempunyai gelar akademik segudang dan tentunya menang kompetisi sebelum sebelumnya. Namun banyak pelajaran yang saya dapat dari kompetisi tersebut.

Mungkin itu hanya dari sisi postifnya saja, bisa dibilang yang bagus bagusnya sajalah, namun juga ada tantangan tantangan yang sifatnya berasa “soft” karena kompetisi ini online jadi kalau tidak ada motivasi yang mendalam jadi tidak serius, dan juga jika tidak ada teman brainstorm jadi lelah sendiri. Tips saya cobalah utak atik dataset sebisanya, lalu keluar hasil langsung disubmit jika masih jelek hasilnya maka utak atik dibagian feature engineering dan hyperparameter tunning lalu di submit lagi jika di train dataset ada perbaikan. lalu jangan lupa untuk ikut group discussionnya karena sungguh itu sangat bermanfaat, dan jangan lupa juga ikut nimbrung di thread thread orang untuk memberikan saran atau mengajukan pertanyaan.

Akhir

Bagi yang ingin mengikuti kompetisi kaggle, keinginannya segera dilaksanakan :) mulai aja dulu dari join kompetition, lalu download datasetnya, sedikit sedikit load datasetnya, nanti pada akhirnya akan menemukan comfort zone kok. Bagi yang ingin tetap update dengan dunia data science ini silahkan follow channel telegram @datafolks

--

--