Buku: Feature Engineering for Machine Learning
Artikel kali ini mau bahas soal feature engineering, step dimana yang ada dan tiada, penting tidak penting dalam pengembangan machine learning model. Beberapa hari yang lalu meluangkan waktu membaca buku seharian dengan judul “Feature Engineering for Machine learning” oleh Alice Zheng & Amanda Casari. Buku bisa dibeli di link judul itu ya.
Artikel ini bisa dibilang gambaran singkat tentang bukunya, atau ya bisa dibilang review buku. Dalam bukunya ada codenya juga loh yang bisa dilihat di Github disini. Jadi kalau belum yakin baca bukunya, coba lihat lihat codenya dulu.
In a nutshell, bukunya membahas teknik teknik yang dipakai untuk feature engineering, everything is done using python, kalau yang sudah mengerjakan project tabular data mungkin isinya tidak ada yang baru, tapi sangat bagus untuk yang baru baru belajar, jadi tidak sekedar memasukan data ke dalam algoritma untuk difitting, dan juga feature engineering ini penting biar ga asal gonta ganti algoritma dan fine tune parameternya.
Buku ini menyisir mulai dari machine learning life-cycle, numerical feature scaling, text feature extraction, categorical features, dimensional reduction, model stacking, sampai image feature extraction.
ada beberapa hal yang menarik untuk dihighlight.
Anything that uses the Euclidean distance. For these models and modeling components, it is often a good idea to normalize the features so that then output stays on expected scale.
quote diatas tentang scale feature yang berbeda beda, misal feature jumlah kuantitas item dan harga item yang sangat berbeda jauh scale numeriknya, maka feature feature ini perlu di transform.
It’s also important to consider the distribution of numeric features. Distribution summarize the probability of taking on a particular value. The distribution of input features matters to some models more than others.
Conclusion
Feature engineering plays an important step in machine learning development. Di step ini juga “kreatifitas“ dibutuhkan, mankanya bisa dibilang step ini juga makan banyak waktu sama banyaknya seperti proses cleansing.
Jika menurutmu tulisan ini bermanfaat mohon untuk clap nya ya :D
Dan jangan lupa follow mediumnya Data Folks Indonesia dan Channel di Telegram t.me/datafolks