Feature Engineering 相關文章推薦

因為興趣、工作、以及在臉書社團台灣 Kaggle 交流區 [1] 的分享,前前後後也讀了不少 Feature Engineering 相關的文章,有的淺顯易懂,有的鉅細彌遺,各有各的好。其實應該融會貫通以後自己試著寫一篇,但是別人都寫這麼好了,自己再寫一次太浪費時間了,所以決定整理一下推薦的文章就好了。

其實絕大多數這個主題的文章,都有 75~85% 是重複的,大多也都刪掉沒提。下面四篇被留下來是有各自的原因:

  1. 作者本身是經驗豐富的 Kaggler,且投影片範例完整。
  2. 有實際的資料當範例,穿插少許程式碼以及圖表。
  3. 各種方法數量最多,額外資源也最多。
  4. 少數在討論 Feature Engineering 時,同時討論 Data Leakage 的文章。

如果你已經是台灣 Kaggle 交流區的成員,那麼很有可能已經看過前兩篇,可以直接看第三、四篇就好了。

Feature Engineering — HJ van Veen

這份投影片的作者就是 mlwave [2] 的作者,之前也分享過這份投影片,簡單描述如下:

Feature Engineering — Getting most out of data for predictive models — TDC 2017 — Gabriel Moreira

這個作者其實有發表一系列三篇的文章,之前也在專頁跟社團分享過,而這個是他在 TDC 2017 [3] 研討會上使用的投影片,內容相較之下比較專注在 Feature Engineering 這個主題。

Feature Engineering 特徵工程中常見的方法 — Vinta

我必須說,看完這篇,我有點感覺關於這個主題,找不到其他的文章分享了。作者除了列出了各式各樣的方法外,有些還包含範例,有些則包含其他參考文章。

【持续更新】机器学习特征工程实用技巧大全 — Tenniel M

其實這篇是在上一篇的參考文章看到的,文末居然提到了 Data Leakage,這在 Kaggle 時不時地會發生一下,覺得滿有趣的,就也列上來。這篇在排版上帶給我極大的困惑,有太多意義不明的留白,好像有什麼沒寫完還要再補的感覺,可能就是這樣所以標題才寫【持续更新】