Hi, 感謝你的分享! 我不太確定資料可以 support 建出什麼 features,蠻好奇的是如何決定要使用這些 Features 呢?是先 前 EDA 中觀察的結果嘛?
Sheng Lin
1

我有設計的 features 包含過去看過幾部劇(在模型中分類效果最佳)、總共使用幾次、總共花了多少時間、在每部劇花多少時間、最後是看哪一部劇、最後一部花多久時間……等等。

至於如何決定是否要使用這些 feature,我覺得可以分成兩部分:

  1. 最後一部相關的 feature:從之前 EDA 的結果可以知道,很多用戶的答案是訓練資料中的最後一部劇,因此猜測最後一部的影響是很大的,所以想把這個概念設計在 feature 中讓模型也學到這件事情。
  2. 至於其他 features 比較像是想像出來的,舉「看過幾部劇」或是「每部劇花的時間」這兩個 feature 為例,是想把使用者的「用量」考慮進來。這部分雖然在當初做 EDA 的時候,並沒有觀察出什麼現象,但還是放進去讓模型去學,要多注意的大概就是避免 over-fitting 跟計算量會變大,但因為自己設計的 feature 不太多,所以可能在這次的影響不太嚴重。
Show your support

Clapping shows how much you appreciated KS Tseng’s story.