接續把 11 月 Kaggle 官方網誌看完,總共五篇:
- 產品發表:Dataset 資源增加
- 十月 Dataset Publishing Awards 首獎訪談
- “Data Science for Good Events” 介紹
- Neural Network 介紹
- Neural Network 介紹第二部分:計算舉例
產品發表:Dataset 資源增加
從 11/15 開始,使用者可以在 Kaggle 上面分享資料集的限制修改了。
- 500Mb -> 10Gb
- 1000 ZIP files -> 無限(需要是 ZIP file)
- 第一層只能 20 個檔案 -> 50 個
十月 Dataset Publishing Awards 首獎訪談
第一名的 Dataset 是美國過去 50 年的大規模槍擊事件,數量從數據的角度來說不多,但是從悲劇的角度來說算滿多的,398 起。第二名是法國勞工薪資以及城鎮人口數據。第三名是巴西的選舉政治獻金資料,因為在念博士所以就順便發表一下。
台灣最近也有這樣的資料(github),以及鏡週刊一連串的報導。
Data Science for Good Event 介紹
Kaggle 類似 meetup 的服務
Neural Network 介紹
從 perceptron 開始當第一代模型作為例子,舉出模型不足的地方,依序加入 sigmoid function,接著將模型變成多層的 perceptron,進一步舉例增加內部節點,稍微說一下除了 sigmoid 也可以用 tanh 或 relu,最後提到多個輸出(multiclass)的情況,可以用 softmax。這邊是模型變種過程的部分,接著就簡單的帶一下 backpropgation 的算法,然後提出三個討論:
- computational complexity
- 基本上就是因為每個節點都要算微分
- 帶到 mini batch
- 帶到用 GPU - Gradient Descent may have trouble finding the absolute minimum
- 帶出 momentum - Hom to generalize
- 帶出 auto differentiation
Neural Network 介紹第二部分:計算舉例
就是把上一篇的例子,用數學符號算一遍,把 bias 先忽略,稍微簡化了一下,就把一堆 w 上標下標的符號畫來畫去…
好吧,我覺得沒了解過 NN 的人應該 10 個有 9 個看不懂這兩篇。