十一月 Kaggle 官方網誌摘要

Rick Liu
4 min readDec 15, 2017

--

接續把 11 月 Kaggle 官方網誌看完,總共五篇:

  • 產品發表:Dataset 資源增加
  • 十月 Dataset Publishing Awards 首獎訪談
  • “Data Science for Good Events” 介紹
  • Neural Network 介紹
  • Neural Network 介紹第二部分:計算舉例

產品發表:Dataset 資源增加

從 11/15 開始,使用者可以在 Kaggle 上面分享資料集的限制修改了。

  • 500Mb -> 10Gb
  • 1000 ZIP files -> 無限(需要是 ZIP file)
  • 第一層只能 20 個檔案 -> 50 個

十月 Dataset Publishing Awards 首獎訪談

第一名的 Dataset 是美國過去 50 年的大規模槍擊事件,數量從數據的角度來說不多,但是從悲劇的角度來說算滿多的,398 起。第二名是法國勞工薪資以及城鎮人口數據。第三名是巴西的選舉政治獻金資料,因為在念博士所以就順便發表一下。

台灣最近也有這樣的資料(github),以及鏡週刊一連串的報導。

Data Science for Good Event 介紹

Kaggle 類似 meetup 的服務

Neural Network 介紹

從 perceptron 開始當第一代模型作為例子,舉出模型不足的地方,依序加入 sigmoid function,接著將模型變成多層的 perceptron,進一步舉例增加內部節點,稍微說一下除了 sigmoid 也可以用 tanh 或 relu,最後提到多個輸出(multiclass)的情況,可以用 softmax。這邊是模型變種過程的部分,接著就簡單的帶一下 backpropgation 的算法,然後提出三個討論:

  • computational complexity
    - 基本上就是因為每個節點都要算微分
    - 帶到 mini batch
    - 帶到用 GPU
  • Gradient Descent may have trouble finding the absolute minimum
    - 帶出 momentum
  • Hom to generalize
    - 帶出 auto differentiation

Neural Network 介紹第二部分:計算舉例

就是把上一篇的例子,用數學符號算一遍,把 bias 先忽略,稍微簡化了一下,就把一堆 w 上標下標的符號畫來畫去…

好吧,我覺得沒了解過 NN 的人應該 10 個有 9 個看不懂這兩篇。

#Kaggle
#MachineLearning
#DataScience

--

--