機器學習未來高手100天 Day 1 ~ Day 3 : L1_1 先看看我們有甚麼?

Patrick Juan
4 min readJan 7, 2019

--

這些都是學習筆記,所以內容有些稀疏,請務必閱讀然後作業,還有如果有延伸參考也務必好好研究。

【機器學習未來高手100天 Day 1 ~ Day 3 : L1_1 先看看我們有甚麼?】

目標完成日期:1/9

參加的同學請登陸 https://goo.gl/my1Nq7
(如果沒有超過五個人,活動隨時會結束)

同時每日作業與進度請參考
https://github.com/PatrickRuan/ML100-Days
https://github.com/freyatzeng/ML100-Days
請按個 watch 或 follow ^^

.

【Day 1: 當我們遇到一個問題時,不見得要馬上跳進去玩耍】

當我們遇到一個問題時,不見得要馬上跳進去玩耍,
我們要先思考問題,知道目的,如果有資料,還可以概略看一下資料,盤算能夠作出甚麼有趣有用的結果。

如果沒有資料,就問題的思考後,才去採集資料,相對可以節省很多時間。

之後我們才會盤算一個策略去進行行動,比如快速完成一個方案,一個最小可行方案(Minimum Visiable Product 的概念),後續進行優化改善。

所以是研究思考策畫 => MVP => 優化。

如果要往某一專業區前進,請接續新的行動,
研究思考策畫 => MVP => 優化 => 分享討論 => 同一類型任務

Day 1 作業: 編寫 Y=wX+b,plot(X,Y) 定義 mse, mae
作業2:如果你今天經營一個台灣大車隊,你要如何透過數據分析來提升業績? 思考一下,我們除了需要工程師也需要資料分析師與科學家。

程式作業,https://github.com/PatrickRuan/ML100-Days

- 🤣 1.) 建立一個 y = w * x + b, w =3, b =5,x 具有 amplitude 5 的 Guassian Noice

- 🤣 2.) def mae, and mse 2 functions

- 🤣 3.) 學習 在文字區編寫 $ MSE = \frac{1}{n}\sum_{i=1}^{n}{(Y_i — \hat{Y}_i)²} $

.

【Day 2: 第一次資料探勘】

我們前十六天都將進行資料數據前處理的工作,練習的問題會是 Kaggle 上的題目 Home Credit Default Risk

會用到的應該是 application_train.csv application_test.csv
最後要上傳時會用到 submission.csv
但是請不要忘了研讀 HomeCredit_columns_description.csv

Day 2 作業,
- 🤣: — 🤣: — 🤣: — 🤣: — 🤣: — 🤣: — 🤣: — 🤣: 底下抓 Kaggle
資料很重要,抓下來擺放的位子也很重要,未來的十多天都會一直用到,
- 🤣: 請上 https://www.kaggle.com/c/home-credit-default-risk/data 下載上面說明中提及的資料,放在一個叫做 part01 的子目錄中,我們的程式要放在 part01 的母目錄下的另一個目錄中,有點複雜喔。(如今天附圖)

- 🤣: 第二天我們開始讀取資料,對於這個被整理好的 Dataframe 進行最初步的探勘,比如說知道有多少筆資料,有多少 “欄” 的特徵,如何將特徵項目組成一個 list, 又或者我們該如何呈現截取部分資料等。總之,我們還沒有跳進去觀察個別特徵,個別資料前,我們所採取的動作在今天試著作一輪。

- 🤣: 第二天還有一個有趣的參考作業,讀一讀吳老師的資料探勘講義,其中為何要研究杜河的魚類又如何進行都是很有意義的練習,川普的故事也趣味十足。

- 🤣: 程式作業: 學會本程式的所有觀察,同時提出不懂的地方。https://github.com/PatrickRuan/ML100-Days

.

【Day 3: 關於 DataFrame】

我們在作資料清理,在處理機器學習的問題時,常常都要熟練 DataFrame 的操作,DataFrame 就像是 EXCEL 的 Spreadsheet 一樣,第一列存著的是所有欄位名稱,就是我們未來要處理的特徵。第二列起就是一筆一筆的資料。

Day 3 作業:

  • 🤣: 第三天的練習會比 pandas 的 DataFrame 多一點不同格式的東西,大家好好努力!
  • 🤣: 程式作業: 學會本日程式(有兩個)的所有觀察,同時提出不懂的地方。

--

--