機器學習未來高手100天 Day 1 ~ Day 3 : L1_1 先看看我們有甚麼?

4 min readJan 7, 2019

--

這些都是學習筆記，所以內容有些稀疏，請務必閱讀然後作業，還有如果有延伸參考也務必好好研究。

【機器學習未來高手100天 Day 1 ~ Day 3 : L1_1 先看看我們有甚麼?】

目標完成日期：1/9

參加的同學請登陸 https://goo.gl/my1Nq7
(如果沒有超過五個人，活動隨時會結束)

同時每日作業與進度請參考
https://github.com/PatrickRuan/ML100-Days
https://github.com/freyatzeng/ML100-Days
請按個 watch 或 follow ^^

.

【Day 1: 當我們遇到一個問題時，不見得要馬上跳進去玩耍】

當我們遇到一個問題時，不見得要馬上跳進去玩耍，
我們要先思考問題，知道目的，如果有資料，還可以概略看一下資料，盤算能夠作出甚麼有趣有用的結果。

如果沒有資料，就問題的思考後，才去採集資料，相對可以節省很多時間。

之後我們才會盤算一個策略去進行行動，比如快速完成一個方案，一個最小可行方案(Minimum Visiable Product 的概念)，後續進行優化改善。

所以是研究思考策畫 => MVP => 優化。

如果要往某一專業區前進，請接續新的行動，
研究思考策畫 => MVP => 優化 => 分享討論 => 同一類型任務

Day 1 作業: 編寫 Y=wX+b，plot(X,Y) 定義 mse, mae
作業2：如果你今天經營一個台灣大車隊，你要如何透過數據分析來提升業績? 思考一下，我們除了需要工程師也需要資料分析師與科學家。

程式作業，https://github.com/PatrickRuan/ML100-Days

- 🤣 1.) 建立一個 y = w * x + b， w =3, b =5，x 具有 amplitude 5 的 Guassian Noice

- 🤣 2.) def mae, and mse 2 functions

- 🤣 3.) 學習在文字區編寫 $ MSE = \frac{1}{n}\sum_{i=1}^{n}{(Y_i — \hat{Y}_i)²} $

.

【Day 2: 第一次資料探勘】

我們前十六天都將進行資料數據前處理的工作，練習的問題會是 Kaggle 上的題目 Home Credit Default Risk

會用到的應該是 application_train.csv 與 application_test.csv
最後要上傳時會用到 submission.csv
但是請不要忘了研讀 HomeCredit_columns_description.csv

Day 2 作業，
- 🤣: — 🤣: — 🤣: — 🤣: — 🤣: — 🤣: — 🤣: — 🤣: 底下抓 Kaggle
資料很重要，抓下來擺放的位子也很重要，未來的十多天都會一直用到，
- 🤣: 請上 https://www.kaggle.com/c/home-credit-default-risk/data 下載上面說明中提及的資料，放在一個叫做 part01 的子目錄中，我們的程式要放在 part01 的母目錄下的另一個目錄中，有點複雜喔。(如今天附圖)

- 🤣: 第二天我們開始讀取資料，對於這個被整理好的 Dataframe 進行最初步的探勘，比如說知道有多少筆資料，有多少 “欄” 的特徵，如何將特徵項目組成一個 list，又或者我們該如何呈現截取部分資料等。總之，我們還沒有跳進去觀察個別特徵，個別資料前，我們所採取的動作在今天試著作一輪。

- 🤣: 第二天還有一個有趣的參考作業，讀一讀吳老師的資料探勘講義，其中為何要研究杜河的魚類又如何進行都是很有意義的練習，川普的故事也趣味十足。

- 🤣: 程式作業: 學會本程式的所有觀察，同時提出不懂的地方。https://github.com/PatrickRuan/ML100-Days

.

【Day 3: 關於 DataFrame】

我們在作資料清理，在處理機器學習的問題時，常常都要熟練 DataFrame 的操作，DataFrame 就像是 EXCEL 的 Spreadsheet 一樣，第一列存著的是所有欄位名稱，就是我們未來要處理的特徵。第二列起就是一筆一筆的資料。

Day 3 作業:

🤣: 第三天的練習會比 pandas 的 DataFrame 多一點不同格式的東西，大家好好努力!
🤣: 程式作業: 學會本日程式(有兩個)的所有觀察，同時提出不懂的地方。

【延伸閱讀】

誰能不愛吳老師

他們怎麼說：資料科學家、工程師與分析師

AndyLiu 的鐵達尼

Machine Learning

Patrick Juan

Written by Patrick Juan

Help
Status
About
Careers
Press
Blog
Privacy
Terms
Text to speech
Teams