初次使用Kaggle的心得分享
大家好,我是影像班的黃元瑞,日前開始接觸Kaggle, 因此在這與大家分享我在這本週使用Kaggle的心得,相關Kaggle的介紹如下:
成立 2010年4月創辦人 安東尼·戈德布盧姆代表人物 安東尼·戈德布盧姆 (CEO)
馬克斯·列夫琴 (董事局主席)
傑夫·莫澤 (CTO) 總部
美國舊金山標語口號 Making Data Science a Sport
使數據科學成為一項運動產業 預測建模網站 www.kaggle.com
Kaggle是一個數據建模和數據分析競賽平台。企業和研究者可在其上發布數據,統計學者和數據挖掘專家可在其上進行競賽以產生最好的模型。
對於有興趣加入的同學們,可以參考下列兩個網站:
Kaggle的解題挑戰 — 申請帳號和操作說明
新手玩Kaggle入門 — 上傳Submission 的方法
目前Kaggle提供三個入門題目給新手進行練習:
- Digit Recognizer
- Titanic : Machine Learing from Disaster
- House Prices:Advanced Regression Techniques
我參加Kaggle主要由於希望藉由實例來練習特徵擷取與正規化技巧、選擇/設定預測模型的方法及訓練分析預測結果的邏輯;因此我目前選擇 Titanic : Machine Learing from Disaster 作為第一個Kaggle的入門題目,之所以選擇此題目是因為它的資料是一般的文字資料且資料內容比較易懂,因此可以直接觀察數據進行特徵的分析且為Classification的問題,由於之前研究所論文是使用SVM進行影像辨像也是Classification的問題;所以就直接選擇SVM作為預測模型的方法;當你上傳你的Submiss後,系統會自行評估你的模型並回覆你的成績及排名:
如果各位的成績也與我一樣不太好的話,除了自已埋頭苦思外也可在該題目的Kernel欄位中參考其他高手針對這問題的處理方式及相關的成果,讓自已能快速了解自已在資料特徵的擷取及正規化是否有偏差或選擇/設定預測模式參數是否有再改進的空間…etc.