Kaggle 紐約計程車行駛時間競賽
網址:https://www.kaggle.com/c/nyc-taxi-trip-duration
截止:九月十五號
獎金:這很有趣,下面說
廠商:NYC Taxi & Limousine Commission
先說一下這個在比什麼,就是給你計程車的一些簡單資訊,上下車經緯度跟時間、乘客人數等等,去預測這趟車程會花多少時間。而這個比賽有趣的點就在於,獎勵方式跟以往不同。這次不是獎勵好成績,而是獎勵對社群的貢獻度。分為兩類:資料集獎金,以及 Kernel 獎金。
資料集獎金
$3000 四名:資料集要符合品質規範,然後是在計程車競賽之後才發佈到 Kaggle,最後,除了資料集的發佈者以外,有其他人用這個資料集寫 Kernel 而得到很多好評(upvote),這樣資料集就會入選。(詳細規則參考官網)
Kernel 獎金
這邊又分成三類
1. 雙週好評(upvote)獎 $2000
→ 每兩週選出好評最高的參賽者。
2. 主題獎 $2000
→ 有三個主題:教學(tutorial)/敘事(storytelling)/互動式資料視覺化(interactive data visualization)。競賽最後,會有 Kaggle 官方人員在每個主題下挑選最佳的 Kernel,每個主題各$2000。
3. 復刻提交獎 $1000
→ 就是看誰的 kernel 被其他人 forked & submitted 最多次拉
目前戰況
感覺就是會學到很多的一個競賽啊,因為第一名也沒有獎金,幫助他人才會得到獎金,目前 Leaderboard 第一名直接公開自己的 Kernel 了,好評排第二,第一是一個 R script,都發佈不到 24 小時,票數也都還沒破百,感覺隨時都有希望。資料集的部分也有不錯的,目前發佈了八個,有幾個感覺應該會有幫助,譬如說擴充訓練集,或是天氣資訊之類的。
小結
又是一個 regression 的問題,都是要做特徵選取,但是跟賓士題有著天壤之別,賓士題的關鍵在於,太多良莠不齊的特徵,你必須要選到好的那些。而這題因為特徵太少,而鼓勵大家發佈資料集來協助訓練。