Kaggle 紐約計程車行駛時間競賽

Rick Liu
Rick Liu
Jul 22, 2017 · 2 min read

網址:https://www.kaggle.com/c/nyc-taxi-trip-duration
截止:九月十五號
獎金:這很有趣,下面說
廠商:NYC Taxi & Limousine Commission

先說一下這個在比什麼,就是給你計程車的一些簡單資訊,上下車經緯度跟時間、乘客人數等等,去預測這趟車程會花多少時間。而這個比賽有趣的點就在於,獎勵方式跟以往不同。這次不是獎勵好成績,而是獎勵對社群的貢獻度。分為兩類:資料集獎金,以及 Kernel 獎金。

資料集獎金

$3000 四名:資料集要符合品質規範,然後是在計程車競賽之後才發佈到 Kaggle,最後,除了資料集的發佈者以外,有其他人用這個資料集寫 Kernel 而得到很多好評(upvote),這樣資料集就會入選。(詳細規則參考官網)

Kernel 獎金

這邊又分成三類
1. 雙週好評(upvote)獎 $2000
→ 每兩週選出好評最高的參賽者。
2. 主題獎 $2000
→ 有三個主題:教學(tutorial)/敘事(storytelling)/互動式資料視覺化(interactive data visualization)。競賽最後,會有 Kaggle 官方人員在每個主題下挑選最佳的 Kernel,每個主題各$2000。
3. 復刻提交獎 $1000
→ 就是看誰的 kernel 被其他人 forked & submitted 最多次拉

目前戰況

感覺就是會學到很多的一個競賽啊,因為第一名也沒有獎金,幫助他人才會得到獎金,目前 Leaderboard 第一名直接公開自己的 Kernel 了,好評排第二,第一是一個 R script,都發佈不到 24 小時,票數也都還沒破百,感覺隨時都有希望。資料集的部分也有不錯的,目前發佈了八個,有幾個感覺應該會有幫助,譬如說擴充訓練集,或是天氣資訊之類的。

小結

又是一個 regression 的問題,都是要做特徵選取,但是跟賓士題有著天壤之別,賓士題的關鍵在於,太多良莠不齊的特徵,你必須要選到好的那些。而這題因為特徵太少,而鼓勵大家發佈資料集來協助訓練。

#Kaggle
#MachineLearning
#DataScience
#nyc_taxi_trip_duration

Welcome to a place where words matter. On Medium, smart voices and original ideas take center stage - with no ads in sight. Watch
Follow all the topics you care about, and we’ll deliver the best stories for you to your homepage and inbox. Explore
Get unlimited access to the best stories on Medium — and support writers while you’re at it. Just $5/month. Upgrade