Past selected projects and outcomes

JILUNG
Programming for Social Science
2 min readDec 3, 2018

Open-data

用天氣資料預測大眾交通工具使用量
— 以台北捷運與Washington D.C之共享單車為例

台北捷運的乘車人數難以用天氣資料預測:以相關性來看,逾九成四的進出人次與天氣呈低 度負相關;以解釋力來看,氣溫、風速、最大陣風與降水量對捷運乘車人次的 R-square基本上均低於三成,可知天氣資料並非各捷運站進出量的良好預測變數。大雨影響部分住宅區捷運乘車人次:從上述提及的人數與降雨量之散佈圖中可看出,降雨量大於100毫米時,雨量才開始與部分捷運載客量有明顯負相關。適度調整資料能增加模型預測的精準度(From Kaggle)
當篩選適當的預測指標後,藉由去除離群值、對資料為零者重新估計、以自然對數校正等調整方法能提升模型的預測力。
Related information: https://www.kaggle.com/c/bike-sharing-demand/data

Predicting rental price by rent591 data

Lyrics analysis I 中文流行歌曲的秘密

問題:
一首歌的受歡迎與否,是受到哪些因素影響呢?
能不能用回歸或者文字分析方式來拆析一首歌呢?
可能的解答方式:
將一首流行樂的特質轉化為不同的參數例如:音樂的屬性調性、MV點擊率、歌詞、和弦、旋律
對受歡迎程度(應變數)進行回歸。
合併Spotify API和KKBOX歌詞檔
斷詞、引入情緒辭典
依歌詞給予每首歌曲一個情緒分數

Lyrics analysis II

Stock prediction

台灣各縣市自殺率分析 (Top-ranked)

鄭宇翔 彭庭緯 葉泰 曾英睿 鍾騏鴻

雙北租屋成交速度之影響因素(Top-ranked)

以NBA球隊成員預測球隊勝率 (Top-ranked)

PTT Community Detection 網路族群的探討

經研二 蘇敬倫
經研二 陳諭陞
經研二 劉得顥
經濟四 李雅雯
農經三 鄭曉今

Data coverage

批踢踢實業坊上八卦版的文章
2017/12/06~2018/01/01
共計抓取3000頁的文章
有效文章總數59572篇
活躍人數共計93670人

ID2VEC:參考:Distributed Representations of Words and Phrases and their Compositionality (Very good idea)

假定回應代表對此標題有興趣將每篇文章的作者以及下方的回應者放在一起
1. [作者, 推文1, 推文2,..., 推文9, 推文10]
2. [推文9,..., 推文1, 作者, 推文2,..., 推文10]
將出現次數小於5次的使用者ID刪除,共計刪除41614筆使用者ID,剩下52056筆使用者ID

--

--