從以前研究所到職場,其實會發現,資料科學所需要能力非常多, 從ETL至Model驗證等都必須都要有概念。尤其是資料科學同好,一定有看過以下Data Science能力圖:
之前因緣際會了解了Google有出Data Engineer的證照,之後就邊上班邊準備GCP的Data Engineer證照,也很開心的最後有考上這個證照。在這邊就稍微分享一下準備的心得。
原本就想說如果考過的話,要發一篇心得文,可惜第一次考GG了…….所以拖到現在,今年五月決定要來考這張證照,和幾個朋友一起看coursera的課程一起討論,當初只是想說是google開課的,內容應該會涵蓋大部分的考試範圍,課程在練習的lab有時候會提供免費的帳號讓你可以實作,但越上到後面的課程,越覺得課程講的真的是很基本,如果已經有相關經驗其實可以不用看這系列課程,而且還有一大部分的時間在教你如何使用GCP的服務。
在Netflix大賽後,基於矩陣分解的推薦系統被大家所開始研究並優化,且此方法能補足過去近鄰推薦的一些問題。像是推薦系統中的item之間存在相關性,當item增加,訊息量不會隨著item增加而線性增加。
Word embedding (Word vector)是近年來文字探勘非常熱門的技術,主要是用來將文字轉換成向量,透過向量化可進行大量運算。
Wide&Deep for recommendation 這篇論文,主要是Google於2016年提出的推薦系統,並且當時應用於app推薦。
LSTM,是目前RNN(Recurrent Neural Network)中最常使用的模型。RNN主要是要解決時間序列的問題,一般的DNN,在inpute資料通常是沒有時間性的資料。而RNN透過將Hidden…
最近在Official kaggle blog所看到的一篇好文章,主要是訪問目前世界第一的kaggler,並將他比賽的心得分享給大家。下面會將訪問重點整理在下面,大家有興趣的可以看一下Top kaggler如何玩kaggle。