一份超詳細的資料科學路線圖!

從頭開始學習資料科學的免費資源。

如何入門資料科學?

這個 GitHub 專案提供了一份免費學習資源,既包括超詳細的學習路線圖,又涵蓋多個免費線上課程、大量資料科學專案和 100 多本免費機器學習書籍,專案上線數天即獲得 2.4k 星。

專案地址:https://github.com/therealsreehari/Learn-Datascience-for-Free#5_-expressions

該專案收集了散佈在網路上的不同資源,並按照一定的順序進行組合,以幫助資料科學初學者解決如何搜尋免費和結構化學習資源的問題。專案作者表示,該專案將基於新的免費資源持續更新。

資料科學家學習路線圖

「磨刀不誤砍柴工。」該專案首先詳細介紹了一份資料科學路線圖,羅列了資料科學學習者需要掌握的內容:

●基礎知識(矩陣和代數基礎等);
●統計學(機率論、貝葉斯定理等);
●程式設計;
●機器學習;
●文字挖掘 / 自然語言處理;
●資料視覺化;
●大數據;
●資料獲取;
●資料再加工(Data Munging);
●工具箱。

成為資料科學家需要掌握的基礎知識

在成為資料科學家之前,你需要掌握關於矩陣的理論知識,瞭解其操作方式,熟悉矩陣的各種變換。專案作者還向我們介紹了多種資料結構,包括雜湊函式、二叉樹等。

以二叉樹為例,專案作者解釋了什麼是二叉樹:「在計算機科學中,二叉樹是一種樹資料結構,其中每個節點最多具有兩個子節點,稱為左子節點和右子節點。」

除了矩陣知識以外,資料科學初學者還需掌握關係代數、資料庫基礎知識、CAP 原理、ETL 等多達十多個知識點(有些部分還在更新中)。

統計學

該專案介紹了許多關於統計學的知識,包括資料集的選擇、描述性統計、探索性資料分析、直方圖、機率論、貝葉斯定理等內容。

以探索性資料分析為例,專案作者從資料的視覺化和分析兩方面著手,向我們介紹了完成整個資料分析任務需要的開發環境、依賴庫、安裝方式以及分析方式。

在資料視覺化方面,專案作者介紹了三個資料視覺化庫 Matplotlib、Pandas、Seaborn,每個庫都有相應的連結,點選連結即可進入相應的網頁進行檢視。

點選 Seaborn 連結,可進入 Seaborn 主頁,該圖為連結到的主頁內容。

在資料分析方面,專案作者介紹了 PCA 降維方法,幫助學習者瞭解什麼是主成分分析,以及如何在 Python 中實現。

程式設計

成為資料科學家離不開程式設計,該專案介紹了需要掌握的程式語言 Python、R setup/R studio 等內容。以 R setup / R studio 為例,專案作者介紹了兩種安裝方式 Linux、Windows。但是本部分內容還有許多待補充知識。

機器學習

該專案還列舉了掌握資料科學需要了解的機器學習知識,包括數值變數、分類變數、監督學習、無監督學習、訓練集和測試集、分類器、過擬合、偏差和方差、支援向量機等 30 項內容。

以支援向量機為例,專案作者首先介紹了支援向量機的作用 — — 可用於分類和迴歸任務,接著用簡單明瞭的語言解釋了支援向量機的原理。此外,專案作者還列舉了關於支援向量機的其他知識,讀者可透過連結自行學習。

除了上述介紹的內容外,專案作者還整理了文字挖掘、資料視覺化等內容,此處不再贅述。

免費線上課程

該專案基於 GitHub 使用者 Developer-Y 的專案整理了大量線上免費課程的資源,包括人工智慧、機器學習、機器人學三個主要部分。其中機器學習部分又細分為機器學習導論、資料探勘、資料科學、機率圖模型、深度學習、強化學習、進階版機器學習課程、基於機器學習的自然語言處理與計算機視覺、時序分析、機率與統計學、線性代數等。

從該專案列表中,我們可以看到熟悉的吳恩達機器學習課程,以及來自卡內基梅隆大學、斯坦福大學、蘇黎世聯邦理工學院、加州大學伯克利分校、微軟等機構的豐富課程資源。

人工智慧開源專案

此外,該專案還羅列了大量人工智慧開源專案,涵蓋機器學習、深度學習、自然語言處理、計算機視覺這些領域。

這一資源來自 AI 研究者、資料科學家 Ashish Patel 建立的 GitHub 庫,目前包含 71 個條目,點開連結即可獲取相應的專案和程式碼資源。

從目前的列表中,我們可以看到它包括目標檢測、聊天機器人、GUI、無監督學習、迴歸分析、情感分析、推薦系統、資料科學、NLP、計算機視覺等細分領域的相關專案資源。蓋列表將持續更新。

100+ 免費機器學習書籍

專案作者整理了一份來自 Insane 的機器學習書籍列表文章。該列表在 2021 年 1 月份剛剛更新過,包括我們熟悉的「花書」《深度學習》,以及主題為圖演算法、自然語言處理、資料探勘、GAN、Python 等的書籍。

圖源:https://www.theinsaneapp.com/2020/12/download-free-machine-learning-books.html

專案作者表示,希望這些免費資源能夠幫助到無法支付教育費用的人們,從頭開始掌握資料科學。

※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※

我是「數據分析那些事」。常年分享數據分析乾貨,不定期分享好用的職場技能工具。各位也可以關注我的Facebook,按讚我的臉書並私訊「10」,送你十週入門數據分析電子書唷!期待你與我互動起來~

文章推薦

這樣理解 HTTP,面試再也不用慌了~

Java程式設計師必會的工具庫,讓你的程式碼量減少90%!

學會5個數據分析常見定律,資料敏感度提升N個度

--

--

數據分析那些事
數據分析不是個事

這是一個專注於數據分析職場的內容部落格,聚焦一批數據分析愛好者,在這裡,我會分享數據分析相關知識點推送、(工具/書籍)等推薦、職場心得、熱點資訊剖析以及資源大盤點,希望同樣熱愛數據的我們一同進步! 臉書會有更多互動喔:https://www.facebook.com/shujvfenxi/