給想進入資料科學的你/妳 Intro to Data Science in Python

yuwei
Jacky’s blog
Published in
Mar 22, 2019
source

嗨大家好久不見了,最近因為課業的關係可能會稍微忙一點,雖然每天都有在進步,但是進展相較上學期有緩慢了許多,原本春節過完後,勵志要每個禮拜更新一篇文章,也在一陣忙碌之中耽擱了

今天這篇,沒有要講什麼大觀念,要述說的只是資料科學家的必備能力之一的 — 寫code,通常想踏進資料科學家這個領域的同學們都會猶豫,到底該選擇R or Python,說真的,沒有對或錯,R在統計分析上確實有它傑出的地方,而Python則在廣度遙遙領先了R,包含了各式各樣的套件,包括可以拿來寫網頁後端的,可以機器學習的,可以深度學習的,可以連線資料庫,還有一大堆公司的API,這些都是Python的好處。

在這幾個月學習Python的過程中,一開始我的寫程式習慣是很糟糕的,雖然寫再也沒有多好,包含變數名稱亂取,註解不寫導致後來無法看懂code的意思,檔案擺放凌亂,許許多多的錯誤也導致後來想好好整理檔案的提交至github的我非常痛苦,花了許多的時間來還我之前的偷懶債。

而經過這些日子的努力,我把我這段Python學習套件的過程記錄下來了
,也都分別放在github,可以供想踏進這塊領域的同學一個tutorial,也給已經在這塊領域的大老們一個隨手看看複習的機會,我會根據套件不同來分段,也讓你們可以更快掌握Python的美,我也會根據我不斷的學習,並且不斷的更新

  1. Numpy

身為一個入門資料科學的同學們,第一個知道的套件一定是Numpy,Numpy的組合是number+Python,可想而知它一定是個處理數字很強的套件,沒錯,資料科學家每天都要與數字為伍,使用Python做資料科學更是離不開numpy,以下是我針對Numpy的教學筆記

2. Pandas

相比Numpy是第一個被知道,Pandas套件應該是最常被使用的吧,它幫助你以一種像excel一樣的架構但卻比excel順超多的方式來處理資料,如果你要入門,好好把它學好就對了,它可以幫助你想更多應該怎麼去面對一份龐大的資料

3. Matplotlib, Seaborn

這兩個套件應該是目前視覺化最有名的套件,涵蓋了幾乎所有你能想得到的圖表,讓你能客製化圖片,舉例來說,x軸的範圍,標題名稱,圖上做註記,這兩個套件都能幫你完成,學會這兩個套件,也能讓你在呈現資料上更佳的如魚得水

4. Plotly

這個套件我在前面的文章介紹過了,基本上,我認為它會取代matplotlib在python上面的影響力,成為最廣為人用的視覺話套件,我附上我之前寫的文章給大家學習

5. Regular Expression

文本檢索的好利器,能夠幫助你從一堆字當中很快篩選出你想要的文字或數字更甚至是符號,一開始,看re(regular expression)會有如在看天書一樣,但是堅持下去,你會發現它的強大,在這邊,我幫你簡單的入門一下

6. MongoDB

MongoDB是一種基於文件方式來儲存的資料庫,它介於關聯式資料庫(SQL)和非資料庫之中的一種產品,是非關聯式資料庫中功能最豐富,最像關連式資料庫的,它不再有如SQL一樣’row’的概念,而改以’document’的方式來儲存

結論

如果你要成為一個好的資料科學家,上述這些套件都是你必須好好掌握的,希望我的文章和code能讓你好好的練習或複習,記得,就是不斷的打code,不斷的嘗試去解決生活中碰到的問題,你就會變得越來越強,越來越不會被問題給難倒,希望這篇有幫助到你。

一樣,有問題都可以寄信到我的信箱 jacky308082@gmail.com

--

--

yuwei
Jacky’s blog

Curious Data scientist. Strong Lebron James’s fan. #StriveForGreatness #JustAKidFromTaiwan https://www.linkedin.com/in/yu-wei-chung/