【資料科學入門】資料怎麼讀?常見檔案格式(一)

陳彥辰
Taiwanese in Data Science
4 min readAug 8, 2020

文/賴佑昇、陳彥辰

資料科學入門工具大補帖中我們提到了很多關於資料分析常用的工具,在使用這些工具之前,先來了解在實務上,資料通常是以什麼格式出現的吧!

以下內容集結了 TWiDS 志工群們的實戰經驗,希望藉由提供初心者入門課程,協助初入「資料科學領域」的新鮮人。

內容將不定期更新,也歡迎大家互相交流。

CSV

  • 副檔名為 .csv 純文字檔案,全名是 Comma-Separated Values 逗號分隔值,白話文的意思是以逗點分隔資料的檔案格式,資料欄位是以逗號隔開,也就是透過軟體讀取檔案時,遇到逗號會建立新的欄位,藉此來確保正確的欄位結構。
  • 在 python 中,我們使用 pandas pd.read_csv()方法來讀取 csv 檔案,如下我們將以 kaggle 上著名的 titanic dataset 來說明怎麼讀取資料,程式如下:
  • 如上圖,資料讀取的結果其實就跟一般 csv 幾乎一樣,只是現在我們是透過 python 來操作,其他對資料的操作,可以參考 pandas 文件

EXCEL

  • Excel 是美國微軟 (Microsoft) 公司所發展出來的工具,為目前 Windows 環境下非常受歡迎的整合性套裝軟體,資料表副檔名常見的有 .xls.xlsx ……
  • .xls.xlsx csv 差別在於前者不單單只是一個檔案格式,在每個欄位中可以使用函數、圖表等功能,所以常被用來當報表使用。
  • 在 python 中,我們使用 pandas pd.read_excel() 方法來讀取 EXCEL 資料表,以下我們一樣透過 titanic dataset 來展示如何操作:
  • 如上圖,資料讀取的結果其實 csv 一樣,因為 csv 和 excel 都是以資料表格的方式呈現,其他對資料的操作,可以參考 pandas 文件,有更詳細的說明。

TXT

  • 副檔名為 .txt包含極少格式資訊的文字檔案。格式並沒有明確的定義,它通常是指那些能夠被系統或者簡單的文字編輯器接受的格式。
  • 在 python 中,我們使用 pandas pd.read_table()方法來讀取 txt 檔案,如下我們一樣透過 titanic dataset 來說明如何操作:
  • 如上圖,txt 資料讀取的結果,格式看起來跟 csv 和 excel 不太一樣,因為 這份 txt 資料是以空格當作分隔符號,所以在格式上沒 csv 和 excel 那樣整齊清楚,另外 txt 格式常用的分隔符號有分號、冒號、tab、空格。

JSON

  • JSON (JavaScript Object Notation,JavaScript物件表示法) 是一種輕量級的資料交換語言,使用易於讓人閱讀的文字為基礎,用來傳輸由屬性值或者帶有序列性的值所組成的資料物件。
  • 源自JavaScript,但 JSON 格式與程式語言無關,且大多數程式語言都支援 JSON 格式資料的生成和解析,以利於不同的網路系統得以用相同的JSON 資料格式來傳遞或交換資料,以簡化資料傳輸時的產生的成本及提高效益。
  • JSON 格式常常出現在 API,下一篇章將詳細的說明 API 是什麼。
  • 簡單的 JSON Sample:
    此 JSON Sample 呈現台灣8/4、8/5,兩天個別的Covid-19累積感染人數、累積死亡人數、累積康復人數。

👉下一篇我們即將針對API 作說明,就留待之後的文章囉。謝謝你花時間閱讀完,希望對你有幫助。
內容將不定期更新,也歡迎大家互相交流。

如果喜歡這篇文章,可以幫我們拍手 👏 👏👏 50下,並且follow我們的最新文章,支持我們繼續努力! (找找左側或左下角 “拍手符號👏”,長按可以連拍50下喔)

--

--