データの可視化

可視化はデータサイエンスの基本的ツールの1つです。

データの可視化の目的は主に2つです。

  1. データの探索
  2. データとの対話

この章では、データの探索を行うのに必要となるスキルとデータを扱う上で何度もつかう可視化のスキルについて扱います。データの可視化だけで一冊本がかけるほど内容はありますが、ここでは何が可視化の良し悪しを分けるかを伝えます。

matplotlib

Web上での対話的な可視化が必要なときには向いてませんが、簡単な棒グラフや折れ線グラフ、散布図を表したいとき非常に有効です。

グラフの軸や線の形式、点の形などを変更でき、もっと複雑に設定することできますが、今回は概要だけをお伝えします。

棒グラフや折れ線グラフや散布図を表現でき、データを可視化することができます。
(左の写真ですが、環境はJupyterNotebookで、Pythonで書いてます)

補足

  • seabornはmatplotlibの上に構築されたライブラリで、見栄え良くより複雑な可視化を可能にします。
  • D3.jsでは、Web上で洗練された対話型の可視化を行うためのJSライブラリです。現代的で広く使われているので、学んでみたいです
  • Bokehは、D3的な可視化をPythonで行うためのライブラリです。
  • ggplotはR言語のライブラリをPythonに移行したものです。Rを書いていた人にとっては使いやすいようです。
  • Plotlyが使いやすくて注目されているようです。
  • HoloViewsという可視化ラッパがすごいっぽい(matplotlib, Plotly, Bokehがつかいやすくなるツール)

データの可視化については以上になります。

まとめ

・グラフはMatplotlibでかける。

・可視化ツールはたくさんある。中でもseabornやHoloViewsは美しい。

・最初にグラフ化するとデータと対話しやすい