考えるためのデータ可視化:散布図(前編)

武田 邦敬
クニラボ技術ブログ
Sent as a

Newsletter

Feb 28, 2024

こんにちは。
ニュースレター「人事データ分析入門講座」講師の武田です。
本日もよろしくお願いします。

このニュースレターでは、人事データ分析に取り組み始めた方に向けて、データ分析の考え方や方法をお伝えしています。本レターで2回目の配信となりました。

今回は、「考えるためのデータ可視化」 というテーマで、 1回目に出てきた散布図の見方や活用方法についてお伝えしていきます。

データ可視化というのは、データの外観や特徴を捉えるためにグラフを使ってデータを表現することです。先日お見せした散布図もその一つですね。

では、「考えるための…」とはどういう意味でしょうか?

まずはここからお伝えしていきます。

誰のためのデータ可視化?

データを可視化する方法はたくさんあります。例えば、身近なところでは、棒グラフや折れ線グラフ、円グラフなどがあります。会議資料やプレゼンテーションで見たことがある方も多いのではないでしょうか。こうしたグラフを使うことで、データの外観や動きを捉えやすくなります。

ビジネスで何らかのメッセージを伝える上で、数字は大切な要素になります。そして、その傾向を端的に表すグラフがあると説得力が増します。つまり、何らかの主張をサポートするためにグラフが使われるわけですね。

ところで、これらのグラフは誰のために作るものでしょうか?

何かを主張するためにグラフを作る場合、それは意思決定者やミーティングの参加者に向けて作られることになります。伝えたいメッセージを効果的に後押しするため、グラフはシンプルで誰が見てもわかりやすいと思うものでなくてはなりません。

これはデータ可視化の重要な用途の一つです。

考えるためにグラフを描く

一方、データ分析の場面では、誰かに伝えるためだけでなく分析者自身が考えるために様々なグラフを描きます

データを理解するため、あるいは、データから何らかのパターンを発見して洞察を得るためにデータを可視化して眺めるわけです。それは、分析課題が明確になっている場合でも、そうでない場合でも同様です。また、AIを用いて予測モデルを作る場合であっても、まずデータを見て考えることは大切です。

この講座では、このようなグラフを作る作業を「考えるためのデータ可視化」と呼ぶことにします。

例として、コンプライアンスの観点で労務上の施策を検討する場面を想像してみてください。あなたはデータ分析者として、上級管理職に向けに時間外勤務の課題を定量的な観点から報告することになっています。時間が限られているのでパワーポイント10枚以内で報告書を作らなければなりません。

このとき、そのレポートに登場するグラフは高々数個だったとしても、データ分析者はその数倍から10倍程度のグラフを描いて考えることになるはずです。データから何かの知見を得るにはそれ相応の試行錯誤が必要だからです。

「考えるためのデータ可視化」というのはまさにこのプロセスを指しています。

データ分析の経験がある方は「そうそう。そうだよね」と思われるかもしれません。
一方、データ分析を始めたばかりの方は「面倒だな。グラフの種類も多くてよくわからないし」といいたくなるかもしれません。その気持ちは大変よくわかります。私自身、データ分析を始めたころはグラフを使って考えてといわれてもよくわかりませんでした。

しかし、私個人の感覚ではありますが、データ分析の初期段階で様々なグラフを描いている時期というのはとても楽しい場面になっています。データを見ながらアレコレ思案していると探検している気分になります。

ということで、早速探検に出かけてみましょう。

時間外と年休消化率の関係を探る

それでは、前回のレターに登場したグラフをもう一度見ることからはじめます。

以下は、人事トイデータ(拡張版)のデータ項目の中で、横軸を時間外時間数_月平均、縦軸を年休消化率にとり散布図を描いてみたものです。グラフの中の点一つひとつが従業員になります。今回のデータは600件ありますので、グラフの中に600個の点があるわけですね。

この散布図は、時間外と年休消化率の関係を探るために描いたものでした。その背景には、時間外が多いと年休を上手く消化できていないのではないかという仮説がありました。このように、散布図は2つのデータ項目(量的変数)の関係を分析するために使うことができます。

このグラフを見ると何となく右肩下がりに見えますが、いびつな形をしていてズバッと結論を出せそうにありません。

試しにデータの傾向を示すために回帰直線をフィットさせてみましょう。散布図に直線を重ねてみることで全体傾向を捉えることができます。以下のグラフはPythonを用いて作図していますが、R, Excel, Tableauなどでも作成することができます。

グラフを見ると確かに右肩下がりといえますが、この直線で関係を端的に表すことができたとは強く言えなさそうですね。分析を始めたころはこうしたグラフを見ると少しがっかりしたものです。

散布図から興味深い点を探す

しかし、このグラフを丁寧に見てみると、興味深い点がみつかります。例えば、グラフの左下に注目してみましょう。左下は時間外が比較的少ないのに年休を消化できていないグループになります。これはどういうワークスタイルなのでしょうか。

今度は横軸(時間外)に着目してみましょう。グラフの右端を見ると、月平均で80時間を超えている人が何人もいることがわかります。研究開発業務だとしてもコンプライアンス的に問題がありそうです。月平均45時間、月80時間で線を引いてみると、どのような職場でどのように働いているのか気になってくるのではないでしょうか。(下図参照)

このように、散布図を詳しく見ることで、新たな疑問や気づきを得られることがあります

経験的には、今回のようにあまりきれいでない散布図の方が、多くの気づきを得られるように感じています。逆に回帰直線の付近にきれいに点がばらついている状況だと、「時間外と年休消化には負の相関があるのね」という考察までで終わってしまうかもしれません。

こうした気づきを得るためには、

  • 散布図の中に形成された固まり(クラスター)に注目する。
  • 回帰直線を引いたときに、その直線から外れている点に着目する。
  • 横軸や縦軸で業務上の意味のある境界に着目する。(例えば、時間外の閾値など)

という工夫をしてみるとよいでしょう。

散布図の領域に名前をつけてみる

さて、散布図を注意深く観察する習慣ができたところで、もう一歩踏み込んで考えてみましょう。今回の散布図をざっと上下左右4つに分けたとき、それぞれどのような意味があるか考えることはできないでしょうか?

分け方は今の段階では緩く考えて構いません。例えば、時間外は月45時間で、年休消化率は50%(0.5)でざっと分けてみると以下のようになります。これでグラフを4つの領域に分割することができました。さて、これら4つの領域にあなたはどんな名前をつけますか?

4つの領域がどんな意味を持つのか考えながら名前をつけてみると、

  • 左上: ホワイト職場(時間外も少なく、年休も取れる)
  • 右上: メリハリ職場(時間外が多いが、年休は取れる)
  • 右下: 激務な職場(時間外が多く、年休も取れない)
  • 左下: 不思議な職場(時間外が少ないのに年休が取れない)

という形になりますが、これは一例にすぎません。職場や業種の背景によって変わってきますので、主観でOKです。おそらく、読んでいる方それぞれで意見がかわってくるはずです。

このように分けて考えることで、単に横軸と縦軸の数字的な関係だけでなく、業務的な背景を意識することができます。今回の例では、ワークスタイルや職場状況にイメージを広げることができました。

このようにイメージを広げていくと、新たに気になる点がでてきます。例えば、

  • 左下の方は時間外が少ないのに、なぜ年休を消化できていないのだろうか。職場に課題があるのだろうか、それとも役職やポジション上制約があるのだろうか。
  • 右下にいる従業員の健康状態やエンゲージメントはどうなっているのだろうか。打てる手はないだろうか。そもそもどういう職場なのだろうか。

といったことが気になります。

このように、散布図の領域の意味に着目することで着想を得ることができます。こうしたアプローチをとるためには、業務的に意味のある軸を選ぶことが重要です。

それでは、こうした気になるポイントを更に深掘りするためにはどうしたらよいでしょうか?

この点については、次回のレター「考えるためのデータ可視化:散布図(後編)」についてお伝えする予定です。

まとめ

今回のレターでは、「考えるためのデータ可視化」というテーマで散布図を丁寧に見る方法をお伝えしました。次回は今回でてきた疑問を踏まえて、更に深く掘り下げる方法にチャレンジします。

次回もお楽しみに!

--

--

武田 邦敬
クニラボ技術ブログ

データサイエンティスト&マネジメント経験を活かして独立。人事データ分析チーム育成支援、製品強化のための機械学習活用支援を行っています。本と本屋と読書と積読が好き。 クニラボ https://ku2t-lab.com/