考えるためのデータ可視化:散布図(後編)

武田 邦敬
クニラボ技術ブログ
Sent as a

Newsletter

Feb 28, 2024

こんにちは。ニュースレター「人事データ分析入門講座」講師の武田です。本日もよろしくお願いします。

このニュースレターでは、人事データ分析に取り組み始めた方に向けて、データ分析の考え方や方法をお伝えしています。本レターで3回目の配信となりました。

前回より「考えるためのデータ可視化」 というテーマで、 散布図の見方や活用方法についてお伝えしています。

本レターは後半ということで、散布図を深掘りしていきます。

前回の振り返り

前回のレター「考えるためのデータ可視化:散布図(前編)」では、人事トイデータを使って、時間外と年休消化率の関係を探っていきました。検討をしている散布図を改めて眺めてみましょう。

この散布図を少し眺めただけでは、時間外と年休消化率の関係を明確にすることができませんでした。しかし、散布図の領域を区切って業務的な意味合いを考えてみると、新たに気になる点がでてきました。

前編では次のような点をあげさせていただきましたが、この他にも気になる箇所を見つけた方もいらっしゃるかもしれません。

  • 左下の方は時間外が少ないのに、なぜ年休を消化できていないのだろうか。職場に課題があるのだろうか、それとも役職やポジション上制約があるのだろうか。
  • 右下にいる従業員の健康状態やエンゲージメントはどうなっているのだろうか。打てる手はないだろうか。そもそもどういう職場なのだろうか。

今回のレターでは、こうした着想をさらに掘り下げるために散布図を活用する方法をお伝えします。

「分けて」考える

人事データ分析では、散布図で気になる箇所やクラスターが出てくると、「その箇所にはどんな人が含まれているのだろう?」という興味が湧いてきます。そして、散布図の点に含まれる人の情報を探ろうとするわけですが、点が多いと見るだけでも大変ですよね。

そこで、散布図を深掘りする際には、何らかのグループで分けてみる方法を試してみるとよいでしょう。一般的な人事データには、年代・等級(グレード)・性別・所属・職種といった人事属性が記録されているはずですので、分けるための切り口はたくさんあります。

試しに、年代別に散布図の点を色付分けしてみると以下のようなグラフになりました。こうしたグラフは、PythonのSeabornやRのggplot2などのツールを使うと簡単に作図することができます。Excelでも作ることは可能ですが、区分毎にデータ範囲を指定する必要があるなど若干手間がかかります。

色分けだけだと分かりにくいという方は、点の形を変えることで見やすくなるはずです。年代別に点の色と点の形を変えると次のようなグラフになりました。形によって色塗りされた面積が変わってしまうので、密度を見る上では気を付ける必要があるでしょう。

さて、年代別に色分けされた散布図を眺めてみて、みなさんはどんなことに気づいたでしょうか。

グラフの真ん中にある大きなクラスターはいろんな点が混在しているのではっきりしない部分もありますね。

一方、気になっていた左下の「時間外は少ないのに年休を消化できていない」クラスターを見てみると、30代の従業員だけで構成されていることがわかりました。年休が取れない30代というのはどのようなプロフィールなのか気になってきましたね。

また、月平均の時間外が80時間を超えているところを見ると、すべて20代ということがわかりました。こちらは早急に何らかの対応を打つ必要がありそうです。

このように、散布図を何らかの人事属性で分けてみることで、新しい知見を得ることができます。

「分ける」だけでわかるとは限らない

さて、先ほどは年代別に色分けすることで新しい知見を得たわけですが、いつもそう上手くいくとは限りません。その一例として、散布図をグレード別に色付けしたグラフを見てみましょう。

各グレードは以下のような意味合いになっています。少しざっくりとした分類になっていますが、Mが管理職でそれ以外が一般従業員ということになります。

  • M:課長・部長に相当する管理職
  • L:係長に相当する非管理職のリーダークラス
  • S:一般社員
  • E:定年後再雇用スタッフ

改めてグレードで色分けされた散布図を見ると、概ねどのクラスターにもすべてのグレードの従業員が含まれているように見えます。これでは当初の疑問を解消するような知見を得ることはできなさそうですね。

散布図を分けてみることは有効な戦略ですが、現実の人事データを見るときには、このように渾然一体としてよくわからないということがしばしばあります。そのため、様々な切り口で見ていく必要があるわけです。

それでは人事データの切り口をどう見つければいいの?という疑問が出てくると思います。

実際、人事データ分析に取り組み始めた方から質問をよくいただきます。これについては次回のレターで取り上げる予定です。

では、散布図の深掘りを続けていきましょう。以下、散布図を別の方法で分ける方法をお伝えしていきます。

ここから読者限定記事〈無料〉になります。気なる方はぜひご登録ください。

条件で散布図自体を分けてみる

次のグラフは、今回の散布図を部別に色分けしたものです。これでクラスターがくっきりと見えました。余談ですが、実際に分析をしていてこういったグラフに出合うとテンションがあがります。

部で色分けされた散布図を見ると、各部で働き方が随分異なることがわかります。分かりやすいところでは、研究部は長時間労働が常態化しているように見えます。また、総務部は時間外を抑えながら年休も消化している様子がうかがえますね。営業部と開発部は分布が広がっているように感じます。

このように多くの情報を得ることができましたが、ここで別の分け方をご紹介します。それは、所属別に散布図自体を分けて描いてみるという方法です。具体的には次のようなグラフです。このようなグラフを条件付きプロットと呼ぶことがあります。今回は部で条件付けして(分けて)みたわけですね。

このように分けることで、各部の様子がよりくっきりわかりました。営業部は2つのクラスターを持つことがよりシャープに見えますね。

このグラフを作るときのポイントは、各散布図の横軸と縦軸の範囲を揃えるということです。そうすることで、各図の位置関係やばらつきを比べることが可能になります。

もし、各図の軸の範囲が異なっていたらどうなるでしょうか? すべての散布図が図いっぱいに広がるので分布の形は捉えやすくなるかもしれませんが、大小関係は注意深くみないと分からなくなってしまいます。グラフを作るときの軸の範囲はとても大切です。

さて、このように分けたことで、部毎の横軸と縦軸の関係を把握しやすくなるという効果もあります。一例として、上の散布図に対して回帰直線をフィットさせてみました。

これで必ずしも明確な傾向が見えるわけではありませんが、条件付きプロットに対して直線をフィットさせてみると意外な発見につながることもあります。

ちなみに、ひとつの散布図で色分けしたグラフに回帰直線をフィットさせることも可能ですが、以下のように分かりにくいことがあります。こうした場合は、今回のように散布図ごと分けてみるとよいでしょう。

特定のクラスターにフォーカスしてみる

条件付きプロットで気になるクラスターが見つかったら、そのクラスターに絞り込んで散布図を描いてみることも有用です。今回は分布が広がっている開発部に着目してみました。まずは開発部に絞って年代別に色分けした散布図から見てみましょう。月60時間以上の時間外をしながら年休も消化できていない20代・40代の層が気になりますね。

さらに、開発部の中の「課」に着目して、散布図を分けてみると以下のようになりました。今回は数が多いので色も分けてみました。これを見ると、開発部においては課によって働き方が異なりそうだということがわかりますね。

このような形で、特定のクラスターに着目した後も、別の切り口を使って分析を続けることができます。

まとめ

今回のレターでは、前回に引き続き「考えるためのデータ可視化」というテーマで散布図を丁寧に見る方法をお伝えしました。様々な人事属性で散布図の点を色分けしたり、グラフごと分けたりすることで、深掘りしていくことができます。

その一方で、どうやって深掘りするための切り口を見つけたらいいのだろう? という疑問を持った方もいらっしゃるかと思います。そこで、次回のレターでは、人事データ分析の切り口について取り上げてみます。

次回もお楽しみに!

--

--

武田 邦敬
クニラボ技術ブログ

データサイエンティスト&マネジメント経験を活かして独立。人事データ分析チーム育成支援、製品強化のための機械学習活用支援を行っています。本と本屋と読書と積読が好き。 クニラボ https://ku2t-lab.com/