データがやってきたら、まず何をやるべきか（前編）

武田邦敬

Published in

クニラボ技術ブログ

Sent as a

Newsletter

Feb 28, 2024

こんにちは。ニュースレター「人事データ分析入門講座」講師の武田です。本日もよろしくお願いします。

このニュースレターでは、人事データ分析に取り組み始めた方に向けて、データ分析の考え方や方法をお伝えしています。本レターで5回目の配信となりました。年末ということで年内では最後の配信になりますね。

前回は、人事データ分析を進めていくためのヒントとして、分析テーマから必要なデータを考える方法と、分析を深掘りするための切り口についてお伝えしました。また、人事データ分析でよく利用するデータ項目をマインドマップにしてご提供しました。

マインドマップをご覧いただくと、ひと口に人事データといっても多種多様なデータ項目があることが分かるかと思います。分析テーマとこれらのデータ項目を結びつけることが、基本的なアプローチになります。

ところで、目の前に人事データがあって、その中から目的のデータ項目が見つかれば、すぐに分析を開始することができるのでしょうか？

本レターでは、データが手元にやってきたときに分析者がやるべきことをお伝えしていきます。

データの発生源を考える

人事に限らず、データ分析を行うときにはデータの発生源を押さえる必要があります。

例えば、新商品のマーケティング調査をするときには、原則としてその商品がターゲットとしている消費者に関する情報が必要になるわけです。30代女性をターゲットにした商品を考えているのに、50代男性の話を聞くというのは、少し的外れになってしまいますね。

もし、その商品が日本国内すべての人をターゲットにするなら、どうすべきでしょう？
全国民に話を聞くわけにはいきませんので、サンプリングによる調査を行うことになりますね。このとき、サンプリングによって得られたデータは「日本国内すべての人」の縮図になっている必要があります。これを実現するためにランダムサンプリングが行われます。

このような調査においては、分析対象のデータが意図した集団を形成しているか、分析を始める前に確認する必要があります。

目の前にデータがやってきたとき、データ分析者はデータの状況を確認することから始めるわけですが、その初手として考えるべきことは「そのデータはどのように収集されたものか」ということです。つまり、その発生源を押さえておく必要があるのです。

分析しているデータが調査の意図と異なるデータの集合であったとすると、いくら分析しても活用することは難しくなってしまいます。結果、データ収集まで逆戻りすることになってしまいます。

このように、分析対象のデータの発生源を押さえることは極めて重要です。

人事データの外観を捉える

それでは、人事データ分析の場合はどうでしょうか？

全従業員のデータを分析対象とするのであれば、上記のような問題は回避できそうな気もしますね。人事データにはたくさんの項目がありますが、件数ベースで考えると高々従業員数×記録数にとどまりますので、全従業員を対象としてもよさそうです。

となると、人事データ分析におけるデータの発生源の確認とは何を意味するのでしょか？

結論から申し上げると、人事データ分析では以下の観点でデータを調べることが必要だと私は考えています。これらの確認をひとことでいうと、「人事データの外観を捉える」ということになります。

どの項目が抽出されているのか。（What）
どのシステムもしくはサーベイ結果から抽出されたものか。（Where）
抽出されたタイミングはいつで、データの実績はいつのものか。（When）
そのデータはどのように記録または調査されたものか。（How）
システムの管理対象は誰か。サーベイは誰が誰に向けて調査を実施したのか。（Who）
従業員（データ母集団）はどのような姿なのか。

1～5はシステムや調査といったデータの生成・抽出過程に着目した観点になっています。一方、6はデータの発生源としての「人」に着目したもので少し毛色が違いますね。

特に、新しい分析プロジェクトをはじめる場合、こうした観点でデータの発生源を確認することはとても重要です。ここで取り上げた観点はデータ分析一般に通じるものでもありますが、人事データに特有の難しさもあります。

本レターでは「前編」ということで、1～ 4をお伝えしていきます。

どの項目が抽出されているのか（What）

データは分析目的に沿って収集されていなくてはなりません。そこには様々な確認ポイントがありますが、データ項目と調べたいことが一致しているかどうかの確認は最優先で行うべきです。

例えば、「エンゲージメントと働き方の関係を知りたい」というテーマがあったとします。このテーマでは、エンゲージメントと働き方の関係をデータから探ることで労務施策の改善につなげる、もしくはエンゲージメントに影響を与えている要因を明らかにしたいという狙いがあると想定されます。

この分析を行うためには、エンゲージメントの調査データと、働き方の特徴を捉えているデータを集めてくる必要があります。もし、働き方として時間外勤務に着目するならば、勤怠システムから時間外勤務に関するデータを抽出することになるでしょう。

ここで、ひと口に時間外勤務といっても、多くの管理項目がシステムに含まれています。勤怠管理システムや管理制度によって異なるものですが、一例をあげてみると、

平日の時間外（5:00–22:00）
平日の深夜時間帯の時間外（22:00–5:00）
法定休日の時間外
法定外休日または所定休日の時間外
週休日の時間外（公務員の場合）
振替・代休の時間数
月60時間超過分の時間外

といった項目が含まれることがあります。意外に多いですよね。

労働基準法に沿って時間外手当を正確に計算するため、これらの項目が必要になってきます。（従前から存在している勤怠管理システムは、給与支給のための発生源となっているためです）

労務管理に携わったことがある方でしたら「そうだね。本当はもっと細かいけど」と思われることでしょう。しかし、労務管理に携わっていない方や、他分野から人事データ分析に参画しているデータ分析者の方が見ると、思ったより細かいなと感じるかもしれません。

もし、働き方を時間外を含めた労働時間の大小で測りたいのであれば、平日の時間外だけでは足りないでしょう。一方、システムの考え方によっては、一部の項目が別の項目の部分（内数）を表していることもあります。そのため、これらの項目のどれを合算すれば意図するものになるの考える必要があるわけです。

このように、分析対象のデータ項目が含まれているかどうか、またその意味合いは何なのか（データは何を計測したものなのか）ということを押さえることは大変重要です。

どのシステムもしくはサーベイ結果から抽出されたものか。（Where）

データ項目ひとつひとつでなく、データの固まりがどのシステムやサーベイから抽出されたものか確認することも大切です。

人事データ分析で取り扱うデータは幅が広く、概ね複数のシステムやサーベイ結果を突き合わせて分析していくことになります。つまり、データの発生源が異なっているわけで、分析者はそれらがどのようなものであるか知っておかなくてはなりません。

国内企業の場合、例えば以下のようなシステム構成になっていることかと思います。

人事管理・給与管理プロセス

人事管理システム
給与管理システム
勤怠管理システム
出張旅費管理システム
総務事務またはワークフローシステム
採用管理システム
研修管理システム

社内サーベイ

エンゲージメントサーベイ用システム
社内サーベイ用システム（汎用）

健康管理・労働安全衛生

健康診断管理システム
ストレスチェックシステム

全社インフラ・コミュニケーション

KPI管理・伝達用ダッシュボード（BI）
IT端末のログ管理システム
社内コラボレーションツール（Microsoft 365, Google Workspaceなど）
組織開発関連システム（1on1支援など）

すべての企業でこれらを網羅しているとも限りませんし、複数の機能を統合したパッケージやSaaS系システムも存在します。しかし、これらすべてをワンパッケージで提供するサービスはまだ目にしたことがありません。

したがって、人事データ分析を行う際には、これらのシステムからデータを抽出し、何らかの形で統合しながら分析していくことになります。

これは大変手間がかかるため、近年国内でも人事データ分析用にデータウェアハウスやデータマートを構築する企業も出てきています。もし、こうしたデータ基盤が整ってくれば、分析者の工数はかなり削減されるでしょう。

しかし、仮に人事専用のデータ基盤が構築されたとしても、そこに流れ込んでくる「発生源」を意識することは極めて重要です。なぜなら、発生源（各システム）が管理している範囲、更新サイクル、データ項目の意味するところが異なる場合があるからです。

また、エンゲージメント調査のような社内サーベイを分析対象する場合は、調査結果のシステム的な発生源を調べるだけでなく、調査設計自体を押さえておく必要があるでしょう。

次にお伝えするWhen, How、次回お伝えするWhoは、これを深掘りするための観点でもあります。

抽出されたタイミングはいつで、データの実績はいつのものか。（When）

人事給与システムの肝は履歴管理にあり、その扱い方が人事データ分析の大切なポイントになると私は考えています。地味な観点ではあるのですが、データを前処理するときに効いてきます。まずは履歴の作られ方からお伝えしていきます。

従業員は入社して退社するまでの間、人事的な意味で変化を重ねていきます。異動に伴う配置、昇給・昇格、管理職登用、職種転換、ライン上の管理職の変更など多くの変化があります。

人事給与システムはこれらの履歴をきちんと管理し、社内制度や法改正に柔軟に耐えられるように設計されています。長期雇用において、一貫した意味付けを与えながら履歴を管理する必要があるからです。

例えば、従来は「課長」と呼ばれていた役職が、あるときに「マネージャー」に変わったとします。その一方で、報酬や昇格基準が変わるわけではない場合は、課長とマネージャーは同じ意味として扱う必要があります。こうした細かい変化に対応するには、役職を記号（コード）で管理して名称を履歴で持つか、もしくは役職そのものを履歴で管理した上で従業員のレコードに履歴を作る設計となります。

また、給与支給・労務管理の観点でも、実績情報が積み上っていきます。多くの場合は月単位での管理となりますが、勤怠の場合は日または時間帯での積み上げとなります。したがって、手元のデータがどの実績をさしているのか確認することが必要です。給与システムにおいては、一つのレコードで実績月、給与支給月、事実発生日、基準年月日など複数の項目を有していることがあるため、意味を丁寧に確認するとよいでしょう。

このように、人事関連システムには人事的な履歴や労務的な実績が記録されていくわけです。これを踏まえた上で手元にやってきたデータを眺めてみると、そこに含まれるデータ項目が「いつ時点の履歴・実績であるのか？」という点で意識せざるを得ません。

例えば、2023年11月18日に各システムからデータを抽出して来たとします。そして、そこには従業員の基本情報（年代、性別、配置、役職、グレード等）と、時間外実績値、休暇実績値、エンゲージメント調査の結果があったとします。このとき、これらの情報には何らかのタイムラグが存在しているはずです。

分かりやすい例でいうと、エンゲージメント調査が行われたのは2023年4月だったとすると、データを抽出した時点(11月18日)とは配置や役職などが変わっているケースもあるでしょう。中には退職してしまった方もいらっしゃるかもしれません。もしサーベイをした時点での人事基本情報で分析したいのであれば、履歴を意識してデータを紐づけると上手くいきます。

また、抽出のタイミングが月途中であることを考えれば、時間外の実績情報は前月末までの情報であると想定されます。さらに、年次有給休暇のように年次で管理する項目の場合、その管理サイクルを意識する必要もでてくるでしょう。

このように、人事データを分析する場合には、分析対象データの管理サイクルや抽出タイミングを意識しておく必要があります。これはデータ基盤を構築した場合であっても同様です。

そのデータはどのように記録または調査されたものか。（How）

データの発生源を考えるにあたり、その記録方法を考えることも大切です。特に社内サーベイの場合は、調査目的と合わせてその過程を見ていくと、落とし穴を回避することができるでしょう。

社内サーベイの例として、以下のようなサーベイを考えてみましょう。

従業員エンゲージメント調査
組織マネジメントに対する意識調査（上司・組織方針に対するポジネガ調査）
研修に関する意識調査（自律的なキャリア形成に対する意識と希望調査）

このサーベイの結果をもとに、エンゲージメントと組織マネジメントや教育施策との関連を調べたいというテーマがあったとします。かなりふわっとしたテーマ感ですが、割と出てくるアイデアでもあります。

さて、このような場合に考えるべきことは、それぞれのサーベイがどの程度信頼できるものであるか？ということです。分析テーマによって変わってきますが、このようなことが気になります。

全従業員が対象なのか。それとも任意で調査したのか。
回答率はどうか。
単発の調査なのか。それとも定期的な調査なのか。
回答は選択式か。質問はどのように設計されたのか。
匿名性が担保されているのか。それとも記名ありか。
サーベイの対象者にはどのようなメッセージを出しているか。

端的にいうと、回答された値の意味や回答に対するバイアスなどが気になるわけです。もし何らかのバイアスがある場合には、それを見越したうえで分析をしていく必要があります。

一方、人事・給与システムなど、プロセスにガチっと食い込んでいるシステムのデータであれば、こうしたバイアスが入り込む余地は小さくなるはずです。この場合、Howの観点では、記録の頻度や状態を調べることになるでしょう。

給与支給や社会保険計算の根拠となる情報は、その性質上かなり厳密に記録される傾向にあります。また、人事の昇給・昇格に関わる事項も比較的ロバストでしょう。

一方、人的な登録作業が必要で、かつ記録されていなくても人事管理プロセスが回ってしまうようなデータ項目の場合は、どの程度最新化されているのか調べておく必要があります。また、任意的な人事施策に伴って利用されるシステムでは、情報の鮮度に加えて網羅性も調べておくべきでしょう。

このような調査は、その業務を管理している人事の担当者に詳しい話を聞くことが初手となりますが、それに加えてデータから実態を把握することも大変有効です。

次回に向けて

本レターでは、データ分析を始める前にデータの発生源を押さえるため、What, Where, When, Howという観点で確認することをお伝えしました。考えてみると、こうした確認はデータが到着する前に確認すべきことなのかもしれません。

とはいえ、実際のプロジェクトでは、こうした確認を事前にやっていたとしても、いざデータが届いてみると想定と違っているということはよくあります。

データ分析は良くも悪くもデータ次第で結果が変わってしまいます。分析の目的に沿ったデータであるのか、慎重に確認することが大切です。

今回はデータの生成・抽出過程に着目した4つの観点で確認すべきことを掘り下げました。文字にすると結構なボリュームがあるように感じますね。しかし、慣れてくると自然に思い浮かぶようになるものです。

次回は残りの観点、Whoについてお伝えしていきます。人事データ分析においては最も重要な観点ではないかと思います。