従業員の将来の幸福度を予測して人材を育成し、先手を打って従業員が離職する可能性を減らします。
課題の全体像
このユースケースのターゲット変数は、従業員が、ストレスや従業員意識調査の悪い結果が原因で離職したり休職し続けたりするかどうか(真または偽、1 または 0 などの二値)です。このターゲット変数から、これは二値分類問題であることがわかります。
以下の特徴量は、従業員の離職を予測するうえで重要な要素を表しています。それらは各従業員の背景、現在の役割、調査履歴に及び、DataRobot はこれらの特徴量に基づいて従業員の HR プロファイル全体から関連するパターンを検出し、従業員の離職リスクを評価します。
以下に示す特徴量の他に、特定の従業員に関係する可能性のある追加のデータを社内で収集できる場合、それらを組み込むことをお勧めします。たとえば、従業員の自宅と職場との距離で幸福度を予測できることを発見した企業もあります。効果的な特徴量を柔軟に創り出していくには、個々の組織の状況をよく理解して適用する必要があります。後述しますが、DataRobot は、重要な特徴量と重要でない特徴量をすばやく区別するのに役立ちます。
他にも関連性があると考えられる外部データソースには、もっと詳細な会社の活動(たとえば、従業員が 1 日で送信する電子メールの平均件数)、効果的な求人情報、競合他社の平均給与、社外活動に関するデータなどがあります。
サンプル特徴量リスト
特徴量名 | データ型 | 説明 | データソース | 例 | 関連性 |
Churn, Attrition or Leave of absence | 二値(ターゲット) | 従業員が 60 ~ 180 日後に離職または長期休職したかどうか | HR データ | False | – |
Age | 数値 | 従業員の年齢 | HR データ | 35 | 中 |
Gender | カテゴリー | 男性または女性 | HR データ | 女性 | 低 |
Education | カテゴリー | 教育レベル | HR データ | 単科大学未満 | 中 |
Location | 地理 | 従業員の居住地 | HR データ | NY | 低 |
MaritalStatus | カテゴリー | 従業員の配偶者の有無 | HR データ | 独身 | 低 |
EducationField | テキスト | 従業員の専攻 | HR データ | コンピューターサイエンス | 低 |
Home_ownership | カテゴリー | 住宅ローン、賃貸、自己所有、その他 | HR データ | 賃貸 | 低 |
Department | カテゴリー | 従業員の所属部署 | HR データ | IT | 低 |
JobTitle | カテゴリー | 従業員の役職 | HR データ | データサイエンティスト | |
Salary | 数値 | 従業員の給与 | HR データ | 80,000 | 高 |
OverTime | 数値 | 従業員の過去 3 カ月の平均残業時間 | HR データ | 46 | 高 |
ManagerID | カテゴリー | 従業員の上司 | HR データ | J.J. | |
RelationshipwithManager | 数値 | 同じ上司の下で働いている期間の長さ | HR データ | 10 | 低 |
Personnel Evaluation | 数値 | 人事考課スコア | HR データ | 4 | 中 |
JobSatisifactionScore | 数値 | アンケートによる仕事の満足度スコア | アンケート | 3 | 中 |
ManagerSatisifactionScore | 数値 | アンケートによる上司の満足度スコア | アンケート | 4 | 中 |
SalarySatisifactionScore | 数値 | アンケートによる給与の満足度スコア | アンケート | 3 | 中 |
AvgServeyScore | 数値 | アンケート 1 ~ X の平均 | アンケート | 3.3 | 中 |
データの準備
HR データを保存して寸評として使用する方法は広く普及しています。しかし、機械学習で決定的に重要なのは過去からの情報です。最も重要なのは、さまざまな変数の現在値ではなく、過去と比較してそれらの変数がどのように変化してきたかです。たとえば、Personnel Evaluation が中程度から高いスコアの従業員にはあまり関連性はありませんが、Personnel Evaluation のスコアが前年からまた前四半期からどのように変化したかは確認すべき重要な要素です。他にも以下の要素を考慮に入れるべきです。
- 給与が昨年からどう変化しているか?
- 今年は従業員の残業時間が増加したか?
- 従業員の役職が最近変わったか?
- 従業員のアンケートスコアが昨年から大幅に変化したか?
- 従業員の上司が最近変わったか?
離職した従業員の数によっては、データを別のフォーマットにする必要があると考えられます。具体的に言えば、数人の従業員が離職しているだけならデータのフォーマットを変え、分析単位を期間ごとの個人に変更します。このようにデータのフォーマットを変更する場合は、DataRobot 内から[employeeID]列をキーとするグループ分割を使用する必要があります。
また、離職の理由が従業員の役職や役割によって異なる傾向もあります。このため、因果分析では、データセットを役職および役割別に分割する必要があります。
モデルトレーニング
DataRobot 機械学習の自動化では、モデリングパイプラインの多くの部分が自動化されます。ニーズに最も適したモデルを見つけるために、大量のモデルをコーディングして手動でテストする必要はありません。DataRobot が大量のモデルを自動で実行し、最も精度の高いモデルを数分で探し出します。モデルのトレーニングだけでなく、データセットの処理や分割といった、モデリングプロセスに含まれる他のステップも自動化されます。
ここでは、モデルのデプロイについて説明します。DataRobot の詳しい利用方法や、自動化に組み込まれているデータサイエンス手法については、こちらをご覧ください。
後処理
大半のマネージャーにはチームメンバーの離職率がわかるだけなので、他の従業員に比べてどの従業員が離職するリスクが高いかを見分けるのは困難です。そこで、2 種類のしきい値を使用して、可能性の大小を直感的なラベルで表します。1 つは全従業員に対するしきい値、もう 1 つは特定の部門レベルのしきい値です(全従業員の下限しきい値、特定の部門の中間しきい値)。
関連ブログ
従業員の幸福度の予測および離職防止対策【概要】編 / 【ビジネス適用】編
執筆者について
DataRobotはバリュー・ドリブンAIのリーダーであり、組織がAIをアイデアから実際のビジネス価値へ加速させることを支援しています。AIイノベーションの最前線で10年以上の経験を持ち、組織の収益向上、ビジネスビジョンの実現、そして私たちを取り巻く世界に真の変化をもたらすために必要な知識と経験を持ちあわせています。
DataRobot についてもっとくわしく