増大する求人応募者のプールから最も資格のある候補者を見分けます。
課題の全体像
このユースケースでの一般的なターゲット変数は、応募者が採用担当者の選考に合格するかどうかの予測で、二値分類問題になります。この予測は通常、採用担当者が行う事前審査で活用され、これに合格した応募者が雇用担当マネージャーの審査対象に回されます。
ただし、ターゲットの定義は複雑になる可能性があり、実際のプロセスに適合させる必要があります。予測が、企業が確実に有しているとは限らないデータに基づいて行われるからです。最終的には雇用の意思決定や勤務成績まで予測したいという企業は多いものの、当該役職に実際に採用された人数に基づくデータには限界がある場合があります。
ターゲット、つまり予測しようとする「最終結果」によって、モデルに含められる特徴量が決まります。どの新規応募者が採用担当者の選考に合格して雇用担当マネージャーに回されるかを予測することが目標であれば、雇用担当マネージャーからのフィードバックはモデルで使用できません。その時点では、フィードバックはまだ利用できないからです。そうではなくターゲットが雇用の意思決定であれば、雇用担当マネージャーからのフィードバックを含めるのがモデルのパフォーマンスにとって最適です。意思決定が行われる時点で利用可能なデータを使用してモデルをトレーニングする必要があります。
モデルの構築に必要とされる、主な推奨特徴量は以下のとおりです。利用できるデータの特性や構築しようとするモデルの要件に基づいて、特徴量を追加または削除できます。
- 構造化アプリケーションからの数値およびカテゴリー特徴量(たとえば、職歴、勤務先、学歴など)
- 履歴書(利用可能な場合)
- 応募経路
- 必要に応じて外部ツールや履歴書解析プログラムを使用して前処理を行い、元の応募者データに構造化データを追加できます。
これらのデータセットは一般に、Greenhouse やその他類似の ATS(応募者追跡システム)から取得できます。通常、応募者に履歴書の提出が求められない職種の場合、コンピューターが読み取れる形式であれば(たとえば、スキャンした PDF は無効)、任意の記入済みの求職票を使用できます。
サンプル特徴量セット
特徴量名 | データ型 | 説明 | データソース | 例 |
Pass_Screen | 二値(ターゲット) | 応募者が所定の役職に関する雇用担当マネージャーの選考に合格するかどうか | ATS | TRUE |
Application Source | カテゴリー | 応募経路 | ATS | 社員の紹介 |
Highest degree attained | カテゴリー | 最終学歴 | ATS | 2 年制単科大学 |
Previous employers | テキスト | 以前の勤務先のリスト | ATS | Billy Jo’s Pizza |
Educational studies | テキストまたはカテゴリー | 専攻(ドロップダウンから選択またはユーザー入力) | ATS | ビジネスマネジメント |
Resume | テキスト | 未加工の履歴書テキスト(利用できる場合) | ATS(PDF から変換が必要な場合あり) | |
Questions asked on a job page | 数値またはカテゴリー | 「接客の経験は何年ありますか?」 | ATS | |
Job description | テキスト | 求人中の職種についての説明 | 求人票 | |
データの準備
データを準備するため、ATS から取得した応募者データが、必要に応じてコンピューターが読み取れる形式に変換されます(たとえば、PDF 文書からテキストフィールドが抽出されます)。トレーニングデータの各行は、応募者ではなく 1 件の応募を表します。1 人の応募者が複数の異なる職種に応募していたり、同じ職種に何回も応募していたりすることがあるからです。新しい特徴量を追加するために任意の外部データソースが検討対象となります。
応募者スコアリングモデルが正確であるためには、特定性の維持が重要です。類似した役職はグループ化できますが、根本的に異なる役職は別々のモデルでトレーニングするべきです。ここで役立つのが自動化と反復です。たとえば、特定の地域内の雇用についてトレーニングされたモデルから出力されるインサイトは、全国版のモデルより具体性が高いと考えられます(たとえば、特定の大学は、新人アナリストを養成する優れたプログラムと見なせます)。
採用担当者の選考で「不合格」になったものの、実際には資格を有する応募者をトレーニングデータから注意深く除外する必要もあります。採用担当者は応募者の資格と無関係なさまざまな理由で(たとえば、候補者が無関心な態度を示したので)面接しないことにするかもしれません。このデータは通常、応募者追跡システム(ATS)で発見できます。
モデルトレーニング
DataRobot 機械学習の自動化では、モデリングパイプラインの多くの部分が自動化されます。ニーズに最も適したモデルを見つけるために、大量のモデルを手動でコーディングしてテストする必要はありません。DataRobot によって大量のモデルが自動で実行され、最も精度の高いモデルが数分で検出されます。また、モデルのトレーニングだけでなく、データセットの処理や分割といった、モデリングプロセスに含まれる他のステップも自動化されます。
ここでは、モデルのデプロイについて説明します。DataRobot の詳しい利用方法や、自動化に組み込まれているデータサイエンス手法については、こちらをご覧ください。
このユースケースのモデリングで決定すべき主な事項は次のとおりです。
- 分割: 雇用業務は、マクロ経済環境と企業の取り組み/雇用慣行の両方の影響を受けて、時間の経過と共に変化します。OTV(時間外検定)分割スキームで、直近のデータを使ってモデルのパフォーマンスを評価すれば、モデルをデプロイした場合のパフォーマンスを見定めるさらに精度の高いベンチマークを得られます。
- しきい値の設定: モデルを合格/不合格の選考基準として使用する場合は、さまざまなしきい値を設定して偽陽性率と偽陰性率を調査します。最終的には、組織的なニーズもしきい値の決定に役立ちます。たとえば、雇用パイプラインのつながりが弱い場合、組織のニーズ(合格する候補者を増やしたいなど)から、トレーニングで決定された最適のしきい値よりしきい値を低く設定せざるを得ないかもしれません。
- 精度の指標: モデルを応募者の順位付けに利用している場合は、二値分類の測定指標として LogLoss に加えて AUC の使用を検討してください。
関連ブログ
求人の応募者のスコアリング【概要】編 / 【ビジネス適用】編
執筆者について
DataRobotはバリュー・ドリブンAIのリーダーであり、組織がAIをアイデアから実際のビジネス価値へ加速させることを支援しています。AIイノベーションの最前線で10年以上の経験を持ち、組織の収益向上、ビジネスビジョンの実現、そして私たちを取り巻く世界に真の変化をもたらすために必要な知識と経験を持ちあわせています。
DataRobot についてもっとくわしく