DataRobotの小川幹雄です。
DataRobotと保険会社は実は深い関係性にあります。CEOのJeremyやCTOのTomを始め、Kaggle #1のXavierとDataRobotのメンバーには保険業界でも活躍していたデータサイエンティストが多く在籍しています。その結果グローバルでは生命保険、損害保険において、保険会社、再保険会社に多数の導入実績があります。今回は生命保険業界における機械学習の活用事例について記載していきます。
日本とグローバルでは生命保険業界を取り巻く環境に対しても違いがあります。米国と比較すると、日本では国民健康保険の加入が義務化されています。米国も近年はオバマケアで状況は揺れてきていますが、もともとの国民保険のような制度がなかった影響か民間の保険会社がとても多く存在します。また保険商品においても第一分野と呼ばれる死亡保険が日本ではビジネスの中心になっていますが、第三分野と呼ばれる医療保険のバラエティが米国ではとても豊富に存在しています。扱えるデータに関しても、米国ではMVR(Motor Vehicle Record)という自動車運転に関する情報やMIB(Medical Information Bureau)という保険加入者の健康情報が管理されており、死亡、通院、罹患リスクの推定に利用できます。日本ではアライアンス提携などで活用情報は増加傾向にありますが、従来の書類データの電子化が未だにpdf化止まりでデータとして分析できる状態になっていないものも少なくないのが現状です。
このような生命保険業界ですが、機械学習を活用できる領域は多々存在します。
生命保険業界でのDataRobotユースケース
引受:追加の診査の必要性の判定を自動化
生命保険業界におけるメインの業務である引受でも機械学習を活用できます。一部の高額な生命保険商品では、職業や健康状態の告知以外に引受審査時に追加で診査を受ける必要があります。機械学習モデルにより、告知までの情報で追加診査の不必要な顧客を洗い出し、コストダウンを図ることができます。
引受:顧客の死亡、通院、罹患リスクの予測
引受の業務効率化だけでなく、機械学習による高精度なモデルを利用することにより、従来よりも正確に支払いに影響するリスクの発生確率を予測することができます。今まで捉えられていなかった潜在的に大きなリスクを持つ申込者を引受の段階で条件付きの許可にして行くことによって全体のコストダウンに繋がります。また、これまでは引受で拒否していた申込者の中から実際にはリスクが低い申込者を見つけ出すことによって、新しい顧客開拓に繋げることもできます。
支払い:不正請求
生命保険の支払いのタイミングでは、支払事由に該当しない場合、免責事由に該当した場合、告知義務違反による解除の場合、詐欺による取り消し等チェックするべき項目が多数あります。過去の不正請求のデータを学習させることによって、不正請求に該当するモデルをルールベースで都度更新していくのではなく、自動的に成長させていくことが可能になります。
解約予測:契約途中や更新時に解約する確率を予測
生命保険商品はライフステージによってマッチする商品が変化していきます。5年、10年とで更新が発生するものもあれば、一生涯払い続けるタイプのものがあります。またいずれの商品も解約が発生する可能性を含んでいます。生命保険会社として安定した収益を得るためにも、解約顧客を事前に予想して、アプローチすることによって解約を防ぐことはとても重要です。過去の解約顧客のデータを元に、どの顧客が解約しやすいかを予測し、またアプローチによって解約を防げる可能性が高いのかも予測することによって顧客維持に繋げることが可能です。
保険会社向けDataRobot機能
DataRobotでは、保険業界に求められるモデルの特性やデータの特性に対して、特別な機能を設けています。もちろんこれらの機能は他の業界においても利用することができますが、元々保険業界向け機能と開発されたことから、保険業界の事情とよくマッチしたものとなっています。
スマートダウンサンプリング
支払いや不正請求が発生する確率というのは正例が少ないことが多いのが一般的です。保険というの支払いというのは全員が経験するものではないため、支払い金額に関してはほとんどの人が0円となります。このような場合に、マジョリティーの人々や値が0のデータをたくさん使用しても機械学習としては時間だけがかかり精度の高いモデルは作成できません。DataRobotでは、精度をあまり下げずにモデル作成の時間を短縮できるダウンサンプリングを行うことができます。ダウンサンプリングはいつでも行えばいいものではないため、DataRobotでは有効な時(二値分類やゼロブースト回帰)のみ機能を有効にします。また、データサイズが500MB以上でマイノリティクラスがマジョリティクラスの半分のデータしかない時には、自動的にスマートダウンサンプリングが実行されるよう設計されています。
エクスポージャー、オフセット
保険商品は販売時にはその原価がわからないという性質があります。わからない原価を機械学習を使用して、潜在的にどれくらいのコストがかかっているかを予測しています。ただ、確率的には、期間が長ければ事故に合う確率が上がるため、保険金の支払い請求額は期間によって線形で決まってきます。このような予測したい値が自明のルールや特定のビジネスルールに乗っ取る場合に、このルールをそのまま機械学習のモデルに組み込みたいケースがあります。機械学習のアルゴリズムにこのような特徴量をそのまま学習させることは悪いことではありませんが、特徴量のインパクトなどのモデルが何を重要視して予測値を算出しているかなどを見ていく場合に、ルールという当たり前の結果ばかりが表面に出てきてしまいます。逆にこのような予測値を決定しうる上で、重要な役割を果たす値を除いてしまうと、モデルと精度が大幅に下がってしまいます。
エクスポージャーを利用することによって、ビジネスルールを明示的にモデルに組み込み、モデルの精度をより高め、モデルが重要と判断した他の特徴量を見ていくことができるようになります。エクスポージャーとして指定した特徴量は予測値の比率性を維持するものなので、特徴量のインパクトやモデルX-Rayの計算から省かれる形となります。エクスポージャーは回帰問題のみに利用でき、プロジェクトに対して一つのみ選択できます。
エクスポージャーと同様に、ただ値に線形的に作用させるのではなく、特定の条件になっていると予測値がX%変化するといったよく知られている指標が生命保険業界では存在します。例えば、喫煙者は死亡率が50%非喫煙者に対して上昇するということが確認されています(参考)。この場合には、特徴量をオフセットとして指定することによって、エクスポージャーと同様にモデルの精度をより高めて、自明な関係性以外の特徴量の重要性に目を向けることができるようになります。オフセットはエクスポージャーの自然対数という位置付けでもあるため、喫煙者の死亡率が50%非喫煙者に対して上昇するというルールをモデルに加えたい場合には、自然対数表から喫煙者に0.405で非喫煙者には0という列を作成し、それをオフセットとして指定します。オフセットは回帰問題と分類問題両方の問題で利用することができ、プロジェクトに対して複数選択することができます。また、回帰問題においては、オフセットとエクスポージャーを組み合わせて利用することもできます。
格付表
生命保険商品は商品として販売するためには金融庁の認可が必要になってきます。その中の審査基準として、適正な死亡率や発生率が組み込まれているかなどがあります。これまで紹介したオフセットやエクスポージャーによって適正な死亡率や発生率を組み込んだモデルを利用することもできますが、作成したモデルを明確に数式として表現することによって、モデルの透明性を出すこともできます。
DataRobotで格付表に対応したモデルを実行するとリーダーボードのモデルタブの格付表タブから格付表をダウンロードすることができます。格付表からモデルを数式化する手順はこちらの記事を参考ください。
まとめ
生命保険業界における様々な業務で機械学習が活用できることを紹介しました。もちろん、今回紹介した生命保険業界特有の業務だけでなく、人材採用や営業ターゲティングなどの他業界と共通している業務においても機械学習を活用することができます。
保険業界と関わりあいのある方は、ぜひ業務への機械学習の応用をチャレンジしてみてください。
執筆者について
小川 幹雄
DataRobot Japan
VP, Japan Applied AI Experts
DataRobot Japan創立期に立ち上げメンバーとして参画。インフラからプロダクトマネジメント業、パートナリング業までDataRobotのビジネスにおけるあらゆる業務を担当し、ビジネス拡大に貢献。その後、金融業界を担当するディレクター兼リードデータサイエンティストとして、金融機関のお客様のAI導入支援からCoE構築支援をリード。2023年より、全てのお客様における価値創出を実現するため、日本のAIエキスパート部門の統括責任者に就任。豊富なAI導入・活用支援のノウハウから公共機関、大学機関における講演も多数担当。2022年より一般社団法人金融データ活用推進協会(FDUA)における企画出版委員会の副委員長に就任。
小川 幹雄 についてもっとくわしく