DataRobotユースケース:30 日以内の再入院率の低減【技術実装】

2024/08/26
執筆者:
· 推定読書時間 2  分

どの患者が再入院する可能性が高いかを事前に予測し、その主な理由を把握することで、30 日以内の再入院率を低減するための取り組みを積極的に行います。

データについて

説明の都合上、7 万人の糖尿病患者の再入院について調査した医学雑誌で提供されるサンプルデータセットを使用します。この調査の研究者は、Cerner 社が提供する Health Facts データベース(米国医療提供者全体の臨床記録)からこのデータを収集しています。Cerner 社の電子医療システムを利用している組織は、研究目的で Health Facts のデータを無償で利用できます。すべてのデータは、HIPAA に従って PII が消去されています。 

課題の全体像

このユースケースのターゲット変数は、患者が病院に再入院したかどうかということです(真または偽、1 または 0 などの二値)。ターゲットから、二値分類問題ということになります。

以下の特徴量は、再入院を予測するうえで重要な要素を表しています。各患者の背景、診断内容、病歴を網羅しており、DataRobot はこうした特徴量を基に患者の既往歴から関連するパターンを検出し、再入院のリスクを評価します。

また、以下に挙げた特徴量以外にも、このユースケースに関連している可能性がある追加データがあれば、収集して組み込むことをお勧めします。後で説明しますが、DataRobot は重要な特徴量と重要でない特徴量をすばやく区別することができます。 

特徴量は一般的に、患者データ、診断データ、入院データ、処方データなど EMR システムで使用される独自のデータソースに保存されています。Epic 社や Cerner 社が EMR システムの代表的ベンダーです。

その他の外部データソースで関連する可能性があるものには、季節別のデータ、人口統計データ、社会的決定要因データなどがあります。

サンプル特徴量リスト  

特徴量名データ型説明データソース
Readmittedバイナリ(ターゲット)患者が 30 日以内に再入院したかどうか入院データFalse
Age数値患者の年齢患者データ女性
Weightカテゴリー患者の体重患者データ50 ~ 75
性別カテゴリー患者の性別患者データ50 ~ 60
Raceカテゴリー患者の人種患者データ白色人種
Admissions Typeカテゴリー入院時の患者の状態(随意、応急、緊急など) 入院データ随意
Discharge Dispositionカテゴリー患者の退院後の状態(自宅、在宅医療など) 入院データ自宅退院
Admission Sourceカテゴリー患者の入院理由(医師の紹介状、救急外来、転院など) 入院データ医師の紹介状
#Days in Hospital数値入院期間入院データ1
Payer Codeカテゴリー患者の保険者の固有コード 入院データCP
Medical Specialtyカテゴリー患者が入院している診療科目 入院データ神経外科
#Lab Procedures数値過去の総検査数入院データ35
#Procedures数値過去の総処置数入院データ4
#Outpatient Visits数値過去の総外来診療数入院データ0
#ER Visits数値過去の緊急治療での総診療数入院データ0
#Inpatient Visits数値過去の総入院診療数入院データ0
#Diagnosis数値総診断数診断データ9
ICD10 Diagnosis Code(s) カテゴリー患者の状態に関する ICD10 診断。複数存在する可能性有り(追加列) 診断データM4802
ICD10 Diagnosis Description(s)カテゴリー患者の診断に関する説明。複数存在する可能性有り(追加列)診断データ脊柱管狭窄症、頸部
#Medications数値患者に処方された薬の総数処方データ21
Prescribed Medication(s)バイナリ患者に薬が処方されているかどうか。複数存在する可能性有り(追加列)処方データメトホルミン – なし

データの準備 

元の未加工のデータは、約 7,400 万件の個別診療データで構成され、その中には、約 300 万の医療提供者が管理する 1,800 万人に及ぶ患者の情報が含まれています。このデータには、統合医療システムと個々の医療提供者の医療記録の両方が含まれていたため、当初は入院と外来の両方の情報がありました。 

元のデータスキーマは、117 個の特徴量が含まれる 41 個のテーブルで構成されていましたが、最終的なデータセットは、ユースケースに基づいて関連する患者と特徴量でフィルタリングされ、対象患者は以下の患者に絞られました。 

  • 入院患者 
  • 糖尿病を患っている
  • 入院期間が 1 ~ 14 日
  • 入院中に臨床検査を実施(または実施していない)
  • 入院中に薬を処方(または処方されていない) 

上記以外の特徴量はすべて、関連性の欠如やデータの完全性の低さのために除外されました。 

モデルトレーニング 

DataRobot 機械学習の自動化では、モデリングパイプラインの多くの部分が自動化されます。ニーズに最も適したモデルを見つけるために、大量のモデルを手動でコーディングしてテストする必要はありません。DataRobot によって大量のモデルが自動で実行され、最も精度の高いモデルが数分で検出されます。また、モデルのトレーニングだけでなく、データセットの処理や分割といった、モデリングプロセスに含まれる他のステップも自動化されます。

ここでは、モデル結果の解釈について説明します。

このユースケースでは、糖尿病患者の再入院の可能性を予測する 1 つの統合モデルを作成します。データ内の各レコードは、患者固有の診療を表します。 

結果の解釈

  • 特徴量のインパクト]チャートを見ると、患者の過去の入院診療回数、退院区分、診断の診療科目の 3 つが、再入院を左右する最も影響力のある上位の特徴量であることがわかります。
特徴量のインパクト
  • 部分依存グラフを評価して、上位の特徴量が予測結果に与えるわずかな影響をさらに評価すると、患者の過去の入院診療回数が 0 から 2 に増加すると、再入院の可能性が 37% から 53% に跳ね上がることがわかります。さらに、診療回数が 4 回を超えると、再入院の可能性が約 59% に上昇します。
部分依存グラフ
  • DataRobot の予測の説明では、モデルの結果を解釈するためのより詳細な説明を提供しています。ここでは、上位の予測の特徴量に基づいて、ある患者が再入院するかどうかの予測理由を確認することができます
DataRobot の予測の説明

後処理

臨床医が予測結果を直感的に利用できるようにするために、予測結果を確率値または二値として表示するのではなく、事前定義された予測しきい値の範囲に基づいて後処理で予測結果にさまざまなラベルを付けられます。たとえば、再入院のリスクに応じて、高リスク、中リスク、低リスクというラベルを患者に付けます。

関連ブログ

従業員の幸福度の予測および離職防止対策【概要】編 / 【ビジネス適用】

執筆者について
DataRobot

DataRobotはバリュー・ドリブンAIのリーダーであり、組織がAIをアイデアから実際のビジネス価値へ加速させることを支援しています。AIイノベーションの最前線で10年以上の経験を持ち、組織の収益向上、ビジネスビジョンの実現、そして私たちを取り巻く世界に真の変化をもたらすために必要な知識と経験を持ちあわせています。

DataRobot についてもっとくわしく