どの患者が再入院する可能性が高いかを事前に予測し、その主な理由を把握することで、30 日以内の再入院率を低減するための取り組みを積極的に行います。
データについて
説明の都合上、7 万人の糖尿病患者の再入院について調査した医学雑誌で提供されるサンプルデータセットを使用します。この調査の研究者は、Cerner 社が提供する Health Facts データベース(米国医療提供者全体の臨床記録)からこのデータを収集しています。Cerner 社の電子医療システムを利用している組織は、研究目的で Health Facts のデータを無償で利用できます。すべてのデータは、HIPAA に従って PII が消去されています。
課題の全体像
このユースケースのターゲット変数は、患者が病院に再入院したかどうかということです(真または偽、1 または 0 などの二値)。ターゲットから、二値分類問題ということになります。
以下の特徴量は、再入院を予測するうえで重要な要素を表しています。各患者の背景、診断内容、病歴を網羅しており、DataRobot はこうした特徴量を基に患者の既往歴から関連するパターンを検出し、再入院のリスクを評価します。
また、以下に挙げた特徴量以外にも、このユースケースに関連している可能性がある追加データがあれば、収集して組み込むことをお勧めします。後で説明しますが、DataRobot は重要な特徴量と重要でない特徴量をすばやく区別することができます。
特徴量は一般的に、患者データ、診断データ、入院データ、処方データなど EMR システムで使用される独自のデータソースに保存されています。Epic 社や Cerner 社が EMR システムの代表的ベンダーです。
その他の外部データソースで関連する可能性があるものには、季節別のデータ、人口統計データ、社会的決定要因データなどがあります。
サンプル特徴量リスト
特徴量名 | データ型 | 説明 | データソース | 例 |
Readmitted | バイナリ(ターゲット) | 患者が 30 日以内に再入院したかどうか | 入院データ | False |
Age | 数値 | 患者の年齢 | 患者データ | 女性 |
Weight | カテゴリー | 患者の体重 | 患者データ | 50 ~ 75 |
性別 | カテゴリー | 患者の性別 | 患者データ | 50 ~ 60 |
Race | カテゴリー | 患者の人種 | 患者データ | 白色人種 |
Admissions Type | カテゴリー | 入院時の患者の状態(随意、応急、緊急など) | 入院データ | 随意 |
Discharge Disposition | カテゴリー | 患者の退院後の状態(自宅、在宅医療など) | 入院データ | 自宅退院 |
Admission Source | カテゴリー | 患者の入院理由(医師の紹介状、救急外来、転院など) | 入院データ | 医師の紹介状 |
#Days in Hospital | 数値 | 入院期間 | 入院データ | 1 |
Payer Code | カテゴリー | 患者の保険者の固有コード | 入院データ | CP |
Medical Specialty | カテゴリー | 患者が入院している診療科目 | 入院データ | 神経外科 |
#Lab Procedures | 数値 | 過去の総検査数 | 入院データ | 35 |
#Procedures | 数値 | 過去の総処置数 | 入院データ | 4 |
#Outpatient Visits | 数値 | 過去の総外来診療数 | 入院データ | 0 |
#ER Visits | 数値 | 過去の緊急治療での総診療数 | 入院データ | 0 |
#Inpatient Visits | 数値 | 過去の総入院診療数 | 入院データ | 0 |
#Diagnosis | 数値 | 総診断数 | 診断データ | 9 |
ICD10 Diagnosis Code(s) | カテゴリー | 患者の状態に関する ICD10 診断。複数存在する可能性有り(追加列) | 診断データ | M4802 |
ICD10 Diagnosis Description(s) | カテゴリー | 患者の診断に関する説明。複数存在する可能性有り(追加列) | 診断データ | 脊柱管狭窄症、頸部 |
#Medications | 数値 | 患者に処方された薬の総数 | 処方データ | 21 |
Prescribed Medication(s) | バイナリ | 患者に薬が処方されているかどうか。複数存在する可能性有り(追加列) | 処方データ | メトホルミン – なし |
データの準備
元の未加工のデータは、約 7,400 万件の個別診療データで構成され、その中には、約 300 万の医療提供者が管理する 1,800 万人に及ぶ患者の情報が含まれています。このデータには、統合医療システムと個々の医療提供者の医療記録の両方が含まれていたため、当初は入院と外来の両方の情報がありました。
元のデータスキーマは、117 個の特徴量が含まれる 41 個のテーブルで構成されていましたが、最終的なデータセットは、ユースケースに基づいて関連する患者と特徴量でフィルタリングされ、対象患者は以下の患者に絞られました。
- 入院患者
- 糖尿病を患っている
- 入院期間が 1 ~ 14 日
- 入院中に臨床検査を実施(または実施していない)
- 入院中に薬を処方(または処方されていない)
上記以外の特徴量はすべて、関連性の欠如やデータの完全性の低さのために除外されました。
モデルトレーニング
DataRobot 機械学習の自動化では、モデリングパイプラインの多くの部分が自動化されます。ニーズに最も適したモデルを見つけるために、大量のモデルを手動でコーディングしてテストする必要はありません。DataRobot によって大量のモデルが自動で実行され、最も精度の高いモデルが数分で検出されます。また、モデルのトレーニングだけでなく、データセットの処理や分割といった、モデリングプロセスに含まれる他のステップも自動化されます。
ここでは、モデル結果の解釈について説明します。
このユースケースでは、糖尿病患者の再入院の可能性を予測する 1 つの統合モデルを作成します。データ内の各レコードは、患者固有の診療を表します。
結果の解釈
- [特徴量のインパクト]チャートを見ると、患者の過去の入院診療回数、退院区分、診断の診療科目の 3 つが、再入院を左右する最も影響力のある上位の特徴量であることがわかります。
- 部分依存グラフを評価して、上位の特徴量が予測結果に与えるわずかな影響をさらに評価すると、患者の過去の入院診療回数が 0 から 2 に増加すると、再入院の可能性が 37% から 53% に跳ね上がることがわかります。さらに、診療回数が 4 回を超えると、再入院の可能性が約 59% に上昇します。
- DataRobot の予測の説明では、モデルの結果を解釈するためのより詳細な説明を提供しています。ここでは、上位の予測の特徴量に基づいて、ある患者が再入院するかどうかの予測理由を確認することができます
後処理
臨床医が予測結果を直感的に利用できるようにするために、予測結果を確率値または二値として表示するのではなく、事前定義された予測しきい値の範囲に基づいて後処理で予測結果にさまざまなラベルを付けられます。たとえば、再入院のリスクに応じて、高リスク、中リスク、低リスクというラベルを患者に付けます。
関連ブログ
従業員の幸福度の予測および離職防止対策【概要】編 / 【ビジネス適用】編
執筆者について
DataRobotはバリュー・ドリブンAIのリーダーであり、組織がAIをアイデアから実際のビジネス価値へ加速させることを支援しています。AIイノベーションの最前線で10年以上の経験を持ち、組織の収益向上、ビジネスビジョンの実現、そして私たちを取り巻く世界に真の変化をもたらすために必要な知識と経験を持ちあわせています。
DataRobot についてもっとくわしく