機密情報は AI のライフサイクルに欠かせない要素
AI または機械学習のモデリングプロジェクトに適用できると考えられる機密情報は、複数の分野にわたって存在します。企業にとっての機密情報、たとえば、収益データ、従業員の成績、給与、個人情報、セールスリードなどが、トレーニングデータに含まれる可能性があります。潜在的に機密性の高い顧客データを基盤にしているモデルもあるかもしれません。モデルから出力される予測結果も、そこから明らかになる情報の性質や企業の意思決定に影響を及ぼす程度によっては、機密性を帯びると考えられます。さらに、モデルの運用そのものに独占所有権があり、悪用や恣意的な操作を防ぐための保護が必要なほど重要性が高い場合もあります。
AI モデルで使用または作成されるデータのうち、セキュリティを維持する必要があるもの
モデルパイプラインでの実装までのプロセスは、開発からステージング、本番環境へと進む点で、標準的なソフトウェアアプリケーションと似ています。各環境内および環境間を移動する機密情報は、(特にオンラインでの転送時に)セキュリティを維持する必要があります。未加工データを収集し、クリーニングし、共有して、最終的にモデルのトレーニングと検定まで行う開発段階は、情報の取り扱いミスが発生する可能性があり、最もリスクの高いプロセスと考えられます。そのような未加工データには、顧客や従業員に関する機密情報や個人を特定できる情報(PII)が含まれている可能性が高いと言えます。特にプライバシーの取り扱い方法については、こちらで詳細をお確かめください。
安全なシステムの特性
情報セキュリティ管理システムの運用を検証するために、ISO 27001 などの独立した国際規格が存在しています。また、SOC 2 Type II 認証は、取引先や顧客の機密情報を保護するシステムを検証するものです。
DataRobot の情報セキュリティ認証およびプライバシー基準の詳細については、こちら(英語)をご覧ください。
ユーザーが AI モデルにアクセスするために必要な透明性のレベル
透明性は対象とする範囲によって表現でき、その程度によってセキュリティ上の懸念は異なります。その最たるものには、ブラックボックスとして動作するモデルがあります。ユーザーは情報を入力して予測結果を受け取りますが、その予測がどのようにして得られたのかは一切わかりません。その対極には、ホワイトボックスモデルとも呼ばれる透明性を最大化したモデルがあります。この場合、AI や機械学習モデルのアーキテクチャ全体が、パラメーター、データ、コードに至るまで公開される可能性があります。ただし、ここで説明しているように、透明性と説明可能性はまったく異なる概念です。
純粋なホワイトボックスモデルと純粋なブラックボックスモデルの中間的なモデルでは、予測結果の確信度が数値化される予測間隔や、個々の予測結果の主要な要因が明確になる予測の説明などの情報を共有することができます。こうした情報があると、ユーザーの予測に対する信頼および予測を解釈する能力を高めることができますが、セキュリティの高いモデルであってもメカニズムの一部が明らかになるおそれがあります。特に、予測間隔は、パブリック API でホストされているモデルを対象とした悪意ある攻撃に利用できる可能性があることが研究で示されています。どれほどの情報をユーザーに開示するかを決定する際は、意識的かつ良心的にこうしたトレードオフのバランスを取る必要があります。
セキュリティはパズルの 1 ピースにすぎません
セキュリティは、ビジネス全体との調和を考慮した AI 活用に役立ちますが、信頼できる AI 運用に必要な要素の 1 つにすぎません。その他の要素には次のようなものがあります。
ビジネス