AI モデルの構築中および利用中に個人情報を保護するためのベストプラクティス
まず、データサイエンスの開発および運用チームが、どのような種類のデータが個人を特定できる情報(PII)として定義される可能性があるかを把握し、認識することは非常に重要です。PII は、個人の身元まで遡るのに利用できるあらゆるデータであり、メールアドレスなどの単純な情報も含まれます。一般に PII は、データセットから関連するパターンを学習することを目的とした機械学習モデルのトレーニングには、そもそも使用すべきではないデータです。
DataRobot は、自動 PII 検出機能をオンプレミス環境のプラットフォームに導入しました。データセットに PII が含まれているかどうかを評価するのに役立つ各種ライブラリもあります。こうした処理は、データ管理システムから、未知の変数を含む非常に多様な未加工のデータセットを取得する際には不可欠です。PII の有無について判別がつかなかったり、特定の変数が PII に相当するかどうかはっきりしない場合は、社内の情報セキュリティチームに問い合わせてください。
AI システム以外では見られないプライバシーリスク
機密情報の取り扱いに関連するデータ管理のベストプラクティスは AI 以外の分野にもありますが、プライバシーについて AI が独特のリスクと課題を有していることも確かです。
一方で、予測しようとしている値自体の機密性が高い場合もあります。たとえば、消費者の購買行動 1 つとっても、それを活用すれば、顧客の健康、住居、雇用、配偶者の有無に関する機密情報が明らかになる可能性があります。この種の情報があると、広告のターゲティングに有利に見えますが、法的な問題だけでなく、一般消費者の反発を招くリスクがあります。消費者は、企業や企業で使用するプラットフォームで偶然収集されたり、見つかったりしたデータによって自分たちのプライバシーが侵害されていることが分かると、不快に感じるからです。
また一方、AI システムが、モデルを悪用して企業や顧客の情報にアクセスしようとする悪意ある攻撃の対象になる可能性があります。たとえば、モデル反転攻撃は、モデルのホワイトボックスの情報を利用して、モデルのトレーニングに使用されたデータを書き換えることを目的としています。
そうは言っても、情報セキュリティのベストプラクティスは依然として有効です。たとえば、異常検知を中心に構築された AI システムは、サーバーやネットワークへの攻撃の特定にも役立ちます。
プライバシーはパズルの 1 ピースにすぎません
プライバシーは、信頼できる AI の倫理面において必要な要素の 1 つにすぎません。その他の要素には次のようなものがあります。