近年、材料開発領域における情報技術の活用、いわゆるマテリアルズインフォマティクス (Materials Informatics: MI) の重要性はますます広く認識されるところとなっています。マテリアルズインフォマティクス自体は機械学習に限定されないより広い概念ですが、昨今の Deep Learning を始めとする機械学習技術の急速な発展に伴って特に機械学習・AI の活用が産業界において重要視されています。化学は摺り合わせ技術の最たるもので、日本の御家芸とも言える産業領域の一つですが、この領域にも技術革新の波は確実に迫っています。
AI の材料開発への活用はリサーチから実用の段階へ
日本国内の製造業における AI 導入に何十社と関わってきた筆者は、その段階がいよいよマテリアルズインフォマティクスそれ自身のリサーチから実用段階に入っていることを肌身で実感しています。概ね2~3年前くらいに”マテリアルズインフォマティクス研究所”のような組織を立ち上げて技術それ自身の研究と少数のテーマにおける検証を進めてきて、最近になって実用に当たっての生産性を求め始めたというお客様が多いのではないでしょうか?有機材料の処方開発、合金や半導体材料の組成と処理条件の検討などで様々な領域で活用が進んでおり、まさに機械学習・AI の材料開発への応用は、一般の実験化学者である現場の研究員が用いるツールとして実際に役立てるフェイズに到達しているというのが現状なのです。
一方で回帰タスクの場合には、通常の機械学習モデルの出力は点推定値になっていることが多いために、そのままでは不確実性に関する情報を得ることができません。そこで工夫をする必要が出てきます。手法としては様々知られていますが、任意の回帰モデルに対して予測の不確かさ、すなわち予測区間を推定する方法としては例えば、ブートストラップ法が知られています。これは元データセットからランダムにサンプリングしたデータセットを用いてモデル作成と予測を繰り返し、その予測値のばらつきを評価するという手法です。ブートストラップ方によるアプローチは対象を問わずに汎用的に使えるというメリットがありますが、計算コストが非常に高いというデメリットがあります。その他にもGaussian Processによる方法やニューラルネットワークの Drop out を推論時にも有効にして予測分布を得るなどのアプローチ4なども知られています。
DataRobot を用いた不確実性の評価とその活用
予測区間をより簡便に推定する手法としては分位点回帰による方法が挙げられ、DataRobot でも利用することができます。分位点回帰で用いられる Quantile Loss は図のように MAE を非対称化した損失関数で、任意の分位点を回帰タスクとして直接学習します。例えば、50パーセンタイル (=MAE) に加えて10パーセンタイルと90パーセンタイルについてそれぞれ分位点回帰を行うことで対応する予測区間が得ることができます。この幅が広い場合には予測の不確実性が高く、反対に狭い場合には不確実性が低いと言えるでしょう。予測分布をまるごと推定するブートストラップ法などの方法と比較して単一の分位点のみに対する回帰ですので計算コストもそう高くなく、手軽に用いることができます。
今回ご紹介した DataRobot および DataRobot 最適化アプリはいずれも大好評の DataRobot AI Platform トライアル でご試用頂くことができます。是非、これらのパワフルなツールをご活用頂き、皆様が材料開発を次のステージに進められる際の一助として頂ければ幸いです。
参考文献
2020年10月現在、SaaS版のみ対応(オンプレ対応については開発中)
Z.P. Lu, Y. Li, S.C. Ng, Reduced glass transition temperature and glass forming ability of bulk glass forming alloys, J. Non. Cryst. Solids. 270 (2000).
Burr Settles. Active Learning Literature Survey. Computer Sciences Technical Report 1648, University of Wisconsin–Madison. 2009.
Gal, Y. and Ghahramani, Z. (2015). Dropout as a Bayesian Approximation: Representing Model Uncertainty in Deep Learning. arXiv:1506.02142 [cs, stat]. arXiv: 1506.02142.