材料データを秘匿しながらベイズ最適化を行う材料探索アプリを開発
他者に知られない形で物性データを分散したまま機械学習
ポイント
・ 物性データを秘匿しながらベイズ最適化を行うアプリを開発し磁石化合物での化学組成の最適化に成功
・ 情報漏洩のリスクが低い秘密分散技術と、データを無意味化して計算する秘匿計算技術を併用
・ 秘匿計算を前提としたデータ共用が促進され、マテリアルズ・インフォマティクスが加速されると期待
概 要
国立研究開発法人 産業技術総合研究所(以下「産総研」という)機能材料コンピュテーショナルデザイン研究センター(以下「CD-FMat」という) 深澤太郎 研究チーム付らは、産総研サイバーフィジカルセキュリティ研究センターで理論設計された手法に基づき、秘匿計算を用いてベイズ最適化の計算を行うアプリを開発しました。
近年、既存の膨大な物性データを活用した機械学習により新しい機能性材料の探索を行う手法が注目を集めています。この手法の効率を高めるためには、多くのデータを蓄積することが重要です。
今回、材料探索で実績のあるベイズ最適化と呼ばれる計算を、データを秘匿しながら実行可能な技術を開発し、アプリに実装しました。これには情報漏洩のリスクが低い秘密分散技術と、データを無意味化して計算する秘匿計算技術を利用しており、活用される物性データの秘密を守りながら計算できます。実際に、開発したアプリを使用して、磁石化合物の化学組成の最適化に成功しました。
この技術を使うと、新規材料探索のための拠点にデータを集約する際に、独自に取得した物性データを他者に知られることがないため、所有者がデータを共用する際のハードルが低くなります。そのため、共用できるデータが増え、材料探索がより加速することが期待されます。
なお、この成果の詳細は、2024年12月24日(日本時間)に「Journal of the Physical Society of Japan」に掲載されます。
下線部は【用語解説】参照
開発の社会的背景
近年、既存の膨大な物性データを活用した情報科学的手法により新しい機能性材料の探索を行うマテリアルズ・インフォマティクスが注目を集めています。この手法は、機械学習などの技術を用いて高速かつ効率的に材料開発を進めるためのものであり、他の分野におけるAI技術と同様に、膨大なデータを必要とします。論文や特許等で公開されているデータだけでなく、ラボスケールで個別に取得されているデータを拠点に集約することでその効果が高まります。
しかし、独自に取得したデータは、他者と共有化されることで取得者の優位性が損なわれる可能性があります。それを避けるためには、データ漏洩のリスクを回避し、データを無意味化して「秘匿計算」できるようにし、データ所有者の権利を守る必要があります。秘匿計算の技術は、材料探索以外の分野においても開発が進められており、実用化されているものもあります。しかし、現状では秘匿計算は線形回帰などの比較的簡単な計算に限られており、ベイズ最適化などの複雑な計算を用いる材料探索の分野においてはまだ実用化されていません。
研究の経緯
産総研は、AIを活用した材料設計技術の開発を推進し、企業コンソーシアム等において産業界への普及に努めています。この際に問題になるのは、企業が持つデータの秘匿性の担保です。企業が安心して安全にデータを流通させるための技術開発と社会実装環境の整備が切望されています。そこで、産総研サイバーフィジカルセキュリティ研究センターが国立研究開発法人科学技術振興機構JST-AIP加速課題「秘匿計算による安全な組織間データ連携技術の社会実装」等を通じて開発してきた秘匿計算技術をベースに、マテリアル分野での課題に対応するための「材料データ秘匿計算」の手法開発と、そのプラットフォーム化を現在、進めています。本研究はその一環として、マテリアルズ・インフォマティクスで用いられるベイズ最適化に対する秘匿計算技術の開発と、モデルケースとなる材料応用を実施しました。
なお、本研究は、内閣府総合科学技術・イノベーション会議の戦略的イノベーション創造プログラム(SIP)第3期「マテリアル事業化イノベーション・育成エコシステムの構築」(研究推進法人:国立研究開発法人物質・材料研究機構)によって実施されました。
研究の内容
今回の開発ではデータを無意味化して分散する秘密分散技術と、データを無意味化したまま計算を行う秘匿計算技術をベースとしています。秘密にしておきたいデータはまず単独では意味をなさない形にして分散させて保管します(図1―①)、そしてこのデータの利用を認められたユーザーは必要な計算を指示することができますが、その際データは復元されることなく結果だけが伝えられます(図1―②)。このような秘匿計算では通常の計算よりも多くの計算量を必要とし、データの秘密を保ってやり取りするための通信量も多くなります。そのため複雑な計算を行うためには効率よく計算するためのさまざまな工夫が必要となります。その工夫には計算量やデータの通信量が少なくなるアルゴリズムを採用することや、精度を犠牲にして計算の高速化を行うことが含まれます。このような手法を用いて実際に材料開発に使えるアプリを開発するためには、材料探索の実際を踏まえた問題設定を行い、アプリがその答えを提供できるものであることを確かめなくてはなりません。
そこで本研究では実践的な探索目標の一つとして、第一原理計算と呼ばれるシミュレーション手法で取得した132個の磁性材料候補の中から、データを秘匿しながら磁化が最高になるものを探すというタスクを設定しました。本アプリではこのタスクをベイズ最適化と呼ばれる手法を用いて実行します。ここでは組成データと物性データを使って探索を進めますが、組成データは復元を許し、物性データは秘匿して探索を行います。ベイズ最適化では既存のデータを基に不確定性を考慮した予測を行い、これを利用した効率的な探索を行うことができます(図2)。この材料探索アプリを用いると、データを秘匿しないものと比べると計算速度は遅いのですが、1つの探索候補を導くのに5分程度待てば計算が完了します。そしてこのタスクでは10回未満の探索でほぼ最高の磁化をもつ探索候補を90%の確率で見つけることができることがわかりました。これはデータを秘匿しない計算手法とほとんど遜色がありません。
さらに本研究ではデータを秘匿したままの共用が探索効率を向上させられることを示すために、次のような問題設定でもベンチマークを行いました:A社はある磁性材料データのグループ中から磁化が高くない(=有望でない)データを3点提供し、異なるデータを有するB社も同じように別の磁化が高くないデータを3点提供します(図3)。これらは磁化の点では不成功のデータと言えますが、このようなデータのことをネガティブデータと呼びます。この2社はデータそのものは開示しませんが、共用は認めます。
その共用データを用いて、A社とB社に同意を得た別の会社C社が最高磁化を探す前述のタスクを行います。C社が新たに得たデータを追加しながら本アプリで探索を進めると、その探索回数はデータ共用がない場合と比べて圧倒的に少なく済むことがわかりました。本研究ではA社、B社のデータについて400通りの提供パターンを試行しましたが、そのすべての場合で探索回数7回以下で最高磁化のものを見つけ出すことに成功するという結果になりました(図4)。これはネガティブデータであっても「その物質によく似た候補は磁化が高くならないだろう」という推定がうまく働くからだと考えられます。(図3)
これらによりネガティブデータの共用が材料探索に役立つという概念が成立することを示し、さらに本アプリはデータを隠したままにしながらこのような材料開発に実際に使えるものとして有用性があることを示しました。
今後の予定
より多くのデータや候補点を取り扱えるように、アプリを高速化します。また、今回のタスクではデータを隠す対象として物性データのみを扱いました。今後は、組成データなどにも秘匿計算を行えるようなアプリを開発し、より高い安全性でデータを取り扱うシステムを構築する予定です。本アプリはCD-FMatが運用する材料設計プラットフォームの一部として活用されます。また今後、磁性材料以外にも適用できるよう汎用性を確認・高度化し、共同研究などを通して利用を広げていく考えです。
論文情報
掲載誌:Journal of the Physical Society of Japan
論文タイトル:Materials secure computation with secret sharing: a Bayesian optimization scheme and its performance
著者:Taro Fukazawa, Tsutomu Ikegami, Masaaki Kawata, Takashi Miyake
DOI:https://doi.org/10.7566/JPSJ.94.013801
用語解説
ベイズ最適化
ベイズ推定を用いた最適化手法。ベイズ推定ではデータを基にして、材料特性値などのスコアの予測を確率分布の形で導出することが可能である。ここでの最適化とはスコアの高いデータを得ることであり、ベイズ最適化ではベイズ推定による予測を用いて次に取得するべきデータ点の提案を行う(図2も参照)。様々なモデルを用いることができるが、本研究ではガウス過程回帰を用いた非線形モデルを用いており多くの計算量が必要となる。
秘密分散技術
秘密にしておきたい情報を隠しながら分散させて保管する技術。情報は無意味な断片に分割され、このうちの一定数の断片を揃えないと情報を復元することができない。このため分散された断片の一部が漏洩しても、必要数に足りなければ元の情報は全く秘密のまま保つことができる。
秘匿計算技術
データの中身を隠しながら様々な計算を行う技術。データそのものを隠したまま見せることなく計算できるため、個々のデータの秘密は守られたまま種々の分析を行うことが可能になる。秘密計算技術とも言う。
マテリアルズ・インフォマティクス
材料分野のデータに情報科学の知見を用いることで、これまでに知られていない材料の発見・開発や、既存材料の高性能化、材料に関する新たな知見などを得ようとする研究分野のこと。
線形回帰
ある目的とする変数(目的変数)を、その変数のふるまいを説明するための別の変数(説明変数)と誤差とによって表すことを回帰と呼び、このうち目的変数と説明変数の関係が、線形と呼ばれる数学的に取り扱いやすい形式であるものを線形回帰と呼ぶ。線形回帰では比較的少ない計算量しか必要としないが、予測モデルは大きく制限される。
磁化
ここでは磁石としての性質をもつ物質が単位体積あたりに持つ磁力の大きさのことを表す。永久磁石においては磁化が大きく、その磁化と磁力の向きが外部の磁場の影響を受けにくいことが重要な性能の指標となる。
プレスリリースURL
https://www.aist.go.jp/aist_j/press_release/pr2024/pr20241224/pr20241224.html