材料系 News
少ないデータでも高精度な予測が可能に 高分子での材料インフォマティクス加速に期待
一般に材料設計のパラメータ空間は極めて広大です。例えば、有機化合物のケミカルスペースには、1060を超える候補物質が存在すると言われています。さらに、実材料の開発では、プロセス、添加剤・溶媒選択、膜材料の層構成等の制御因子が加わり、パラメータ空間の次元は爆発的に増大します。材料インフォマティクスの多くの問題は、このような広大な探索空間から所望の特性を有する埋蔵物質を発掘することに帰着します。
同グループが開発したiQSPR[用語5]は、所望の特性を持つ化学構造を設計する機械学習アルゴリズムです。高分子データベースPoLyInfoの実験データをiQSPRに入力し、高熱伝導率をターゲットに候補物質の仮想ライブラリを構築しました。さらに、三種類の芳香族ポリアミドを選定・合成し、熱伝導率0.41 W/mKを達成する新しい高分子を発見しました(図1参照)。
図1.三種類の高熱伝導性高分子の発見に至るワークフロー。転移学習を活用した熱伝導率の予測と分子設計の機械学習の技術が問題解決の突破口を切り拓いた。
iQSPRのワークフローは、順方向と逆方向の計算から構成されます。機械学習でポリマーの構造から特性の順方向の予測モデルを構築し、その逆写像を求めることで、特性から構造の逆方向の予測モデルを導きます。このモデルを用いて仮想ライブラリを作成し、所望の特性を有する埋蔵物質を発掘します。しかしながら、PoLyInfoに登録されている熱伝導率のデータはたったの28件しかなかったため、従来の機械学習では物性予測のモデルを作成することができませんでした。
そこで同グループは、転移学習という解析技術を導入して問題解決を図りました。まずは、ビッグデータが入手できる他の物性に関するデータ(高分子のガラス転移温度、低分子化合物の比熱容量等)を収集し、機械学習のモデルライブラリを構築しました。データに基づく構造・物性の学習を経ることで、これらのモデルは高分子の構造に関する「汎用的な内部表現」を獲得しました。このように「経験」から獲得した「機械の記憶」を適切に活用することで、たった28件の熱伝導率のデータでも十分な精度を達成する予測モデルを得ることができました。優れた研究者は、過去の経験から大量かつ多様な知識の体系を構築し、データがほとんど存在しないような新しいタスクに対しても合理的に予測や意思決定を行うことができます。同グループが開発した転移学習のアルゴリズムは、まるで熟練の材料研究者の認識・判断の過程を模倣したかのようなパフォーマンスを発揮しました。
同グループは、このような解析技術を用いて、高熱伝導率をターゲットに1,000種類の高分子の仮想ライブラリを設計しました。その中から三種類の芳香族ポリアミドを合成し、最大で熱伝導率0.41 W/mKに達する高分子を発見しました。また、実験結果は機械学習の予測とほぼ一致しました。同グループが達成した熱伝導率は、典型的なポリアミド系高分子(無配向)と比較して約80%の性能向上に相当します。さらに、高耐熱性や有機溶媒への溶解性、フィルム加工の容易性等、今度の実用化フェーズで重要になる諸特性を併せ持つことが実験的に確認されました。また、従来の熱分析技術では高耐熱性高分子のガラス転移温度を測定できなかったため、最新の超高速熱分析技術を新たに開発し、高温域の転移温度の測定に成功しました。
本研究は、機械学習が自律的に設計した高分子が実際に合成・検証された初の事例となります。近年、材料研究とデータ科学の融合が急速に進行し、その有効性や可能性について、実証的見地から様々な検討が行われています。しかしながら、他の領域に比べると、高分子研究のデータ科学との学融合は大幅に遅延しています。その背景には、多くの高分子物性はデータ科学の解析手法を適用できるほどのデータ量に達していないという自明な理由が存在します。今後、高分子インフォマティクスでは、スモールデータの限界をいかに突破するかが勝利の鍵を握ります。同グループの成果は、当該分野が抱える本質的な問題の克服に一石を投じるものです。
また、今回は合成の容易性という観点から三種類の高分子を選定・合成しましたが、仮想ライブラリには他にも有望な候補物質が数多く残されている可能性があります。また、同グループが開発した機械学習の技術は汎用的なものであり、任意の特性をターゲットに同様の解析を行うことができます。これから数年以内に、同じようなアプローチで多くの埋蔵物質が発掘され、その中から、従来の常識を覆すような新しい高分子材料が発掘されることが期待されます。
用語説明
[用語1] 転移学習 : あるタスクの学習モデルを別のタスクに流用することを目的とする方法論の総称。例えば、膨大なデータから訓練された動物の種類を判定する画像認識の多層ニューラルネットワークを改変し、少数の花の画像データを用いて分類器を構築したいと考えます。動物の分類器は、学習過程で画像認識に必要な基本的な特徴量を抽出していることが期待され、その中の一部は花の分類にも流用可能であると考えられます。その場合、花の分類器を一から学習するのではなく、少数のデータを使って動物の分類器を微修正すれば十分かもしれません。このような推論アルゴリズムの総称が転移学習です。転移学習という用語はさらに広い概念を含みますが、とりわけスモールデータ問題に対する有効なアプローチであることが知られています。
[用語2] PoLyInfo : 国立研究開発法人 物質・材料研究機構が保有する高分子物性の世界最大級のデータベース。学術文献から収集した約100種類の物性(熱物性、電気的特性、力学的特性等)、化学構造、測定条件、重合方法等を収録しています。
[用語3] 仮想ライブラリ : 特定の用途をターゲットに計算機で作製した仮想物質のプール。機械学習の物性予測モデルと組み合わせ、所望の特性を持つ新規物質の候補を絞り込む際に使用されます(一般に仮想スクリーニングと呼ばれる)。同グループは、機械学習で熱伝導率や耐熱性をターゲットに1,000個の仮想高分子を作製しました。
[用語4] 芳香族ポリアミド : ポリアミドは、主鎖に酸アミド結合(−CO-NH−)を持つ高分子の総称です。主鎖にベンゼン核を有するポリアミドを芳香族ポリアミドといい、中でも、全芳香族ポリアミド(アラミド)はエンジニアリング・プラスチックとして、優れた耐熱性と強度を持つことが知られています。
[用語5] iQSPR : 同グループ吉田らが開発した分子設計の機械学習アルゴリズム(Ikebata, H., Hongo, K., Isomura, T., Maezono, R. and Yoshida, R. (2017). Bayesian molecular design with a chemical language model, Journal of Computer-Aided Molecular Design, 31(4), 379–391)。実験やシミュレーションから得られるデータを用いて、物質の構造から物性の順方向の予測モデルを構築し、物性から構造の逆写像を求めて仮説物質を発生させ、所望の物性を有する埋蔵物質を炙り出すものです。確率的言語モデルに基づく構造生成器や機械学習の様々な解析技術を駆使して開発した確率推論のアルゴリズムです。
論文情報
掲載誌 : | npj Computational Materials |
---|---|
論文タイトル : | Machine-learning-assisted discovery of polymers with high thermal conductivity using a molecular design algorithm |
著者 : | Stephen Wu, Yukiko Kondo, Masaaki Kakimoto, Bin Yang, Hironao Yamada, Isao Kuwajima, Guillaume Lambard, Kenta Hongo, Yibin Xu, Junichiro Shiomi, Christoph Schick, Junko Morikawa, Ryo Yoshida |
DOI : | 10.1038/s41524-019-0203-2 |
お問い合わせ先
研究内容に関すること
国立研究開発法人 物質・材料研究機構 統合型材料開発・情報基盤部門 情報統合型物質・材料研究拠点 物質・材料記述基盤グループ グループリーダー(大学共同利用機関法人 情報・システム研究機構 統計数理研究所 ものづくりデータ科学研究センター 教授・センター長)
吉田亮
E-mail : yoshidar@ism.ac.jp
Tel : 050-5533-8534
国立研究開発法人 物質・材料研究機構 統合型材料開発・情報基盤部門 情報統合型物質・材料研究拠点 伝熱制御・熱電材料グループ 特別研究員
東京工業大学 物質理工学院 材料系
森川淳子 教授
E-mail : morikawa.j.aa@m.titech.ac.jp
※7月23日9:02 英語ページを公開しました。