人工知能が専門家の約2万倍の速さでスペクトルを解釈

ad

知識や職人技なしで、物質の性質を明らかに

2018/09/06 東京大学,科学技術振興機構(JST)

ポイント
  • 物質の原子配列などを調べる分光法の技術が向上し、一度に膨大なデータが得られるようになった。そのため、専門家の手作業による解釈では追いつかなくなっていた。
  • 2種類の機械学習法(階層型クラスタリングと決定木)を活用し、人工知能がデータを解釈する新手法を開発した。その結果、従来の約2万倍の速さで解釈が可能になった。
  • 専門知識や職人技がなくても、高速かつ高精度にさまざまな分光法で物質を解析でき、半導体設計や電池開発、触媒解析に広く貢献できると期待される。

東京大学 生産技術研究所の溝口 照康 准教授、清原 慎 大学院生、宮田 智衆 大学院生(当時)、東京大学 大学院新領域創成科学研究科の津田 宏治 教授らの研究グループは、物質解析に広く利用されるスペクトル注1)を、人工知能で「解釈」と「予測」する新手法を開発しました。

物質開発では、さまざまな分光法でスペクトルが測定されています。たとえば、電子顕微鏡やX線を使った内殻電子励起分光法注2)は、高い空間分解能と時間分解能で原子配列と電子構造を調べることができ、半導体設計や電池開発、触媒解析に広く利用されてきました。最近では、測定技術の向上により空間分解や時間分解したスペクトルの測定を容易に実施でき、一度の測定で、数千から数万の実験スペクトルを取得できるようになっています。

一方、そのようなスペクトルを「解釈」し、原子配列や電子構造の情報を獲得するには、研究者が専門知識を使って高度なスペクトルの理論計算注3)を実施し、その結果を職人技で解析する必要があります。内殻電子励起スペクトルの理論計算には、数時間から数日を要し、膨大な数のスペクトルを理論計算で解釈することは、現実的に不可能です。

そのような旧来の「研究者駆動型」のスペクトル解釈の限界を乗り越えるために、本研究グループは人工知能で用いられている機械学習法を利用しました。今回開発した手法では、「物質情報の樹形図」と「スペクトルの樹形図」という、2つの樹形図(2本の木)を使います。お互いに相関した2本の木を利用することで、高速かつ高精度に内殻電子励起分光スペクトルの「解釈」ができる手法の開発に成功しました。また、本手法を使えば、物質の構造情報を入力することで、スペクトル形状を「予測」することも可能です。

本手法のイメージを図1に示します。2本の木(樹形図)がスペクトルを吸い上げ、お互いに情報を交換しあいながら、解釈の実(リンゴ)を咲かせることができます。

本手法により、専門の知識がなくても物質を高速かつ高精度に解析することが可能になると期待できます。

本研究成果は2018年9月6日(英国夏時間午前10時)に英国Nature Publishing Group発行の「Scientific Reports」オンライン版に掲載されます。

本研究の一部は科学技術振興機構(JST) 戦略的創造研究推進事業 個人型研究(さきがけ)「理論・実験・計算科学とデータ科学が連携・融合した先進的マテリアルズインフォマティクスのための基盤技術の構築」研究領域(研究総括:常行 真司(東京大学 教授))における研究課題「情報科学手法を利用した界面の構造機能相関の解明」(研究者:溝口 照康)の支援を受けて行われました。

<研究背景>

物質開発においては、物質の原子配列や電子構造を調べるためにさまざまな分光法でスペクトルが測定されてきました。たとえば、透過型電子顕微鏡を用いて測定される内殻電子励起分光法は、原子分解能で原子配列と電子構造を調べることができ、Nature誌に「The Ultimate Analysis(究極の分析法)」と称されるほど強力です。また、シンクロトロンを用いて測定される内殻電子励起分光法は、ピコ秒レベルの時間分解能で反応を追跡することができます。これら電子線およびX線を用いた内殻電子励起分光法は、これまでに半導体設計や電池開発、触媒解析などに広く利用されてきました。特に最近では、測定技術の向上により空間分解や時間分解したスペクトルの測定を容易に実施できるようになり、一度の測定で、数千から数万の実験スペクトルを取得できるようになっています。

一方で、そのようなスペクトルを「解釈」し、原子配列や電子構造の情報を獲得するには、専門の研究者が高度なスペクトルの理論計算を実施し、その計算結果を職人技で解析する必要がありました。そのような内殻電子励起スペクトルの理論計算には、数時間から数日の計算を要しており、実験的に取得される膨大な数のスペクトルを理論計算により解釈し、原子配列や電子構造の情報を得ることは現実的に困難です。つまり、旧来行われてきた、専門の研究者が職人技を駆使する「研究者駆動型」のスペクトル解釈法は限界を迎えているといって過言ではありません。

研究グループはそのような現状を打破すべく、人工知能で用いられている機械学習法を利用した「データ駆動型」のスペクトル解釈・予測法の開発に成功しました。

<研究内容>

研究グループでは内殻電子励起スペクトルの理論計算法の開発をこれまでにも行い、数多くのスペクトルの理論計算と解釈を「研究者駆動型」手法で実施してきました。今回、同スペクトルの解釈を、「研究者駆動型」で行うのではなく、機械学習を活用した「データ駆動型」で行う手法を開発しました。

手法としては、階層型クラスタリング注4)と決定木注5)という、ともに樹形図を作成する機械学習法を併用しました。まず、各物質から得られるスペクトルを階層型クラスタリングにより分類し、「スペクトルに関する樹形図」を作成(図2)し、その分類結果をラベルとします。次に、そのラベルを基に各物質の原子配列や電子構造に関する情報を回帰し、決定木をつくります。つまり、「物質情報に関する樹形図」ができます(図3)。この、「物質情報の樹形図」は、「スペクトルの樹形図」の結果をラベルとして作成されているので、その2本の樹形図は相関関係があります。この2本の樹形図を使用することで、スペクトルから原子配列や電子構造を獲得する、つまりスペクトルを解釈することができます。

スペクトル樹形図および物質情報樹形図の2本の樹形図を用いたスペクトルの解釈と予測の手順を図4、5に示します。まず、スペクトルの解釈においては、スペクトルが既知、物質情報が未知の状態からスタートします(図4左)。既知のスペクトルをスペクトル樹形図に入力することで、スペクトルがどのClusterに分類されるかが分かります(図4真ん中)。次に、物質情報樹形図において、スペクトルが分類されたClusterからスタートして、樹形図を昇ります。この場合、Cluster3は、「長い結合が無し」で「価数=3」である。という物質情報が分かります。つまり、2本の樹形図を使用することで、スペクトルから原子配列や電子構造に関する情報を得ることができます。

さらに、この2本の樹形図を使用することで、既知の物質情報から未知のスペクトルを予測することもできます(図5)。物質情報を物質情報樹形図に入力し、分岐点の項目に該当物質が当てはまるかどうか(true/false)を判断していくと、Clusterが決まります。このClusterはスペクトル樹形図と対応しており、該当物質のスペクトルはこのClusterのスペクトルと類似していると予測されます。

つまり、それぞれ既知の情報を樹形図に流すことで、解釈と予測ができます。

今回、手法開発のために、理論計算で得られた酸化物のO-K端という内殻電子励起スペクトルに対して、上記の2本の樹形図を使って、解釈と予測を行いました。今回の手法では、すべてのスペクトルにおいて、正確に解釈と予測を行うことに成功しました。

研究者が解釈と予測を行うには、高度な理論計算と長年の経験をもとに数時間から数日を要します。今回用いた手法ではそのような経験と知識を一切使用することなく、数秒で正確に解釈と予測を行うことができます。

<今後の展開>

これまでの内殻電子励起スペクトルの解釈には、計算時間、専門的な知識、さらに職人技が必要でした。今回開発した2つの樹形図を活用する方法は、専門知識や職人技なしに短時間で解釈と予測を正確に行うことができます。本手法のイメージを図1に示します。2本の木(樹形図)がスペクトルを吸い上げ、お互いに情報を交換しあいながら、解釈の実(リンゴ)を咲かせることができます。

また、今回は内殻電子励起スペクトルに利用しましたが、この2つの樹形図を利用する手法は、原理的に他の分光法にも利用が可能です。物質科学においては、赤外分光や紫外線吸収、X線/電子線分光など、多くの分光法が使用されており、それらの解釈の多くは専門的な知識や理論計算が必要でした。しかし今回の手法を利用することで、さまざまな分光法の解釈と予測が高速化し、専門の知識がなくても物質を高速かつ高精度に解析することが可能になると期待できます。

今後も、界面から取得される複雑なスペクトルの解釈に利用する予定です。

<参考図>

人工知能が専門家の約2万倍の速さでスペクトルを解釈

図1 本研究のイメージ図

2本の木(樹形図)がスペクトルを吸い上げ、お互いに情報を交換しあいながら、解釈の実(リンゴ)を咲かせる。

図2

図2

物質から測定(計算)されるスペクトルを、階層型クラスタリングにより分類し、「スペクトルに関する樹形図」を作成する。

図3

図3

各物質の持つ物質情報(元素の価数、結合距離、長い結合の有無、短い結合の有無など)を、図1で得られた「スペクトルの樹形図」のラベル(Cluster1、Cluster2など)を基に決定木を作成する。各ボックスの中の色の違う四角形は、構成元素や結晶構造が異なる物質を表している。各物質は異なる元素や価数、結合距離を持っており、それらをラベルを基に分類することで「物質情報の樹形図」になる。

図4 スペクトル樹形図と物質情報樹形図を用いたスペクトル解釈方法

図4 スペクトル樹形図と物質情報樹形図を用いたスペクトル解釈方法

スペクトルが既知、物質情報が未知の状態からスタート(図左)。既知のスペクトルをスペクトル樹形図に入力することでスペクトルがどのClusterに分類されるかが分かる。次に、物質情報樹形図においてスペクトルが分類されたClusterからスタートして樹形図を昇る。この図の場合は、Cluster3に所属するスペクトルは「長い結合が無し」で「価数=3」の物質ということが分かります。

図5 物質情報樹形図とスペクトル樹形図を用いたスペクトル予測の手順

図5 物質情報樹形図とスペクトル樹形図を用いたスペクトル予測の手順

物質情報を物質情報樹形図に入力し、分岐点の項目に該当物質が当てはまるかどうか(true/false)を判断していくと、Clusterが決まります。このClusterはスペクトル樹形図と対応しており、該当物質のスペクトルはこのClusterのスペクトルと類似していると予測されます。

<用語解説>
注1)スペクトル
入射する光の吸収や発光などで得られる情報。赤外線からX線、電子線などさまざまな入射光が用いられる。本研究では、電子やX線を用いて測定される内殻電子励起分光スペクトル(以下、注2)を対象とした。横軸にエネルギー、縦軸に吸収量をプロットして得られる2次元情報。
注2)内殻電子励起分光法
主に電子線やX線を用いて測定され、電子が励起した際に生じる吸収スペクトル。スペクトルには物質の原子配列や電子構造に関する情報が含まれており、特に、透過型電子顕微鏡を用いて測定される内殻電子励起分光法は「究極の分析法」とNature誌に紹介されるほど強力。
注3)理論計算
スペクトルを解釈し、原子配列や電子構造に関する情報を得るための計算法。特に、内殻電子励起分光法では、非常に計算時間を要する計算方法が使用される。
注4)階層型クラスタリング
データの一致度(類似度)で分類する教師なし分類法。今回は、各スペクトルの一致度を用いて分類した。
注5)決定木
段階的にデータを分類し、「木」のような関係図をつくる方法。その分類の際に、今回は上記の階層型クラスタリングで得られたラベルを基に、教師ありの分類を行った。
<論文情報>

タイトル:“Data-driven approach for the prediction and interpretation of core-electron loss spectroscopy”
(データ駆動型手法による内殻電子励起スペクトルの予測と解釈)

著者名:Shin Kiyohara, Tomohiro Miyata, Koji Tsuda, and Teruyasu Mizoguchi

DOI:10.1038/s41598-018-30994-6

<お問い合わせ先>
<研究に関すること>

溝口 照康(ミゾグチ テルヤス)
東京大学 生産技術研究所 准教授

<JST事業に関すること>

松尾 浩司(マツオ コウジ)
科学技術振興機構 戦略研究推進部 ICTグループ

<報道担当>

科学技術振興機構 広報課

1603情報システム・データ工学1701物理及び化学
ad
ad
Follow
ad
タイトルとURLをコピーしました