機械学習アルゴリズムがトレーニング無しで埋もれた科学知識を発掘

ad

2019/7/3 アメリカ合衆国・ローレンスバークレー国立研究所 (LBNL)

機械学習アルゴリズムがトレーニング無しで埋もれた科学知識を発掘
(With Little Training, Machine-Learning Algorithms Can Uncover Hidden Scientific Knowledge)

Graphic - Berkeley Lab researchers found that text mining of materials science abstracts could turn up novel thermoelectric materials. (Credit: Berkeley Lab)

Graphic - Elements and periodic table

 

・ LBNL が、材料科学分野に関する事前のトレーニングをしていない機械学習アルゴリズムが、数百万本の科学文献のテキストマイニングを通じて新しい科学的知見を発掘できることを実証。
・ これまでに出版された材料科学文献からのアブストラクトを Word2vec アルゴリズムで処理した結果、材料分野に関する事前の知識の無い状態で、周期表や金属の結晶構造等の概念を学習し、単語同士の相互の関連性を分析して新しい熱電材料を予測し、熱電材料候補として未知の材料を提案した。
・ 同アルゴリズムは、材料研究活動において研究されるべきものとされていないものの間のギャップを橋渡しするもの。研究分野毎に 100 年分の研究文献が存在する上、毎週のように大量の研究文献が発行されているが、研究者がアクセスできるのはそのうちの僅か。人間によるガイダンス無しの機械学習を利用した、膨大に存在する科学的全知見の活用方法を探った。
・ 1992 年から 2018 年の間に発行された 1,000 本超の科学誌掲載の文献のアブストラクト 330 万件中の約 50 万個の単語を Word2vec が拾い上げ、各単語を 200 次元のベクトル(200 個の数字の列)に変換して各単語同士の関連性を調査する。例えば、一般的なテキストソースを使用したアルゴリズムによる「king-queen」のベクトル演算により「man-woman」という類似の結果が得られるように、単語間の関連性を自ら理解する。
・ これと同様に、アルゴリズムが材料科学のテキストを使用した場合、アブストラクト中の単語の位置および他の単語との同時発生に基づいて、科学用語の意味や金属結晶構造等の概念を学習した。例えば、「king-queen+man」の計算を解くように、「強磁性-NiFe+IrMn」の答えである「反強磁性」を得ることができた。
・ Word2vec アルゴリズムはまた、周期表上の各元素間の関連性も学習。各化学元素のベクトルを 2 次元上に可視化した。
・ 同アルゴリズムが示した熱電材料の最有力候補10種類で、同アルゴリズムの予測を確証する計算を実施した結果、10 種類が全て既存の平均的な熱電材料よりもやや高い出力因子を有することを確認。上位 3 種類では、既存熱電材料の 95 パーセンタイルを上回る出力因子を示した。
・ また、2000 年までのアブストラクトのみを使用して、同アルゴリズムの「過去における」実験実施可能性を試験したところ、それ以降の研究で発見された材料が多数(ランダムに材料を選択した場合よりも 4 倍多く)上位予測に挙がった。例えば、2008 年までのデータを使用した場合の上位 5 件のうち 3 件がそれ以降の研究で発見されており、後の 2 件は希少・毒性元素を含んでいた。
・ 同アルゴリズムは、有望な熱電材料の予測だけでなく、熱電材料で現在注目されている結晶構造であるハーフホイスラー構造等の予測の論拠も提供。同アルゴリズムが予測した上位 50 種類の熱電材料に加え、例えばトポロジカル絶縁材料サーチに独自のアプリケーションの開発を希望するユーザーが利用できる、分散表現(単語埋めこみ)についても公表する予定。今後は、アブストラクトのサーチの利便性を向上させる、よりスマートでパワフルなサーチエンジンを開発する。
・ 本研究には、Toyota Research Institute が資金を提供した。
URL: https://newscenter.lbl.gov/2019/07/03/machine-learning-algorithms-can-uncover-hiddenscientific-knowledge/

(関連情報)
Nature 掲載論文(アブストラクトのみ:全文は有料) Unsupervised word embeddings capture latent knowledge from materials science literature
URL: https://www.nature.com/articles/s41586-019-1335-8

<NEDO海外技術情報より>

ad

1600情報工学一般1602ソフトウェア工学
ad
ad
Follow
ad
テック・アイ技術情報研究所
タイトルとURLをコピーしました