装置やメーカーで異なるデータ形式を統一 データ科学による新材料開発の促進に期待
2019-01-30 国立研究開発法人 物質・材料研究機構 (NIMS)
NIMSは、計測装置より出力されるデータから、計測条件や試料情報等のメタ情報を抽出し、機械可読性の高いXMLファイルへと変換するツールを、計測機器メーカー2社の協力のもとで開発しました。AIや機械学習で利用しやすいデータの創出・蓄積を効率的に行えるようになり、データ科学を活用した材料開発の促進が期待されます。
概要
- 物質・材料研究機構 (NIMS) 統合型材料開発・情報基盤部門 材料データプラットフォームセンター (DPFC) は、計測装置より出力されるデータから、計測条件や試料情報等のメタ情報を抽出し、機械可読性の高いXMLファイルへと変換するツール (以下、メタ情報抽出ツール) を、計測機器メーカー2社 (アルバック・ファイ株式会社、株式会社リガク) の協力のもとで開発しました。AIや機械学習で利用しやすいデータの創出・蓄積を効率的に行えるようになり、データ科学を活用した材料開発の促進が期待されます。
- 現在、材料データを機械学習によって統計処理し新材料の開発を目指すデータ駆動型の材料開発が注目を集めています。しかし、統計処理の元となる計測データの多くは、同一のメーカーの装置であっても装置が異なるとデータ形式も異なることがあり、相互比較が難しいという課題がありました。また、ファイルに計測条件などのメタ情報が記録されていないため、対象とするデータの検索も難しく、機械学習で利活用しやすいデータ形式へ変換するツールの開発が求められていました。
- 今回、材料評価で広く用いられているX線光電子分光法 (XPS) とX線回折法 (XRD) の2種の計測データについて、計測メーカーの協力のもと、メタ情報を付与するための用語変換を定義し、機械学習で主要となるパラメータを抽出するツールを開発しました。まず第1弾として、アルバック・ファイ社Quantera SXM等のファイル形式で生成されたXPSスペクトル、およびリガク社SmartLabのファイル形式で生成された粉末XRDパターンの計測データに対応しています。今後も引き続き計測メーカーの枠を広げるとともに、XRDやXPSに限定せず、対応する装置や対象とする計測技術分野の拡大を図っていく予定です。
- メタ情報抽出ツールのほか、バイナリデータのテキスト変換ツールや数値データ行列の構文解析プログラム (パーサ) を含むスペクトル等への視覚化変換ツールをあわせ、“M-DaC (Materials Data Conversion Tools) ”と命名してNIMS-DPFCのウェブサイトにて公開します。M-DaCのソースコードの一部はMITライセンスのもと、利用者自身で改良することも可能です。また、装置が出力したサンプル用生データも公開しており、「クリエイティブ・コモンズ・ライセンスの表示‐非営利4.0国際 (CC BY-NC 4.0)」のもとでの利用が可能です。
M-DaC 公開ページ : https://www.nims.go.jp/MaDIS/about/M-DaC.html - 本成果は2019年1月30日から東京ビッグサイトで開催されるnano tech2019及び同時開催のMaDISシンポジウム2019~AIで加速する材料開発とデータプラットフォーム戦略~にて発表されます。