化学構造の「共通ID」を開発 ―材料データベース統合で探索や機械学習を加速―

20026-06-25 東京大学

東京大学大学院工学系研究科の中山哲教授、村岡恒輝准教授らは、結晶や分子などの化学構造に対して重複のない固有識別子(ID)を付与する新アルゴリズム「Graph ID」を開発した。従来は材料データベースごとに管理方式が異なり、同一材料の照合や重複排除が困難であった。また、既存の自動識別法では座標系や数値誤差の影響で同一構造を別物と判定する問題があった。Graph IDは化学構造を原子と結合からなるグラフとして表現し、各原子周辺の環境を反復解析して構造固有のハッシュ文字列を生成することで、高精度かつ高速に構造を識別する。複雑な結晶や表面吸着構造にも適用でき、世界最大級の材料データベースであるMaterials Project、AFLOW、OQMD間の共通材料の特定にも成功した。さらに、プログラムをオープンソース化し、15万件超の既知構造IDも公開した。Graph IDは「材料のマイナンバー」として、材料データベース統合、AIによる新材料探索、機械学習、高速検索など材料科学DXの共通基盤となることが期待される。

化学構造の「共通ID」を開発 ―材料データベース統合で探索や機械学習を加速―
Graph ID

<関連情報>

大規模な材料データベースをリンクするための、化学構造の汎用グラフベース識別子 Universal graph-based identifiers of chemical structures for linking large material databases

Koki Muraoka,Taku Tanimoto,Tsubasa Munekata & Akira Nakayama
Nature Communications  Published:25 June 2026
DOI:https://doi.org/10.1038/s41467-026-74536-5

Abstract

The rapid expansion of computational databases of materials, driven by advancements in computational speeds, storage, and algorithm development, has enabled the unified treatment of materials with various compositions and structures. However, the lack of universal identifiers for chemical structures impedes the efficient utilization of databases. To address this issue, we propose an identifier named Graph ID, which is based on chemically intuitive atomic distances and a novel node labeling scheme. Graph ID exhibits scalability and can accurately differentiate between structurally distinct materials. It can be applied to various chemical structures, including bulk crystals, surface structures, and molecules. The code to generate Graph ID is available as open-source software, which will contribute to accelerating materials simulations and data analysis.

1603情報システム・データ工学
ad
ad
Follow
ad
タイトルとURLをコピーしました