新しい電池材料の発見を加速するAI基盤モデルを構築(Building AI Foundation Models to Accelerate the Discovery of New Battery Materials)

2025-08-13 アルゴンヌ国立研究所(ANL)

2025年8月13日、アメリカ合衆国エネルギー省に属するArgonne National Laboratory(以下Argonne)は、ミシガン大学主導の研究チームがスーパーコンピュータを利用して、電池材料の発見を加速するための「AIファウンデーションモデル(基盤モデル)」を構築していることを発表しました。この取り組みでは、Argonneの最先端スーパーコンピュータ「Aurora」や「Polaris」を活用し、電池の電解質や電極などに対して有望な新材料を予測するAIモデルを開発しています。これまで電池素材の探索は主に経験や直感に依存していましたが、基盤モデルの活用により、より広範な化学空間をシステマティックに探索できるようになります。ミシガン大の准教授Venkat Viswanathan氏は「毎日トップの電解質科学者と話しているような能力が手に入り、新たな探索の段階を開く」と表現しました。このAIモデルによって、個人用電子機器から医療機器まで、用途を問わず電池性能の飛躍的向上が期待されます。

新しい電池材料の発見を加速するAI基盤モデルを構築(Building AI Foundation Models to Accelerate the Discovery of New Battery Materials)
Researchers from the University of Michigan are using Argonne supercomputers to develop foundation models that accelerate molecular design and the discovery of new battery materials. (Image by Anoushka Bhutani, University of Michigan.)

<関連情報>

分子基礎モデルのためのトークン化 Tokenization for Molecular Foundation Models

Alexius Wadell, Anoushka Bhutani, Venkatasubramanian Viswanathan
arXiv  last revised 8 Jul 2025 (this version, v3)
DOI:https://doi.org/10.48550/arXiv.2409.15370

Abstract

Text-based foundation models have become an important part of scientific discovery, with molecular foundation models accelerating advancements in material science and molecular this http URL, existing models are constrained by closed-vocabulary tokenizers that capture only a fraction of molecular space. In this work, we systematically evaluate 34 tokenizers, including 19 chemistry-specific ones, and reveal significant gaps in their coverage of the SMILES molecular representation. To assess the impact of tokenizer choice, we introduce n-gram language models as a low-cost proxy and validate their effectiveness by pretraining and finetuning 18 RoBERTa-style encoders for molecular property prediction. To overcome the limitations of existing tokenizers, we propose two new tokenizers — Smirk and Smirk-GPE — with full coverage of the OpenSMILES specification. The proposed tokenizers systematically integrate nuclear, electronic, and geometric degrees of freedom; facilitating applications in pharmacology, agriculture, biology, and energy storage. Our results highlight the need for open-vocabulary modeling and chemically diverse benchmarks in cheminformatics.

0402電気応用
ad
ad
Follow
ad
タイトルとURLをコピーしました