触媒反応におけるデータ駆動型分子設計に成功~AIによる触媒反応の開発自動化・効率化に向けて~

ad

2019-09-13 理化学研究所

理化学研究所(理研)環境資源科学研究センター触媒・融合研究グループの山口滋基礎科学特別研究員と袖岡幹子グループディレクター(開拓研究本部袖岡有機合成化学研究室主任研究員)の研究チームは、有機合成の「不斉触媒反応[1]」において、不斉収率[2]決定段階の反応中間体の構造を用いてデータ解析を行い、不斉収率が向上する分子設計に成功しました。

医薬品などファインケミカル[3]の合成に不可欠な不斉触媒反応の開発においては、不斉収率が向上する基質分子や触媒分子の設計を行うことが重要です。本研究成果により、触媒反応開発の効率化に向けたデータ駆動科学[4]に関する研究が加速すると期待できます。

人工知能[5]・データ科学は、現在、研究者の試行錯誤により行われている触媒反応開発を自動化・高速化すると期待されています。しかし、データ科学的手法を用いた場合、精度の高い予測ができるのは、解析に用いたデータの範囲内に限られます。したがって、手持ちのデータを超える機能を示す分子のデータ駆動による予測・設計は簡単ではありません。

今回、研究チームは、不斉収率が決まる段階の反応中間体の構造を用いてデータ解析を行うと、不斉収率が向上する分子設計を可能にする構造情報を抽出・可視化できることを発見しました。そして、可視化した構造情報をもとに基質および触媒分子の設計を行い、基質に関して不斉収率が向上することを実験的に確認しました。

本研究は、日本化学会の科学雑誌『Bulletin of the Chemical Society of Japan』のオンライン版(9月11日)に掲載されました。

背景

触媒反応は、化学製品の原料など私たちの身の回りにあるさまざまなものの生成に利用されています。触媒反応の開発は現状、研究者の試行錯誤をもとに行われています。しかし、触媒反応開発を大幅に効率化し、より低コスト・低エネルギーで化学製品やその原料などを供給するプロセスを短期間で開発することは、持続可能社会の実現に向けて必須といえます。こうした状況下で、人工知能・データ科学は、触媒反応開発の効率化・自動化を可能にすると期待されています。

有機低分子を用いる分野では、データ科学は古くから研究に取り入れられてきました。触媒反応の解析にも、回帰分析[6]といったデータ科学手法が盛んに使われています。しかし、データ科学的手法を用いた場合、精度の高い予測ができるのは、解析に用いたデータの範囲内に限られます。そのため、触媒反応の効率(反応速度や立体選択性など)を向上させるためのデータ駆動による分子設計は、簡単ではありません。データ科学による触媒反応開発の効率化のためには、解析データを超える性能を示す分子のデータ駆動型設計手法の開発が必須です。

研究手法と成果

研究チームは、触媒反応におけるデータ駆動型分子設計法の構築を目指し、医薬品などファインケミカルの合成に不可欠な「不斉触媒反応」を対象に研究を行いました。不斉触媒反応開発では、不斉収率向上のための基質分子や触媒分子の設計を行うことが目的の一つとなります。

データ解析手法として、分子場解析[7]という手法を用いました。分子場解析は創薬・ケモインフォマティクス[8]分野で使われる三次元定量的構造活性相関(3D-QSAR)[9]手法の一種です。不斉触媒反応における分子場解析とは、生成物の鏡像異性体[10]比と分子の3次元構造から計算される分子場[7]との間の回帰分析です(図1)。作成した回帰モデル[6]の回帰係数[6]から、不斉収率にとって重要な分子構造情報を可視化できます。可視化した構造情報をもとに不斉収率が向上する分子設計ができるようになれば、不斉触媒反応設計を大きく効率化できる可能性があります。しかし、可視化した構造情報をもとに不斉収率が向上する分子設計に成功した例は、これまでありませんでした。

これまでの分子場解析のほとんどは、触媒の構造のみに焦点をあてて研究されていました。不斉触媒反応では、触媒と基質からなる複合体(反応中間体)の構造から立体選択的に反応が進行し、不斉収率が決まります。そこで、研究チームは、不斉収率決定段階の反応中間体の構造を用いて分子場解析を行うことで、不斉収率向上のための触媒と基質の分子設計を可能にする重要構造情報を可視化できると考えました(図2)。

6種類の基質と5種類の触媒の組み合わせでスクリーニングを行い、30反応の不斉収率のデータを集め(図3)、反応中間体の構造を用いて分子場解析を行いました。そして、計算した分子場と不斉収率とを機械学習[5]手法を用いて相関づけし、回帰モデルを作成しました。この回帰モデルの回帰係数から、反応における鍵中間体上に重要構造情報を可視化し、これをもとに基質の設計を行いました(図4)。設計した基質を用いて、実際に不斉触媒反応を行ったところ、解析に使ったデータの不斉収率の最大値81% ee(Enantiomeric Excess:鏡像体過剰率)を超える94% eeを示すことが分かりました(図4)。

ごく最近、米国の研究グループからも不斉触媒反応における分子場解析によるデータ駆動型分子設計が報告されました注1)。本研究との違いとして、米国グループの報告では反応中間体を用いない、数百ほどの訓練データ[11]を用いている、重要構造情報を可視化せずに分子設計を行っている、といった点が挙げられます。数百の反応データを用いているものの、反応機構が分かっていなくても(反応中間体の構造を用いなくても)、不斉収率が向上する分子を設計できることを示した米国グループの報告と、中間体の構造を用いて30反応ほどのデータ解析により分子設計できることを示した本研究成果は相補的といえます。少ないデータ量で不斉収率が向上する分子の設計ができる本研究成果は、反応によってはより実用性が高くなるものと期待されます。

なお、本研究では分子構造の最適化に量子化学計算[12]手法を用いており、量子化学計算は理研のスーパーコンピュータシステム「HOKUSAI」を用いて行いました。また、本研究は環境資源科学研究センターで取り組んでいるキャタリストインフォマティクスプロジェクトの一環として行われたものです。

注1) Scott E. Denmark et al. Prediction of Higher-Selectivity Catalysts by Computer-Driven Workflow and Machine Learning. Science 2019, 363, eaau5631.

今後の期待

今回、不斉触媒反応において不斉収率を決定づける段階の反応中間体の構造を用いてデータ解析を行うことで、解析データを超える不斉収率を示す触媒や基質分子の設計を可能とする重要構造情報を可視化できることを見いだしました。可視化した重要構造情報は、計算機が解釈可能な座標情報であるため、今回の成果をもとに、計算機に分子設計を行わせることも可能になると期待できます。すなわち、将来的に不斉触媒反応の実験データを読み込むことで、不斉収率が向上する分子設計を自動で行う人工知能が構築できる可能性を示したということになります。

データ科学により触媒反応開発が効率化され、環境負荷の少ない触媒反応プロセスの開発が短期間で達成できるようになることを期待させる今回の研究成果は、2015年に国際連合が発表した「持続可能な開発目標(SDGs)」にある「7 エネルギーをみんなに、そしてクリーンに」や「9 産業と技術革新の基盤を作ろう」に貢献するものです。

原論文情報

Shigeru Yamaguchi, Mikiko Sodeoka, “Molecular Field Analysis Using Intermediates in Enantio-Determining Steps Can Extract Information for Data-Driven Molecular Design in Asymmetric Catalysis”, Bulletin of the Chemical Society of Japan, 10.1246/bcsj.20190132

発表者

理化学研究所
環境資源科学研究センター 触媒・融合研究グループ
基礎科学特別研究員 山口 滋(やまぐち しげる)
グループディレクター 袖岡 幹子(そでおか みきこ)
(開拓研究本部 袖岡有機合成化学研究室 主任研究員)

報道担当

理化学研究所 広報室 報道担当

補足説明
  1. 不斉触媒反応
    不斉反応とは、光学活性な(キラルな)分子を作り出す反応のことで、不斉触媒反応は、触媒としてわずかな量の不斉源(不斉触媒)を用いた不斉反応のことを指す。
  2. 不斉収率
    ここでは、不斉触媒反応で生成する鏡像異性体の比率のこと。
  3. ファインケミカル
    医薬品、農薬、香料などに代表される特定の機能を持った少量生産で付加価値の高い化学品のこと。
  4. データ駆動科学
    データから知識を抽出するための科学的な方法論のこと。
  5. 人工知能、機械学習
    ここでは、データをもとにコンピュータにその特徴、パターンを学習させることを機械学習とし、機械学習によりデータの分析や予測が可能になったコンピュータを人工知能としている。
  6. 回帰分析、回帰モデル、回帰係数
    回帰分析とは、ある一つの量(目的変数)を別の量(説明変数)を用いて予測するための関係式を導く統計的手法。推定された関係式を回帰モデルと呼び、説明変数にかかるパラメータ・数値のことを回帰係数と呼ぶ。目的変数をうまく予測できるように回帰係数を決定することで、回帰モデルを作成する。
  7. 分子場、分子場解析
    比較分子場解析(CoMFA; Comparative Molecular Field Analysis)を代表とする3D-QSARのことを指す。特に、ここでは格子空間に基づき計算した分子の3次元構造情報である分子相互作用場を記述子として用い、また目的変数として生物活性ではなく不斉収率を用いた3D-QSARのことを指している。格子空間に配置した分子の3次元構造から計算した分子の性質を表す数値を、分子相互作用場あるいは分子場と呼ぶ。
  8. ケモインフォマティクス
    情報科学技術を用いた化学のさまざまな問題に取り組むための方法論のこと。
  9. 三次元定量的構造活性相関(3D-QSAR)
    機械学習などデータ科学的手法を用いた化合物の生物活性と3次元分子構造情報との間の定量的解析、および解析により得られた生物活性と分子構造間の関連性のことを指す。3D-QSARは、Quantitative Structure-Activity Relationshipの略。
  10. 鏡像異性体
    同じ分子式で表されるが、構造が異なる物質のことを異性体と呼び、右手と左手のように互いに鏡像である異性体のことを鏡像異性体と呼ぶ。
  11. 訓練データ
    ここでは、回帰モデルを作成するために使う反応データのこと。
  12. 量子化学計算
    原子や分子の電子状態を支配する量子力学の基礎方程式であるシュレディンガー方程式をコンピュータにより数値的に解くこと

触媒反応におけるデータ駆動型分子設計に成功~AIによる触媒反応の開発自動化・効率化に向けて~

図1 不斉触媒反応における分子場解析

不斉触媒反応における分子場解析は、生成物の鏡像異性体比(y)と分子の3次元構造から計算される分子場(x)との間の回帰分析である。作成した回帰モデルの回帰係数(β)から、不斉収率にとって重要な分子構造情報を可視化できる。左下に示すように可視化した重要構造情報である青点/赤点上に触媒の3次元構造が重なっていると、立体選択性が向上/低下する。

今回解析した不斉触媒反応の反応機構の図

図2 今回解析した不斉触媒反応の反応機構

上段: 今回解析した不斉触媒反応。基質(β-ケトエステル)に不斉触媒(パラジウム-BINAP/SEGPHOS錯体)を用いて、基質のα位にフッ素原子(F)を立体選択的に結合させる。
下段: 従来では主に不斉触媒の構造のみに注目して分子場解析が行われていたが、今回は基質と不斉触媒からなる反応中間体の構造を用いて分子場解析を行った。

解析に用いたデータセットの図

図3 解析に用いたデータセット

6種類の基質(β-ケトエステル)と5種類の不斉触媒(パラジウム-BINAP/SEGPHOS錯体)との組み合わせでスクリーニングを行い、30反応の不斉収率のデータを集めて解析に用いた。

データ解析により抽出・可視化した構造情報に基づくデータ駆動型分子設計の図

図4 データ解析により抽出・可視化した構造情報に基づくデータ駆動型分子設計

鍵反応中間体上に、データ解析により抽出した重要構造情報を可視化した。青色が反応中間体と重なっている、水色が反応中間体と重なっていない重要構造情報。反応中間体と重なっていない重要構造情報と重なるように中間体の構造を設計すると、不斉収率が向上するものと期待される。反応中間体は基質と触媒の構造をどちらも含むため、重要構造情報をもとに触媒分子、基質分子どちらも設計可能である。可視化した重要構造情報をもとに触媒および基質の設計を行った。設計した基質を用いて実際に反応を行ったところ、生成物の不斉収率は、解析に使ったデータの最大値81% eeを超える94% eeであった。

0502有機化学製品1600情報工学一般
ad
ad
Follow
ad
タイトルとURLをコピーしました