深層学習を用いた重要代謝物探索法

ad
ad

2018年1月24日理化学研究所

要旨

理化学研究所(理研)環境資源科学研究センター環境代謝分析研究チームの菊地淳チームリーダーと伊達康博研究員の研究チームは、深層学習(DL)[1]に着目してメタボロミクス[2]研究に最適化した「DLアルゴリズム」を開発しました。実際に、魚類の核磁気共鳴(NMR)[3]データを解析し高精度な産地判別が可能なことを示し、この判別に寄与する重要代謝物探索法も確立しました。

2016年、DLを基盤とする人工知能(AI)[4]が囲碁の世界チャンピオンに勝利したニュースが世間を騒がせたように、AIは社会構造の変革に寄与する革新的技術といわれています。生物学や化学などの分野においても、AIやDLの潜在能力は注目されてはいるものの、本格的に利活用されているとはいえません。

今回、研究チームは、DLにおける基幹的な計算アルゴリズム[5]であるディープニューラルネットワーク(DNN)[6]に着目し、メタボロミクス研究における解析に適用できるよう最適化し、モデルに対して重要な因子となる代謝物を特定できる「DLアルゴリズム」を開発しました。そして、再現性や機関間互換性[7]の高い、多数のビッグデータの取得に向くNMR法で取得した1,000を超える魚肉抽出物のNMRデータセットに対して、判別分析や種々の機械学習[8]を実施し、DLアルゴリズムの解析結果と比較しました。その結果、DLアルゴリズムが最も高精度に産地を判別し、さらに、産地判別に寄与する重要因子[9](本研究では代謝物)を探索できることを実証しました。

本研究は、「IoT/ビッグデータ/CI[10]」時代の到来によって蓄積される膨大なビッグデータの解析に、AI技術、特にDLが有効であることを示しています。また、NMR法は食品などの代謝混合物を対象に、簡単な試料調製法でビッグデータを取得することに向いています。最近では高温超電導素材[11]の開発によるランニングコストの低価格化や、永久磁石利用によるNMR装置の小型化が急速に進んでいることから、将来、簡易分析装置とDLアルゴリズムによる農産物や水産物の品質管理が普及することで、重要因子を代謝マーカーとした「旬」や「産地」に応じたおいしい食品開発などへの応用が期待できます。

本研究成果は、米国の科学雑誌『Analytical Chemistry』掲載に先立ち、オンライン版(1月6日付け)に掲載されました。

背景

機械学習や、機械学習の一種である深層学習(DL)などの人工知能(AI)関連技術は、パソコンやスマートフォン、カメラなど、さまざまな製品に利用されるようになり、現代社会に多大な恩恵をもたらしています。DLを基盤としたAIが将棋や囲碁の世界チャンピオンに勝利したニュースが世間を騒がせたように、AIは社会構造の変革に寄与する革新的技術といわれています。

DLは機械やAI、情報科学、コンピュータ科学などの分野で発展し有効に利用されています。一方、生物学や化学などの分野においても、AIやDLの潜在能力は注目されてはいるものの、本格的に利活用されているとはいえません。

AIやDLの応用・利活用を必要としている生物・化学系分野の一つに、メタボロミクス研究があります。メタボロミクスとは、生物や生態系の代謝反応により産生された多数の生体関連物質を可能な限り検出し、解析する技術です。核磁気共鳴(NMR)装置を用いるメタボロミクスで生物系サンプルを調べると、試料調製の容易さやカラム分離を用いない特性から、1検体あたり低コストで多検体試料のデータを得ることができます。研究チームではこれまで、こうしたNMR法の特性を活かした新しいアルゴリズム開発に基づくバイオマーカー探索法注1)、細胞丸ごとの固体解析手法注2)、カラム分離を経ない2次代謝物の構造解析法注3)を発表してきました。さらに今回は、ビッグデータの中から従来法より有用な情報を発掘する計算能力に長けたAIやDLの応用に着目することとしました。

注1)2015年11月4日プレスリリース 「新たな代謝バイオマーカー探索法を開発
注2)2015年5月15日プレス発表 「有用プランクトン丸ごと計測する多次元固体NMR計測
注3)2016年4月12日プレス発表 「カラム分離無しで複雑な代謝混合物を構造解析

研究手法と成果

研究チームは、DLにおける基幹的な計算アルゴリズムであるディープニューラルネットワーク(DNN)に着目し、メタボロミクス研究における解析に適用できるよう、アルゴリズムを最適化しました。DLは、分類/回帰モデル[12]を構築するための学習過程において、その内部構造が複雑なため、構築された分類/回帰モデルに寄与する重要な変数を直接的に見いだすことができないという欠点がありました。これを克服するために、パーミュテーション法[13]をアルゴリズムに組み込むことで、メタボロミクス研究における解析で、モデルに対して重要な因子となる代謝物を特定できる「DLアルゴリズム」を開発しました(図1)。

DLアルゴリズムの性能を評価するため、研究チームは再現性や機関間互換性の高いNMR法に着目し、日本各地の河川から採集した魚類の筋肉抽出物に由来するNMRデータを用意しました。1,000サンプルを超えるデータセットに対して、従来法である判別分析や種々の機械学習を用いて採集地域の違いに関する判別性能を比較したところ、DLアルゴリズムが最も高精度な産地判別能を持つことが分かりました(図2A)。さらに、DLアルゴリズムは、高精度な産地判別モデルに寄与する重要な変数(代謝物)を特定できる重要代謝物検索法としても有用でした。また、本研究で用いたデータセットでは、判別モデルを構築するための学習に用いるサンプル数が200を超えると、90%以上の判別精度が得られました(図2B)。

以上の結果は、DLアルゴリズムが、NMR法のようなビッグデータの取得に効果的な分析機器と相性がよく、メタボロミクスに限らず、メタゲノミクス[14]やフェノミクス[15]など、生物系の多様なビッグデータ解析に有用な解析技術であることを示しています。

今後の期待

IoT/ビッグデータ/CI」時代の到来によって、モニタリング計測機器から多数の時系列、あるいは離れた空間からデータが取得されると、蓄積されるデータは膨大なビッグデータとなります。本研究のように多くの検体から得られるビッグデータの解析にはAI技術、特にDLが有効であることを示しています。情報化社会によって、モノ×ヒト、機械×ヒト、生産×消費といったさまざまなつながりから生まれるビッグデータとDLを組み合わせることで、新たな付加価値や製品・サービスを創出し、高齢化/人手不足/資源循環・持続性などの総合的な社会課題を解決する、CIへの取り組みが望まれています(図3)。

将来的には、大学×研究所、研究所×企業といった機関間でのデータ互換性がますます求められるようになります。本研究で用いたNMR法による抽出物解析は、数百~数千検体の使用に伴う機器の劣化や、機器ごとの個性が反映されにくいため、機関間互換性が高くCI化に向いています。例えば、試料を高速で回転させるマジックアングル試料回転(MAS)法[16]であれば、破砕や抽出といったその都度結果が異なる工程を経ずに、どの分子種を蓄積する能力を持つのかをプロファイル化することができます。最近では、永久磁石や電磁石が小型で安価なNMR装置を用いた簡易分析システムの研究が盛んに行われていることから、農林水産物のようなキロ単価の安い生物材料に対しても、生産現場で評価ができる時代が近づいています。

将来、簡易分析装置とDLアルゴリズムによる農産物や水産物の品質管理が普及することで、重要因子を代謝マーカーとした「旬」や「産地」に応じたおいしい食品開発や、廃棄物を飼料などへ再利用し1次産業の価値向上を図る「環境持続的CI化」などへの応用が期待できます。実際に研究チームは、2017年に理研と包括協定を締結した水産研究・教育機構と共同で高級魚スジアラなどの養殖技術高度化注4)に着手しており、当該分野の産業競争力向上への貢献が期待できます。将来的には、天然魚の優れた特性を養殖魚に反映させたり、解析結果を環境持続性の評価指針とするといった展開も期待できます。

注4)2017年8月24日プレスリリース「沖縄三大高級魚スジアラの効率的給餌法にヒント

原論文情報

  • Yasuhiro DATE, Jun KIKUCHI, “Application of a deep neural network to metabolomics studies and its performance in determining important variables”, Analytical Chemistry, doi: 10.1021/acs.analchem.7b03795

発表者

理化学研究所
環境資源科学研究センター 環境代謝分析研究チーム
チームリーダー 菊地 淳 (きくち じゅん)
研究員 伊達 康博 (だて やすひろ)

報道担当

理化学研究所 広報室 報道担当

産業利用に関するお問い合わせ

理化学研究所 産業連携本部 連携推進部

タイトルとURLをコピーしました