2018-1-24 理化学研究所
要旨
理化学研究所(理研)環境資源科学研究センター環境代謝分析研究チームの菊地淳チームリーダーと伊達康博研究員の研究チームは、深層学習(DL)[1]に着目してメタボロミクス[2]研究に最適化した「DLアルゴリズム」を開発しました。実際に、魚類の核磁気共鳴(NMR)[3]データを解析し高精度な産地判別が可能なことを示し、この判別に寄与する重要代謝物探索法も確立しました。
2016年、DLを基盤とする人工知能(AI)[4]が囲碁の世界チャンピオンに勝利したニュースが世間を騒がせたように、AIは社会構造の変革に寄与する革新的技術といわれています。生物学や化学などの分野においても、AIやDLの潜在能力は注目されてはいるものの、本格的に利活用されているとはいえません。
今回、研究チームは、DLにおける基幹的な計算アルゴリズム[5]であるディープニューラルネットワーク(DNN)[6]に着目し、メタボロミクス研究における解析に適用できるよう最適化し、モデルに対して重要な因子となる代謝物を特定できる「DLアルゴリズム」を開発しました。そして、再現性や機関間互換性[7]の高い、多数のビッグデータの取得に向くNMR法で取得した1,000を超える魚肉抽出物のNMRデータセットに対して、判別分析や種々の機械学習[8]を実施し、DLアルゴリズムの解析結果と比較しました。その結果、DLアルゴリズムが最も高精度に産地を判別し、さらに、産地判別に寄与する重要因子[9](本研究では代謝物)を探索できることを実証しました。
本研究は、「IoT/ビッグデータ/CI[10]」時代の到来によって蓄積される膨大なビッグデータの解析に、AI技術、特にDLが有効であることを示しています。また、NMR法は食品などの代謝混合物を対象に、簡単な試料調製法でビッグデータを取得することに向いています。最近では高温超電導素材[11]の開発によるランニングコストの低価格化や、永久磁石利用によるNMR装置の小型化が急速に進んでいることから、将来、簡易分析装置とDLアルゴリズムによる農産物や水産物の品質管理が普及することで、重要因子を代謝マーカーとした「旬」や「産地」に応じたおいしい食品開発などへの応用が期待できます。
本研究成果は、米国の科学雑誌『Analytical Chemistry』掲載に先立ち、オンライン版(1月6日付け)に掲載されました。
背景
機械学習や、機械学習の一種である深層学習(DL)などの人工知能(AI)関連技術は、パソコンやスマートフォン、カメラなど、さまざまな製品に利用されるようになり、現代社会に多大な恩恵をもたらしています。DLを基盤としたAIが将棋や囲碁の世界チャンピオンに勝利したニュースが世間を騒がせたように、AIは社会構造の変革に寄与する革新的技術といわれています。
DLは機械やAI、情報科学、コンピュータ科学などの分野で発展し有効に利用されています。一方、生物学や化学などの分野においても、AIやDLの潜在能力は注目されてはいるものの、本格的に利活用されているとはいえません。
AIやDLの応用・利活用を必要としている生物・化学系分野の一つに、メタボロミクス研究があります。メタボロミクスとは、生物や生態系の代謝反応により産生された多数の生体関連物質を可能な限り検出し、解析する技術です。核磁気共鳴(NMR)装置を用いるメタボロミクスで生物系サンプルを調べると、試料調製の容易さやカラム分離を用いない特性から、1検体あたり低コストで多検体試料のデータを得ることができます。研究チームではこれまで、こうしたNMR法の特性を活かした新しいアルゴリズム開発に基づくバイオマーカー探索法注1)、細胞丸ごとの固体解析手法注2)、カラム分離を経ない2次代謝物の構造解析法注3)を発表してきました。さらに今回は、ビッグデータの中から従来法より有用な情報を発掘する計算能力に長けたAIやDLの応用に着目することとしました。
注1)2015年11月4日プレスリリース 「新たな代謝バイオマーカー探索法を開発」
注2)2015年5月15日プレス発表 「有用プランクトン丸ごと計測する多次元固体NMR計測」
注3)2016年4月12日プレス発表 「カラム分離無しで複雑な代謝混合物を構造解析」
研究手法と成果
研究チームは、DLにおける基幹的な計算アルゴリズムであるディープニューラルネットワーク(DNN)に着目し、メタボロミクス研究における解析に適用できるよう、アルゴリズムを最適化しました。DLは、分類/回帰モデル[12]を構築するための学習過程において、その内部構造が複雑なため、構築された分類/回帰モデルに寄与する重要な変数を直接的に見いだすことができないという欠点がありました。これを克服するために、パーミュテーション法[13]をアルゴリズムに組み込むことで、メタボロミクス研究における解析で、モデルに対して重要な因子となる代謝物を特定できる「DLアルゴリズム」を開発しました(図1)。
DLアルゴリズムの性能を評価するため、研究チームは再現性や機関間互換性の高いNMR法に着目し、日本各地の河川から採集した魚類の筋肉抽出物に由来するNMRデータを用意しました。1,000サンプルを超えるデータセットに対して、従来法である判別分析や種々の機械学習を用いて採集地域の違いに関する判別性能を比較したところ、DLアルゴリズムが最も高精度な産地判別能を持つことが分かりました(図2A)。さらに、DLアルゴリズムは、高精度な産地判別モデルに寄与する重要な変数(代謝物)を特定できる重要代謝物検索法としても有用でした。また、本研究で用いたデータセットでは、判別モデルを構築するための学習に用いるサンプル数が200を超えると、90%以上の判別精度が得られました(図2B)。
以上の結果は、DLアルゴリズムが、NMR法のようなビッグデータの取得に効果的な分析機器と相性がよく、メタボロミクスに限らず、メタゲノミクス[14]やフェノミクス[15]など、生物系の多様なビッグデータ解析に有用な解析技術であることを示しています。
今後の期待
IoT/ビッグデータ/CI」時代の到来によって、モニタリング計測機器から多数の時系列、あるいは離れた空間からデータが取得されると、蓄積されるデータは膨大なビッグデータとなります。本研究のように多くの検体から得られるビッグデータの解析にはAI技術、特にDLが有効であることを示しています。情報化社会によって、モノ×ヒト、機械×ヒト、生産×消費といったさまざまなつながりから生まれるビッグデータとDLを組み合わせることで、新たな付加価値や製品・サービスを創出し、高齢化/人手不足/資源循環・持続性などの総合的な社会課題を解決する、CIへの取り組みが望まれています(図3)。
将来的には、大学×研究所、研究所×企業といった機関間でのデータ互換性がますます求められるようになります。本研究で用いたNMR法による抽出物解析は、数百~数千検体の使用に伴う機器の劣化や、機器ごとの個性が反映されにくいため、機関間互換性が高くCI化に向いています。例えば、試料を高速で回転させるマジックアングル試料回転(MAS)法[16]であれば、破砕や抽出といったその都度結果が異なる工程を経ずに、どの分子種を蓄積する能力を持つのかをプロファイル化することができます。最近では、永久磁石や電磁石が小型で安価なNMR装置を用いた簡易分析システムの研究が盛んに行われていることから、農林水産物のようなキロ単価の安い生物材料に対しても、生産現場で評価ができる時代が近づいています。
将来、簡易分析装置とDLアルゴリズムによる農産物や水産物の品質管理が普及することで、重要因子を代謝マーカーとした「旬」や「産地」に応じたおいしい食品開発や、廃棄物を飼料などへ再利用し1次産業の価値向上を図る「環境持続的CI化」などへの応用が期待できます。実際に研究チームは、2017年に理研と包括協定を締結した水産研究・教育機構と共同で高級魚スジアラなどの養殖技術高度化注4)に着手しており、当該分野の産業競争力向上への貢献が期待できます。将来的には、天然魚の優れた特性を養殖魚に反映させたり、解析結果を環境持続性の評価指針とするといった展開も期待できます。
注4)2017年8月24日プレスリリース「沖縄三大高級魚スジアラの効率的給餌法にヒント」
原論文情報
Yasuhiro DATE, Jun KIKUCHI, “Application of a deep neural network to metabolomics studies and its performance in determining important variables”, Analytical Chemistry, doi: 10.1021/acs.analchem.7b03795
発表者
理化学研究所
環境資源科学研究センター 環境代謝分析研究チーム
チームリーダー 菊地 淳 (きくち じゅん)
研究員 伊達 康博 (だて やすひろ)
報道担当
理化学研究所 広報室 報道担当
産業利用に関するお問い合わせ
理化学研究所 産業連携本部 連携推進部
補足説明
-
- 深層学習(DL)
- 深層学習は機械学習の計算手法の一つで、多層(狭義には4層以上)のニューラルネットワークのこと。ニューラルネットワークとは、脳機能にみられるいくつかのネットワークを計算機上のシミュレーションで表現することを目指した数学モデルのこと。DLはDeep Learningの略。
-
- メタボロミクス
- ある組織やコンパートメント、細胞に含まれる全ての代謝産物、代謝中間体などの小分子全体をメタボロームと呼ぶ。このメタボロームを網羅的に測定・解析することがメタボロミクスである。NMR装置を用いた方法では、下記のようにカラムを用いないため高い再現性と機関間互換性、固体・ゲル・溶液等の幅広い試料を対象と出来ること、試料調製の容易さや1検体あたり低コストでの評価が可能でAI計算に向くこと、などの特徴がある。
-
- 核磁気共鳴(NMR)
- 原子や分子は、静磁場中で外部からエネルギーを与えると、構造に特徴的なエネルギーを吸収、放出する。エネルギーの強さ(周波数)を変えながら吸収・放出を計測することで物質に固有の波形(スペクトル)が得られる。混合物の場合は個々の物質由来のスペクトルが足しあわされた波形が得られるので、スペクトルを調べることでどんな物質が混合されているかを知ることができる。試料を何らかの方法でイオン化しなければならない質量分析法とくらべ、NMRでは食品や生体試料を最小限の前処理で、イオン化する必要なくそのまま計測できる特徴を有する。NMRはNuclear Magnetic Resonanceの略。
-
- 人工知能(AI)
- コンピュータ上などで人間と同様の知能を人工的に実現させようという試み、あるいはその一連の基礎技術を指す。機械学習=AIではないものの、語彙に明確な線引きはなく、同義に使われることが多い。AIはartificial intelligenceの略。
-
- アルゴリズム
- 機械(コンピュータ)において、特定の目的を達成させるために必要な情報処理の方法や手順のこと。
-
- ディープニューラルネットワーク(DNN)
- ニューラルネットワークに沿ったパターン認識をするように設計された、人間や動物の脳神経回路をモデルとしたアルゴリズムを多層構造化したもの。深層学習におけるアルゴリズムの一つ。DNNはDeep Neural Networkの略。DNNのほかに、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)や再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)などがある。
-
- 機関間互換性
- IoT/ビッグデータ/CIに向けた取り組みが進展すると、将来的には大学×研究所、研究所×企業といった機関間でのデータ互換性を求められるようになる。本研究で用いたようなNMR法による抽出物解析は、カラム接続された分析機器と比べ、数百・数千検体での使用に伴う劣化や、機器ごとの個性が反映されにくいため、機関間互換性が高くCI化に向いている。
-
- 機械学習
- 人間の学習能力と同様に、機械(コンピュータ)に学習能力を持たせる手法。データから機械自身が反復的に解析し、ルールを見つけ出すという特徴がある。
-
- 重要因子
- 本研究では、NMRスペクトルの化学シフト(1H核共鳴周波数)をパラメータ(因子)情報として、DL計算を行っている。混合物試料の場合は、化学シフトのパラメータごとに構造の異なる代謝物シグナルが現れる。つまり本研究での重要因子情報とは、対応する化学シフトで観測される代謝物を示す。NMRでは一定の物理化学条件で標品代謝物を計測すれば、常に一定の化学シフトで観測されるため、標品データベースとの比較で混合物からの物質同定も可能となる。
-
- IoT/ビッグデータ/CI
- モノやコトがインターネット接続される(IoT)、つまりモニタリング計測機器から、多数の時系列、あるいは離れた空間よりデータ取得できると、蓄積された大量データはいわゆるビッグデータとなり、機械学習でのトレーニング情報を提供できる。情報化社会によってモノ×ヒト、機械×ヒト、生産×消費といったさまざまなつながりによるビッグデータを、AIなどによって新たな付加価値や製品・サービスを創出し、高齢化/人手不足/資源循環・持続性などの総合的な社会課題の解決、つまりCIへの取り組みが望まれている。IoTはInternet of Things、CIはConnected Industriesの略。
CIの詳細は経済産業省ホームページを参照。
-
- 高温超電導素材
- 現在市販されているNMR装置には、液体ヘリウム温度(-269℃)レベルで超電導になる金属系低温超電導線材が使われており、冷却のために高価な液体ヘリウムが必要で、大がかりな低温設備が必要となる。一方、レアアース(希土類元素)、バリウム、銅、酸素から構成される薄膜高温超電導線材は、安価で簡単に取り扱うことができる液体窒素の温度(-196℃)で超電導になるため、将来的には小型でメンテナンス・コストの安価なNMR装置が実用化できると期待されている。
-
- 分類/回帰モデル
- 機械学習において反復的に学習した結果導き出された法則(ルール)のことであり、分類モデルの場合は離散値(入力情報はどのグループに属するか)を、回帰モデルの場合は連続値(入力情報はどのような値をとるか)を返す。
-
- パーミュテーション法
- パーミュテーションとは並べ替えや置換を意味する。この研究ではある変数に対し、サンプル間でランダムに値を入れ替え(元の数値から別の数値に置換され)、その変数の列のみがランダムに並べ替えられた新たな行列を生成する方法をパーミュテーション法と呼ぶ。
-
- メタゲノミクス
- ある環境中に存在する微生物集団を、次世代シーケンサーなどを用いて網羅的に検出・解析する技術のこと。
-
- フェノミクス
- 生物の体長・体重・色調や写真および動画の撮影画像を含めて、生物の表現型を網羅的に解析する技術を指す。養殖場に設置したカメラや圃場(ほじょう)を見渡すドローンなどからは、時空間に大量の画像データを得ることができるため、概してDL解析自体はフェノミクスに応用しやすい。
-
- マジックアングル角試料回転法
- 固形物や不溶性物質を含む不均一な試料は、NMR信号の分解度が低く解析が困難である。これを解決するため、静磁場方向に対して試料を54.7°(マジックアングル角)傾けて高速回転させて計測する方法で、不均一試料におけるNMR信号の分解能を向上させることができる。
図1 本研究で開発した深層学習(DL)アルゴリズムの概要
核磁気共鳴(NMR)法により取得した多数の生物系サンプルのスペクトルデータから数値行列(オリジナルデータ)を作成し、さらにモデリング用のデータと評価用のデータに分割する。モデリングデータを用いてDLにより判別モデルを構築し、評価データを用いて構築されたモデルの性能を評価する。さらに、ある変数に対してランダムにデータを置換した後、構築されたモデルに当てはめ識別性能を反復的に評価することにより、重要因子を決定する。
図2 魚類核磁気共鳴(NMR)データの産地判別精度比較
(A)従来法の最小二乗回帰分析(PLS)に比べ、機械学習のサポートベクターマシン(SVM)、ランダムフォレスト(RF)を用いた解析アルゴリズムははるかに産地判別能が高く、ディープニューラルネットワーク(DNN)を用いたDLアルゴリズムは97.8%という非常に高い精度で産地を判別できることが分かる。
(B)DNNは学習にビッグデータが必要となる。本研究ではサンプル数200を超えると90%以上の判別精度が得られた。
図3 本研究手法の概要とCI(Connected Industries)への展開のイメージ図
本研究で探索した産地判別に重要な代謝物だけでなく、DLアルゴリズムを用いて環境低負荷や、旬や産地によるおいしさといった付加価値にとって重要な代謝物を探索する。これによって“人、モノ、技術、組織などがさまざまにつながることにより新たな価値創出を図る「Connected Industries」”に寄与していく。