通常・赤潮時の時系列モデリングから有機・無機・物理重要因子の可視化
2018-05-02 理化学研究所
理化学研究所(理研)環境資源科学研究センター環境代謝分析研究チームの菊地淳チームリーダーらの研究チーム※は、環境水の分析ビッグデータ[1]の機械学習[2]および時系列モデリング法により、赤潮予測の有機・無機・物理重要因子[3]を「見える化」する手法を開発しました。
本研究成果を利用し将来的には、鍵因子の変動から生態系のバランスが崩れる前に、環境の変動を予測・早期警告をすること、鍵因子の制御により生態環境を改善することが期待できます。
日本近海の生物多様性は、世界随一のホットスポットです。日本は世界第6位の海洋面積を持つことからも、「海を耕す」未来社会創造が期待されます。しかし、近年顕在化している海水温上昇や、都市工業化および農村部からは肥料流入の沿岸富栄養化などにより、海洋微生物生態系が崩壊し「赤潮」といった深刻な水産物被害も起こっています。こうした環境の恒常性は、生態系サービス[4]に関わる多彩な物理・化学・生物因子で摂動しています。今回、研究チームは環境水の分析ビッグデータ取得と、その機械学習、因子マッピングや時系列モデリングの数理科学により、複雑な因子間の関係性を可視化しつつ将来予測する解析戦略を提案しました。この解析戦略により、自然環境の試料を多様な角度から分析する環境要因解析の手法を高度化することで、自然環境という複雑系[5]を「見える化」することが可能になりました。
本研究は、オランダの環境科学専門誌『Science of the Total Environment』(4月24日付け)に掲載されました。
※研究チーム
理化学研究所 環境資源科学研究センター 環境代謝分析研究チーム
チームリーダー 菊地 淳(きくち じゅん)
専任研究員 守屋 繁春(もりや しげはる)
研究員 伊達 康博(だて やすひろ)
テクニカルスタッフI 坪井 裕理(つぼい ゆうり)
テクニカルスタッフI 坂田 研二(さかた けんじ)
※研究チーム
本研究の一部は、農林水産技術会議「農林水産分野における気候変動対応のための研究開発(代表:アブドラ王立科学大学・五條堀孝)」の支援を受けて行われました。
背景
今世紀に入って進展しているの第4次産業革命注1)では、IoT計測によるビッグデータ蓄積とAIの分野、自動運転や自動給餌器などのロボティクス分野の進展により、農林水産業が省力化しつつ、デジタル化および将来予測化とフィードバック制御が導入できる強い産業構造になることが期待されています。
一方で、自然生態系を対象とした農林水産業では、風雨など気象条件と、肥料や都市排水などの人的要因とが複雑に絡み合い、例えば沿岸域では「赤潮や青潮」といった生態系変動により、甚大な産業被害を受けることもあります。そのため、自然生態系に対して複雑に関与する物理・化学・生物因子をビッグデータ化し、赤潮などの生態系破綻が起こる際の重要因子情報を抽出する技術があれば、沿岸域であれば事前に養殖筏(いかだ)を移動させたり、将来的には重要因子をフィードバック制御したりすることで、自然生態系の恒常的破綻を防ぐことができるかもしれません注2)。
近年では、生物学分野にオミクス[6]研究が台頭し、塩基配列/タンパク質/代謝物などの因子数(p)が多いデータを産出することが可能になりました。しかし、冒頭で述べたようなAI関連技術が発展する一方注3)、その学習データ取得のために試料数(n)を多くすると分析コストが高くなるため、「予測科学」領域においてオミクス研究のアプローチは積極的に用いられていませんでした。これは因子数pに対して、学習サンプル数nが少ない小サンプル数からの推定が困難なことから、新np問題と呼ばれてます。
そこで研究チームは、日本各地の環境水を対象とし、試料数nは多いが分析因子数pが少ない場合や(図1上)、一方で試料数nは少ないが分析因子数pが多い場合(図1下)について、それぞれ有効な自然生態系の評価法と将来予測法の開発を試みました。
注1) 第1節 第4次産業革命のインパクト – 内閣府
注2) 2018年2月22日プレスリリース「天然魚類と環境水・底泥のエコインフォマティクス」
注3) 2018年1月24日プレスリリース「深層学習を用いた重要代謝物探索法」
研究手法と成果
研究チームはまず、日本各地の河川や湖沼、内湾から採取してきた環境水に対して3種類のデータ分析法をそれぞれ適用し、複雑な因子間の関係性を可視化しつつ将来予測できる解析戦略を構築しました。
この解析戦略では、最初に全国からの環境水ランダムサンプリングによって得られた681試料に対して、誘導結合プラズマ発光分光(ICP-OES)法[7]により無機元素群を一斉評価し、ISOMAP法[8]による次元圧縮とランダムフォレスト(RF)[9]に基づいた機械学習アプローチにより、環境水を特徴づける重要因子を抽出しました。その結果、バリウム(Ba)、ケイ素(Si)、硫黄(S)およびマグネシウム(Mg)が、今回対象とした環境水の地理学的違いを特徴づけていることが分かりました(図2)。
次に、核磁気共鳴(NMR)法[10]を用いて有機物群を計測し、得られたスペクトルデータを非負値行列因子分解(NMF)ピーク分離手法[11]により、構成要素の分離と物質帰属を行いました注4,5)。得られた有機物と無機物のデータを、相関解析をベースとした因子マッピングアプローチにより統合的に評価し、その環境の特徴を可視化することができました。特に、東京湾奥のお台場海水に着目した有機・無機物の因子マッピングでは、季節変化と連動する有機物群および無機物群を浮き彫りになりました(図3)。
さらに、VAR法[12]をベースとしたFEVD[12]アプローチにより、環境水中で優占化しているプランクトンなどの増減に関係する有機・無機・物理重要因子をスクリーニングし、可視化することに成功しました。特に、東京湾奥のお台場海水の赤潮優占種プランクトン(今回はヘテロシグマ・アカシオ)動態に着目したFEVDアプローチによる重要因子可視化では、アミノ酸のアラニン(Ala)やバリン(Val)などの有機物、バリウム(Ba)などの無機元素、平均風速などの物理的要因が赤潮優占種プランクトンの動態に影響を与えている可能性が示されました(図4)。
注4) 2014年1月14日プレスリリース「海藻類の有機・無機成分複雑系の統合解析技術を構築」
注5) 2015年11月4日プレスリリース「新たな代謝バイオマーカー探索法を開発」
今後の期待
現状の水産養殖では、飼料の7割前後を海外から輸出した魚粉(主に小型の天然魚由来)に頼り、「魚肉で魚肉を育てている」現状です。こうした貴重な天然資源を飼料としながら、魚体に資化される窒素(N)とリン(P)は2割程度しかなく、他の8割は残餌や糞便として環境中に排出されてしまいます。さらに強風、高温、陸域からの栄養塩流入といった他の環境要因が重なると、沿岸微生物生態系が崩壊し注6)、有害プラクトンが優先化する赤潮のような水産被害を及ぼす生態系変動が起こります。
日本近海は世界随一の生物多様性ホットスポットで、近年研究チームが本格研究を着手したスジアラ注7)をはじめとして、優れた生物資源が埋もれています。養殖技術を高度化し、豊かな日本の「海を耕し」世界へ輸出するためには、MSCやASCといった国際認証をクリアし得る環境低負荷型水産が必須です。このためには、生態系評価の分析およびデジタル化技術や、海外輸入の魚粉に頼らない飼料開発が必要です(図5)。
今回開発した計算手法は、環境水の各種分析情報の分類、関係性、マーカー情報の同定を可能にします。これらの手法を用いて、養殖場付近の生態系の恒常性維持に関わるルールと重要な鍵因子の抽出も可能になります。今回開発した環境予測技術を用いて、鍵因子の変動から生態系のバランスが崩れる前に、環境の変動を予測・早期警告をすることが期待できます。さらに、鍵因子を制御することで生態環境が改善される可能性があります。将来的には、自然の恵みを効率よく上手に利用するために、生態環境持続性の評価指針としての展開へも期待できます。
注6) 2014年5月15日プレスリリース「河口底泥の環境分析データの統合的評価と“見える化”」
注7) 2017年8月24日プレスリリース「沖縄三大高級魚スジアラの効率的給餌法にヒント」
原論文情報
Oita, A., Tsuboi, Y., Date, Y., Oshima, T., Sakata, K., Yokoyama, A., Moriya, S. and Kikuchi, J., “Profiling physicochemical and planktonic features from discretely/continuously sampled surface water”, Science of the Total Environment, 10.1016/j.scitotenv.2018.04.156
発表者
理化学研究所
環境資源科学研究センター 環境代謝分析研究チーム
チームリーダー 菊地 淳(きくち じゅん)
報道担当
理化学研究所 広報室 報道担当
補足説明
-
- 分析ビッグデータ
- 一般的なデータ管理・処理ソフトウエアで扱うことが困難なほど巨大で複雑なデータの集合。昨今の生命科学研究、特にオミクス研究では、遺伝子や代謝物数などの因子(p)情報を大量取得し、一方で1試料あたりのランニングコストが高価なので試料数(n)が少ない、n<p型のビッグデータ取得を行う傾向がみられた。しかし、分析コストが安価で再現性の高い分析機器を用いれば、n>p型のビッグデータ取得が可能となる。本研究では、こうした実験デザインを基本概念としている。
-
- 機械学習
- 人間の学習能力と同様に、機械(コンピュータ)に学習能力を持たせる手法。データから機械自身が反復的に解析し、ルールを見つけ出すという特徴がある。
-
- 有機・無機・物理重要因子
- 微細藻類の異常発生により、海、河川などに生息する魚類などの海産物に悪影響を及ぼす環境汚染の一種である赤潮は、有機物・無機物などの化学的要因や気象条件などの物理的要因に大きな影響を受ける。ここでは、これらの多様な要因のうち、微細藻類の増殖に影響を与える重要な因子のことを意味する。
-
- 生態系サービス
- 人類が生態系から得ている利益。淡水・食料・燃料などの供給サービス、気候・大気成分・生物数などの調整サービス、精神的充足やレクリエーション機会の提供などの文化的サービス、酸素の生成・土壌形成・栄養や水の循環などの基盤サービスがある。生態系サービスは生物多様性によって支えられている。
-
- 複雑系
- 相互に関連する複数の要因が合わさって、全体として何らかの性質やそうした性質から導かれる振る舞いを見せる系であるが、全体としての挙動は個々の要因や部分からは不明なものをいう。
-
- オミクス
- 生体中に存在する分子全体を網羅的に研究する学問のこと。遺伝子であればゲノミクス、転写物はトランスクリプトミクス、タンパク質はプロテオミクス、代謝物はメタボロミクス、微生物群はメタゲノミクスと呼ぶ。
-
- 誘導結合プラズマ発光分光(ICP-OES)法
- ICPは、気体に高電圧をかけることによってプラズマ化させ、さらに高周波数の変動磁場でプラズマ内部に渦電流によるジュール熱を発生させて得られる高温のプラズマ。ICPによってサンプルを原子化・熱励起し、これが基底状態に戻る際の発光スペクトルから元素の同定・定量を行う方法。
-
- ISOMAP法
- 非線形の次元削減法の一種。本研究では、データセット内にある変数(次元数)の数を削減し、より少ない変数でデータセットの特徴を表現するために利用された。
-
- ランダムフォレスト(RF)
- 機械学習の計算手法の一つであり、分類・回帰問題などに適用できる手法である。ランダムフォレストは、決定木に基づいた集団学習を行っている。
-
- 核磁気共鳴(NMR)法
- 静磁場におかれた原子核の共鳴を観測し、分子の構造や運動状態などの性質を調べる分光方法。溶媒に分子を溶解させて計測する溶液NMR法や固体状態の分子を計測する固体NMR法などがあり、幅広い状態の試料、例えばカラム分離を経ない混合物試料でも計測することができる。最近では、NMR装置の磁石を高温超電導素材や永久磁石にし、小型化したり冷媒のランニングコストを抑える技術開発が加速化しており、農林水産物や環境試料などの現場評価への展開も期待される。
-
- 非負値行列因子分解(NMF)ピーク分離手法
- 混合成分からのピーク分離に関して、筆者らは多変量スペクトル分解(MCR-ALS)法を報告してきた(前述の注4、注5)。さらに当該論文では、Non-negative Matrix Factorization (NMF)法を導入している。NMFとは与えられた非負値行列を2つの非負値行列との積に分解するアルゴリズムで、埋もれた特徴抽出が可能になる。ここでは混合成分から埋もれた純成分ピーク情報を抽出しているが、他にも多人数の顔写真から個人の特徴抽出に用いることもできる。
-
- VAR法、FEVD
- VAR(Vector Auto Regressive)法は、多変量に対して計算できる時系列分析の一種。本研究では、予測モデルの構築が目的ではなく、VAR法をベースとしたFEVD(forecast error variance decomposition)アプローチにより、時系列で共変動する重要変数のスクリーニング法として利用した。FEVDは予測誤差の分散分解を意味している。
図1 本研究の解析戦略
試料数nと微生物/代謝物/観測物理量などの分析因子数pに応じて、3段階(Step1~3)の解析手法を提案した。
図2 ISOMAPとランダムフォレスト(RF)に基づいた機械学習アプローチの概要
ISOMAP法を用いて因子数を10から3次元に削減し(左)、決定木型機械学習アルゴリズムの一つであるRFにより重要元素因子を抽出した(右)。その結果、Ba、Si、S、Mgが、今回対象とした環境水の地理学的違いを特徴づけていることが分かった。
図3 有機物・無機物を統合的に評価する因子マッピングアプローチの概要
核磁気共鳴(NMR)計測によって得られたスペクトルデータを、非負荷行列因子分解(NMF)ピーク分離手法を用いて構成要素の分離を行った。得られた有機物と無機物のデータを相関解析をベースとした因子マッピングアプローチにより、季節変化と関係する有機物および無機物を浮き彫りになった。
図4 VAR法をベースとしたFEVDアプローチの概要
東京湾奥では、毎年梅雨の時期になると大都市を通過する一級河川から栄養塩が流入し、赤潮が発生する(左上)。時系列モデリング手法であるVAR法により、お台場海水の赤潮優占種プランクトン(今回はヘテロシグマ・アカシオ・赤線)の増大と同期して時系列で増大する因子(モデル絵で緑と橙)をバブルチャートで可視化した(右上)。このFEVDアプローチによる、プランクトンの動態に影響を与える有機・無機・物理重要因子の可視化データ(下)。平均二乗誤差平方根(RMSE)の値が小さい方(バブル径が大きい)が予測精度が高い。
図5 将来に向けて
日本の豊かな海を耕し、水産物の国際競争力を確保するためには今後、飼料開発や生態系評価に関わる国際認証化をクリアする必要がある。