人工知能はゲノミクスで何を見つめるのか？〜遺伝子などの非画像データから深層学習で特徴を抽出する方法～

2021-08-19 東京大学

アロックシャルマ（理化学研究所生命医科学研究センター専任研究員）
アルテムルイセンコ（理化学研究所生命医科学研究センター研究員）
キースボロエヴィッチ（理化学研究所生命医科学研究センターテクニカルスタッフⅠ）
エドウィンヴァンス（南太平洋大学工学大学院生）
角田達彦（生物科学専攻教授／理化学研究所生命医科学研究センターチームリーダー）

発表のポイント

ゲノム^（注１）などの非画像のオミクス^（注２）データを画像形式に変換して深層学習で扱い、さらにどのような遺伝子などの特徴を重視すべきかを深層学習で発見するDeepFeature法を開発した。がん種を予測する実験で優れた性能を示すと同時に、がん種を判別する新規のシグナル経路を発見した。
ゲノムなどの非画像データを画像化し学習させたとき、深層学習が中で何を重視しているかを生物医学的に解釈可能にし、重要な遺伝子などの特徴を抽出する方法は世界初である。
本研究を糸口に、診断マーカーの優先順位付け、複雑なマルチオミクス^（注３）データの解釈や因果的発見などとともに、深層学習が「ブラックボックス」モデルを脱却し、結論に至った経緯を発見することを推進できる可能性がある。

発表概要

人工知能、とくに深層学習^（注４）は、古典的な統計的手法ではとらえられない複雑なパターンを判別できることから、多くの分野で利用され、ゲノミクス^（注５）でも活用が期待されている。しかし、それら超高次元で非画像のデータを深層学習でどのように扱い、得られた深層学習モデルを生物医学的にどのように解釈するかは、全く解決できていない問題だった。東京大学大学院理学系研究科の角田達彦教授（理化学研究所生命医科学研究センターチームリーダー）らは、ゲノムやオミクスなどの非画像データを画像形式に変換して深層学習で扱い、さらにどのような遺伝子などの特徴を重視すべきかを深層学習で発見するDeepFeature法を開発した。その方法は、データを画像形式に圧縮・再配置し、特徴選択・抽出、そして分類というステップを踏むが、深層学習の中間層^（注４）の活性度から何を重視しているかを調べる部分が鍵となる。DeepFeature法を、がん種を予測する実験に適用したところ、優れた予測性能とともに、がん種を判別する新規のシグナル経路を発見する能力を持つことが示された。ゲノムなどのデータを画像化し学習させたとき、深層学習が中で何を重視しているかを生物医学的に解釈可能にし、重要な遺伝子などの特徴を抽出する方法は世界初である。

本研究を糸口に、診断マーカーの優先順位付け、複雑なマルチオミクスデータの解釈や因果的発見などとともに、深層学習がいわゆる「ブラックボックス」モデルを脱却し、結論に至った経緯を発見することを推進できる可能性がある。

発表内容

研究の背景・先行研究における問題点
人工知能、とくに深層学習は、古典的な統計的手法ではとらえられない複雑なパターンを判別できることから、多くの分野で利用されてきているとともに、今やゲノムなどを解析するオミクスの領域でも活用が期待されている。それらの超高次元で非画像のデータを深層学習で扱う世界初の試みとして、東京大学大学院理学系研究科の角田達彦教授らは以前、それらのデータを画像形式に変換し、深層学習の一つである畳み込みニューラルネットワーク（CNN; ^（注６））で学習できるようにする新しいアプローチを確立した（DeepInsight法）。そのように画像形式の類似性によって要素を並べ替えると、要素を個別に処理するよりも分類性能が向上することがわかった。しかし、一般に、そのような深層学習のモデルから得られた結果を、生物医学的な文脈でどのように解釈すればよいかは、依然として未解決の問題だった。

研究内容
東京大学大学院理学系研究科の角田達彦教授らは、ゲノムなどの非画像のオミクスデータを画像形式に変換して深層学習（とくにCNN）で扱い、さらにどのような遺伝子などの特徴を重視すべきかを深層学習で発見するDeepFeature法を開発した。この方法では、DeepInsightによる画像変換から始まり、一定のピクセルフレーム内でより多くのデータ要素を扱えるようにするために新たに開発したデータ圧縮法（Snowfall）、CNNの一つであるSqueezeNetモデルによる分類、注目領域を可視化する方法（CAM）による重視した特徴の発見、そしてそれに対応する遺伝子セットへの復号に至るまでの手順を実行する（図１）。とくに、何を重視しているかを調べる部分では、CNNの中間層の活性度を見て活性度の高い遺伝子や要素を見つけるため（図２）、領域集約・要素デコーダ（READ）を新たに開発した（図１）。

図１：ゲノミクスなどの非画像データを画像に変換し、畳み込みニューラルネットワーク（CNN）を用いて特徴抽出・選択する本手法DeepFeatureの全体的な手順。本研究論文から改変。

図2：内部で用いたCNNと、非画像データを画像に変換した後の入力画像サンプル、そしてそれに対応する中間層の活性度の様子。本研究論文から改変。

そして構築したDeepFeature法を、10種のがんを判別予測する実験に適用したところ、優れた予測性能とともに、上皮間葉転換や凝固、血管新生、低酸素、炎症反応など、公共データベースで定義されているがん関連シグナル経路に有意に集積した遺伝子セットを特定でき、その結果は他のアルゴリズムよりもはるかに優れていることがわかった（図３）。さらに、各がん種を判別する遺伝子セットの集積度をデータベースで調べたところ、細胞外マトリックス構造や受容体チロシンキナーゼシグナル伝達、GPCRリガンド結合などの、がん種を判別できる新規のシグナル経路や生物学的プロセスも発見した。

ｂ

図3：a) 本研究で提案するDeepFeature手法とロジスティック回帰の手法で選択された遺伝子がどの程度重なるかを示した図。各行は遺伝子を表し、黄色はその遺伝子がそのがん種（列）で選択されたことを示す。b) 各手法で選択された遺伝子セットと、既知のがん関連シグナル経路の遺伝子セットとの重なり度合い。10のがん種のそれぞれについて、DeepFeature（橙）とロジスティック回帰（濃緑）で選択された遺伝子について、有意に集積したシグナル経路の数を示している。すべてのがん種で、DeepFeatureがロジスティック回帰よりも高い数値を示した。本研究論文から改変。

社会的意義・今後の予定など
ゲノムなどのデータを画像化しCNNなどの深層学習で学習させたとき、深層学習が中で何を重視しているかを生物医学的に解釈可能にし、重要な遺伝子などの特徴を抽出する方法の提案は世界で初めてである。応用例の一つとして、複雑でダイナミックながん化のメカニズムの解明とがんの克服があげられる。がんのメカニズムを解明したり臨床的に重要なサブタイプを発見したりするためには、さまざまな方法でデータを収集し、異なるタイプのデータを適切に組み合わせ、意味のあるパターンを特定する必要がある。それには現時点で深層学習に基づく手法が最も柔軟性に優れており、これらの異なるタイプのデータをより包括的に統合することができる可能性がある。そして本研究で提案した方法論により、深層学習を効果的に使って高次元の生物医学データから因果関係を発見し、予後・治療効果予測に加え、診断マーカーの優先順位付けや、複雑なマルチオミクスデータの解釈や科学的発見などを導くことが可能になる。また、深層学習は、その能力と近年の多くの進歩にもかかわらず、最終的には「ブラックボックス」なモデルを生成するという評価が一般的であり、アルゴリズムが結論に至った経緯を発見することは非常に困難である。しかし、本研究を糸口に、深層学習がいわゆる「ブラックボックス」モデルを脱却し、結論に至った経緯を発見することも、もはや夢ではなくなるであろう。

発表雑誌

雑誌名 Briefings in Bioinformatics
論文タイトル
DeepFeature: Feature Selection in non-image data using convolutional neural network著者
Alok Sharma*, Artem Lysenko*, Keith A Boroevich, Edwin Vans, Tatsuhiko Tsunoda*

DOI番号 10.1093/bib/bbab297論文URL https://doi.org/10.1093/bib/bbab297

用語解説

注1 ゲノム
ゲノムは、遺伝子（gene）と染色体（chromosome）から合成された言葉で、DNAのすべての遺伝情報のこと。

注2 オミクス
生体分子を網羅的にまとめた情報のまとまりを扱う学問領域のこと。生体分子情報として、例えばゲノム、エピゲノム（ゲノムへの修飾の総体）、トランスクリプトーム（遺伝子発現の総体）、プロテオーム（タンパク質の総体）、メタボローム（代謝物の総体）などが含まれる。

注3 マルチオミクス
ゲノム、エピゲノム、トランスクリプトーム、プロテオーム、メタボロームなど、異なるオミクスデータを統合的に解析する方法論。マルチオミクスデータはそれらのデータのまとまりを指す。

注4 深層学習、中間層
深層学習は多層のニューラルネットワーク（ディープニューラルネットワーク）による機械学習手法。ディープラーニング。データを入力する入力層、演算をしながら情報を受け継いでいく複数の中間層、そして判別結果を出力する出力層からなる。本研究では、出力層にかなり近い部分の中間層（図２の右側）を見ることによって、深層学習がどのような特徴を重視しているかを見出すことがポイントである。

注5 ゲノミクス
ゲノムや遺伝子について研究する生命科学分野。

注6 畳み込みニューラルネットワーク（CNN）
特に画像の分類や識別で高い性能を発揮するディープラーニングの一つ。あらかじめ与えられていた画像データから画像の特徴量を直接抽出し、ネットワークを学習する。CNNはConvolutional Neural Networkの略。