深層学習による変異検出精度が向上~変異検出ツールDeepVariant最新バージョンの活用拡大に貢献~

ad

2021-08-23 理化学研究所

理化学研究所(理研)生命医科学研究センターゲノム解析応用研究チームの小井土大客員研究員、寺尾知可史チームリーダーらの研究チームは、Google社が開発したオープンソースの変異検出ツール「DeepVariant[1]」の最新バージョン(v1.2)において、全ゲノムシーケンス解析[2]データの変異検出[3]精度を向上させる手法を提案しました。

本研究成果により、さまざまな短いリード長[4]の実験条件から得た全ゲノムシーケンス解析データから変異をより正確に検出できるようになり、今後DeepVariantの活用拡大に貢献すると期待できます。

DeepVariantは、深層学習(ディープラーニング)[5]を用いた変異検出ツールです。全ゲノムシーケンス解析などから得られるシーケンスデータを参照ゲノム配列[6]にアライメント[7]して作成したパイルアップ画像[8]に、さまざまなクオリティー情報を付与し、深層畳み込みニューラルネットワーク[9]に入力すると、変異を精度良く検出します注)。そのため、これまで英国の大規模住民コホートであるUKバイオバンクの20万例に及ぶ全エクソームシーケンス解析[10]のパイプラインで採用されるなど、国際的に高い評価を受けています。

DeepVariantは検出精度と解析速度の向上のため、継続してアップデートされており、最新バージョンであるDeepVariant v1.2が2021年7月31日に公開されました。リリースに至るまで、理研の研究チームとGoogle社の開発チームは、検出精度の改善について議論を重ねてきました。その中で、全ゲノムシーケンス解析データのリード長の違いがDeepVariantの変異検出のバイアスとなることを見いだし、学習データのリード長を人工的に短くするデータオーギュメンテーション[11]という学習の工夫を提案しました。

DeepVariant v1.2は、下記のウェブサイトからダウンロードして利用できます。

DeepVariant (GitHub)

注1)R Poplin et al. A universal SNP and small-indel variant caller using deep neural networks. Nat Biotechnol. 2018 Nov;36(10):983-987

補足説明

1.DeepVariant
深層学習を用いた変異の検出ツール。アライメントされたシーケンスデータを入力すると、さまざまなクオリティー情報を含むアライメント画像が作られ、深層畳み込みニューラルネットワークを介して変異が検出される。DeepVariantでは変異のうち、一塩基変異(single nucleotide variant;SNV)や短い挿入・欠失(short indel)の変異を検出できる。学習には、アメリカ国立標準技術研究所のGenome in a Bottleプロジェクトが作成した複数のサンプルに対する信頼性の高い変異情報が用いられており、学習済モデルが公開されている。DeepVariant over the yearsに詳しい記載がある。

2.全ゲノムシーケンス解析
次世代シーケンサーを用いて、全ゲノムDNAの配列を解読すること。

3.変異検出
ゲノムのDNA配列が個人間で異なる箇所(変異)を探すこと。アライメント後に参照ゲノム配列と異なる箇所を見つけ、リードやアライメントに関するさまざまな情報から変異やその確からしさを判断する。変異の検出ツールとしては、ブロード研究所が開発したGenome Analysis Toolkit(GATK)が有名である。GATKでは数値データを使って統計モデルや機械学習から全ゲノム上の変異を検出しつつその確からしさを評価する。一方、DeepVariantではアライメント結果を画像として捉え、深層畳み込みニューラルネットワークから変異とその確からしさを推論する。

4.リード長
調整したDNA断片をシーケンサーで配列決定した塩基数。今回用いているショートリードの全ゲノムシーケンスを対象としたDeepVariantの学習では、従来、150bpの全ゲノムシーケンスデータだけを用いていた。本研究の結果、125bpと100bpの長さにトリミングしたデータも加えて学習することを決定した。

5.深層学習(ディープラーニング)
統計解析では、事前に目的変数と説明変数との関係性を数理モデルとして記述する必要があるのに対し、機械学習ではデータとその学習ルールだけを与えれば、変数間の複雑な関係性・規則性が学習される。深層学習は機械学習方法の一種。

6.参照ゲノム配列
標準的なゲノム配列として公開されているもの。ヒトではGRCh37やGRCh38などの総塩基数約3Gb(Gは10億)のデータが公開されている。

7.アライメント
シーケンサーから配列の断片情報を参照ゲノム配列に貼り付けていく作業。アライメント結果がDeepVariantの入力ファイルとなる。

8.パイルアップ画像
アライメント結果は、シーケンサーのリードが参照ゲノムに積み重なって可視化される。それを画像化したもの。

9.畳み込みニューラルネットワーク
画像そのものを入力データとする深層学習で成功している手法の一つ。畳み込みという局所的情報をまとめ上げる作業を繰り返し、入力した画像全体が何なのか分類するタスクによく使われている。DeepVariantでは、パイルアップ画像を入力データ、出力を変異の分類とするタスクを設定し、畳み込みニューラルネットワークによって学習している。

10.全エクソームシーケンス解析
次世代シーケンサーを用いて、全ゲノムDNA中のタンパク質をコードする配列(エクソン)周辺を重点的に解読すること。

11.データオーギュメンテーション
画像の機械学習において、画像のバリエーションを人工的に増やし、データ数を水増しする手法の一つ。例えば、ネコの写真の分類をしたい場合、画像の撮影条件(明るさや露光時間、角度、ピントなど)は撮影者が決めた1条件に過ぎないため、多様な条件で撮影した写真があった方が予測の頑強性が上がるはずだが、現実にはデータに限りがある。そこで、画像データにランダムな加工を加えるなどして擬似的に多くの撮影条件を作り出し、機械学習することがしばしば行われる。本研究ではその発想を活用し、全ゲノムシーケンスデータのバリエーションを増やすためにリード長のトリミングを行い、学習させた。

研究チーム

理化学研究所 生命医科学研究センター ゲノム解析応用研究チーム
チームリーダー 寺尾 知可史(てらお ちかし)
客員研究員 小井土 大(こいど まさる)
上級技師 冨塚 耕平(とみづか こうへい)
客員主管研究員 鎌谷 洋一郎(かまたに よういちろう)

発表者

理化学研究所
生命医科学研究センター ゲノム解析応用研究チーム
客員研究員 小井土 大(こいど まさる)
チームリーダー 寺尾 知可史(てらお ちかし)

報道担当

理化学研究所 広報室 報道担当

1602ソフトウェア工学
ad
ad
Follow
ad
タイトルとURLをコピーしました