脳画像の施設間差を減らすハーモナイゼーション法の開発に成功

ad
ad

多くの施設で集めた複数の疾患のビッグデータを制限公開

2019-04-19

株式会社国際電気通信基礎技術研究所(ATR)
広島大学大学院医系科学研究科精神神経医科学
日本医療研究開発機構(AMED)

本研究成果のポイント

  • 異なった施設で取得した脳画像データを調和させる方法(ハーモナイゼーション法)を開発し、多施設から集めたfMRIデータを1つのビッグデータとして統合することに成功しました。
  • 本研究では、旅行被験者データと呼ばれる、同一の複数人の被験者が実際に多施設に訪れて撮像を行うことで施設間差を調査することが出来る特殊なデータセットを取得しました。
  • このデータセットを用いることで、複数の施設から集められたデータから測定の違いによる施設間差のみを除去するハーモナイゼーション法を開発し、施設間差を3割程度削減することに成功しました。
  • この開発に用いられたデータを含む、多施設・多疾患の数千人規模の脳画像データを制限公開しました。
    (OPEN-ACCESS Decoded Neurofeedback (DecNef) Project Brain Data Repository [ATRのサイト])
  • 本研究成果によって、施設によらずに使える精神疾患の脳回路マーカなどを、世界に先駆けて開発して、精神疾患と発達障害の診断及び治療に貢献していきます。
脳画像の施設間差を減らすハーモナイゼーション法の開発に成功

概要

山下歩らATR脳情報通信総合研究所、広島大、東大、昭和大、京大、京都府立医科大学の研究グループは、機能的磁気共鳴画像(fMRI)データについて、異なった施設で取得した脳画像データを調和させる方法(ハーモナイゼーション法)開発に成功しました。またATR・田中沙織室長、広島大・岡本泰昌教授らは、この開発に用いられたデータを含む、多施設で多疾患の数千人規模の脳画像データを制限公開しました。

近年、生物医学、心理学などの分野において、論文で発表された結果が再現出来ないことが指摘されています[1]。特に、1施設で撮像された数十人程度のfMRIデータに人工知能技術である機械学習法を適用して得られた結果は、他の施設では再現できません[2]。この問題を解決するには多施設から集めたビッグデータが必要ですが、計測した施設によってデータの性質が異なるという、極めて困難な問題がありました。米国Human Connectome Projectでは一つの施設からビッグデータを集めて、施設間差問題を避けていましたが、世界中のどの施設でも再現可能な結果を得るためには、施設間差を解消する必要があります。

山下らは、fMRIに有効なハーモナイゼーション法を開発し、施設間差を3割程度減らしました。まず、9人の被験者が12施設を訪れて撮像し、全部で411サンプル取得しました。この旅行被験者データと、複数の施設から集められたデータ(9施設4疾患の被験者805人から1サンプルずつ805サンプル取得)の両者を組み合わせたデータセットに、施設の効果、個人差、病気の影響などを推定する数学的なモデルを当てはめて、測定の違いによる施設間差のみを除去するハーモナイゼーション法を開発しました。

また、本研究で使用した多施設・多疾患で収集された大規模データ(総数2,409例)を世界的にも貴重なデータベースとして構築しました。このうち、研究参加者から同意を得ている1828例のデータについて、審査付き制限公開データとしてwebサイト上で公開を始めました。
(OPEN-ACCESS Decoded Neurofeedback (DecNef) Project Brain Data Repository [ATRのサイト]) 

今後は、上記のハーモナイゼーション法を公開したビッグデータなどに適用して、施設によらずに使える精神疾患の脳回路マーカなどを、世界に先駆けて開発して、精神疾患と発達障害の診断及び治療に貢献していきます。

背景

ヒトの脳は巨大な情報ネットワークと見なすことができます。このネットワークは、遺伝で大まかな構造が決まり、さまざまな経験をすることで、そのヒト固有のネットワークが形作られます。最近では、わずか5~10分間安静にしているときの脳活動(安静時脳活動)を計測するだけで、そのヒトの脳内の領域同士がどのように繋がっているかを解読できるようになりました。これは、個人に特有な脳の配線図とも言えます。機械学習法による人工知能がこの脳の配線図を読み取ることで、年齢・個性・認知能力などを予測することも可能になって来ました[3]。

これまでの多くの研究では、1施設で数十人くらいのfMRIデータから計算された脳の配線図と機械学習法を組み合わせることで、様々な認知機能の予測を行ってきました。しかしながら、これらの研究結果を他施設で得られたfMRIデータに当てはめてもほとんど再現出来ないことがわかってきました[2]。この原因は、同じfMRIデータであっても、計測した施設によってデータの性質が全く異なってしまうという測定データの施設間差でした。この問題を解決する一つの方法は多施設から集めたデータを統合したビッグデータを使用して解析を行うことです。しかしながら、施設間差を除去してビッグデータとして統合する方法がこれまでにも幾つか提案されていましたが、fMRIデータの施設間差には2つの異なる施設間差が含まれていることを考慮していませんでした。それは、fMRI装置や測定方法の違いによる生物学的に意味のない「測定方法の違いによる施設間差」と、参加者の違いによる生物学的に意味のある「参加者の違いによる施設間差」です。つまり、既存の手法では「測定の違いによる施設間差」のみならず、生物学的に意味のある「参加者の違いによる施設間差」までも同時に除去してしまう可能性が存在しました。そこで、本研究では旅行被験者データと呼ばれる、同一の複数人の参加者が実際に多施設に訪れて撮像を行うことで「測定の違いによる施設間差」を調査することが出来る特殊なデータセットを取得しました。このデータを使うことで、参加者の違いをなくし、純粋に測定方法の違いによる施設間差を知ることができます。複数の施設から集められたデータから、旅行被験者データで解った「測定方法の違いによる施設間差」のみを除去するハーモナイゼーション法を開発し、施設間差を3割程度削減することに成功しました

研究内容

9人の研究参加者が国内12施設を訪れて安静状態における脳活動を、各施設のfMRI装置を用いて約10分間計測し、全部で411サンプル取得しました(旅行被験者データ)。この旅行被験者データに加えて、国内9施設4疾患(自閉症、うつ病、統合失調症、強迫性障害)の研究参加者805人の安静状態における脳活動を、各施設のfMRI装置を用いて約5分~10分間計測し、全部で805サンプルを取得しました(多施設多疾患データ)(図1)。脳を268個の小領域に分割し、ひとりひとりについて各領域における機能的MRI信号の時間波形を取り出し、それらが任意の2領域間でどの程度似ているか相関係数として数値化しました。これを領域間機能的結合と呼びます。268個の小領域の全てのペア(35,778個)について機能的結合を計算することで、個人の脳全体の回路を定量でき、全脳の回路図(=35,778個の数値からなるベクトル)が作成されます[4]。これを参加者全員分について求め、旅行被験者データと多施設多疾患データを組み合わせたデータセットを作りました。データセットを用いて、測定方法の違いによる施設間差、参加者の違いによる施設間差、個人差、疾患の違いが機能的結合に与える影響などを数理モデルに当てはめて推定しました。そして、機能的結合における測定方法の違いによる施設間差、研究参加者の違いによる施設間差の影響が疾患の影響と比べて同等もしくは大きいことを見出しました(図2a)。さらに、我々は様々なMRI撮像装置の特徴が機能的結合に与える影響の比較を行い、位相方向[5]、fMRIの製造会社、コイルのタイプ、装置の機種の順で影響が大きいことを明らかにしました(図2b)。また、各施設において同一の集団から参加者がサンプルされたと考えるのには無理があり(図3a)、施設ごとに異なる部分集団からサンプルされることがわかりました(図3b)。このことは、特定の施設のみで大規模なデータセットを集めたとしても、世界中のどの施設でも再現可能な結果を得ることが出来ないことを示しています。最後に、これらの施設間差の問題を克服するために、旅行被験者データを用いて、多施設・多疾患データから測定の違いによる施設間差のみを除去するハーモナイゼーション法を開発し、施設間差を3程度削減することに成功しました。


図1:本研究で使用したデータセットの概要と施設間差について

図2:機能的結合における(a)各要因の貢献度と(b)MRI撮像装置の特徴間の貢献度

図3:参加者のサンプルされ方のモデル。
(a)同じ母集団から各施設の参加者がサンプルされる。(b)施設毎に異なる部分集団から参加者がサンプルされる

今回のハーモナイゼーション法の開発には、日本医療研究開発機構(AMED)脳科学研究戦略推進プログラム「BMI技術を用いた自立支援・精神・神経疾患の克服に向けた研究開発」の研究開発課題「DecNefを応用した精神疾患の診断・治療システムの開発と臨床応用拠点の構築」課題において策定した「脳プロ統一プロトコル(ATRのサイト)」 を用いて、同課題に参画した複数の施設(図4:ATR、広島大学、梶川病院、京都府立医科大学、京都大学、東京大学、昭和大学、八重洲クリニック、大阪大学、CiNet)にて撮像したデータを使用しました。これらの多施設・多疾患で収集された大規模データ(総数2,409例)を世界的にも貴重なデータベースとして構築しました(表1)。このデータベースは、疾患患者988名、健常者1421名の脳構造画像および脳、年齢・性別、患者については該当する疾患の診断に用いられる臨床評価尺度から構成されています。疾患の内訳は自閉症スペクトラムが125名、うつが445名、統合失調症が159名、強迫性障害が110名、慢性疼痛・腰痛が107名、その他の疾患が42名になります。2,409例の参加者全員から多施設・多疾患のデータを共有し・合わせて解析する同意を得ており、このうち疾患患者706名、健常者1122名に関しては制限公開の同意を得ております。このデータについて審査付き制限公開データベースを整備し、webサイト上で公開を始めました。
(OPEN-ACCESS Decoded Neurofeedback (DecNef) Project Brain Data Repository [ATRのサイト]) 
使用希望者は、使用申請書をサイトからダウンロードし、必要事項を記載した上、サイト上に記載されているメールアドレス(decnef-db-admin”AT”atr.jp)に送付することで、申請承認後にアカウントが発行されます。そのアカウントでログインすると、サイト上のデータがダウンロードできます。現在は、8つの機関(12スキャナ)について、安静状態の脳機能結合データと年齢・性別・臨床評価尺度等の情報がダウンロード可能です。脳画像データについては、2019年9月から順次公開を予定しています。さらに現在、参加者から、簡単な登録のみで誰でも閲覧可能な非制限公開データとしての公開に同意を得られているデータについて、非制限データベースを整備しており、順次リリース予定です。


図4:本研究で使用したデータセットの概要と施設間差について

表1:多施設・多疾患データベースの詳細。このデータベースのうち、本研究では東大からうつ病患者34名、統合失調症患者14名、健常者142名の計190名、昭和から自閉症患者49名、統合失調症患者12名、健常者40名の計101名、京大からうつ病患者9名、統合失調症患者22名、健常者35名の計66名、広大からうつ病患者118名、健常者105名の計223名、ATRから健常者108名、京都府立医科から強迫性障害65名、健常者52名の計117名の総勢805例のデータを使用しています。


表2:旅行被験者の詳細。被験者情報と撮像した施設、スキャナおよび撮像数。本研究では9施設12個のfMRI装置から得られた411サンプル全てを使用しています。

本研究の意義と今後の展望

本研究は、初めて機能的結合における測定方法の違いによる施設間差、参加者の違いによる施設間差の影響が病気の影響と比べて同等もしくは大きいことを見出しました。このことは、fMRIデータを用いて病気の影響を調査する際には施設間差に十分注意する必要があることを示しており、とても重要な知見となります。

また、各施設において同一の集団から参加者がサンプルされるのではなく、施設ごとに異なる部分集団からサンプルされることがわかりました。このことは、特定の施設のみで大規模なデータセットを集めても世界中のどの施設でも再現可能な結果を得ることが出来ないことを示しており、今後大規模データセットを集める際の重要な指針となります。

本研究ではfMRIデータにおける施設間差の問題を克服するために、旅行被験者データを用いて、多施設・多疾患データから測定の違いによる施設間差のみを除去するハーモナイゼーション法を開発しました。このハーモナイゼーション法を用いることにより、多施設から集めたビッグデータに対して人工知能技術である機械学習法を適用することが可能となります。さらに、多施設・多疾患で収集された大規模データベースを公開したことで、世界中の全ての研究者がデータにアクセス出来るようになり、研究速度が画期的に速くなる可能性があります。

今後、我々の研究グループにおいては開発したハーモナイゼーション法を公開したビッグデータなどに適用して、施設によらずに使える精神疾患の脳回路マーカなどを、世界に先駆けて開発して、精神疾患と発達障害の診断及び治療に貢献していく予定です。

論文情報

掲載雑誌
PLOS Biology 誌 (2019年4月18日14時00分[米国東部時間]公開)
論文タイトル
Harmonization of resting-state functional MRI data across multiple imaging sites via the separation of site differences into sampling bias and measurement bias.
著者
Ayumu Yamashita, Noriaki Yahata, Takashi Itahashi, Giuseppe Lisi, Takashi Yamada, Naho Ichikawa, Masahiro Takamura, Yujiro Yoshihara, Akira Kunimatsu, Naohiro Okada, Hirotaka Yamagata, Koji Matsuo, Ryuichiro Hashimoto, Go Okada, Yuki Sakai, Jun Morimoto, Jin Narumoto, Yasuhiro Shimada, Kiyoto Kasai, Nobumasa Kato, Hidehiko Takahashi, Yasumasa Okamoto, Saori C Tanaka, Mitsuo Kawato, Okito Yamashita, and Hiroshi Imamizu
DOI
10.1371/journal.pbio.3000042

補足説明

[1]
近年、生物医学、心理学、社会科学の多くの研究結果が再現出来ない問題が報告されています。
[2]
fMRIデータから分類を行う場合には、基本的に機械学習が用いられます。機械学習では過学習の問題を避けるために、一人の被験者を除いて検証用として用いる交差検証法:leave-one-subject-out cross validationやデータを10分割し、10分の9で学習し、残りの10分の1で検証を行う10-fold cross validationを用いて分類器の評価を行うことが多い。しかし、単一施設から得られた少数のサンプルに対して機械学習を適用すると、予測のインフレーションを起こす危険が、精神医学分野でも近年認識されるようになってきました。少数のデータに対する機械学習では、学習用データにおける特定の施設のfMRI装置や測定方法、実験者、参加者群などに存在する特定の傾向、あるいはノイズに対して過学習してしまう可能性が高い。例えば、脳の解剖画像から自閉スペクトラム症を判別する分類器は、開発に使われた英国の学習用データには感度も特異度も 9 割以上の高性能を示すが、日本人のデータでは5割になってしまうことが報告されています。学習用データとは全く異なる施設と被験者群からなる独立検証コホートで検証していない分類器は、科学的にも実用的にも意味が殆どないと言って過言ではありません。本研究では、多施設多疾患データには含まれていない山口大学などの完全に独立施設で撮像されたデータを用いて汎化検証を行いました。
[3]
例えば、脳の配線図から個人の作業記憶の上限を予測することが出来ます。
[4]
空間的に隔たっている脳領域どうしの活動パターンの同期関係(類似度)を表すもの。脳活動を反映するMRI信号(BOLD信号)の時間的変動の相関係数から評価を行いました。相関係数は、2領域間の脳活動の類似性が高い(=同時に活動が高くなったり低くなったりする)と1に近い値に、互いを抑制しあう関係では(一方の活動性が高いとき、他方の活動性が低いなど)-1に近い値に、互いに関連しないとき0に近い値を取ります。本研究では、268個の各脳部位から信号波形を取り出し、全ての脳部位ペア(35,778個=268×267÷2)について相関係数を求めることで、個人の全脳にわたる機能的結合情報を含んだ脳の機能的回路図を得ました。
[5]
fMRIの画像は一般的に2次元の画像を取り重ねることで3次元の画像を構築します(金太郎あめのイメージです)。この2次元の画像を取り重ねる方向の違いが位相方向の違いであり、位相方向の違いによってfMRI内の磁場の歪みが異なることが知られています。

研究支援

本研究は、国立研究開発法人日本医療研究開発機構(AMED)「戦略的国際脳科学研究推進プログラム」の『脳科学とAI技術に基づく精神神経疾患の診断と治療技術開発とその応用』課題 JP18dm0307008 (代表 川人光男)、脳科学研究戦略推進プログラム BMI課題の『DecNefを応用した精神疾患の診断・治療システムの開発と臨床応用拠点の構築』課題JP17dm0107044(代表 川人光男)、および「戦略的国際脳科学研究推進プログラム」の『縦断的MRIデータに基づく成人期気分障害と関連疾患の神経回路の解明』課題JP18dm0307002(代表 岡本泰昌)、『人生ステージに沿った健常および精神・神経疾患の統合MRIデータベースの構築にもとづく国際脳科学連携』課題 JP18dm0307004 (代表 笠井清登)、『非線形動力学に基づく次世代AIと基盤技術に関する研究開発』課題 JP18dm0307009(代表 合原一幸)の研究として行われたものです。

一部は、内閣府 総合科学技術・イノベーション会議が主導する革新的研究開発推進プログラム(ImPACT)「脳情報の可視化と制御による活力溢れる生活の実現」、日本学術振興会科研費26120002と15J06788の助成を受けています。

お問い合わせ先

研究内容に関すること

(株)国際電気通信基礎技術研究所(ATR)
経営統括部 企画・広報チーム

AMEDの事業に関すること

日本医療研究開発機構(AMED)
戦略推進部 脳と心の研究課

 

1603情報システム・データ工学1604情報ネットワーク
ad
ad
Follow
ad
タイトルとURLをコピーしました