転写開始点の標準データセットを構築~生命現象や疾患の転写メカニズム研究の効率化に貢献~

ad

2019-06-25  理化学研究所
理化学研究所(理研)生命医科学研究センター大容量データ管理技術開発ユニットのイマド・アブケセーサ研究員、野口修平研究員(研究当時)、粕川雄也ユニットリーダーの研究チームは、ヒトやマウスのゲノムからRNAの転写が開始されている場所についての情報を網羅的に収集した標準データセット、「refTSS」を構築しました。

本研究成果は、ゲノムに書き込まれた情報からどのようにRNAの転写が制御されているかを解析する転写制御研究のための基本ツールとして利用することで、生命現象や疾患のメカニズムを転写レベルで理解するための研究の効率化に貢献すると期待できます。

今回、研究チームは、公共データベースなどで公開されているRNAの転写開始側の配列が含まれた実験結果を収集して再解析し統合することで、ヒトおよびマウスのゲノムに存在する転写開始点の場所を網羅的に同定するとともに、各転写開始点の信頼性を評価し、さらに、その転写開始点から生成される分子の機能情報や、転写制御領域に関する情報も付与することで、転写制御に関するさまざまな研究に利用できるようにしました。

本研究は、オランダの科学雑誌『Journal of Molecular Biology』(Computational Resources for Molecular Biology特集号)のオンライン版(5月8日付け)に掲載されました。

背景

生物では、ゲノム中に書かれた遺伝子のDNA配列情報を鋳型にRNAが転写されます。RNAは、肝臓や皮膚などの臓器、神経細胞や幹細胞などの細胞、臓器形成期や成人期などの時期に応じて、必要なものが転写されるよう正確に制御されており、転写の異常により病気が引き起こされることもあります。そのため、生体内でどのようにRNAの転写の制御が行われているのか、その仕組みを解析する研究が広く行われています。

転写は、さまざまな要素が複合的に組み合わさって制御されていることが知られています(図1)。例えば、転写因子[1]と呼ばれるタンパク質が、ゲノム中の遺伝子のプロモーター[2]領域やエンハンサー[3]領域に結合することで、その遺伝子からのRNAの転写が促進されたり、抑制されたりします。またプロモーター領域のDNAの塩基がメチル化されることで、転写が抑制されることも知られています。そのため転写制御の研究では、多くの情報やデータを組み合わせて解析することが必要となります。

転写の制御は、前記したような複合的な要素を経て最終的にゲノム上の転写が始まる場所(転写開始点:Transcription Start Site、TSS)が決まり、そこからRNAが転写します。よって、原理的にはすべての転写制御に関わる要素は転写開始点と結びつけることができます。また、転写されるRNAも転写開始点と結びつけられます。もし、ゲノム中のすべての転写開始点の場所が分かれば、これを基準にすべての転写制御に関するデータや転写されるRNAの情報をまとめられることになります。しかし、これまで網羅的に転写開始点情報を収集して整理し、さまざまな転写制御解析に使用可能な標準となり得るデータセットはほとんど存在していませんでした。

研究手法と成果

そこで研究チームは転写開始点の標準データセットを、公共データベースに登録されているデータを用いて構築しました(図2)。まず、CAGE法[4]などのRNAの転写開始側の端読み配列を網羅的に配列決定する実験手法の結果を公共データベースから収集しました。さらに、EPD (Eukaryotic Promoter Database)、dbTSSといったデータベースや、FANTOMプロジェクト[5]で取得・公開されたデータから、大規模な転写開始点・プロモーター領域情報も収集しました。次に、これらのデータを最新のヒトゲノムないしマウスゲノムに再マッピングし、転写開始点の位置を最新のゲノム配列上で再探索しました。そして、再探索した転写開始点を統合し、最終的な転写開始点セットを決定しました。

この転写開始点セットに対して、その転写開始点から転写されるRNAや翻訳されるタンパク質の機能情報、各転写開始点の信頼性の評価を行った結果などの付加情報を付与して、最終的に「refTSS」と呼ぶ標準転写開始点データセットを構築しました。

refTSSデータセットには、約22.4万個のヒト転写開始点と約17.3万個のマウス転写開始点の情報が、ゲノム上での位置やさまざまな付加情報とともにまとめられています。refTSSデータセットはインターネット上で公開されており、制限なしで利用できます。また、refTSSデータセットに対する遺伝子名での検索や各転写開始点の情報を閲覧するためのウェブインタフェースも開発し、誰でも簡単に参照できるようになっています(図3)。

今後の期待

現在、生命現象や医科学研究における実験手法は目まぐるしく発展しています。その結果、転写の制御を理解するための研究に利用できるデータの種類や量も飛躍的に増えてきています。そこで、このような実験手法やその結果産出される巨大なデータを効率的に活用することが、転写制御の研究においては非常に重要です。

今回構築したrefTSSデータセットを使うことで、転写制御に関わるさまざまな種類の情報やデータを効率的に統合することができます。その結果、生命現象や疾患における転写メカニズムを理解し、診断法や治療法を開発する研究に応用されていくことで、これらの研究の推進に貢献すると期待できます。

原論文情報

Abugessaisa I, Noguchi S, Hasegawa A, Kondo A, Kawaji H, Carninci P, Kasukawa T, “refTSS: A Reference Data Set for Human and Mouse Transcription Start Sites”, Journal of Molecular Biology, 10.1016/j.jmb.2019.04.045

発表者

理化学研究所
生命医科学研究センター 大容量データ管理技術開発ユニット
研究員 イマド・アブケセーサ(Imad Abugessaisa)
研究員(研究当時) 野口 修平(のぐち しゅうへい)
ユニットリーダー 粕川 雄也(かすかわ たけや)

報道担当

理化学研究所 広報室 報道担当

補足説明
  1. 転写因子
    DNAに配列特異的に結合するタンパク質で、プロモーターやエンハンサーといった転写制御領域に結合し、RNAポリメラーゼによる遺伝子の転写を活性化あるいは不活性化する。
  2. プロモーター
    ゲノム上で遺伝子の転写開始点の近傍に存在し、RNAを転写させる機能を持つ領域。
  3. エンハンサー
    ゲノム上で遺伝子の転写領域から離れたところに存在し、遺伝子の転写量を調節する領域。
  4. CAGE法
    RNAの転写開始点の位置と活性量を網羅的かつ定量的に測定するために開発された理研独自技術。RNAの5’端を網羅的に収集し、この配列をシーケンサーで決定、ゲノム配列と照合する。
  5. FANTOMプロジェクト
    理研が中心となり、約20カ国、114の研究機関が参加する国際研究コンソーシアム。理研のマウスゲノム百科事典プロジェクトで収集された完全長cDNAの機能注釈(アノテーション)を行うことを目的に、理研ゲノム科学総合研究センターの林崎良英グループディレクター(現、理研予防医療・診断技術開発プログラム プログラムディレクター)が中心となり2000年に結成された。役割は、トランスクリプトーム(転写産物)解析の分野を軸に発展・拡大してきた。また、プロジェクトの研究対象は、ゲノムの転写産物という「要素」の理解から、転写制御ネットワークという「システム」つまり「生命体のシステム」の理解へと発展し、知見を基礎・応用の両面で有用なリソースとして公開している。同時に、医療への応用の基礎となること目指している。

    FANTOMのホームページ

 

RNAの転写制御に関わるさまざまな要素の図

図1 RNAの転写制御に関わるさまざまな要素

RNAの転写を制御するさまざまな要素の例を図で表現したもの。プロモーター領域やエンハンサー領域への転写因子の結合や、DNAのメチル化など、複数の要素が複合的に組み合わさることで、転写開始点(TSS)からの転写が行われる。

転写開始点の標準セット構築の流れの図

図2 転写開始点の標準セット構築の流れ

公共データベースからのデータ取得から、転写開始点セットを構築するまでの流れを図示したもの。

refTSSデータセット参照用のウェブサイトの図

図3 refTSSデータセット参照用のウェブサイト

refTSSウェブサイトのトップページにアクセスして表示したところ。遺伝子名や転写開始点の名称で検索することや、データセットの情報が含まれたファイルをダウンロードすることが可能である。

ad

1604情報ネットワーク
ad
ad
Follow
ad
タイトルとURLをコピーしました