2024-06-14 核融合科学研究所
概要
- 核融合科学研究所では、研究データのオープン化を強力に推し進めており、この度、大型ヘリカル装置(LHD)が過去25年間の運転で蓄積してきた実験データを、アマゾン ウェブ サービス(AWS)の「オープンデータスポンサーシッププログラム」の支援を得て、パブリッククラウド上で完全オープン化しました。
- LHD実験で得られた約1,700万件の計測生データ(圧縮済、約1.5ペタバイト)を、2024年4月より、AWSのAmazon Simple Storage Service(Amazon S3)からの一般利用を開始しています。引き続き、約2,400万件の解析結果データも、追加公開を予定しています。
- フュージョンエネルギー実験データを全て公開して、最新の研究データを誰でもインターネットから利用可能にしたのは、世界的にも初の試みで、フュージョンエネルギー研究のオープンサイエンス化に向けた大きな一歩となりました。
研究背景
今回、研究データを全面公開した核融合科学研究所(以下、核融合研)の「大型ヘリカル装置(LHD)」で行っている、フュージョンエネルギー実現に向けた超高温プラズマ実験では、充実した最新鋭の計測機器を用いて、実験1回あたりの収集データ量の世界記録を更新(実験1回あたり0.92テラバイト(TB)、2022年2月)し続けています※1。現在、世界7か国・地域の国際連携によってフランスで建設が進む国際熱核融合実験炉イーター(ITER)は、10年以内に開始予定の実験初期データ量がおよそ1 TB/回となる見込みで、LHDは世界で唯一、そのデータ量に迫るプラズマ実験装置です。
こうした大規模な研究データ資産の利活用と社会全体での共有、いわゆる「オープンサイエンス」の推進は、2023年に仙台で開催されたG7会合においても共同声明として採択されています。核融合研では、2022年2月にオープンアクセス基本方針、同年10月に研究データポリシーを制定し、オープンサイエンスに向けた取り組みを本格化させました。LHD実験で得られる計測・解析データも、収集・解析処理直後からオープン化する公開データとして、2023年から運用しています。データ解析に用いる計算プログラムもすべてソースコードで公開しています。
オープンサイエンスにおいては「FAIR原則」※2が重要指標とされています。LHD計画の貴重なデジタル資産である計測・解析データにおいて、このオープンサイエンス4要件 F. A. I. R. を十分に満たすことを、核融合研では学術研究基盤LHDの重要命題と位置づけ、取り組みを続けています。
世界有数の大規模データ資産となったLHD実験データですが、国内外の共同研究者からは多く利活用されるものの、異なる分野や産業界など、共同研究以外の目的ではほとんど利用されてきませんでした。その理由として、① 多種多様な実験データの中から自分の興味の対象となるデータを見つけづらい、② データ数が膨大で、また個々のデータサイズも大きいため、データ解析を簡単に始められない、などが考えられます。
これら① ②の問題解決には、①’巨大な実験データの全ぼうを網羅的かつ俯瞰的に見通せること、②’データ解析環境が簡単に準備できて、すぐに解析が始められ、また必要に応じて計算処理性能を加減できること、が求められていました。
研究成果
LHD実験データは大規模なデジタル資産であり、異分野の研究者や産業界、一般市民の方々からの利用を促進するためには、誰でも容易に使えるコンピュータ環境が必要です。そのために重要なのが「クラウドサービス」です。クラウドサービスは、データ解析がすぐに始められる環境を提供し、研究者や産業界、一般の利用者がデータを効率的に活用できるようにします。今回、核融合研は、グローバルにクラウドサービスを提供するアマゾン ウェブ サービス(AWS)の「オープンデータスポンサーシッププログラム」※3に採択され、AWSのAmazon S3上にLHD実験データ約2ペタバイト※4を完全複製して、誰でもインターネット上から自由にLHD実験データにアクセスできるようにしました(図 1)。
図 1.LHD実験の全計測・解析データ4,000万件余(約2ペタバイト)をAmazon S3上から公開
巨大なオープンデータの利活用には、データ解析プログラム群が動作可能な計算機環境も不可欠です。AWSのAmazon S3ストレージ上に全複製されたLHDデータは、AWSのクラウド計算機から直接アクセスして、いつでもユーザがオンデマンドで高速に大規模解析できるようになりました。核融合研のシステムやネットワーク能力とは独立に、常時データサービスも実現できた点も、オープンサイエンスの推進に大きなメリットとなります。
地球環境や気象、天体観測など、国際的な研究データの共有・連携がすでに数十年以上行われている他分野と異なり、これまでフュージョンエネルギーに向けた研究開発、特に実験研究では、世界規模でのデータ連携や一般への公開は行われてきませんでした。これは各々の装置に依存した実験結果が出ることが多く、単純な比較評価が難しかったためですが、今回のLHDデータ完全公開は、学際的にも国際的にも、広く多目的利用や従来と異なる視点の検討・評価を可能にし、フュージョンエネルギー研究の学際化、普遍化に向けた世界初の大きな一歩となりました。
本成果は、2024年7月15日~19日にブラジル・サンパウロで開催される第14回核融合研究における制御・データ収集/管理・遠隔実験に関するIAEA技術会議(14th IAEA Technical Meeting on Control Systems, Data Acquisition, Data Management and Remote Participation in Fusion Research)で口頭発表の予定です。
研究成果の意義と今後の展開
世界最大級のフュージョンエネルギー研究データを蓄積しているLHD実験の計測・解析データベースは大変貴重なデジタル研究資産です。これらをすべてAWSクラウド上でオープンデータとして公開したことで、分野内外での研究利用のみならず、市民一般からの研究参加や、新たにフュージョンエネルギーの研究開発を始めたい諸外国・産業界などからの新規参入の呼び水となり、参入の敷居を大きく下げることが期待されます。また、国立情報学研究所の研究データクラウド基盤NII RDCを利用し、核融合研が構築を進める「プラズマ・核融合クラウド」※5の巨大データ集積場として、国内だけでなく世界におけるフュージョンエネルギー研究の一大基盤を形成し、研究知見や人的交流、人財育成の場として大いに利活用されることも期待されます。
今後の展開としては、FAIR原則を指標として更なるオープンサイエンス化を進めるべく、LHD実験データ約4,000万件にデジタル永続性識別子DOI (Digital Object Identifier※6を附与して、当該データの検索・引用を容易にする計画です。非常に件数が多いため、登録には3~4年間を要する見込みですが、全件登録を完了した暁には、現在の研究データDOI登録数で世界トップの、オーストラリア地球科学機構(Geoscience Australia)(約700万件)、欧州原子核研究機構(CERN)(約670万件)、米国の学際地球データ連合(Interdisciplinary Earth Data Alliance, IEDA)(約500万件)などを大幅に超えた世界最大の公開データとなる見込みです。
アマゾン ウェブ サービス ジャパン合同会社からのコメント
アマゾン ウェブ サービス ジャパン合同会社 執行役員 パブリックセクター 統括本部長 宇佐見 潮様より、以下のコメントをいただきました。
「核融合科学研究所様との連携により、フュージョンエネルギーの活用に弊社が貢献できること、大変嬉しく思います。国内の学術研究分野にとどまらず、全世界の産業界からこの オープンデータが活用され、様々な科学分野において技術革新が進むことを期待します。」
本成果はAWSブログでも紹介されています。詳しくは下記のページをご覧ください。
https://aws.amazon.com/jp/blogs/news/25years-huge-fusion-experiment-data-fully-open-on-s3-via-odp-2024/
国立情報学研究所からのコメント
国立情報学研究所(NII)オープンサイエンス基盤研究センター 主任学術基盤研究員/「AI 等の活用を推進する研究データエコシステム構築事業」プログラムマネージャ 中野 恵一様より、以下のコメントをいただきました。
「この度の成果では、巨大データを参照する機能として、我々が構築する研究データ基盤(NII Research Data Cloud:NII RDC)を活用頂きました。世界的にもインパクトのあるオープンサイエンスの実践において、NII RDCが貢献できたことを嬉しく思っております。今後も引き続き貴研究所との協働を深め、本研究データから発展する世界的なオープンサイエンスに貢献できればと存じます。」
【用語解説】
参考図.LHD実験1回あたりの計測データ量(赤線)と 計測器数(青線)の変遷
※1 LHD実験
完全超伝導の電磁石でヘリカル型磁場を生成し、その中に高温プラズマを保持する物理実験。磁場が定常的に生成できるため、多数回の実験、長時間のプラズマ安定保持が可能で、計測データが肥大化する傾向にある。(右、参考図)
※2 FAIR原則
研究データを「Findable(見つけられる)」、「Accessible(アクセスできる)」、「Interoperable(相互運用できる)」、「Reusable(再利用できる)」にするための一連の原則で、オープンサイエンス化の度合いを測る国際的な共通指標となっている。(https://doi.org/10.18908/a.2019112601 参照)
※3 Amazon Web Services (AWS) オープンデータスポンサーシッププログラム
分野を問わずオープンデータをAmazon S3上で保管、公開するAWSのプログラム。このプログラムへの申し込み申請はAWSの審査を経て採択される。2年ごとに更新申請が必要で、オープンデータスポンサーシッププログラムの新しいデータセットは、四半期ごとにAWS公共部門ブログで発表される。Amazon S3は、AWSのクラウドサービスの一つで、高いスケーラビリティ、データ可用性、セキュリティ、パフォーマンスを提供するオブジェクトストレージサービスのこと。
※4 ペタバイト
データ量の単位で、英数字1文字(=1バイト)の10の15乗倍(1×1015)。
2ペタバイトのデータは、市販の50 GBブルーレイディスクに記録すると約4万枚必要。
1 PB (ペタバイト)= 1,000 TB(テラバイト) = 1,000,000 GB(ギガバイト)の関係。
※5 プラズマ・核融合クラウド
核融合科学研究所が提唱・推進する次世代指向の学際的研究データエコシステム(異分野にまたがるデータ利活用で共存共栄・協創と循環を実現する仕組み)。国立情報学研究所(NII)が推進する研究データクラウド(RDC)基盤をフレームワークとして利用し、実験データと理論モデル計算、高性能スーパーコンピュータ、計算プログラム群を、一つの「デジタルシステム」として統融合することをめざしている。
※6 DOI(Digital Object Identifier)
研究論文の他、研究データに附与されるデジタル永続性識別子で、書籍に対して附与されるISBN、雑誌等に附与されるISSNなどと同様、対象物の特定、検索、引用などに利用される。
【発表情報】
会議名:14th IAEA Technical Meeting on Control Systems, Data Acquisition, Data Management and Remote Participation in Fusion Research(第14回核融合研究における制御・データ収集/管理・遠隔実験に関するIAEA技術会議、 https://conferences.iaea.org/event/377/ )
講演題目:Progress of “Plasma and Fusion Cloud” Research Data Ecosystem Orienting “Open Science” (オープンサイエンスを指向した研究データエコシステム「プラズマ・核融合クラウド」の進展)
開催:2024年7月15-18日 ブラジル・サンパウロ大学
著者名:中西秀哉1,3,江本雅彦1,高山有道1,3,山本孝志1,山中顕次郎2,漆谷重雄2,3,大砂真樹1,今津節男1,吉田正信1,野々村美貴1,佐竹真介1,3,藤堂泰1,長壁正樹1,3,坂本隆一1
1 自然科学研究機構 核融合科学研究所
2 情報・システム研究機構 国立情報学研究所
3 総合研究大学院大学
【研究サポート】
本研究は、国立情報学研究所が受託・実施する文部科学省「AI等の活用を推進する研究データエコシステム構築事業」令和5~6年度ユースケース創出課題『核融合研究データのオープンな利活用基盤「プラズマ・核融合クラウド」の構築と整備』に採択、支援を受け実施しています。「プラズマ・核融合クラウド」は、国立情報学研究所が推進する研究データクラウド基盤NII RDCの枠組みと各種サービスを利用して構築を進めています。
本件のお問い合わせ先
大学共同利用機関法人 自然科学研究機構 核融合科学研究所 / 総合研究大学院大学
研究部 可知化センシングユニット 准教授 中西 秀哉(なかにし ひでや)