2020-06-16 農研機構
ポイント
農研機構は、国内農業系研究機関で初となるAI研究用スーパーコンピューター「紫峰」、および農研機構内に分散して所有管理されている各種の研究データを収集・統合し、農研機構内外の研究者が分野横断的に利活用できるデータベース「NARO Linked DBナロ リンクド データベース」の稼働を2020年5月より開始しました。「紫峰」と「NARO Linked DB」の導入により、農研機構の農業情報研究基盤が整備され、データ駆動型農業の一層の推進が期待されます。
概要
農研機構はこれまで、組織全体としての計算機資源が未整備でした。そこで今回、2018年10月に設立した農業情報研究センターに、人工知能(AI)研究用スーパーコンピューターおよび大規模データベースを整備しました。
国内の先進的な事例を参考にするとともに、農研機構内での計算機資源の利用状況を踏まえて、必要な計算機の能力・規模を算出し、この度、計算速度1 PFLOPS(ペタフロップス)1)の計算性能を有するAI研究用スーパーコンピューター「紫峰」と、データ容量3 PB(ペタバイト)2)の大規模データベース(NARO Linked DB)を導入しました。国内農業系研究機関においてPFLOPSクラスの計算機の導入は初となります。「紫峰」に計算処理装置として搭載されている画像処理装置(GPU3):製品名「NVIDIA Tesla V1004)」)は、AI、高性能計算(high-performance computing、HPC)等の計算分野において、1つで中央演算装置(CPU)100 個分の性能を誇る高性能なもので、これを計128基搭載しました。計算性能だけでなく、Webブラウザを通した入出力、高速な画像表示を行うなど、対話形式による解析や画像処理を可能とし、パソコンのように扱いやすいスーパーコンピューターを目指しています。さらに最新のAI計算用のプログラム群とデータをセットで用意し、利用者はすぐに使うことができます。
また、これまで農研機構内の個々の研究センター・部門で所有していた、病害虫、気象、遺伝資源、ゲノム情報など各種の研究データを収集して、農研機構内の研究者がそれらのデータに横断的にアクセスして利活用するための統合データベースを構築し、運用を開始しました。多様な形式のデータ同士を組み合わせて利用しやすい形式で出力したり、あるいはAIでの処理をしやすい形式で提供するなど、研究をサポートする機能も備えています。
これら農業情報研究基盤の整備により、育種、生産、加工・流通など農業のさまざまなシーンにおけるデータ駆動型農業研究をますます加速していきます。
「紫峰」および「NARO Linked DB」は2020年5月に稼働開始しました。
問い合わせ先
研究推進責任者 :農研機構農業情報研究センター センター長 本島 邦明
研究担当者 :同 農業AI研究推進室 川村 隆浩
広報担当者 :同 連携企画室 大久保 さゆり
詳細情報
社会的背景と経緯
政府が目標として掲げているSociety5.0実現のためのデータ駆動型農業の重要性の高まりや、農林水産省におけるスマート農業の促進などを受けて、農研機構でもAI研究およびデータ連携のための農業情報研究基盤の整備が求められています。それを受けて、2018年10月には農業情報研究センターを設立、1年半の準備を経て2020年度にAI研究用高性能コンピュータおよび大規模統合データベースを稼働開始しました。
内容・意義
近年、農業の分野においてもデータによる科学的裏付けに基づくデータ駆動型研究の推進、およびAI等を活用したスマート育種、スマート農業、スマートフードチェーンの研究が進められています。しかし、国内最大の農業研究機関である農研機構においては、これまで大規模な計算機資源が整備されていませんでした。そこで、産総研のスパコンABCI(AI橋渡しクラウド)等の事例を参考にするとともに、機構内部に試験的に構築した計算環境の利用状況を踏まえて、研究者100名が同時にAI用の計算を行うのに必要な計算機の能力・規模を算出し、1 PFLOPSの計算性能を有するAI研究用スーパーコンピューターと容量3 PBの大規模データベースによる農業情報研究基盤を構築・導入しました(図1)。
筑波山の別名である「紫峰」と名付けられた本スパコン(図2)は、AI計算において特に重要な行列演算性能に優れるNVIDIA社の最新のGPU(Tesla V100)を採用するとともに、1つの計算機内に高速なNVLink5) で相互に接続した8基のGPUを搭載しています(全16台の構成で計128基搭載、計算機間は高速 InfiniBand6)で接続、合計で1PFLOPSの計算性能)。複数のGPUを同時に利用して画像認識等を高速に実施したいAI研究者にも対応できる構成となっています。また、本スパコンの特徴として利用者にやさしいシステムを目指しており、従来のコマンド入力を主とする利用に加えて、Webブラウザから操作できるインターフェースや、利用者のパソコンから遠隔操作できるインターフェースを通して、Windowsのような操作でのスパコン利用を可能としています。さらに最新の機械学習用のプログラム群をあらかじめインストールした 仮想化技術7)を導入して、利用者がこれらをすぐに利用できるようにしています。
また、これまで農研機構内の個々の研究センター・部門で所有していた病害虫、気象、遺伝資源、ゲノム情報など各種の研究データについて、組織内での連携利用に向けた研究データベース運用ガイドラインを策定し、それに基づき、農研機構内全研究データの農研機構統合DBへの一元的な集約を開始しました。統合DBでは、全てのデータにメタデータ(著者、日付、ライセンス、内容など、データの属性を説明するためのデータ)を付与し、機構内全研究データの見える化・カタログ化を実現しました。さらに、データ間のフォーマットの違いなど異質性を解消し、AIによる分析を容易にすることで機構内での分野横断的な研究を加速します。農業データ連携基盤WAGRIとも連携し、統合DB内のデータを、WAGRIを介して安全に外部公開するシステムを設計・開発しました。
なお、AIスパコンおよび統合DBの導入は、富士通株式会社の協力により実現しました。双方の知見によるスーパーコンピューター向けのセキュリティ強化策や、新たな試みとしてリモートワークを活用した構築作業などを通してこれらの研究基盤が整備されました。
今後の予定・期待
今後、AIスパコンと統合DBによる農業情報研究基盤を活用し、データ駆動型農業研究を進めていきます。AIスパコン導入によって、例えば大量の画像処理が必要な画像からの病害虫の発生状況把握が従来よりもおよそ100倍(理論値:87倍)高速になることが想定されます。具体的には、1ヘクタールのジャガイモ畑の画像から、画像処理でウィルス病発病株の検出をするのに従来の計算機資源ではおよそ200時間(個人のパソコンでは 500日)かかりますが、「紫峰」では2時間で終わります。また、統合DBの活用によって過去の栽培記録や気象データなどから作物の生育や品質を予測する研究においても、貴重な学習データや開発した解析手法などを組織内で共有し、他地域、他の作目への適用を進めるなど、データ駆動型農業研究の推進に役立てることができます。さらに、農研機構内にてAIスパコンと統合DBを用いたAI技術に関する教育も進め、数年以内に機構内に400名のAI研究者を育成していく予定です。
用語の解説
- 1)PFLOPS(ペタフロップス)
- FLOPSは1秒間に浮動小数点演算が何回できるかを示すコンピュータの性能指標です。P(ペタ)は10の15乗、G(ギガ)の100万倍です。
- 2)PB(ペタバイト)
- 1 PBは、100万GB(ギガバイト)、朝刊(文字情報のみ)の800万年分に相当します。
- 3)GPU(ジーピーユー)
- CPUを補助し、高度な画像処理を行うためのプロセッサです。近年はAI計算や超高速シミュレーション等の分野でもその高速性を活かして広く利用されています。
- 4)NVIDIA社 Tesla V100(エヌビディア テスラ ヴイ100)
- 高性能なGPU。商品の概要は、以下をご参照ください。
<https://www.nvidia.com/ja-jp/data-center/v100/> - 5)NVLink(エヌヴイリンク)
- GPU間を接続する高速インターフェースで GPU1基あたり300Gバイト/秒の通信性能をもちます。
- 6)InfiniBand(インフィニバンド)
- 計算ノード(演算を行う装置の一つの単位)間を接続する高速インターフェースで、100Gビット/秒の通信性能をもちます。
- 7)仮想化技術
- プログラム群やデータをパッケージ化し、簡単な操作で計算機の上でそのパッケージを利用できるようにする技術です。
発表論文
2020年度人工知能学会全国大会(第34回)(6月10日、オンライン開催)にて「農業研究データ基盤整備に向けた統合データベースの構築」として発表。
参考図
図1 AI研究用スパコンと大規模統合データベースによる農業情報研究基盤イメージ図
図2 AI研究用スパコン「紫峰」