大規模で省電力のクラウド型計算システムで高度な人工知能処理を可能に
2018/06/26 産業技術総合研究所
ポイント
- 計算ノードと冷却システムの統合設計により世界トップクラスの性能を実現
- 人工知能(AI)に適した半精度演算の性能が、実運用される計算システムとしては国内最高
- 公開学習済みモデルやオープンデータも提供する大規模高速計算基盤としてAIの実用化を加速
概要
国立研究開発法人 産業技術総合研究所【理事長 中鉢 良治】(以下「産総研」という)情報・人間工学領域が8月1日より運用を開始するクラウド型計算システム「AI橋渡しクラウド(AI Bridging Cloud Infrastructure、以下「ABCI」という)」が、世界のスパコン速度性能ランキングTOP500 Listの5位、世界のスパコンの省エネ性能ランキングGreen500 Listの8位を獲得しました。この結果は、ドイツ・フランクフルト市で開かれたスーパーコンピューターに関する国際会議「ISC HIGH PERFORMANCE (ISC 2018)」において6月25日(中央ヨーロッパ時間)に発表されました。
ABCIは、産総研 人工知能研究センター(以下「AIRC」という)と産総研・東工大 実社会ビッグデータ活用オープンイノベーションラボラトリ(AIST-Tokyo Tech Real World Big-Data Computation Open Innovation Laboratory、以下「RWBC-OIL」という)が設計・開発を行った計算システムで、一般競争入札により富士通株式会社(以下「富士通」という)の技術を採用し、AIRCとRWBC-OILが設計した産総研 柏サイトのAIデータセンター棟に構築されました。ABCIは、高性能で省電力の最新GPUを4352基搭載し、高温になる演算処理装置などをAIデータセンター棟が供給する外気に近い温度の冷却水で直接冷却しています。これにより、演算性能19.88ペタフロップスでTOP500 Listの世界5位で、実運用される計算システムとしては国内最高性能に、また、1ワットあたり12.054ギガフロップスで、Green500 Listの世界8位になりました。
今後、公開されている学習済みモデルやオープンデータをABCI上で提供し、人工知能技術の研究開発用の大規模高速計算基盤として、産学官連携による人工知能の社会実装と人工知能分野の最重要課題に挑戦します。
左:ABCI計算ノードラックの一部、中央:冷却システムの一部、右:AIデータセンター棟
開発の社会的背景
人工知能技術、特に機械学習では、大量のデータをメモリーにロードし、計算を反復しながら精度を高めていく必要があるため、計算能力が鍵となります。また、人工知能技術に関する最先端の研究開発や社会実装を加速するには、主に大学や公的研究機関などが保有する機械学習を始めとするアルゴリズムなどの技術シーズと、国や企業などが保有するビッグデータ、さらに、これらの組み合わせを可能にする高い計算能力が求められています。
研究の経緯
産総研は、経済産業省「人工知能に関するグローバル研究拠点整備事業」(平成28年度二次補正予算)の一環として、高度な人工知能処理を可能にする大規模で省電力のクラウド型計算システムを整備することとし、平成29年9月に一般競争入札による調達を行いました。このシステムは、わが国の人工知能技術開発のためのオープンで先進的な高速計算基盤として、産学官連携や多様な事業者による利用を促進し、高い計算能力を活用した人工知能技術の研究開発・実証を加速し、社会実装を推進するとともに、人工知能分野の最重要課題への挑戦を目的としています。
産総研は、国立大学法人 東京工業大学(以下「東工大」という)と長年にわたり高性能計算技術、省電力計算技術、ビッグデータ計算技術などの分野で研究協力を続け、平成29年2月にRWBC-OILを設置して、省エネ型高性能計算プラットフォーム構築技術などの研究を進めています。 2017年6月版のGreen 500 Listで産総研AIクラウド(AAIC)が世界3位を獲得したのに続き、今回も好成績を収められたのは、RWBC-OILにより研究開発が加速できたことによります。また、電力モニタリングに対応したサーバー運用技術などを通じて得た技術的知見も活用されています。これらを総合することで、今回の世界トップクラスの実運用される省電力クラウド型計算システムの実現につながりました。ABCIの設計・開発は、AIRCとRWBC-OILが行い、富士通の技術を採用しました。
研究の内容
ABCIは、1088台の計算ノードなどからなる高性能計算システム、22ペタバイトの実効容量を持つ大容量ストレージシステム、これらを高速に結合するネットワークなどからなるハードウエア群と、これらを最大限活用するためのソフトウエア群から構成されます。ABCIの中核部分である高性能計算システムには次のような特徴があります。
- 人工知能やビッグデータ分野の計算処理で有効とされる16ビットの半精度演算の性能が550ペタフロップス、倍精度演算の性能は37ペタフロップスと、実運用される計算システムとしては現在国内最高の性能です。NVIDIA社の最新GPU、 Tesla V100をノードあたり4基、計4352基搭載することで、このような高性能を実現しました。
- 計算ノードと冷却システムの双方が、世界トップクラスの省電力性能を持ちます。計算ノードは、高性能で省電力の最新GPUを搭載しています。冷却システムは、高温になるCPUやGPUなどの基幹部品をAIデータセンター棟が供給する外気に近い温度の冷却水により直接冷却し、残熱は同じ冷却水を用いた空冷システムにより除きます。このような工夫により、より少ない電力で高性能を発揮できます。
今後の予定
今回、優れた性能や省電力性が認められたABCIは、2018年7月より試験運用を、8月より本格運用を開始します。本格運用では、学習済みモデルやオープンデータ、学習済みデータセットの提供を視野に入れたABCI利用サービスを構築します。ABCIを活用し、産学官連携や多様な事業者による利用を促進し、高い計算能力を活用した人工知能技術の研究開発・実証を加速し、社会実装を推進するとともに、人工知能分野の最重要課題への挑戦を支援します。また、ビッグデータ活用のためのシステム連携技術や大規模データ解析技術の研究開発を行うとともに、運用から課題を洗い出し、計算プラットフォーム構築技術の高度化研究につなげます。
用語の説明
- ◆計算ノード
- 計算システムを構成するコンピューターの最小単位。CPU、GPUなどの演算処理装置、メモリー、二次記憶装置などからなり、主として計算処理を行う。
- ◆半精度演算
- 数値(実数)のコンピューター内の表現方法の一つ。2バイト(16ビット)で表現され、有効桁数は10進で約3.3桁である。最新のGPUなどを用いると、倍精度(8バイト、有効桁数約16桁)や単精度(4バイト、有効桁数約7桁)よりも高速に演算できるため、機械学習/AI分野における活用が進んでいる。
- ◆TOP500 List
- スパコンのベンチマーク速度性能値を半年ごとに世界1位から500位までランキングしているリスト。
Home - | TOP500 - ◆Green500 List
- 近年のグリーン化の潮流を受け、TOP500 Listのスパコンの電力性能値(速度性能値 / 消費電力)を1位から500位までランキングしているリスト。
<http://www.green500.org/> - ◆GPU(Graphics Processing Unit)
- 本来はコンピューターグラフィックス専用のプロセッサーだったが、グラフィックス処理が複雑化するにつれて性能や汎用(はんよう)性が増し、現在では高性能計算向けの汎用ベクトル・行列演算プロセッサーに進化している。深層学習(ディープラーニング)の高速化にも広く用いられている。
- ◆ギガフロップス(Giga FLOPS)、テラフロップス(Tera FLOPS)、ペタフロップス(Peta FLOPS)
- フロップス(FLOPS, Floating-point Operations Per Second)は1秒間に行える浮動小数点演算の回数を表す。ギガ(10の9乗)、テラ(10の12乗)、ペタ(10の15乗)は接頭語。