AI向けクラウド型計算システム「ABCI」が深層学習の学習速度で世界最速に

スパコン省エネ性能ランキングでも世界4位に

2018/11/13 産業技術総合研究所

ポイント

ABCIの能力を最大限に活かす外部ユーザーの挑戦をABCIグランドチャレンジとして支援
ABCIグランドチャレンジにてソニーの研究グループが深層学習の学習速度の世界最速記録を更新
ABCIが省エネ性能ランキングで世界4位、共役勾配法の処理性能ランキングでも世界5位を達成

概要

国立研究開発法人産業技術総合研究所【理事長中鉢良治】（以下「産総研」という）情報・人間工学領域【領域長関口智嗣】は、平成30年8月1日より運用を開始した「AI橋渡しクラウド（AI Bridging Cloud Infrastructure、以下「ABCI」という）」の能力限界に挑戦するABCIグランドチャレンジを実施しています。10月に実施した第2回ABCIグランドチャレンジにおいて、ソニー株式会社（以下「ソニー」という）の研究グループが深層学習の学習速度の世界最速記録を大幅に更新したことが同社のプレスリリースにて11月13日に公表されました。また、世界のスパコンの省エネ性能ランキングGreen500 Listの4位、共役勾配法による処理性能ランキングHPCG Performance Listで5位を獲得しました。Green500 ListおよびHPCG Performance Listの結果は、米国テキサス州ダラス市で開かれたスパコンに関する国際会議「The International Conference for High Performance Computing, Networking, Storage, and Analysis (SC18)」において11月12日（アメリカ中部標準時間）に発表されました。

10月に実施したABCIグランドチャレンジでは、ソニーの研究グループがImageNetの画像分類データセットを利用したResNet-50の学習を、2176GPUを用いて約3.7分で完了し、これまで最速とされていた中国Tencent社が7月に記録した6.6分を大幅に短縮しました。また、ABCIグランドチャレンジと併せて実施したベンチマークの結果、1ワットあたり14.423ギガフロップスで、Green500 Listの世界4位になりました。また、6月にTop500 Listで世界5位を獲得したのに引き続き、HPCG Performance Listでも508.85テラフロップスで、世界5位になりました。

産総研は、今後もABCIグランドチャレンジを通じて、ABCIの高い計算能力により初めて可能になる人工知能分野の最重要課題への挑戦を支援します。

左：ABCI計算ノードラックの一部、中央：冷却システムの一部、右：AIデータセンター棟

開発の社会的背景

ABCIは、経済産業省「人工知能に関するグローバル研究拠点整備事業」（平成28年度2次補正予算）の一環で整備された、高度な人工知能処理を可能にする大規模で省電力のクラウド型計算システムで、2018年8月1日に運用を開始しました。このシステムは、わが国の人工知能技術開発のためのオープンで先進的な高速計算基盤として、産学官連携や多様な事業者による利用を促進し、高い計算能力を活用した人工知能技術の研究開発・実証を加速し、社会実装を推進するとともに、人工知能分野の最重要課題への挑戦を目的としています。設計・開発は、産総研人工知能研究センターと産総研・東工大実社会ビッグデータ活用オープンイノベーションラボラトリ（AIST-Tokyo Tech Real World Big-Data Computation Open Innovation Laboratory; RWBC-OIL）が行い、産総研柏センターのAIデータセンター棟に構築されました。ABCIは、高性能で省電力のGPUを4352基搭載するとともに、演算処理装置などを外気に近い温度の水で直接冷却することで、世界トップクラスの実運用される省電力クラウド型計算システムを実現しています。

研究の経緯

ABCIを用いた人工知能分野の最重要課題への挑戦を促進するため、産総研はABCIグランドチャレンジという公募型プログラムを2018年度より実施しています。本プログラムでは、国内の大学、公的研究機関、民間企業に所属する者を対象に、ABCI上で最大1088ノード（4352GPU）を最長24時間使用して大規模処理を行う人工知能に関する挑戦的な課題を公募し、各回とも2課題程度を採択します。採択された課題についてはABCIグランドチャレンジ実施と小規模実行によるリハーサルを行う機会を無償で提供します。2018年度は計3回の公募を行う予定です。なお利用にあたっては、国立研究開発法人産業技術総合研究所共用高性能計算機ABCI利用約款に定められた事項を順守する必要があります。

第1回の公募では、国立大学法人東京工業大学（以下「東工大」という）、ソニー、株式会社富士通研究所の3課題を採択し、運用開始前の7月に実施しました。第2回の公募では、東工大、ソニーの2課題を採択し、10月に実施しました。第1回、第2回の計5課題は、ImageNetの画像分類データセットを利用したResNet-50の学習を、ABCIが搭載する膨大な数のGPUを用いて精度を落とすことなく大規模並列で高速に実行するという共通の課題への挑戦でした。なお、Green500 ListおよびHPCG Performance Listのベンチマーク計測は、第2回のABCIグランドチャレンジと併せて実施しました。また、第3回の公募は、11月末に締め切られ、1月末に実施される予定です。

研究の内容

画像処理に適した深層学習においては学習の速度が重要になります。深層学習のアルゴリズムの性能評価の一つに、ImageNetの画像分類データセットを利用したResNet-50の学習速度を競う国際的なベンチマークがあります。大規模GPUを利用した分散深層学習では、バッチサイズが巨大になるため学習精度が低下し、またGPU間の通信オーバーヘッドがボトルネックとなって学習スピードも低下することが知られています。今回ソニーが開発した手法をABCIに適用することで、2176GPUを用いて約3.7分で完了し、これまで最速とされていた中国Tencent社が7月に記録した6.6分を抜いて、現時点で世界最速の深層学習処理が可能になりました。また、本チャレンジは、ABCIが提供するSingularityと呼ばれるコンテナミドルウェアを利用して実行しており、コンテナを用いた分散処理の実例としても世界最大級となります。

ABCIの利用者は、本チャレンジのベースとなったNeural Network Libraries (NNabla) のオープンソース版を自由に使うことができます。今回の成果の一部は以下で公表されています。

ImageNet/ResNet-50 Training in 224 Seconds [PDF：523KB]

また、ABCIは6月のGreen500 Listで世界8位になっていましたが、今回新たに1ワットあたり14.423ギガフロップスと電力あたりの性能に最適化した計測を行ったことで、前回のランキングを更新し4位にランクアップしました。

さらに、HPCG Performance Listにおいて508.85テラフロップスで世界5位を達成し、産業利用など実際のアプリケーションを実行する上での優位性を示すことができました。

今後の予定

今回、優れた性能や省電力性が認められたABCIは、2018年8月より本格運用を開始しています。本格運用では、学習済みモデルやオープンデータ、学習済みデータセットの提供を視野に入れたABCI利用サービスを構築します。ABCIを活用し、産学官連携や多様な事業者による利用を促進し、高い計算能力を活用した人工知能技術の研究開発・実証を加速し、社会実装を推進するとともに、人工知能分野の最重要課題への挑戦を支援します。また、ビッグデータ活用のためのシステム連携技術や大規模データ解析技術の研究開発を行うとともに、運用から課題を洗い出し、計算プラットフォーム構築技術の高度化研究につなげます。

用語の説明

◆ABCIグランドチャレンジ: ABCIを利用した人工知能分野の最重要課題への挑戦を促進するため、産総研が実施する公募型チャレンジプログラム。採択課題には、ABCIの最大1088ノード(4352GPU)、最長24時間の利用権が与えられる。
◆Green500 List: 近年のグリーン化の潮流を受け、TOP500 Listのスパコンの電力性能値（速度性能値 / 消費電力）を1位から500位までランキングしているリスト。
<https://www.top500.org/green500/>
※2018年6月のランキングにおいてABCIは8位を獲得
2018年6月26日産総研プレス発表
◆共役勾配法: 大規模な連立一次方程式の反復解法の一つ。前処理と組み合わせることで直接法に比べて速く解けることが知られており、コンピューターシミュレーション分野における産業利用など実際のアプリケーションで広く使われている。
◆HPCG Performance List: 共役勾配法を用いたベンチマークHPCG(High Performance Conjugate Gradients)の性能値を半年ごとに1位から500位までランキングしているリスト。
<https://www.top500.org/hpcg/>
◆ImageNet: スタンフォード大学がインターネット上から収集した画像データセット。一般画像認識のベンチマークに用いられる。
◆ResNet-50: 2015年にMicrosoft Research Asia (MSRA)が発表したニューラルネットワークのモデル。画像認識の分野で一般的に用いられる。
◆GPU（Graphics Processing Unit）: 本来はコンピューターグラフィックス専用のプロセッサーだったが、グラフィックス処理が複雑化するにつれて性能や汎用（はんよう）性が増し、現在では高性能計算向けの汎用ベクトル・行列演算プロセッサーに進化している。深層学習の高速化にも広く用いられている。
◆ギガフロップス（Giga FLOPS）、テラフロップス（Tera FLOPS）: フロップス（FLOPS, Floating-point Operations Per Second）は1秒間に行える浮動小数点演算の回数を表す。ギガ（10の9乗）、テラ（10の12乗）は接頭語。
◆TOP500 List: スパコンのベンチマーク速度性能値を半年ごとに世界1位から500位までランキングしているリスト。
<https://www.top500.org/>
◆計算ノード: 計算システムを構成するコンピューターの最小単位。CPU、GPUなどの演算処理装置、メモリー、二次記憶装置などからなり、主として計算処理を行う。
◆国立研究開発法人産業技術総合研究所共用高性能計算機ABCI利用約款: ABCIは、産総研以外の法人などによる外部利用が可能となっている。本約款は、外部利用に対して適用される条項をまとめたもの。
<https://abci.ai/ja/how_to_use/custom.html>
◆バッチサイズ: 深層学習の学習モデルの更新に用いるデータの個数。分散深層学習では複数のGPUを同時に利用して並列に学習モデルを更新するため、「GPUあたりのデータの個数×GPU数」がバッチサイズとなる。
◆コンテナミドルウェア: コンテナとは軽量な仮想化環境の一種。コンテナミドルウェアは、コンテナをベースとしてソフトウェアの簡便な配布・インストール・実行・再利用を可能にするミドルウェアのこと。Singularityは、ローレンスバークレー国立研究所で開発され、大規模クラウド計算システムに適したコンテナミドルウェア。
◆Neural Network Libraries（NNabla）: ソニーが開発する深層学習の研究・開発・実装を効率化するフレームワーク。

2018年11月
月	火	水	木	金	土	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30