2020/10/13 英国・ブリストル大学
・ プリストル大学とマンチェスター大学が、被写体をその場で学習して認識する、AI 用のインテリジェントなカメラを開発。
・ 画像記録用のデジタルカメラと画像描画を処理する GPU 等のセンサーを組み合わせた現行の視覚情報処理システムでは、記録後の被写体を認識してからセンサーとプロセッサー間で視覚情報を送信して処理する。例えば自動運転車では、街路樹の葉の詳細等、タスクに関係の無いものが含まれており、エネルギーと処理時間の浪費となっている。
・ ハエを確定するカエルの眼の検出機能のような、視界に入る全ての物体を認識すること無く、眼と脳が協働して必要な物体のみを認識する自然のプロセスに着想を得た。
・ 同新カメラでは、新たに開発した畳み込みニューラルネットワーク(CNN)を直接像平面で実行する。CNNs は視覚認識を可能にする AI アルゴリズムの一つ。
・ 新CNNs では、記録およびプロセス処理への送信が不要で毎秒数千回のフレーム分類が可能。目の前の物体の種類や、起こっている事象等の高レベルの情報をシステム全体に伝える視覚システムを有する、画像記録不要の効率的で安定したインテリジェントな AI カメラを提案する。
・ 同新カメラのベースは、ピクセルプロセッサアレイ(PPA)と称するカメラ-プロセッサチップの SCAMP アーキテクチャ(マンチェスター大学が開発)。同 PPA では、各ピクセルに埋め込まれたプロセッサが相互に通信し、画像を捉えたその場で汎用的な超並列処理を実行する。
・ センシング、プロセッシングとメモリをピクセルレベルで統合することで、高性能で低レイテンシのシステムのみならず、低電力で高効率のハードウェアの可能性が見込める。新しい機械学習能力に加え、その作動速度と軽量な構成により、高速で高機敏性の航空プラットフォームにも適する。
・ 本研究には、英国工学・物理科学研究会議(EPSRC)が資金を提供した。
URL: https://www.bristol.ac.uk/news/2020/october/scamp.html
<NEDO海外技術情報より>
(関連情報)
European Conference on Computer Vision (ECCV) 2020 発表論文(フルテキスト)
Fully Embedding Fast Convolutional Networkson Pixel Processor Arrays
URL: https://arxiv.org/pdf/2004.12525.pdf
Abstract
We present a novel method of CNN inference for pixel processor array (PPA) vision sensors, designed to take advantage of their massive parallelism and analog compute capabilities. PPA sensors consist of an array of processing elements (PEs), with each PE capable of light capture, data storage and computation, allowing various computer vision processing to be executed directly upon the sensor device. The key idea behind our approach is storing network weights ”in-pixel” within the PEs of the PPA sensor itself to allow various computations, such as multiple different image convolutions, to be carried out in parallel. Our approach can perform convolutional layers, max pooling, ReLu, and a final fully connected layer entirely upon the PPA sensor, while leaving no untapped computational resources. This is in contrast to previous works that only use a sensor-level processing to sequentially compute image convolutions, and must transfer data to an external digital processor to complete the computation. We demonstrate our approach on the SCAMP-5 vision system, performing inference of a MNIST digit classification network at over 3000 frames per second and over 93% classification accuracy. This is the first work demonstrating CNN inference conducted entirely upon the processor array of a PPA vision sensor device, requiring no external processing.