少ない計算量で高精度に人物の行動を認識する「ハイブリッド行動認識AI」を開発～「骨格認識AI」と「動画認識AI」を組み合わせ、道具を使った作業を詳細に判別し製造現場のDX推進に貢献～

2024-10-28 株式会社東芝

概要

東芝は、人物の骨格の動きと1枚の画像を効率的に組み合わせることで、人のさまざまな行動を、少ない計算量で高精度に認識できる独自の「ハイブリッド行動認識AI」を開発しました。
製造現場では、デジタルトランスフォーメーション（DX）が進展しており、作業効率の分析や作業ミスの検知・防止を目的として、カメラ映像から作業員の行動を認識する「行動認識AI」の導入が進んでいます。「行動認識AI」は大きく分けて、撮影した人物の映像を骨格情報に変換し解析する「骨格認識AI」と、カメラで撮影した動画をそのまま解析する「動画認識AI」があります。「骨格認識AI」は、少ない計算量で行動を認識できることから導入が進む一方、人物の持ち物が何なのか判別ができず、認識できる行動の種類に制限がありました。また、「動画認識AI」は、持ち物も含めて行動を認識できますが、計算量が膨大で高性能な計算用のサーバーを必要とし、運用コストが高くなる課題がありました。
今般、東芝が開発した「ハイブリッド行動認識AI」は、人物の骨格の動きを参考にしながら、独自のAIアルゴリズムによりカメラ映像から行動を認識するために最適な画像を1枚だけ抽出します。そして、骨格の動きと、抽出した画像を効率的に組み合わせることで、少ない計算量で、道具を持っている人物の行動を認識することが可能です。東芝は、公開データセットを用いた評価において、特に行動認識の結果が持ち物の影響を受けるケースに対して認識精度が51.6%から89.5％と大幅に向上したことを確認しました。本AIは、「動画認識AI」よりも低い計算量で、「骨格認識AI」より詳細に作業内容を解析することができるため、製造現場におけるDXへの寄与が期待されます。
東芝は本AIの詳細を、2024年10月27日～30日に開催されるコンピュータビジョンの主要な国際会議ICIP2024（2024 IEEE International Conference on Image Processing）で発表します。

開発の背景

「行動認識AI」は、デジタル化が進むモノづくりの現場において、作業効率の分析や、作業ミスの検知・防止に活用されています。例えば、作業効率を分析する用途では、各作業の所要時間を解析し可視化することで、ボトルネックとなっている作業の改善策の検討に活用することができます。また、作業ミスを検知する用途では、リアルタイムに作業内容を認識し作業の抜けを検知して作業者へ通知することで、作業の後戻りを防ぎ生産性を改善できます。
「行動認識AI」には大きく分けて「骨格認識AI」と「動画認識AI」の2つの方式があります。「骨格認識AI」は、画像から人物の関節位置を表す骨格情報へ変換し、骨格の動き認識をすることで、少ない計算量で実現可能な技術であり、製造現場への導入が進んでいます。一方で、骨格情報以外のビジュアル情報を失うため、例えば、「製品を手に持って検品シールを貼る行動」と「スマートフォンやタブレットを両手で持って操作する行動」のように、骨格の動きは似ていても、持ち物によって意味が変わる行動の区別ができませんでした。
「動画認識AI」は、カメラで撮影した動画をそのまま解析することでビジュアル情報を用いて行動を認識できますが、時系列に画像が並んだ動画データを処理するため、計算量が動画の時間と画像サイズに応じて膨大になります。従って、AIの処理に高性能な計算用のサーバーが必要となり、製造現場におけるDX推進とコスト効率の良い運用の両立が難しいという課題がありました。
製造現場におけるDXを実現するには、持ち物によって意味が異なる作業をリアルタイムで詳細に区別して解析する必要があり、少ない計算量で、作業者の具体的な行動を高精度に認識できる認識技術が求められています。

本技術の特長

そこで東芝は、少ない計算量で、持ち物も加味して人物の行動を認識するために、人物の骨格の動きと1枚の画像を効率的に組み合わせることで高精度に行動を認識する「ハイブリッド行動認識AI」を開発しました（図1）。
本AIは、骨格の動きを参考に、独自のAIアルゴリズムを用いて、カメラ映像から行動認識に重要なキーフレームとなる画像を1枚だけ抽出します。具体的には、行動認識に必要となる度合いを「注目度」という指標で表し、時系列に並ぶフレームの中から、「注目度」が高いフレームを選択します。この技術により、「動画認識AI」と「骨格認識AI」の両者のデメリットを打ち消し合う「ハイブリッド行動認識AI」を実現しました。
キーフレームとなる画像のみを利用することで、少ない計算量で、骨格情報には含まれない工具や部品などのビジュアル情報をAIに取り組むことができ、骨格と画像の情報を効率的に計算する行動認識が可能となります（動画）。

図1：独自の「ハイブリッド行動認識AI」

動画：既存技術と「ハイブリッド行動認識AI」の行動認識の比較

本AIを公開データセットで評価した結果、「骨格認識AI」のみで認識する手法に比べて、道具を使う行動の認識精度が大幅に向上しました。例えば、「スマートフォンやタブレットを使用する」という行動では、本AIによって認識精度が51.6％から89.5％に向上したことを確認しました（図2）。
本AIにより、「骨格認識AI」だけでは認識できなかった行動が区別できるようになり、詳細な作業内容や所要時間を実用的な精度で解析できます。
加えて、動画のフレームをすべて処理する「動画認識AI」と比較して、本AIは4.6倍高速に処理することができるため、現場への導入が進んでいる「骨格認識AI」と同様にリアルタイムでの処理が可能です（*1）。

図2：従来技術と比較した「ハイブリッド行動認識AI」の精度改善効果