米国国⽴標準技術研究所主催の映像検索技術評価”TRECVID”でトップレベルの評価を獲得
2021-02-19 国立情報学研究所
災害地域における低空撮影映像の実例ⅰ(列左より瓦礫、洪水、損壊の各例)
大学共同利用機関法人 情報・システム研究機構 国立情報学研究所(NIIエヌアイアイ、所長:喜連川 優、東京都千代田区)、国立研究開発法人情報通信研究機構(NICT、理事長: 徳田 英幸、東京都小金井市)は、株式会社日立製作所(執行役社長兼CEO:東原 敏昭)と共同で、米国国立標準技術研究所(NIST)主催の映像検索分野の技術的評価として国際的な研究会であるTRECVIDⅱに参加し、災害関連の映像識別を目的とするDSDIⅲタスクに取り組み、トップレベルの識別精度を達成したことをお知らせいたします。
広域災害が発生した際、速やかに被害発生地域やその状況を把握することは災害対応の観点から年々重要となっており、内閣府総合科学技術・イノベーション会議による国家プロジェクトである戦略的イノベーション創造プログラム(SIP)の研究内容ⅳとしても取り上げられています。
DSDIタスクでは画像解析技術を駆使し、低空から地上を空撮した映像中にどのような類いの災害被害(=災害カテゴリ)が捉えられているかを機械的に識別しようとする課題で構成されています。今回は深層学習ⅴ手法を用い、特にラベルエンコーディングⅵやクラスインバランス学習ⅶ、自動機械学習ⅷ、モデルアンサンブルⅸといったテクニックを組み合わせ、非常に優れた識別精度であることを示す評価結果ⅹを獲得いたしました。
本技術の発展により、将来的にはドローンやヘリコプターなどによって広範囲で撮影・収集される映像から被災地域を自動解析することで、目視による情報収集の支援が可能となり大幅な省力化や迅速化が期待できます。よって災害対応時の貴重な人的資源を極力割くことなく、有益な情報源として空撮映像を活用できるようになるものと考えられます。
本成果は2020年12月8日から11日にかけて、オンラインで開催されたTRECVID 2020 Workshop にて発表済みです。また、本技術の詳細は 2021年3月にNotebook Paperとして一般公開される予定ⅺです。
- ⅰ LADIデータセットより引用
https://github.com/LADI-Dataset/ladi-overview
J. Liu, D. Strohschein, S. Samsi and A. Weinert, “Large Scale Organization and Inference of an Imagery Dataset for Public Safety,” 2019 IEEE High Performance Extreme Computing Conference (HPEC), Waltham, MA, USA, 2019, pp. 1-6. - ⅱ TRECVIDは2001年から毎年開催されている映像検索技術の各種評価を目的とした国際的な研究会https://trecvid.nist.gov/
- ⅲ DSDIはTRECVIDの一課題として今回(2020年)より新設され、32種の災害カテゴリ(例: 浸水、地滑り、瓦礫等)毎に、与えられた災害地域の実空撮映像データ群から各災害カテゴリに該当する事象が映っている確率が高い順に上位1000種の映像を選び出して並べ、正解順位にどれほど似ているかによって評価されるものhttps://www-nlpir.nist.gov/projects/tv2020/dsdi.html
- ⅳ 戦略的イノベーション創造プログラム「国家レジリエンス(防災・減災)の強化」https://www8.cao.go.jp/cstp/gaiyo/sip/keikaku2/9_resilence.pdf
- ⅴ 深層学習
ディープラーニングとも呼ばれる機械学習の一手法であり、神経細胞同士のふるまいを模した多層のニューラルネットをコンピュータ上に作って大量のデータを学習させることで、入力データの特徴を自律的に捉えて規則性やパターンといった知識を発見し、識別や予測に役立つ数理モデルを自動的に獲得する技術 - ⅵ ラベルエンコーディング
今回のDSDIタスクのように、浸水や瓦礫といった複数の災害事象が1枚の画像に同時に映り込んだ状態を学習データとする多ラベル課題(このラベルは災害カテゴリに相当)かつ、学習データの画像に付されている正解ラベルの一部に誤りや欠損を含むことを前提にその影響を抑えるための処理 - ⅶ クラスインバランス学習
機械学習では識別対象となる複数の属性(クラス)間で学習データ数が極端に異なる不均衡状態(インバランス)にあるとき、学習サンプルの少ない属性でうまく学習できないなど問題が生じるが、そのようなケースで精度よく学習結果を得るための手法 - ⅷ 自動機械学習
深層学習を始める前に時間を要する試行錯誤や、知識と経験に基づいてあらかじめ人が決めておかねばならなかったニューラルネット自体の構成や挙動等を、学習データを用いて探索し最適となるよう自動で決定する学習手法 - ⅸ モデルアンサンブル
性能を向上させるために複数の異なる構造の深層学習モデルを組み合わせて用いるもので、精度を競うコンペティション(大会)でよく用いられる手法 - ⅹ 主催者提供のデータセットのみを学習に用いた参加チーム中の評価結果であり、詳細および他チームとの比較については下記英語版資料に記載(主催者規定により本稿に直接記載できないが、資料19ページ左の図中に“L_VAS_2”として示されている評価値 mAPが今回の三者共同で達成した評価結果に相当)
https://www-nlpir.nist.gov/projects/tvpubs/tv20.slides/tv20.dsdi.slides.pdf - ⅺ 次のwebサイトで技術的詳細を公開予定
2020 TREC Video Retrieval Evaluation Notebook Papers and Slides