映像とセンサー情報を組み合わせて学習することにより、判別しにくい行動の認識精度を最大53%向上できることを確認

日立は、映像内の人物の一部が遮蔽されたり、動きが微小で判別しにくい行動を認識可能な、人物行動認識AI技術を開発しました。本技術では、カメラの映像情報と複数種類の身体装着センサーから得られる信号情報を組み合わせてAIにあらかじめ学習させておくことで、カメラ映像のみからでもリアルタイムに微小な行動の変化を捉え、体の一部が遮蔽されていても人物の行動を高精度に認識することができます。今回、映像のみで学習した行動認識技術と比較したところ、これまで判別が難しかった行動の認識精度を最大53%向上できることを確認しました。これにより、人混みや植え込みの陰など見通しの悪い状況での不審行動や、工場作業者と機械との接触事故など、映像認識技術によって検知できる対象を広げることができます。今後、日立は本技術を映像監視システムに適用し、人々の安心・安全の向上や工場の安全業務への支援拡大などに貢献していきます。

背景および取り組んだ課題

  • 近年、AIを活用した映像解析による人物行動認識技術が注目を集めており、公共エリアにおける不審行動の発見、工場作業者の動作解析による安全業務支援や重大リコール防止など、さまざまな分野で活用が進んでいる。
  • 従来技術では、学習時だけでなく、リアルタイムでの人物行動認識の際も、センサーを装着する必要があり、さらに、2次元の映像認識向けのニューラルネットワークに1次元のセンサー情報を取り入れることが困難だった。このため、映像のみからAIの学習を行い人物行動を認識する方式が一般で、体の一部が遮蔽された場所での行動や、動きが微小な行動を判別することが困難だった。

開発した技術

  • 複数種類のセンサー情報から自動的に学習に有効な情報を選別するアテンション学習技術
  • 異なる種類の情報を組み合わせて学習させることが可能なクロスモーダル学習技術
画像: 図1 従来技術と開発技術との違い

図1 従来技術と開発技術との違い

検証のために構築したデータセットの特長

  • 認識ニーズの高い37種類の行動が対象。
  • 遮蔽などを含むさまざまな条件下で、複数種類の身体装着および環境センサーと映像の情報を同時に取得。
  • 当該分野での大規模な行動認識と検出用データセット
画像: 図2 公開するデータセットから一部行動のサンプル画像

図2 公開するデータセットから一部行動のサンプル画像

確認した効果

  • データセットを用いて開発した技術の検証を行った結果、映像のみで学習した世界最先端の技術と比較し、金庫の開閉、転倒、重量物運搬、スマホ操作といった判別が難しい行動に対して、最大53%(従来11.12%→本技術64.51%)の精度向上を確認した。

発表する論文、学会、イベントなど

  • 本成果は、2019年10月29日から11月1日に韓国ソウルで開催された国際学会International Conference on Computer Vision 2019 (ICCV 2019)にて発表済み。

開発した技術の詳細

画像: 図3 開発したクロスモーダル認識技術の詳細

図3 開発したクロスモーダル認識技術の詳細

1. 複数種類のセンサー情報から自動的に学習に有効な情報を選別するアテンション学習技術

判別したい行動毎に、どこの身体部位のセンサー情報が認識に有利となるかは異なります。センサー情報を映像による認識の学習に反映させる際に、教師情報として無差別に学習させてしまうと、行動の認識に不利なセンサー情報も学習してしまう恐れがあります。今回、行動別に認識に有効な部位のセンサー情報を動的に選別できるアテンション構造*1を開発したことで、効果的にセンサーからの行動情報を、映像モデルの学習に利用できるようになりました。

2. 異なる種類の情報を組み合わせて学習させることが可能なクロスモーダル学習技術

本技術では、センサーと映像など異なる種類の情報を組み合わせてAIに学習させることを可能としました。本方式では、知識蒸留*2と呼ばれる、教師モデルからの情報を生徒モデルに学習させる方式を応用しています。教師モデルは、センサー情報から自動的に選別された学習情報と、映像中の行動に対する正解情報を対応づけて作成されます。生徒モデルは、映像のみから行動を識別するモデルとして作成され、入力映像に対する教師モデルの出力結果を正解情報として学習が行われます(クロスモーダル学習*3)。これによってセンサー情報を活用した、遮蔽に対し頑健で小さな行動変化に敏感な教師モデルの推論能力が生徒モデルに受け継がれます。本技術を映像監視システムに適用する場合、学習済みの学生モデルを用いることによって、センサーなしでカメラの映像のみから行動認識を行う方式でも、微小な行動変化を捉え、高精度な人物行動認識を行うことができます。

今回の研究成果では、センサーで映像を学習させましたが、逆に映像を教師として活用してセンサーのみの行動解析に利用したり、異なる画角間の映像情報を互いに利用し、画角変化にロバストな人物検知を行うなど、行動認識以外の分野へ活用することも可能と考えられます。
また、本技術のさらなる検証に向けて、今回日立が構築したセンサーと映像情報を有する大規模データセットを一般に公開しました*4。今後、本分野の研究を活性化させ、技術開発を協創できる環境を作るため、関連するイベントやワークショップを順次開催していく予定です。

*1 アテンション構造:モデルの出力に対し重要なポイントを示し、着目させるための手段。
*2 知識蒸留:あるタスクにおいて、教師モデルからの出力や中間層情報を学生モデルに効率的に学習させる手段。
*3 クロスモーダル学習:異なる情報モダリティ(例えば映像とセンサー)間の相互作用を学習させる手法。
*4 https://mmact19.github.io/2019/

照会先

株式会社日立製作所 研究開発グループ
問い合わせフォームへ

This article is a sponsored article by
''.