画像が示す意味や事柄をAIが精度よく認識するための新規な深層学習モデルの開発
日立は、画像から人の動作と物体の関係性を検出するAI(人工知能)技術において新規なアルゴリズムを開発し、世界最高の検出精度*1を達成しました。本技術の特徴は、画像内で離れた位置に存在する人と物体の特徴を表す量(以後、特徴量)や、その物体に関連する別の物体の領域を動的に選択し、その特徴量をAIが画像から抽出・集積し、それを用いて人の動きと物体の関係性を高速・高精度に検出できることです。本技術は、画像認識分野で高い水準の提案がなされる国際学会CVPR*2で発表する予定です。従来は多様な情報が含まれる画像から、人と物体の特徴量をAIが精度よく抽出できず、画像が示す意味や事柄を正確に認識することが困難でした。今後、本技術を、安心安全な社会の実現に向けた広範なサービスに適用していきます。
背景および取り組んだ課題
- 高齢化の伸展や長引く感染症の影響で、生活環境の安心・安全が世界的に重要視されている。
- 人手不足の中、デジタル技術を活用した安心・安全サービスが求められている。
- 上記サービスには、画像が示す意味や事柄をAIが精度よく認識できる技術開発が必要である。
開発した技術
画像からさまざまな物体の位置や種類を、相互の関係性に基づいて総合的に判断し、認識できる深層学習モデル(以後、物体検出器)を利用した、人の動作と物体の関係性を高精度に検出する技術
確認した効果
上記技術により、画像内の離れた位置に存在する人と物体や、その物体に関連する別の物体について、AIが総合的に特徴量を抽出・収集することが可能になり、人の動作と物体の関係性を自動で検出する技術の検出精度を競う人・物体インタラクション検出タスクにおいて世界最高精度を達成。
発表する論文、学会、イベントなど
本成果の一部を2021年6月19日から25日にかけて開催されるCVPR2021で発表予定。
開発した技術の詳細
物体検出器を利用した人の動作と物体の関係性を高精度に検出する技術
AIが画像から人の動作と物体の関係性を検出するためには、多様な情報が含まれる画像データから、人と、関連する物体の特徴量を精度よく抽出することが必要です。日立は、膨大な画像から候補者を高速で検索できるAI技術開発の長年の実績に基づき、画像からさまざまな物体の位置や種類を、相互の関係性に基づき総合的に判断し、認識できる深層学習モデル(物体検出器)を利用することが、人と物体の特徴量の抽出に有効と判断しました。そこで、このような物体検出器の公開された技術をベースに、近くに存在する人と物体の特徴量(従来方法)に加え、離れた位置に存在する人と物体の特徴量や、その物体に関連する別の物体の特徴量をAIが高速で抽出できる深層学習モデルを構築しました。本技術を用いれば、例えば人がバスケットボールをシュートする画像の意味をAIが問われた場合、図1に示すように、人のシュート動作だけでなく、ボールやバスケットゴールも考慮することで、精度よく推定することができます。
本技術を用いることで、人の動作と物体の関係性を検出する技術の検出精度を競うために用意されたベンチマークデータセットHICO-DETにおいて検出精度29.9%と、従来の世界水準より約2割高い値が得られました。また図2に示すように、同じくベンチマークデータセットとして用意されたV-COCOにおいて検出精度58.8%と、世界最高の精度を達成しました(2021/4/7時点)。
今回開発した画像認識技術は今後、防犯など生活環境の安心・安全サービスだけでなく、マーケティング分析や、スポーツ鑑賞など広範な分野で活用されることが期待されます。
日立では、社会イノベーション事業におけるAI倫理原則*3に沿った研究開発を進めており、本技術も、開発や社会実装に内在する倫理的なリスクを考慮して開発されました。
*1 V-COCOデータセットを用いた認識精度58.8% (2021/4/7時点、Paper With Code上で世界一)
*2 CVPR:正式名称はThe Conference on Computer Vision and Pattern Recognition。IEEEにより毎年開催されるコンピュータービジョンの
トップカンファレンスであり、コンピュータサイエンスの国際学会で最も影響力のある学会の一つ。2019年は9,227名が参加。投稿した論文は
arXiv上で公開されており、実装したコードはGithub上に公開される。
*3 社会イノベーション事業における「AI倫理原則」を策定(2021年2月22日)
照会先
株式会社日立製作所 研究開発グループ
問い合わせフォームへ