画像内のパターンや質感あるいは詳細な構造が重要な領域に応じて圧縮・伸長処理を最適化

画像: 図1　同程度のデータ量に圧縮した場合の画像比較 (画像は384 x 384画素) — 図1　同程度のデータ量に圧縮した場合の画像比較 (画像は384 x 384画素)

日立は、日々生成され続ける膨大な画像データの効率的な活用をめざし、画像内の領域に応じて圧縮・伸長処理を最適化する深層学習ベースの画像圧縮技術を開発しました。本技術では、単純な画素値*1の誤差量で表現される画質の指標ではなく、人が視覚的に評価する画質*2(以下、視覚的画質)への特化を狙い、画像内のパターンや質感が重要な領域と、詳細な構造が重要な領域に応じて、圧縮・伸長処理を最適化します。本技術を用い、極めて少ないデータ量*3の条件下で競う画像圧縮コンテストにおいて、トップレベルの視覚的画質を実現していることを確認しました。今後、日立は協創などを通じて研究を加速し、大量データを活用するIoTソリューションへの応用を検討していきます。また、COVID-19がもたらす社会の変化に対しても、各種作業の遠隔化や自動化などのニーズを把握し、本技術の応用を検討していきます。

背景および取り組んだ課題

IoTの普及により、世界規模でデータ量が爆発的に増加する中、膨大なデータ通信・格納を効率的に行うため、データ量を削減する圧縮技術などが重要視されると考えられる。
従来の一般的な画像圧縮技術では、極めて少ないデータ量の条件下で圧縮した場合、視覚的画質が大幅に低下してしまうという問題があった。

開発した技術

画像内の領域に応じて圧縮・伸長処理を最適化し、伸張処理を領域ごとに自動で選択するSelective Detail Decoding技術

確認した効果

本技術により、極めて少ないデータ量*3の条件下で圧縮した画像データについて、国際学会(CVPR Workshop CLIC 2020)で23チーム*4が参加したコンテスト(Low-rate Track)において人により視覚的に評価する画質で競った結果、第3位に入賞した。

発表する論文、学会、イベントなど

本成果は、2020年6月14日に開催された国際会議The Conference on Computer Vision and Pattern Recognition (CVPR)の併設ワークショップWorkshop and Challenge on Learned Image Compression (CLIC) 2020にて発表済。

謝辞

本成果は東京大学大学院情報理工学系研究科電子情報学専攻相澤研究室との共同研究の結果得られたものです。
本成果は産業技術総合研究所のAI橋渡しクラウド(ABCI)を利用し得られたものです。

開発した技術の詳細

画像は、視覚的画質への特化を狙う上で、例えば花や草木のように一枚一枚の葉の詳細な構造は重要でないがテクスチャ(パターンや質感など)が重要な画像内の領域のほか、一部、小さな文字など詳細な構造が重要な画像内の領域が存在すると考えられます。このことから、前者の領域は、テクスチャを再現するための情報を優先し詳細な構造の情報を削ることで全体の情報量を削減でき、また後者の領域は、詳細な構造の情報を保持するが対象の領域を一部に限定することで全体の情報量を削減できると考えられます。今回、この点に着目し、画像内の領域に応じて圧縮・伸長処理を最適化し、伸張処理を領域ごとに自動で選択するSelective Detail Decoding技術を開発しました。本技術では、データの圧縮器および伸張器を、多数の層からなるディープニューラルネットワークで構成し、最終的な出力画像について領域ごとにそれぞれ重視する情報を優先して残すようにEnd-to-end*5で学習します。本技術を用い、極めて少ないデータ量*3の条件下で競う画像圧縮コンテストにおいて、トップレベルの視覚的画質を実現していることを確認しました。

画像: 図2　Selective Detail Decoding技術を適用した画像圧縮技術の概念 — 図2　Selective Detail Decoding技術を適用した画像圧縮技術の概念

*1　画素値：画像を構成する最小単位である画素の色の濃淡や明るさを表す値。
*2　Perceptual image quality に対応する日本語として記載している。
*3　CLIC 2020 Low-rate trackで提供されたテスト画像データセット全体に対し、圧縮後のデータ量を1画素あたり平均0.15ビット以下とすることが応募条件のため、今回は当該条件に基づき、実験および応募を行った。
*4　CLIC 2020 Low-rate trackのtest phaseへの投稿チーム数。
*5　End-to-end：ディープニューラルネットワークにより圧縮器と伸張器を実装し、それらを全体で最適化する学習の戦略。