国立情報学研究所主催の技術コンペティションにおいて、精度93%で第一位*1を獲得

日立は、インターネット上に存在する「まとめ記事」などの要約された文書に対して、要約元の文書を検索し、要約の根拠や背景情報を高精度に特定する技術を開発しました。本技術は、国立情報学研究所が主催する政治情報を対象とした情報アクセス技術コンペティション「NTCIR-14 QALab」*2において、精度93%という高い値を達成しました。これにより、対象となる記事が事実に基づいて書かれているかの判断を支援します。今後、日立は、本技術の精度をさらに向上させるとともに、さまざまなパートナーとの協創を通じて、インターネット上の文書データの信頼性を判断できるサービスの開発をめざし、より安心で便利なインターネット社会の実現に貢献していきます。

画像: 図1 本技術の利用例。ソーシャルメディア等の発信に対して、該当する新聞記事を特定する。

図1 本技術の利用例。ソーシャルメディア等の発信に対して、該当する新聞記事を特定する。

背景および取り組んだ課題

  • インターネットの普及により、誰もが情報発信や投稿できるようになり、大量の文書データが氾濫。
  • これらの文書データには、信頼できる情報とできない情報が入り混じっており、フェイクニュースか否かの判断が困難。

開発した技術

  • 「まとめ記事」などの要約された文書に対して、要約元の文書を検索し、その根拠や背景情報を高精度に特定する技術を開発。

確認した効果

  • 国立情報学研究所主催の東京都議会の発言記録を対象とした情報アクセス技術コンペティション「NTCIR-14」の「QALab PoliInfo Segmentation」タスクにおいて、精度93%を達成し、第一位を獲得。

開発した技術の詳細

1. 発言記録を利用して話者を特定し、話者ごとに、特徴的な表現を抽出する技術

ある話者が背景を説明する時に用いる特徴的な表現などを、発言記録から抽出する技術を開発しました。質問者と回答者の関係を認識し、それに基づいて話者を特定することで、発言を話者ごとに分類することが可能になります。

画像: 1. 発言記録を利用して話者を特定し、話者ごとに、特徴的な表現を抽出する技術

2. 特徴的な表現を用いて、要約された文書から、背景、根拠となる情報を特定する技術

要約された文書から、フェイクニュースか否かを判断するための根拠、背景情報を特定する技術を開発しました。初めに発言の要約の引用元を特定し、そこに至る記述の中から根拠、背景情報を含む範囲を特定するために、話者ごとの特徴的な表現を活用します。

画像: 2. 特徴的な表現を用いて、要約された文書から、背景、根拠となる情報を特定する技術

*1 本技術コンペティションは精度(Precision)だけでなく、再現率(Recall)、F値(F-measure)でも評価される。ここでは、精度に基づく順位のみを記載している。
*2 NTCIR(https://www.nii.ac.jp/research/projects/ntcir/) は、国立情報学研究所が主催する、情報アクセス技術向上のための国際プロジェクトで、研究成果を検証、比較評価し、相互に学び合うフォーラムを形成する。14回目にあたるNTCIR-14は、QALabを含む7つのタスクで構成されている。

照会先

株式会社日立製作所 研究開発グループ
問い合わせフォームへ

掲載先

このトピックスは、以下のWebサイトに掲載されました。

2019年7月22日 マイナビニュース

This article is a sponsored article by
''.