概要
インドでは社会のさまざまな層にスマートフォンが普及したことを受け、政府主導の「デジタル・インディア計画」の下、金融、医療、農業などの重要な公共サービスの基盤となる開かれたデジタルシステムの構築をめざしている。その実現に向けては、AIの活用が不可欠である。Hitachi India Pvt. Ltd.の研究開発部門では、特に銀行などの重要な公共サービスへのアクセスを容易にする手段として、最も基本的なコミュニケーション手段である音声の研究に取り組んでいる。
本稿では、音声を用いたファイナンシャル・インクルージョン(金融包摂)実現に向けた三つの重要なアプローチとして、音声に基づく認証、現地語の音声認識、自動話者照合機能のエッジデバイスへの実装について解説する。このうちエッジデバイスへの実装は、スマートフォンのアプリで小型の音声認識エンジンを実行可能とすることで、高レイテンシかつ、オフラインも含む狭帯域幅の状況下においても、瞬時の推論を可能にするものである。
また、インドの現地語の認識に焦点を当てたゼロからのAIモデルアーキテクチャの開発、小型化のためのニューラルネットワークモデルの適切な量子化、精度に関する課題についても述べる。最後に、音声ベースの取引では「金額」を正確に表現することがきわめて重要であることから、連続した数字の発話音声認識に焦点を当てた関連データセットの構築アプローチについても紹介する。