さまざまなプラントでの応用可能性にとどまらない「特性と目的を分離した学習」が実現する循環型社会への貢献

2024-05-15

研究の現場から AI＆データサイエンス制御＆メカトロニクス産業電力＆エネルギーサステナビリティサイバーフィジカルシステム

ごみ発電プラントでは高温高圧化による効率化が進んでいますが、従来のプラント制御における代表的な制御手法であるPID 制御では制御パラメータのミスマッチが生じやすい、つまりごみ質の変動と応答の遅い蒸気温度制御が適切なフィードバック制御を阻むという課題がありました。株式会社日立製作所（以下、日立）はこの課題を解決するため、実プラントでの試行錯誤運転を不要とし、過去の運転データから「プロセスの振る舞い」だけを分離して学習させ、モデル化する新しいAI学習・制御手法を開発しました。開発手法は強化学習と同じ理論的枠組みに基づいてはいますが、学習と制御が分離されているので、実制御の開始前に既存データから学習が可能という特徴があるため、必ずしもごみ発電プラントに限らず、さまざまなプラントでの応用が期待されています。この技術の真髄を研究開発グループの吉田卓弥主任研究員と徳田勇也研究員に聞きました。

環境とロボット、異なる学問の世界から日立へ

吉田：大学では衛生工学を学びました。現在では環境工学と呼びますが、ごみ処理や上下水道処理、排ガス処理、大気や水や土壌の汚染のメカニズム解明などを対象とする研究分野です。環境劣化による不幸をなくしたいという想いから選んだ道でしたが、最近は随分脚光も浴びることも増えました。

画像: 吉田卓弥（YOSHIDA Takuya）主任研究員 — 吉田卓弥（YOSHIDA Takuya）主任研究員

就職活動でいろいろな企業を見学したとき、日立だけは他にない面白さがありそう、と感じました。先輩にただ従うのでなく、自由に研究できそうで、新しいことをやらせてもらえそうな雰囲気があったんです。そもそもメーカーに入ろうと思ったのは、ごみ問題を勉強する中で、「頑張ってごみ処理をしても大量生産・大量廃棄の根本問題は解決しない。物を作る上流側に行って、そっち側から環境を良くする仕事をしよう」と考えたからです。日立では当時、それまで世の中になかった家電品のリサイクルシステムを作るという研究を立ち上げたところで、これに携わらせてくれるということで入社し、7年ほど研究に従事しました。要素技術開発に始まって、システム全体の解析と評価まで担当し、製品化まで一貫して関わることができたので、面白かったですね。日立には「新しい分野はどんどん若手に任せよう」という風土があるように思います。

画像: 徳田勇也（TOKUDA Yuya）研究員 — 徳田勇也（TOKUDA Yuya）研究員

徳田：私は大学ではロボット制御の研究をしていました。四足制御の足先に車輪がついたロボットで、障害物を車輪走行しながら避けるものです。機械学習で自動的に障害物を避けるアルゴリズムを開発しました。大学2年まではパイロットになるか研究者になるか本気で迷っていたのですが、最終的には、日立のようなダイナミズムがある会社でのものづくりの方が面白そうと判断し、研究者の道を選びました。決め手になったのは日立がプラントを強化学習で動かす研究をしていると聞いたことですね。「それならやってもいいな」と思ったんです（笑）。プラントは一切関わったことがありませんでしたが、そこは勉強すればなんとかなるだろうと気楽に考えていました。ディープラーニングが流行る前でしたから、AIに対する期待も今ほど大きくなかったような気がします。

人工知能の記憶の研究とプラントの研究の出会い

吉田：入社後、家電リサイクルの研究を通じて、実際に実証プラントや商用プラントを作ることになりました。これがプラントとの出会いです。その後、エネルギーシステムの研究に移行し、今度は火力発電プラントの運転方法を決めるために、ボイラや蒸気タービンの物理現象を微分方程式でモデル化してシミュレーションする研究に取り組むようになりました。自分でモデルを作って計算して結果を分析すると、現象の仕組みが直観的にわかるようになり、数値的な肌感覚も育ってきます。その面白さに目覚め、気づけばこれが二つ目の専門になっていました。そして、火力発電プラントを最短時間でスタートさせる研究が立ち上がり、ここにAI 技術を導入し、最速な起動方法をコンピュータで自動生成させたい、そんなことを設計部と議論していたタイミングに、徳田さんがちょうど入社してくれました。

徳田：大学院のAIの講義で、その時点でAIにできないこととして「記憶」があると教わりました。記憶なんて、保存すればいいのでは？と思っていたのですが、実際にはAIは知識を記録できていないのですね。この時、強化学習系列の研究を深掘りしていくことで、限定的な範囲であれば知識保存ができるかもしれないという仮説が私の中に浮上してきました。プラントは、いわば現場知の塊ですから、ロボットよりもリアリティがあって実にエキサイティングです。

吉田：火力発電所など大きなプラントは、高速に起動させたいのですが、いきなり火を入れるとトラブルの原因になります。構造体各部の伝熱に急激な偏りが生じることにより、熱応力が大きくなって材料寿命が短くなったり、蒸気タービンの内部で回転しているロータが、外側を囲んでいるケーシングよりも先に熱くなるために熱膨張量に差が生じ、これらが接触して損傷する危険性が増えたりします。

徳田：そのため、上手に起動する必要があるんです。熱の入れ方によってロータとケーシングが接触しないか、伝熱と熱膨張のシミュレーションモデルを作って計算させるのが吉田さん、そして同じグループの研究メンバーがさらにブレードにかかる熱応力と寿命への影響をシミュレーションして、そこからAIで最適化するのが私の仕事です。

吉田：プラント起動のベストな方法を、強化学習で導き出す研究をしている、と考えていただければわかりやすいでしょうか。2年ほどかけて一緒に開発し、起動パターンができました。そのグラフを設計部に持っていったら、「人間には考えつかない起動パターンだ」と言われました。多分褒められたんだと思います（笑）。これが徳田さんと組んだ最初の成功体験でした。

徳田：2年目で作った技術は現在でも使われています。商用プラントにおける発電までの起動時間は随分短くなったと自負しています。

目的と特性を分離し、プロセス（状態遷移）自体に内在する性質を学習させる

吉田：その後しばらくして、徳田さんには、将来必要な技術を見越して研究する制度を利用して好きなテーマに没頭してもらう期間を設けました。その時に徳田さんが作ったアルゴリズムが、ごみ焼却施設のプラント制御システムで使われたAIです。目安とした最初の半年が3カ月ほど経過した頃、徳田さんが「できた！」と言ってきました。「随分早くできたな」と驚きましたが、よく聞くとこれは大きな構想の一部に過ぎないと（笑）。できた部分の使い道を考えていたところに、ごみ焼却発電プラントをAIで制御できないかという相談が事業部門から聞こえてきたので、迷わず手を上げました。

徳田：作ったアルゴリズムは、知識保存の一つで、強化学習の記憶を保存するものです。現在の、一般的なAIは、学習したモデルに「目的」と「特性」が一緒に集まっています。何かを識別するなどの目的と、そのための状況がまとめて学習されパッケージングされている。これだと異なる目的や変化した状況に対応するためには、再度学習し直さないといけない。そこで、知識の根拠になる特性と目的とを分離しようとしてアルゴリズムを開発しました。汎用的な特性を保存するために、目的を分離していくとどのような要素が保持できるのか。何の要素を保持すれば、異なる目的でも後で使い回せるのかを研究していきました。

吉田：現在の機械学習は、基本形としては特定の目的に向けて学習します。徳田さんは、目的と特性は分離できるはずで、そうすべきだと考えていました。何をしたいのかという目的と別に、プロセス自体の振る舞いや性質を学習しよう、そうしたらいろいろ組み合わせて別のシステムにも再利用できるはずだ、という考え方です。

徳田：そうした仮説の下で、もっともシンプルなアルゴリズムを作りました。このアルゴリズムをより汎用化したものを私たちは「メタモデル」と呼んでいます。プラントへの応用であれば、温度や湿度、化学反応、電磁気的特性なども全部ひっくるめて特性を保存しておいて、後から目的に応じて使えるようにするのが１つの究極の姿です。もちろん簡単ではありませんが、目の前にあるプラントの向こうにある物理現象そのものをメタモデルのAIで捉えたいです。

過去の状態を特性として記憶したAIでごみ焼却施設を制御

徳田：ごみ焼却施設では、焼却時に出る熱（極めて高温の燃焼ガス）を再利用して発電するごみ焼却発電が行われていることが多いです。あまり知られていないのかもしれませんが、こういうごみ焼却施設はごみを焼却するだけでなく、発電プラントとしての側面も強く持ち、売電によって収益を得ています。効率よく発電するためには、焼却時に出る熱で作る蒸気の温度を高くしたいのですが、一方で燃やしているものがごみなので塩素が混じっているために一定の温度を超えると熱交換器の配管を劣化させてしまいます。双方のバランスが適正になる温度に設定する必要があります。

ここで問題になるのが「ごみは均質でない」ということです。つまり燃焼の状況は均一にはできないということを前提とした上で、燃焼の熱で作る蒸気温度を一定に制御する仕組みが必要になるのです。実際には蒸気に水を吹き込んで温度調整をするのですが、従来の技術では高精度に安定させることが難しかったのです。ここでは制御工学におけるフィードバック制御の1つであるPID制御（Proportional-Integral-Differential Control：出力値と目標値との偏差、積分値、微分値の3要素を元に入力値の制御を行う方法）が用いられることが多いのですが、センサーで検知した蒸気温度の変化をみてから蒸気に水を吹き込むのでは制御動作にどうしても遅れが生じてしまいます。実際に冷却が効き始めるころには、上流で燃焼しているごみの状況が変わっているので、一定の温度に保ちにくいという宿命があったわけです。

吉田：また、ごみ発電に限らず、大きなプラントの運転と制御の方法は、実機やシミュレータで試験しながらさまざまな要素を調整して構築されています。制御について言うと、従来のPID制御では、実機を試運転しながら専門家がノウハウを駆使して各種の制御パラメータを調整します。これに対し、強化学習のようなAIでプラントを制御したいとなった場合、AIが最適な動作を学習するためにプラントの運転を何度も試行錯誤的に繰り返す必要が生じます。正解を知るために、周囲の大量の不正解も試してつぶしておく必要があるためです。しかし、実際のプラントでこのような試行錯誤運転を延々繰り返すことは、安全上の観点からも認められません。そこで、代案としてシミュレータを作ろうとすると、今度はその専門家が少なく時間と労力がかかるという問題がありました。このような目的のシミュレータは、実機の過渡現象を高精度に再現できないといけないため、私たちのような専門家が半年から時には数年がかりで取り組んで構築するようなものになることが多いのです。

徳田：私が作ったアルゴリズムの特徴は、強化学習では一般的な数百万回といった試行錯誤による学習を「させない」ことにあります。実際のプラントで試行錯誤させて学習する代わりに、過去のデータから得た状態遷移のパターンを数学的方法で処理して、あらゆる状態遷移の連鎖パターンを網羅した特性モデルとして学習させます。こうして学習した時点では、プラントをどのように制御したいかという目的関数を含まず、プラントの状態遷移の特性だけが記憶されます。このようにして目的と特性が分離できるのです。

また、このアルゴリズムは、目標値に向けた制御を実行するときには目的関数を掛け算するだけで良いという仕組みになっています。ここもミソです。つまり、プラントの特性を学習するという機能と、実際にプラントを制御するという機能が別々に分離されています。このように機能が分離されていることにより、制御中に異なる目標の制御に切り替えることも可能となります。ごみ焼却発電施設では、過去の状態遷移パターンを本方式で学習しておき、プラントの状態に応じて最適な状態に向かうよう制御する形でAIアルゴリズムを適用しました。

地道な改良でごみ焼却施設の制御にAIを適用

吉田：実証は、神奈川県秦野市のはだのクリーンセンター様で行いました。日立の技術を使って、日立造船様と、日立ハイテクソリューションズとで実施したものです。はだのクリーンセンターでは蒸気の設定温度を400度にしていて、安定した温度への制御が求められました。

半年間シミュレータを使って事前評価をして、1年間の準備期間を経てから、満を持して2019年3月に現地の試験を開始しました。ところが、実際には思ったように動きませんでした。プラントの巨大な制御系のなかに、当初想定していなかった複雑な相互作用が存在し、大きく状況が異なったのです。「動く椅子に座っている」かのような不安定さがありました。温度を下げる制御のために少し水を吹き込むと、その影響が5分、10分、30分という具合に、時間の経過とともに大きな変化になって現れてしまうようなことも起こり、なかなか安定させることができませんでした。

徳田：この影響はまずAIで吸収しようとしましたが、このときのAIだけではどうしても抑え込めないことがわかりました。現象と制御のタイミングが大幅にずれているため、もしAIだけで制御しようとしたら扱う入力信号数がとんでもなく増えてしいます。そうなると学習すべき空間が広くなるので学習データが足りず、計算時間も膨大になってしまうのです。

吉田：そこでAIに前処理と後処理の機能を組み込んで対応することにしました。これには2年ぐらいかけて、対応していきました。前処理として、学習して作ったAIに対して、必要な情報を予測するようなアルゴリズムを付け加えました。AIは、入力として今の情報だけではなくて、もう少し先の情報も欲しいわけですね。5分、10分、30分後に現れる影響が知りたいからです。そこで、先の情報を予測するアルゴリズムを作りました。後処理としては、AIの想定と実際のプラントの挙動が異なったときに行動を補正するようなアルゴリズムも作りました。こうした機能を組み込むことで、AIの本来の性能を引き出せるようにしていきました。

はだのクリーンセンターでは90日の長期連続運転を行い、目標値である400度の蒸気温度に対する実際の温度の変動幅を抑え込みながら、平均温度も設定値に近づける効果が得られました。温度を下振れせずに安定させることによって、発電効率も向上させたことになります。

特性と目的を分離した学習により、汎用的な特性の情報が集約可能になり、プラント以外への応用可能性が広がる

徳田：ごみ焼却施設で有効性が確認されたAIアルゴリズムは、対象プロセスの特性を制御目的と切り離して学習できるため、さまざまな制御目的をもつ化学プラントに対しても使えるのではないかと考えています。従来のPID制御は安定感はあるのですが、常に高い性能を求めればパラメータのチューニングを永遠にし続けなければなりません。今回開発したAIアルゴリズムならば、プラントの特性の変化に追従するチューニングが自動化できますし、パラメータを増やせば高度で繊細な制御もできます。

吉田：プラントなどにPID制御が入っていて「頑健だけどかゆいところに手が届かない」と感じているお客様も少なくないと聞いています。今回開発した学習技術に基づく制御AIは、プロセスオートメーション（PA）の観点から、化学プラントや食品メーカーなどへの導入を事業部門と検討しています。事業部門である日立ハイテクソリューションズでは、すでに今回の開発技術をリアルタイムAIプラント制御システム「RL-Prophet®（アールエルプロフェット）」として製品化しています。

徳田：特性と目的を分離できるAIアルゴリズムなので、何を学習しているかの説明性が高く、ブラックボックスではない制御ができることからプラントとの相性がいいと感じています。

とはいえ、用途はプラントに限りません。対象物の特性を利用目的から切り離し、そのふるまいだけを保存するというメタモデルの思想は、例えば、対象設備の形状情報を入力したらシミュレータから制御器まで作り上げる、ということまで射程に入っています。これが可能になると、ある設備に対して、はじめの設計段階から運転開始後の現場作業の段階まで、常に一貫して参照することができるプラントのデジタルツインが実現できます。これまでは、制御は制御、設計は設計で知識が別々で情報システム上にばらばらに存在しました。さらに、プラントの特性も運転にともなって経年変化しますし、保守や修理・改造によってもさらに変化します。こういったライフサイクルに沿った設備や特性の変化の知識も集約されることなくばらばらに存在しています。しかし、今回開発したAIによって特性についての知識を1カ所に集められるようになると、汎用的な特性の情報が集約できます。製造から保守まで一貫して使えるモデルが作れると思いますし、将来的には大規模な事象の全体最適化にもつながるでしょう。こういった知識の売買や共用化ができるようになったらいいと考えています。

吉田：プラントの現場には、現在の科学技術で数式化されず、言葉ですら知られてなくても、出来事の背景にメタモデル的な摂理を感じさせる事象がたくさんあります。まだ説明できていなくても、現象が起こっているようなことです。そうした現象も、今回開発した学習手法の根底にある知識の分離という考え方で、読み解いていくことができる未来があると感じています。加えて「ごみを捨てるのは本質的にごみの移動に過ぎない。その先の多くはこれまで焼却が引き受けている。では今後どうすればごみは本当に資源として循環するのか？そもそも物を作るメーカーはどうあればいいのか？」というように、全てのモノを大切に利用していく本当の循環型社会に対する考え方も併行して深めていきたいと思いますね。

画像1: 特性と目的を分離した学習により、汎用的な特性の情報が集約可能になり、プラント以外への応用可能性が広がる

吉田卓弥（YOSHIDA Takuya）主任研究員

日立製作所研究開発グループサステナビリティ研究統括本部
コネクティブオートメーションイノベーションセンタAI 制御研究部

新しいものを作り出す人の企業内での行動を読み解く

「シリアル・イノベーター『非シリコンバレー型』イノベーションの流儀」（アビー・グリフィン、レイモンド・L・プライス、ブルース・A・ボジャック著、東方雅美訳、プレジデント社）を紹介します。大企業で何度も革新的なものを作って事業的に成功させた人、すなわちシリアル・イノベーターがどのような行動を採っているかを書いている本です。普通の企業ではアイデア出しと技術開発、事業化、製品実装などは別々の人が担いますが、シリアル・イノベーターはそれらすべてに主体的に関わります。彼らのアイデアは根本的に新しいため、突飛なものと思われがちです。最初は誰も理解しない、そういう新しいものを大組織で成功裏に事業化させたとき、彼らと所属組織が実際どのような道筋を辿っているか、驚くような数々の真実が明らかにされています。

画像2: 特性と目的を分離した学習により、汎用的な特性の情報が集約可能になり、プラント以外への応用可能性が広がる

徳田勇也（TOKUDA Yuya）研究員

日立製作所研究開発グループサステナビリティ研究統括本部
コネクティブオートメーションイノベーションセンタAI 制御研究部

強化学習を学ぶで最も頼りになった一冊

大学時代、強化学習を勉強するときに使っていた「強化学習」（Richard S. Sutton、 Andrew G. Barto著、三上貞芳訳、森北出版）が今でもバイブルです。翻訳が難しく、厳密に書かれていることもあり、最初は何を言っているのかわからないほどでした。それでも当時は頼りにして、ずっと読み直していた思い出の本です。実装経験後に読んでも、学習の成り立ちを知ったり、理論を深めたりできて面白く感じられます。その後、原書も手に入れて使い倒している実用的なバイブルです。

2024-05-15

hitachi-rd_ @ 研究開発

研究の現場から AI＆データサイエンス制御＆メカトロニクス産業電力＆エネルギーサステナビリティサイバーフィジカルシステム