AI Lab、マルチエージェント分野のトップカンファレンス「AAMAS 2021」にて論文採択　ー複数の意思決定者が存在する環境における意思決定モデルの事前評価手法を提案ー |

News

2020.12.25

AI Lab、マルチエージェント分野のトップカンファレンス「AAMAS 2021」にて論文採択　ー複数の意思決定者が存在する環境における意思決定モデルの事前評価手法を提案ー

株式会社サイバーエージェント（本社：東京都渋谷区、代表取締役：藤田晋、東証一部上場：証券コード4751）は、人工知能技術の研究開発組織「AI Lab」に所属する研究員の阿部拳之および、ダイナミックリターゲティング広告DSP「Dynalyst」に所属するデータサイエンティストの金子雄祐による共著論文が、マルチエージェント分野のトップカンファレンス「AAMAS 2021」※1に採択されたことをお知らせいたします。

「AAMAS」は自律エージェントやマルチエージェントシステム分野における最難関の国際会議で、権威あるトップカンファレンスの一つです。この度当社から採択された論文は、採択が最も難しいとされる「Full Paper」（口頭発表あり）として選ばれており、2021年5月にオンラインで開催される「AAMAS 2021」において発表を予定しています。

■研究背景ー意思決定モデルの評価を行う「Off-Policy Evaluation」ー
近年様々なウェブサービスにおいて、自動で意思決定を行うモデルの構築が重要な役割を果たしており、例えばインターネット広告のオークションにおいては、サイトに来訪したユーザーの情報・広告配信の予算等を考慮して、入札額を自動で決定するという意思決定がユーザーのアクセスごとに行われています。

このような状況において、サービスにとってより良い意思決定を行うモデルを構築するためには、過去の広告配信データを用いて、意思決定モデルの質を事前に評価することが極めて重要です。
しかし、実際に入手されるデータは、過去の意思決定モデルの結果から得られており、仮に異なるモデルを使用した場合には何が起こるのかという反実仮想の結果は得られません。そのため、評価したい意思決定モデルが過去のモデルと異なる場合は、入手したデータを用いた評価が難しいという問題があります。

こうした課題を解決するため、データを用いた事前評価を行う「Off-Policy Evaluation」と呼ばれる分野が近年注目を集め、当社ではこの領域に対して研究に取り組んでおり、AAAI 2019※2やNeurIPS 2020※3といった権威ある国際学会にて発表を行うなど、積極的な学術貢献を行ってまいりました。

一方で、これまでの一般的なOff-Policy Evaluationに関する研究は、意思決定を行う主体が1つしか存在しない「シングルエージェント環境」における評価に焦点を当てており、広告オークションのように複数の意思決定主体が存在する「マルチエージェント環境」での意思決定モデルの評価が困難である、という課題があります。

このような課題に対し、本論文では、これまで「AI Lab」や「Dynalyst」で培ってきた因果推論の手法と「マルチエージェント環境における強化学習に関する知見」を合わせ、複数の意思決定主体が存在する環境における、意思決定モデルの評価を可能にした結果を示しました。
また、当社では技術者のスキルアップ支援を目的に2013年より開始された、一定の業務時間を使い技術の研究活動ができるスキルアップゼミ制度※4における研究活動が活発に行われており、本論文の手法は阿部および金子が所属する「強化学習・ゲーム理論ゼミ」※5での研究活動を元に提案されました。

■論文の概要
今回採択された共著論文「Off-Policy Exploitability-Evaluation in Two-Player Zero-Sum Markov Games」※6では、マルチエージェント環境における意思決定の事前評価手法を開発し提案しました。広告オークションをはじめとする多くの実環境では、自社サービスの意思決定モデル以外にも複数の意思決定者（他サービスの意思決定モデル）が存在します。このような状況においては、他のモデルがどのような戦略で意思決定を行うのかが不明なため、特定の相手の戦略を意識した事前評価を行うことは効果的ではありません。

▼「マルチエージェント環境における意思決定の事前評価」イメージ図

本研究では、「exploitability」と呼ばれる指標をデータを用いて予測することで、他のモデルの戦略に依存しない意思決定モデルの事前評価を可能にしました。exploitabilityとは、他のモデルが自分の利益を最小化してくるような戦略を行った場合、どの程度利益が減少するのかを表す指標です。
これにより、複数の意思決定主体が存在する環境において、他の意思決定者の戦略の変化に頑強な意思決定モデルを提供することが可能になります。

■今後
今回提案した手法は、当社で提供している広告配信プロダクトや様々なDXプロダクトにおいて、企業のブランディングや購買率の増加などを目的とした幅広いマーケティング活動への貢献が期待されます。「AI Lab」および「Dynalyst」は今後もAI技術をプロダクトに取り入れ、より品質の高い広告配信技術の実現を目指し、研究・開発に努めてまいります。

※1「AAMAS」 International Conference on Autonomous Agents and Multiagent Systems
※2 Narita, Yusuke, Yasui Shota and Yata Kohei. “Efficient Counterfactual Learning from Bandit Feedback.” AAAI. 2019
※3 Masahiro Kato, Masatoshi Uehara, and Shota Yasui. “Off-Policy Evaluation and Learning for External Validity under a Covariate Shift.” NeurIPS. 2020
※4 ゼミ制度：業務時間の一部を使い技術の研究活動を行うことができるサイバーエージェントの制度
※5 最新の強化学習・ゲーム理論に関する研究の調査・実装を行い、プロダクトへの導入/学術貢献を目指すゼミ
※6 Kenshi Abe, Yusuke Kaneko. “Off-Policy Exploitability-Evaluation in Two-Player Zero-Sum Markov Games.” AAMAS. 2021.