Research

Reinforcement Learning

研究テーマ

最適な意思決定戦略の学習

チームのミッション

Reinforcement Learningチームでは、実サービスにおける成果や利益を最大化するような意思決定戦略を構築・学習できるような技術の確立を目指しています。インターネット広告を始めとした多くの実サービスでは、大量の意思決定を行うために意思決定プロセスを自動化することが行われています。このとき、売上や利益を最大化させるためには、データやモデルをもとに最適な意思決定戦略を構築、および変化させていくことが重要となります。本チームでは、強化学習やバンディット問題に関する研究に取り組むことで、意思決定戦略を自動で最適化するアルゴリズムを開発することを目指しています。特に、インターネット広告配信時にユーザに合わせた広告クリエイティブを提示する技術や、自動で対話文・広告文を生成する技術の開発を行ってまいりました。
 
 
 

プロジェクト

 

文脈情報を用いたバンディットアルゴリズム

ウェブサービスにおいては、オンライン広告配信時等に、取得するデータを適応的に決めながら最適な意思決定を行う回数を最大化することを目指す、バンディットアルゴリズムが盛んに応用されています。バンディットアルゴリズムによる意思決定を行う際、時刻・ユーザーの年齢層・ユーザーが利用しているOSなどをはじめとする文脈情報が得られる場合があり、文脈情報を利用したバンディットアルゴリズムではより質の高い意思決定を行うことが可能です。このような背景をもとに、高次元の文脈情報を用いたバンディットアルゴリズムに関する研究を行ってきました。

関連リンク:
AI Lab、機械学習分野のトップカンファレンス「ICML2022」にて論文採択 ー高次元情報を用いた逐次的な意思決定手法を提案
 
 

言語モデルの強化学習

言語モデルによる言語生成は広告文作成や記事要約、対話応答など多くのサービスを自動化し、ビジネスを加速させています。言語モデルに強化学習を用いることで、教師データに対する尤度だけでなく、クリック率や広告効果などビジネスで関心のある指標を最大化でき、また教師データから外れた文章の生成にも頑健になります。現在、自然言語処理チームなどと連携して、非マルコフ性など言語生成と強化学習の設定の違いに注目し、アルゴリズムの研究を行っています。

関連リンク:
Policy Gradient Algorithms with Monte-Carlo Tree Search for Non-Markov Decision Processes
 
 

マルチエージェント環境における意思決定戦略の学習・評価

広告オークションをはじめとする多くの実環境では、自社サービスの意思決定者以外にも複数の意思決定者が存在します。このような状況は「マルチエージェント環境」と呼ばれ、他の意思決定者が用いる意思決定戦略に合わせて適応的に自社サービスの意思決定戦略を変化させていくことが必要となります。これまで本チームではマルチエージェント環境において他の意思決定者の戦略の変化に頑強な意思決定戦略の学習・評価方法の研究に取り組んできました。

関連リンク:
AI Lab、マルチエージェント分野のトップカンファレンス「AAMAS 2021」にて論文採択 ー複数の意思決定者が存在する環境における意思決定モデルの事前評価手法を提案ー
AI Lab、機械学習分野のトップカンファレンス「UAI2022」にて主著論文採択ーマルチエージェント環境における学習を安定化させる手法を提案ー

研究領域

強化学習 / バンディット問題 / マルチエージェント学習 / オンライン学習 / ゲーム理論

所属メンバー

阿部 拳之

阿部 拳之

Kenshi Abe

研究領域: 強化学習

蟻生 開人

蟻生 開人

Kaito Ariu

研究領域: 逐次的意思決定

森村 哲郎

森村 哲郎

Tetsuro Morimura

研究領域: 強化学習

論文一覧