Blog

【論文紹介】offline強化学習におけるハイパーパラメータ選択


AI Labの野村 @nomuramasahir0 です.

本稿では,DeepMindから公開された論文 Hyperparameter Selection for Offline Reinforcement Learning について紹介したいと思います.

 

こちらの論文では,offline環境における強化学習のハイパーパラメータ選択について幅広い実験を行った上で,以下の考察をしています.

  • offline強化学習 (RL) はハイパーパラメータの選択に対してロバストでない
  • offline RL手法やQ valueの推定方法は (最終的な) ハイパーパラメータの選択に大きく影響を与える
  • これらの要因を適切にコントロールすることが適切なハイパーパラメータ選択を行うためには重要

以下では,offline RLと,これらの考察に使われた実験について説明を行います.本稿に登場する図は全て論文からの引用になります.

offline RLとoffline policy evaluation (OPE)

一般的な強化学習では環境とのインタラクションによってあるpolicyに対する学習を行う一方で,そのようなインタラクションを行うことが難しい場合が実用上存在します.例えば自動運転を行うためのpolicyを学習するケースを考えます.そのpolicyの性能が非常に悪い可能性があることを踏まえると,新たなpolicyを作る度に実際の環境でそのpolicyを用いて実験することは現実的ではありません.このとき,すでにあるデータのみから,新たなpolicyの学習ができると嬉しいです.offline RLではこのような状況を対象としています.

また,offline policy evaluation (OPE) は,このようなすでに得られているofflineのデータのみから (そのofflineのデータを生成したpolicyとは限らない) あるpolicyの評価を行うことを目的とする分野であり,近年盛んに研究されています.

 

offline hyperparameter selection (OHS) とOPEの違い

ここで注意点としては,論文の主題は (あるpolicyの良さについて定量的に評価を行う) OPEではなく, いくつかのハイパーパラメータの中で最も良いハイパーパラメータを選択する問題,offline hyperparameter selection (OHS) であるということです.OHSとOPEは似ている問題ではありますが,目的に違いがあります.この違いを説明するために,以下の図 (論文Fig. 2) を用います.

各緑点は各ハイパーパラメータに対するpolicyの評価値(例えばvalue function)についての実際の値 (Value) と推定値 (Estimate) を表しているとし,上図のように分布していた場合を考えます (ここでは最大化が目的であるとします).このとき,OPEでは,中央や右の図のような推定は誤差が大きく,”悪い推定”となりますが,OHSでは,この場合の推定は結果的に良好なpolicyが選択されるため,”良い推定”となります.推定の値自体のズレを考えるOPEと比較して,OHSではランキングのみを考慮する問題になります.

 

OHSとハイパーパラメータ最適化 (HPO) との違い

OHSはすでに存在するいくつかのハイパーパラメータについてどれがbestかを推定するという点において,ハイパーパラメータ最適化 (HPO) と異なります.HPOでは,”どのハイパーパラメータを選択すべきか”という探索的な操作も含みますが,OHSではすでにハイパーパラメータの候補は存在すると仮定します.実際に,論文内ではGrid化したハイパーパラメータを事前にfixしています (つまり,ハイパーパラメータ自体は最適化などによって得られたものを使用しているわけではありません) .

OHSの流れ

  1. いくつかの異なるハイパーパラメータを用いて,offline RL policyを訓練する
  2. それぞれのpolicyについて,そのpolicyの性能を代表するような統計量 (論文ではcritic, つまりestimated value function) を”offline dataのみから”計算する
  3. onlineで評価するハイパラを選ぶために,step 2.の統計量の結果からtop k best policyをpickする

上記がOHSの大枠になります.ここで,step 2.のcriticの計算方法として以下の2種類を用いています.

  • ORL: offlineでの訓練によって得られたcriticを単に使用する.もしcriticを用いない手法であれば (訓練に影響を与えないよう) criticを追加する.
  • OPE: OPE手法の1つであるFitted Q Evaluation [1]を用いて評価する.

 

実験

タスク

実環境における設定と近づけるため,高次元の行動空間,状態空間,long time horizonを持つタスクについて実験を行っています.具体的には,以下の3つのタスクを実験に用いています.

  • DM Control Suite [2]
  • Manipulation tasks [3]
  • DM Locomotion [4]

offline RL手法

以下の3つの手法を用いています.

  • Behavior Cloning (BC) [5]: behavior data (offline data) にmatchすることをpolicyのobjectiveとして学習を行います.
  • Critic Regularized Regression (CRR) [6]: BC同様にbehavior dataにmatchすることがpolicyのobjectiveの手法です.
  • Distributed Distributional Deep Deterministic Policy Gradient (D4PG) [7]: criticを直接最適化することがpolicyのobjectiveです.よって,BCやCRRと違い,behavior policy (データを集めるときに使用したpolicy) に近づけるような正則化的な操作は入っていません.

ハイパーパラメータの設定

モデルのアーキテクチャ,最適化手法,損失関数に関係するハイパーパラメータ (具体的には,hidden size, num blocks, learning rate, learner steps, algorithms, beta (for CRR)) を対象として,タスクごとに256のpolicy (64 BC, 128 CRR, 64 D4PG) を訓練しています.

上記が各offline RL手法についての,Actual valueと推定値のplot結果です.赤がBC,緑がCRR,青がD4PGの結果になります.まずcriticの計算にORLを用いた場合 (上段) の結果についてですが,全体的にoverestimateしていることが観測できます.特に,(behavior policyに近づける操作の入っていない) D4PGでこの現象が顕著となっています.それに対してOPEを用いた場合 (下段) は,このoverestimateがかなり抑えられています.しかし,DM Locomotion taskなどでは依然としてoverestimateの現象が残っています.この結果から,現状はOPEによって評価を行うことがORLよりも良さそうです.

 

こちらが,Regret@5を指標とした場合の実験結果になります.ここでRegret@kとは,全体におけるbestなpolicyのActual valueと,推定値を用いて選択されたtop kにおけるbestなpolicyのActual valueの差で定義される指標になります.言い換えると,Regret@kは「もし得られたk個のハイパーパラメータを使って実際の環境で評価できたとしたら,全体におけるbestなpolicyとどのくらいの差があるか?」を答える指標となっています.ここで,黒の横線は,top 5ではなくmedianの値となるpolicyの結果になります.ほぼ全てのケースで黒の横線より低いRegretとなっていることから,offline環境において良好と推定されたハイパーパラメータはonline環境(実際の環境)でも良好な性能を達成していることがわかります.

また,先ほどの傾向と同様に,criticの計算にORLを用いた場合においては,BCとCRRに対してはD4PGよりも良い順位相関を示しています.OPEを用いた場合においても同様の傾向が確認できます.

論文ではこれ以外にもスピアマンの順位相関係数,Absolute errorを指標とした場合の結果も説明されています.

最後に

今回は,DeepMindによるoffline RLにおけるハイパーパラメータ選択の論文を紹介しました.OHSはoffline RLにおいて実用上避けては通れない問題である一方で,現在はOPE手法をそのまま使い,上位のハイパーパラメータをpickするというのが現状のようです.この流れを受けて,今後はOHSに特化した手法 (つまり,ランキング問題を解くだけにすることでOPEより簡単な問題として解く手法) などが出てくるかもしれません.

 

参考文献

[1] H. Le, C. Voloshin, and Y. Yue. Batch policy learning under constraints. In K. Chaudhuri and R. Salakhut- dinov, editors, Proceedings of the 36th International Conference on Machine Learning, volume 97 of Proceedings of Machine Learning Research, pages 3703–3712, 2019.

[2] Y. Tassa, Y. Doron, A. Muldal, T. Erez, Y. Li, D. d. L. Casas, D. Budden, A. Abdolmaleki, J. Merel, A. Lefrancq, T. Lillicrap, and M. Riedmiller. Deepmind control suite. arXiv preprint arXiv:1801.00690, 2018.

[3] E. Todorov, T. Erez, and Y. Tassa. Mujoco: A physics engine for model-based control. In 2012 IEEE/RSJ International Conference on Intelligent Robots and Systems, 2012.

[4] Y. Tassa, S. Tunyasuvunakool, A. Muldal, Y. Doron, S. Liu, S. Bohez, J. Merel, T. Erez, T. Lillicrap, and N. Heess. dm_control: Software and tasks for continuous control. arXiv preprint arXiv:2006.12983, 2020.

[5] D. A. Pomerleau. Alvinn: An autonomous land vehicle in a neural network. In Advances in neural information processing systems, pages 305–313, 1989.

[6] Z. Wang, A. Novikov, K. Żołna, J. T. Springenberg, S. Reed, B. Shahriari, N. Siegel, J. Merel, C. Gulcehre, N. Heess, and N. de Freitas. Critic regularized regression. arXiv preprint arXiv:2006.15134, 2020.

[7] G. Barth-Maron, M. W. Hoffman, D. Budden, W. Dabney, D. Horgan, D. Tb, A. Muldal, N. Heess, and T. Lillicrap. Distributed distributional deterministic policy gradients. arXiv preprint arXiv:1804.08617, 2018.

Author

アバター
nomura