ICRA2021で発表しました

中国とオンラインのハイブリッドで開催された,2021 IEEE International Conference on Robotics and Automation (ICRA)で,

「Proximal Policy Optimization with Relative Pearson Divergence」

を発表しました.

提案手法であるPPO-RPEは最新の強化学習手法の一つであるProximal Policy Optimization (PPO)を改良したもので,ヒューリスティックな密度比のクリッピング操作を相対ピアソンダイバージェンスの正則化に置き換えるとともに,相対度を適切に指定することで密度比の平均から対称形の正則化を加えるようにしました. 理論的にも割と綺麗に導出できており,実用性もPPOと同等以上の出来となっています.

arXiv