埼玉で開催された,第35回 日本ロボット学会学術講演会(RSJ2017)で,
「大域的最適解を目指すActor-Critic強化学習」
というタイトルで発表しました.
内容は,通常の政策オン型のActor-Critic手法が陥ってしまう局所最適解を脱して,大域的最適解へと到達することを目的とした研究です. 従来は確率的政策として正規分布を利用していたものを,スチューデントのt分布を用いることでこの目的を達成することに成功しました.
埼玉で開催された,第35回 日本ロボット学会学術講演会(RSJ2017)で,
「大域的最適解を目指すActor-Critic強化学習」
というタイトルで発表しました.
内容は,通常の政策オン型のActor-Critic手法が陥ってしまう局所最適解を脱して,大域的最適解へと到達することを目的とした研究です. 従来は確率的政策として正規分布を利用していたものを,スチューデントのt分布を用いることでこの目的を達成することに成功しました.