東京で開催された,第32回自律分散システム・シンポジウムで,
「オンライン深層強化学習に向けた適応型適正度履歴」
というタイトルで発表しました.
内容は,深層強化学習と相性の悪い適正度履歴を上手く機能させるための適応型減衰をパラメータ更新に伴う出力の乖離度に基づいて設計しました. これにより,ロボットシミュレーションで従来手法よりも優れた性能を発揮できることを確認しました.
また,以下1件を学生が発表しました.
「多変量分布を用いた報酬予測による利害関係を考慮したマルチエージェント強化学習」