ノルウェーで開催された,IEEE International Conference on Development and Learning and on Epigenetic Robotics (ICDL-EPIROB 2019)で,
「Reward-Punishment Actor-Critic Algorithm Applying to Robotic Non-grasping Manipulation」
「Hyperbolically-Discounted Reinforcement Learning on Reward-Punishment Framework」
の2件を学生とともに発表しました.
1つ目は,ミュンヘン工科大学との共同研究で,強化学習手法の一つであるActor-Criticアルゴリズムを生物のように報酬と罰を明示的に切り分けて与える枠組み中で使用可能とするための手法の提案です. 具体的には,報酬と罰それぞれに関する価値関数及びそれらに基づくTD誤差の合成方法を提案し,方策勾配法に適用しました. 結果として,将来に関する情報であるTD誤差だけでなく,即時的な報酬・罰にも従って方策を更新する生物と似た特徴を獲得しました.
2つ目は,強化学習における指数割引とみなされる将来の報酬を生物のように双曲割引へと転換する手法の提案です. 具体的には,従来提案されていた双曲割引型のTD誤差だけでは生じてしまう割増現象を,上記の報酬・罰を切り分けた枠組みと組み合わせることで回避しました. 結果として,報酬・罰で非対称な割引率がそれぞれの関数によって自然と定まり,生物と似たように将来の罰をより考慮する設計において学習性能が向上することを確認しました.