自律ロボットは全てを事前にプログラミングしておくことは不可能なため,与えられた目的を試行錯誤的に学習・達成していく能力が不可欠となります. 近年注目を集めている強化学習はエージェント(ロボット)と環境との相互作用を通して得られる報酬の総和を最大化するような方策を学習する方法論です. その中でも,近年の主流となっている経験データを直接蓄積・再生する枠組みではなく,オンラインで得られた経験を基に学習し続けるものに注目しています. この研究では,そのようなオンライン強化学習のさらなる性能改善に向けて生物の特徴を取り入れた手法を開発しています.
例えば,
- 生物の探索モデルを規範とした確率的方策の設計
- 報酬・罰系の区別されたフレームワークにおける学習手法
- 生物の報酬割引モデルを規範とした学習手法
- オンライン深層強化学習に向けた適応型適正度履歴
などを行っています. また,非把持での物体操作などの応用研究も行っています.