ロボティクスシンポジア2021で発表しました

オンラインで開催された,第26回ロボティクスシンポジアで,

「フィードバック・フィードフォワード方策を内包する強化学習アルゴリズム」

「熟練者が暗黙的に示唆する安全領域を活用した安全かつ高効率な模倣学習と手書き文字ロボットへの応用」

というタイトルで私と指導学生が発表しました.

1つ目の研究では,強化学習が最適化する方策がフィードバック制御器に相当することに着目して,その欠点であるセンシング障害への脆弱性を補完するフィードフォワード制御器を統合して同時学習する枠組みを提案しています. 具体的には,予測軌道に対して最適軌道への漸近と非最適軌道からの乖離を目的とする最適化問題を解く上で,予測軌道を生成するダイナミクス部を変分ベースでモデル化することで自然とフィードバック・フィードフォワード制御間の正則化を与える学習則を導出しました. 名誉なことにロボティクスシンポジア最優秀賞を受賞しました.ありがとうございます.

2つ目の研究では,模倣学習の一種であるBehavioral Cloning from Observation (BCO)の欠点である,非最適な方策で実環境とインタラクションする必要があり故障等のリスクを抱えている点を解決すべく,熟練者データが安全領域から得られているという点に着目して,熟練者データの潜在生成空間を深層学習技術で抽出して非最適な方策によって得られるデータがその生成空間と一致するか否かでリセットする枠組みを提案しています.