IROS2022で発表しました

京都で開催された,2022 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)で,

「L2C2: Locally Lipschitz Continuous Constraint towards Stable and Smooth Reinforcement Learning」

を発表しました.

提案手法であるL2C2は,近年主流となっている深層強化学習が状態入力へのノイズに対して出力を過度に変化させてしまいやすく過学習等を併発する問題に対して,強化学習内で関数近似が必要とされる価値関数や方策関数などの滑らかさをリプシッツ連続性を考慮した正則化で高める手法となっています. ポイントは,大域的なリプシッツ連続性を扱うと関数の表現力を損なってしまう恐れがあるため,状態遷移を基に定めた局所空間におけるリプシッツ連続性を扱っている点です. これにより,関数の表現力を保持しつつも,関数を滑らかにすることに成功し,学習の安定化やロボットの行動変動の抑制を実現しました. また,本発表はSICE International Young Authors Award (SIYA-IROS2022)を受賞しました.

arXiv

他にも,指導学生が

「Noise-Aware Stochastic Gradient Optimization with AdaTerm」

をLate Breaking Resultsとして発表しました.

このAdaTermは確率的勾配降下法の一種であり,深層学習におけるネットワーク更新の基盤技術になります. 一般的な確率的勾配降下法を数理的に解釈し直し,勾配に紛れ込むノイズを自動判定して更新から除外する機構を組み込みました. 深層学習を用いた様々なタスクでの有効性を検証中ですが,その一部をここで報告しました.

arXiv