ロバスト最適化

自律ロボットが実環境で収集したデータを基にリアルタイムで学習しようとすると,データに含まれるノイズや外れ値の影響が無視できなくなります. 特に強化学習では,教師信号がないことも合わさってこの影響が著しく,近年では学習を安定化させるための様々な工夫が提案されています.

この研究では,こういった学習を不安定化させるノイズに頑健な最適化手法を提案しています.

  • 一次モーメントのノイズ脆弱性に注目したロバスト確率的勾配降下法
  • ネットワーク間の乖離を抑制するロバストターゲットネットワーク

これらは近年のニューラルネットワークを基礎とした学習手法全般に活用可能であるため,様々な応用が期待できます.