Springerの機械学習分野の論文誌 Applied Intelligenceに,
Student-t policy in reinforcement learning to acquire global optimum of robot control
というタイトルで採択・掲載されました. ダウンロードはこちら
具体的には,強化学習の方策モデルとしてスチューデントのt分布を活用する手法を提案しました. 通常,連続行動空間を扱う場合には方策を正規分布でモデル化することが一般的ですが,これは外れ値に敏感であり新たな解を見出すための探索能力も不足がちです. 一方でt分布でモデル化した場合,その分布の性質から外れ値に頑健であり,Levy walkと呼ばれる優れた探索能力を期待できます. これらの性質の有用性をシミュレーションにより検証しました.