"SimulatedCartPole" (強化学習環境)
"SimulatedCartPole"とは,重さ付きの棒が摩擦のないトラック上を動くカートのヒンジに取り付けられているという強化学習環境である.各時間ステップでLeftまたはRightの方向に力をカードに適用することができる.ゴールは,エージェントが適切な力をカードに適用し,棒が倒れないようにするということである.棒が直立している時間ステップそれぞれにおいて,+1の報酬が与えられる.棒が垂直状態から15度より大きく傾いた場合,あるいはカードが中心から2.4単位を超える距離移動した場合に,そのエピソードは終了したと見なされる.
"SimulatedCartPole"は,Barto et al.(1983年)によって記述されたカートと棒の問題のバージョンに対応するものである.また,これはOpenAI Gymの実装"CartPole-v1"とまったく同じものである.