"SimulatedCartPole" (強化学習環境)

"SimulatedCartPole"とは,重さ付きの棒が摩擦のないトラック上を動くカートのヒンジに取り付けられているという強化学習環境である.各時間ステップでLeftまたはRightの方向に力をカードに適用することができる.ゴールは,エージェントが適切な力をカードに適用し,棒が倒れないようにするということである.棒が直立している時間ステップそれぞれにおいて,+1の報酬が与えられる.棒が垂直状態から15度より大きく傾いた場合,あるいはカードが中心から2.4単位を超える距離移動した場合に,そのエピソードは終了したと見なされる.

"SimulatedCartPole"は,Barto et al.(1983年)によって記述されたカートと棒の問題のバージョンに対応するものである.また,これはOpenAI Gymの実装"CartPole-v1"とまったく同じものである.

棒は動くカートにヒンジのところで取り付けられている.

例題

  (2)

"SimulatedCartPole"環境を開く:

初期状態を観察する:

環境を可視化する:

ランダムなアクションを得る:

ランダムなアクションを取る:

アクションを取ると,通常"ObservedState"が修正される:

環境を初期状態に再設定する.初期の"ObservedState"が回復される:

環境を閉じる:

"SimulatedCartPole"環境を開く:

ランダムなエージェントがカートを抑制している様子を可視化する: