"SimulatedCartPole" (强化的学习环境)

"SimulatedCartPole" 是一种强化学习环境,由一个连接在车上的铰链上的加重杆组成,它沿着无摩擦的轨道移动. 可以在每个时间步骤按 LeftRight 方向将力施加到车上. 目标是让中介向车施加适当的力以防止杆子翻倒. 在杆直立的每个时间步骤都提供 +1 的奖励. 当杆距垂直方向超过 15 度时,或者车从中心移动超过 2.4 个单位时,该事件被认为结束.

"SimulatedCartPole" 对应于 1983 年 Barto 等人描述的推车-杆问题. 它也等同于 OpenAI Gym 实施 "CartPole-v1".

杆子通过铰链附加在移动的车上.

范例

基本范例  (2)

打开 "SimulatedCartPole" 环境:

观察初始状态:

可视化环境:

获取随机行为:

接受随机行为:

接受通常修改 "ObservedState" 的行为:

重设环境为初始状态. 返回初始的 "ObservedState"

关闭环境:

打开 "SimulatedCartPole" 环境:

可视化随机中介控制车: