"SimulatedCartPole" (强化的学习环境)

"SimulatedCartPole" 是一种强化学习环境，由一个连接在车上的铰链上的加重杆组成，它沿着无摩擦的轨道移动. 可以在每个时间步骤按 Left 或 Right 方向将力施加到车上. 目标是让中介向车施加适当的力以防止杆子翻倒. 在杆直立的每个时间步骤都提供 +1 的奖励. 当杆距垂直方向超过 15 度时，或者车从中心移动超过 2.4 个单位时，该事件被认为结束.

"SimulatedCartPole" 对应于 1983 年 Barto 等人描述的推车－杆问题. 它也等同于 OpenAI Gym 实施 "CartPole-v1".

杆子通过铰链附加在移动的车上.

范例

基本范例 (2)

打开 "SimulatedCartPole" 环境：

观察初始状态：

可视化环境：

获取随机行为：

接受随机行为：

接受通常修改 "ObservedState" 的行为：

重设环境为初始状态. 返回初始的 "ObservedState"：

关闭环境：

打开 "SimulatedCartPole" 环境：

可视化随机中介控制车：

顶部

更多学习资源

技术支持

成人教育计划

青少年教育计划

活动

Wolfram 倡议

教育资源

爱好与项目

Wolfram 解决方案

Wolfram 的教育解决方案

开始

提高你的技能

与我们合作

欢迎阅读

成人教育计划

青少年教育计划

活动

"SimulatedCartPole" (强化的学习环境)

范例

基本范例 (2)

"SimulatedCartPole" (强化的学习环境)

范例

基本范例 (2)

参见

历史