用PyTorch和PPO训练AI玩超级马里奥，我踩过的那些版本兼容的坑（附完整代码）

张开发

• 2026/6/5 16:51:30 • 15 分钟阅读

分享文章

用PyTorch和PPO训练AI玩超级马里奥，我踩过的那些版本兼容的坑（附完整代码）

用PyTorch和PPO训练AI玩超级马里奥从环境配置到实战调优全指南当经典游戏遇上现代强化学习算法会碰撞出怎样的火花最近我在尝试用PyTorch实现PPO算法训练AI玩《超级马里奥兄弟》时发现这个看似简单的项目背后隐藏着不少暗礁。从gym到gymnasium的版本迁移从环境封装到奖励函数设计每一步都可能让你在复现过程中踩坑。本文将分享一套经过实战验证的完整解决方案包含环境配置、算法实现和调优技巧助你避开我走过的弯路。1. 环境配置避开版本兼容的雷区在开始编码之前正确的环境配置是项目成功的第一步。我最初直接复制了某GitHub仓库的requirements.txt结果陷入了无尽的依赖冲突中。以下是经过反复验证的稳定环境配置方案# 关键依赖版本清单 Python 3.11.7 PyTorch 2.0.1cu118 gym 0.23.0 # 注意不是gymnasium nes_py 8.1.8 gym_super_mario_bros 7.3.0 opencv-python 4.8.1注意虽然OpenAI的gym已停止维护但当前super_mario_bros仍基于gym开发。直接使用gymnasium会导致包装器接口不兼容。常见的版本冲突问题及解决方案问题1AttributeError: TimeLimit object has no attribute reward_range原因gym版本过高0.23.0与nes_py不兼容解决降级到gym 0.23.0问题2TypeError: __init__() got an unexpected keyword argument new_step_api原因尝试使用gymnasium的API调用gym环境解决统一使用gym 0.23.0的接口规范问题3RuntimeError: Expected 4D input for 4D weight...原因PyTorch版本差异导致张量维度检查更严格解决确保输入张量形状为(batch_size, channels, height, width)2. 环境封装打造适合RL训练的游戏界面原始的马里奥环境直接输出RGB图像这会导致训练效率低下。我们需要通过多层封装将其转化为适合强化学习的格式class ProcessFrameWrapper(gym.ObservationWrapper): def __init__(self, env): super().__init__(env) self.observation_space gym.spaces.Box(low0, high255, shape(84, 84, 1), dtypenp.uint8) def observation(self, obs): # 转换为灰度图并调整尺寸 obs cv2.cvtColor(obs, cv2.COLOR_RGB2GRAY) obs cv2.resize(obs, (84, 84), interpolationcv2.INTER_AREA) return np.expand_dims(obs, axis-1) class FrameStackWrapper(gym.Wrapper): def __init__(self, env, num_frames4): super().__init__(env) self.num_frames num_frames self.frames deque(maxlennum_frames) self.observation_space gym.spaces.Box( low0, high255, shape(num_frames, 84, 84), dtypenp.uint8 ) def reset(self): obs self.env.reset() for _ in range(self.num_frames): self.frames.append(obs) return self._get_obs() def step(self, action): obs, reward, done, info self.env.step(action) self.frames.append(obs) return self._get_obs(), reward, done, info def _get_obs(self): return np.stack(self.frames, axis0)关键封装技术说明封装技术作用参数优化建议灰度处理减少输入维度使用cv2.COLOR_RGB2GRAY转换尺寸调整统一输入规格84x84是经典尺寸平衡信息保留与计算量帧堆叠提供时序信息4帧堆叠效果最佳过多会导致动作延迟3. PPO算法实现核心代码解析PPO(Proximal Policy Optimization)是目前最流行的on-policy强化学习算法之一。以下是针对马里奥游戏优化的实现class PPONetwork(nn.Module): def __init__(self, input_shape, n_actions): super().__init__() self.conv nn.Sequential( nn.Conv2d(input_shape[0], 32, kernel_size8, stride4), nn.ReLU(), nn.Conv2d(32, 64, kernel_size4, stride2), nn.ReLU(), nn.Conv2d(64, 64, kernel_size3, stride1), nn.ReLU() ) conv_out_size self._get_conv_out(input_shape) self.actor nn.Sequential( nn.Linear(conv_out_size, 512), nn.ReLU(), nn.Linear(512, n_actions) ) self.critic nn.Sequential( nn.Linear(conv_out_size, 512), nn.ReLU(), nn.Linear(512, 1) ) def _get_conv_out(self, shape): o self.conv(torch.zeros(1, *shape)) return int(np.prod(o.size())) def forward(self, x): conv_out self.conv(x).view(x.size()[0], -1) return self.actor(conv_out), self.critic(conv_out) class PPOAgent: def __init__(self, env, lr3e-4, gamma0.99, gae_lambda0.95, clip_epsilon0.2, batch_size64, n_epochs10): self.env env self.net PPONetwork(env.observation_space.shape, env.action_space.n).float() self.optimizer optim.Adam(self.net.parameters(), lrlr) self.gamma gamma self.gae_lambda gae_lambda self.clip_epsilon clip_epsilon self.batch_size batch_size self.n_epochs n_epochs def compute_gae(self, rewards, values, dones): # GAE计算实现 pass def update(self, samples): # PPO核心更新逻辑 pass def train(self, total_timesteps1e6): # 训练循环实现 passPPO参数设置经验值学习率3e-4Actor和Critic可分别设置折扣因子γ0.99适用于长周期奖励GAE参数λ0.95平衡偏差与方差Clip范围ε0.2防止策略更新过大Batch大小64根据显存调整训练轮数10每次采样数据后更新次数4. 实战调优让马里奥真正学会闯关即使算法实现正确直接训练也很难让马里奥通关。以下是经过验证的调优技巧奖励函数设计原始环境的奖励信号过于稀疏需要精心设计class CustomRewardWrapper(gym.Wrapper): def __init__(self, env): super().__init__(env) self.current_score 0 self.current_x 0 self.max_x 0 def step(self, action): state, reward, done, info self.env.step(action) # 基础奖励 reward info[x_pos] - self.current_x # 向右移动奖励 self.current_x info[x_pos] # 特别事件奖励 if info[flag_get]: reward 500 # 通关大奖 elif info[life] 2: reward - 100 # 死亡惩罚 # 进度奖励 if info[x_pos] self.max_x: reward 10 * (info[x_pos] - self.max_x) self.max_x info[x_pos] return state, reward / 10.0, done, info训练技巧课程学习先从简单关卡开始1-1再逐步增加难度动作空间优化使用SIMPLE_MOVEMENT而非COMPLEX_MOVEMENT帧跳过每4帧执行一次动作平衡反应速度与训练效率早停机制当连续100步x位置无变化时终止episode可视化监控使用TensorBoard记录关键指标from torch.utils.tensorboard import SummaryWriter writer SummaryWriter() for episode in range(num_episodes): # ...训练逻辑... writer.add_scalar(Reward/episode, episode_reward, episode) writer.add_scalar(Position/max_x, max_x, episode)当你的马里奥开始在1-1关卡稳定通过时可以尝试以下进阶优化引入LSTM处理长时序依赖添加好奇心驱动探索(ICM)使用分布式PPO加速训练这个项目最让我意外的发现是即使使用相同的算法和参数设置不同的随机种子可能导致完全不同的训练结果。有次马里奥在200episode就学会了跳跃障碍而另一次训练了1000episode仍然在第一个坑前徘徊。这提醒我们在强化学习实践中耐心和多次尝试往往比调参更重要。

更多文章

前端开发 2026/6/5 16:52:40

Fish Speech 1.5行业方案：文旅景区多语种智能导览语音生成实践

Fish Speech 1.5行业方案：文旅景区多语种智能导览语音生成实践 1. 项目背景与需求分析文旅景区面临着多语种导览的普遍痛点。传统人工录制多语言导览语音成本高昂，一个小型景区需要中英日韩四种语言的导览，仅录制费用就可能达到数万元。而…

📌 全文合规无代写、只做学术辅助｜真实软件实测｜不杜撰、不夸大｜专为本科 / 硕士毕业论文设计又到毕业季，AI 写论文哪个好成为无数学生的灵魂拷问。面对 ChatGPT、豆包、Kimi、DeepSeek、虎贲等考 AI 这 5 款主流工具…

张开发

前端开发 2026/5/12 14:58:12

从清晨到黄昏：一组风景照片里的光与色

在上海，选择一扇合适的门窗，不仅关乎家居的舒适与美观，更与建筑的隔音、保温性能息息相关。东庭紫悦（上海）家居有限公司，便是一家致力于为上海及周边地区提供专业高端系统门窗定制服务的公司。最近把相册翻…

张开发

用PyTorch和PPO训练AI玩超级马里奥，我踩过的那些版本兼容的坑（附完整代码）

最新文章

prima.cpp高级优化技巧：GPU/CPU混合卸载与流水线并行技术

双击即用的C#钢琴模拟器：键盘鼠标弹奏+简谱编辑+录音回放

比亚迪早期电动车市场困局：从400辆销量看硬件创新的生态挑战

Figma中文汉化插件：3分钟让你的设计工具说中文

基于OpenPose的太极拳17式动作识别工程包（含预训练模型、标注数据与双模式GUI）

MATLAB版LFMCW雷达多目标测距测速仿真程序，含完整信号链建模与距离-速度谱分析

推荐文章

STM32F4驱动AD7606避坑指南：SPI配置、时序调试与电压换算全流程

TVA与其他AI智能体的本质区别与联系（10）

使用 LangGraph 构建复杂的自动化测试用例“生成-执行-修复”循环

MTKClient终极指南：5分钟快速修复联发科设备变砖问题

Parallels Desktop 17保姆级教程：给CentOS 7虚拟机配个固定IP，开发调试再也不怕IP变来变去

Steam游戏《Turing Complete》通关笔记：手把手教你从逻辑门到可编程CPU的完整搭建流程

相关文章

终极ESP32 Arduino开发指南：从零开始快速上手物联网项目

如何打造个人专属的数字记忆库：WeChatMsg终极数据管理指南

Windows 11下SecureCRT 8.5安装激活全攻略（附注册机与避坑指南）

Gemini推送通知优化终极手册（2024Q2最新API v1.5实测数据+AB测试报告）

【Gemini社交媒体运营实战指南】：20年AI营销专家亲授7大高转化内容公式

保姆级教程：在Ubuntu 22.04上为GStreamer 1.22编译NVIDIA NVENC/NVDEC插件（含CUDA 12.x适配）

分享文章

更多文章

Fish Speech 1.5行业方案：文旅景区多语种智能导览语音生成实践

Llama-3.2V-11B-cot精彩案例分享：高考物理图解题自动推理全过程

实用指南：3分钟掌握百度网盘直连解析，轻松突破下载限速

如何用Universal x86 Tuning Utility终极解决笔记本高温降频问题

AI知识库投喂：企业私有数据的高效治理之道

终极指南：如何用哔哩下载姬轻松保存B站8K超高清视频

RMBG-2.0案例分享：真实电商产品图抠图效果展示

Wan2.2-I2V-A14B文生视频镜像详解：开箱即用的GPU算力优化方案

告别HIDL！手把手教你用AIDL在Android 13+上创建HAL服务（附完整Demo）

告别地址混乱！MGeo中文地址匹配保姆级教程，快速解决地址对齐问题

5 款 AI 写论文哪个好？2026 真实实测：毕业论文专用工具硬核对比

从清晨到黄昏：一组风景照片里的光与色