Show HN: 用强化学习和不到1000万参数打败《精灵宝可梦红版》
Hacker News 摘要原标题:Show HN: Beating Pokemon Red with RL and <10M Parameters
该网页介绍了一项使用强化学习(RL)技术在1996年发布的游戏《精灵宝可梦红版》中获胜的研究。自2020年以来,团队致力于开发一款RL代理,至2025年2月时成功实现了使用少于1000万参数的策略(比DeepSeekV3小60500倍)打败《精灵宝可梦红版》。虽然最终输出并不是一种可以直接打败游戏的策略,但提供了一种生成解决方案的技术。网页上的所有代码都是开源的,读者可以尝试。
网页的内容分为几个章节:
• 第一章:强化学习简介
• 第二章:环境、观测、奖励和策略
• 环境
• 观测
• 奖励
• 策略
• 第三章:构建和运行系统
• 运行
• 读取RAM
• 评估指标和可视化
• 生态群体
• 第四章:总结思考
• 结果
• 未来
• 附录
此外,网页介绍了《精灵宝可梦红版》的背景,强调玩家的两个目标:捕捉所有可能的宝可梦以及成为“冠军”,其中团队专注于后者。研究团队认为,使用强化学习解决角色扮演游戏(JRPG)如《精灵宝可梦》是一个极具挑战的难题,并且希望这类游戏能够成为改善人工智能(AI)的良好基准。
网页还探讨了为何选择强化学习这一方法而非其他机器学习方式。与监督学习相比,强化学习在数据收集上更具灵活性,无需建立复杂的数据收集系统,因为可以实时生成新的训练数据。团队展示了如何利用游戏逆向工程和仿真工具来提取所需数据。
网页的作者包括David Rubinstein、Keelan Donovan、Daniel Addis、Kyoung Whan Choe、Joseph Suarez和Peter Whidden。该项目也得到了许多人的支持,包括PyBoy和PokeRL Discord社区成员的贡献。
最后,更新日志记录了网页的版本信息和变化。