Show HN: 用强化学习和不到1000万参数打败《精灵宝可梦红版》

原标题：Show HN: Beating Pokemon Red with RL and <10M Parameters

该网页介绍了一项使用强化学习（RL）技术在1996年发布的游戏《精灵宝可梦红版》中获胜的研究。自2020年以来，团队致力于开发一款RL代理，至2025年2月时成功实现了使用少于1000万参数的策略（比DeepSeekV3小60500倍）打败《精灵宝可梦红版》。虽然最终输出并不是一种可以直接打败游戏的策略，但提供了一种生成解决方案的技术。网页上的所有代码都是开源的，读者可以尝试。

网页的内容分为几个章节：

• 第一章：强化学习简介

• 第二章：环境、观测、奖励和策略

• 环境

• 观测

• 奖励

• 策略

• 第三章：构建和运行系统

• 运行

• 读取RAM

• 评估指标和可视化

• 生态群体

• 第四章：总结思考

• 结果

• 未来

• 附录

此外，网页介绍了《精灵宝可梦红版》的背景，强调玩家的两个目标：捕捉所有可能的宝可梦以及成为“冠军”，其中团队专注于后者。研究团队认为，使用强化学习解决角色扮演游戏（JRPG）如《精灵宝可梦》是一个极具挑战的难题，并且希望这类游戏能够成为改善人工智能（AI）的良好基准。

网页还探讨了为何选择强化学习这一方法而非其他机器学习方式。与监督学习相比，强化学习在数据收集上更具灵活性，无需建立复杂的数据收集系统，因为可以实时生成新的训练数据。团队展示了如何利用游戏逆向工程和仿真工具来提取所需数据。

网页的作者包括David Rubinstein、Keelan Donovan、Daniel Addis、Kyoung Whan Choe、Joseph Suarez和Peter Whidden。该项目也得到了许多人的支持，包括PyBoy和PokeRL Discord社区成员的贡献。

最后，更新日志记录了网页的版本信息和变化。

原文：https://drubinstein.github.io/pokerl/

评论：https://news.ycombinator.com/item?id=43269330

Show HN: 用强化学习和不到1000万参数打败《精灵宝可梦红版》

Report Page