Show HN: 用强化学习和不到1000万参数打败《精灵宝可梦红版》

Show HN: 用强化学习和不到1000万参数打败《精灵宝可梦红版》

Hacker News 摘要

原标题:Show HN: Beating Pokemon Red with RL and <10M Parameters

该网页介绍了一项使用强化学习(RL)技术在1996年发布的游戏《精灵宝可梦红版》中获胜的研究。自2020年以来,团队致力于开发一款RL代理,至2025年2月时成功实现了使用少于1000万参数的策略(比DeepSeekV3小60500倍)打败《精灵宝可梦红版》。虽然最终输出并不是一种可以直接打败游戏的策略,但提供了一种生成解决方案的技术。网页上的所有代码都是开源的,读者可以尝试。

网页的内容分为几个章节:

第一章:强化学习简介

第二章:环境、观测、奖励和策略

• 环境

• 观测

• 奖励

• 策略

第三章:构建和运行系统

• 运行

• 读取RAM

• 评估指标和可视化

• 生态群体

第四章:总结思考

• 结果

• 未来

• 附录

此外,网页介绍了《精灵宝可梦红版》的背景,强调玩家的两个目标:捕捉所有可能的宝可梦以及成为“冠军”,其中团队专注于后者。研究团队认为,使用强化学习解决角色扮演游戏(JRPG)如《精灵宝可梦》是一个极具挑战的难题,并且希望这类游戏能够成为改善人工智能(AI)的良好基准。

网页还探讨了为何选择强化学习这一方法而非其他机器学习方式。与监督学习相比,强化学习在数据收集上更具灵活性,无需建立复杂的数据收集系统,因为可以实时生成新的训练数据。团队展示了如何利用游戏逆向工程和仿真工具来提取所需数据。

网页的作者包括David Rubinstein、Keelan Donovan、Daniel Addis、Kyoung Whan Choe、Joseph Suarez和Peter Whidden。该项目也得到了许多人的支持,包括PyBoy和PokeRL Discord社区成员的贡献。

最后,更新日志记录了网页的版本信息和变化。


原文:https://drubinstein.github.io/pokerl/

评论:https://news.ycombinator.com/item?id=43269330

Report Page