焦点关注：用ChatGPT和强化学习玩转《我的世界》，Plan4MC攻克24个复杂任务

时间：2023-04-21 16:54:16 来源：机器之心

在开放式的环境中学习多种任务是通用智能体的重要能力。《我的世界》（Minecraft）作为一款受欢迎的开放世界游戏，具有无限生成的复杂世界和大量开放的任务，成为近几年开放式学习研究的重要测试环境。

【资料图】

学习 Minecraft 中的复杂任务对当前的强化学习算法是巨大的挑战。一方面，智能体在无限大的世界中通过局部的观测寻找资源，面临探索的困难。另一方面，复杂的任务通常需要很长的执行时间，要求完成许多隐含的子任务。例如，制作一把石镐涉及砍树、制作木镐、挖原石等十余个子任务，需要智能体执行数千步才能完成。智能体只有在任务完成时能够获得奖励，难以通过稀疏奖励学会任务。

图：Minecraft 中制作石镐的过程。

目前围绕 MineRL 挖钻石竞赛的研究普遍使用专家演示的数据集，而 VPT 等研究使用大量带标签的数据学习策略。在缺少额外数据集的情况下，用强化学习训练 Minecraft 的任务是非常低效的。MineAgent 使用 PPO 算法仅能完成若干个简单任务；基于模型的 SOTA 方法 Dreamer-v3 在简化环境模拟器的情况下，也需要采样 1000 万步学会获得原石。

北京大学和北京智源人工智能研究院的团队提出了在无专家数据的情况下高效解决 Minecraft 多任务的方法 Plan4MC。作者结合强化学习和规划的方法，将解决复杂任务分解为学习基本技能和技能规划两个部分。作者使用内在奖励的强化学习方法训练三类细粒度的基本技能。智能体使用大型语言模型构建技能关系图，通过图上的搜索得到任务规划。实验部分，Plan4MC 目前可以完成 24 个复杂多样任务，成功率相比所有的基线方法有巨大提升。

论文链接：https://arxiv.org/abs/2303.16563代码链接：https://github.com/PKU-RL/Plan4MC项目主页：https://sites.google.com/view/plan4mc1、Minecraft 多任务

Minecraft 中玩家通过探索能够获得数百种物品。任务定义为初始条件和目标物品的组合，例如，“初始化

工作台，获得熟牛肉”。解决这个任务包含 “获得牛肉”、“用工作台和原石制作熔炉” 等步骤，这些细分的步骤称为技能。人类在世界中掌握和组合此类技能来完成各种任务，而不是独立地学习每个任务。Plan4MC 的目标是学习策略掌握大量的技能，再通过规划将技能组合成任务。

作者在 MineDojo 模拟器上构建了 24 个测试任务，它们涵盖了多种行为（砍树、挖原石、与动物交互）、多种地形，涉及 37 个基本技能。需要数十步的技能组合和数千步的环境交互来完成各个任务。

图：24 个任务的设置

2、Plan4MC 方法

学习技能

由于强化学习在训练中难以让玩家大范围跑动探索世界，许多技能仍不能被掌握。作者提出将探索和寻找的步骤分离出来，将 “砍树” 技能进一步细化为 “找树” 和 “获得木头”。Minecraft 中的所有技能被分为三类细粒度的基本技能：

寻找：给定目标物品，玩家要在世界中探索，找到和接近该物品。操作：利用现有的工具在附近完成一些任务，如放置工作台、与动物交互、挖方块。合成：用低级物品合成高级物品。

针对每一类技能，作者设计了强化学习模型和内在奖励进行高效的学习。寻找类技能使用分层的策略，其中上层策略负责给出目标位置、增大探索范围，下层策略负责到达目标位置。操作类技能使用 PPO 算法结合 MineCLIP 模型的内在奖励训练。合成类技能仅使用一个动作完成。在未修改难度的 MineDojo 模拟器上，学习全部技能仅需与环境交互 6.5M 步。

规划算法

Plan4MC 利用技能之间的依赖关系进行规划，例如获得石镐与获得原石、木棍、放置的工作台等技能间存在如下关系。

作者通过与大语言模型 ChatGPT 进行交互的方式生成出所有技能之间的关系，构建了技能的有向无环图。规划算法是技能图上的深度优先搜索，如下图所示。

相比 Inner Monologue、DEPS 等与大语言模型交互式规划的方法，Plan4MC 能够有效避免大语言模型规划过程中的错误。

3、实验结果

在关于学习技能的研究中，作者引入了不做任务分解的 MineAgent，以及不细分出寻找类技能的消融实验 Plan4MC w/o Find-skill。表 2 表明，Plan4MC 在三组任务上均显著超过基线方法。MineAgent 在挤牛奶、剪羊毛等简单任务上性能接近 Plan4MC，但无法完成探索困难的砍树、挖原石等任务。不做技能细分的方法在所有任务上成功率均低于 Plan4MC。

图 3 显示了在完成任务的过程中，各方法在寻找目标的阶段均有较大的失败概率、导致成功率曲线下降。而不做技能细分的方法在这些阶段的失败概率明显高于 Plan4MC 的概率。

在关于规划的研究中，作者引入了利用ChatGPT做交互式规划的基线方法Interactive LLM，以及两个消融实验：技能执行失败时不再重新规划的Zero-shot方法和使用一半最大交互步数的1/2-steps方法。表2表明Interactive LLM在与动物交互的任务集上表现接近Plan4MC，而在另两个需要更多规划步骤的任务集上表现不佳。Zero-shot的方法在所有任务上均表现较差。使用一半步数的方法相比Plan4MC成功率下降不多，表面Plan4MC能用较少的步数高效完成任务。

4、总结

作者提出了 Plan4MC，使用强化学习和规划解决 Minecraft 中的多任务。为解决探索困难和样本效率的问题，作者使用内在奖励的强化学习训练基本技能，利用大语言模型构建技能图进行任务规划。作者在大量困难 Minecraft 任务上验证了 Plan4MC 相较包括 ChatGPT 等的各种基线方法的优势。

结束语：强化学习技能 + 大语言模型 + 任务规划有可能实现 Daniel Kahneman 所描述的 System1/2 人类决策模型。

焦点关注：用ChatGPT和强化学习玩转《我的世界》，Plan4MC攻克24个复杂任务

焦点关注：用ChatGPT和强化学习玩转《我的世界》，Plan4MC攻克24个复杂任务

奋达科技（002681）4月20日主力资金净买入305.83万元

国网12年点亮黄河源头万家灯火|环球报道

护河长安水长清，公主岭市开展清河行动 今日快看

环球百事通！江苏有线（600959）4月21日主力资金净卖出1987.28万元

宁夏中卫市发布沙尘暴橙色预警信号 能见度低于500米-天天视讯

深夜风暴！特斯拉大跌近10%！马斯克：将继续降价_环球讯息

环球即时：注意！长春这一路口解除左转弯限制

天天速读：出行丨吴江区苏同黎公路部分路段即将封闭施工

天涯何处无芳草 是到和银行“谈分手”时候了 每日聚焦

出台务实管用政策措施 多措并举巩固经济向好势头

马来西亚3月外贸表现“喜忧参半”

C罗锁喉染黄！利雅得胜利0:2新月！曼联沙超德比中超胜

权威发布｜省工信厅：把项目建设作为推动工业投资的“第一抓手” 观天下

视频快讯丨第二十四届菜博会在寿光开幕-天天速讯

以法律约束倒逼外卖行业考核机制人性化

华谊兄弟：4月20日融券卖出13.39万股，融资融券余额4.19亿元

[快讯]景旺电子公布2022年年度分红方案预案

焰火情景剧《映山红之恋》首次亮相，焰火设计师讲述背后的故事

76岁卡米拉无理取闹，要求拆掉戴安娜的雕像：我才是英国王后！

今日最新！手动变速箱的组成及作用_手动变速箱工作原理是什么

天津市发文支持企业上市，最高奖励600万元 时快讯

江瀚：中顺洁柔扩产能或不如提升技术水平

金开新能：4月20日融券净卖出1.29万股，连续3日累计净卖出3.17万股 快报

国家安全局招聘_国家安全局招聘条件 世界热资讯

年薪10万 VS 年薪100万: 妈, 我想创业!

刷爆朋友圈！中年男人都嗨起来了 全球快讯

微速讯：山西朗亿装饰设计有限公司

假期来临去哪玩？这篇呼伦贝尔最全旅游攻略，快收藏起来吧！

要闻速递：岳阳市屈原管理区：推进入河排污口整治 强化化解环境风险隐患

曝王俊凯上海密会女友，陪她玩卡丁车，疑共度一夜隔空晒照秀恩爱

快讯！外媒：美国“星舰”发射爆炸后，马斯克发声

农发行桂林分行：打好投贷联动“组合拳” 全力守护桂林绿水青山_今日播报

湖南省娄底市新化县交通运输局对新化县炉观天勤混凝土有限公司作出行政处罚|世界快播报

头条焦点：纺织服装与化妆品行业：3月纺织品服装出口回暖，累计同比降幅明显收窄...

环球速递！facetime激活需要多久(激活facetime需要发送什么短信)

曝蓝军更衣室内乱！因切尔西降薪30%条款只针对部分球员-全球热点评

聊城市茌平区委书记：拉满招商引资“弯弓” 激活高质量发展“一池春水”_天天快看点

南京白马高新技术产业开发区党工委委员、管委会副主任、管委会规划资源局局长王永被查 每日热点

焦点热讯:E5 2696v3，一款又强大又便宜功耗又低的全能处理器

2023梁静茹演唱会北京站哪里举行？举办地点一览_全球头条

每日焦点！dns故障怎么处理 方法是什么 下面我们就一起来看教程吧

首批入滇泰国游客联名点赞云南旅游 当前动态

太原迎泽区人才驿站可以容纳多少人居住?

今年内上市 比亚迪B级纯电猎装SUV宋L获好评：成熟大厂作品 世界快消息

每日热讯!北方长龙：公司未给美国军方供货

焦作市博爱县：巡察铺“心路” 泥路变通途-短讯

环球热门:王健林出手，减持9个亿！

越秀上海拍地因经营执照范围未通过核验？-世界播资讯

豫坡天之基荣获中国绿博会金奖|动态焦点

利率达到5%的美元存款，与普通的存款有什么不一样？需要注意什么-环球播资讯

掌握情绪价值密码 赤水旅行目的地迎来新机遇 头条焦点

新动态：dnf2023五一套装怎么买划算 地下城与勇士五一套装购买推荐[多图]

世界速读：扁线龙头股及相关股票一览，一起了解（2023/4/19）

盒马鲜生港交所上市传闻

【全球播资讯】养老待遇资格认证只能每年1月进行吗？2023重庆资格认证时间什么时候？

热点聚焦：65至74岁养老金多少钱？养老金是怎么计算的？

环球今日讯！海正药业今年一季度净利润增长71.91%

今日热文：最新龙虎榜：机构买入慈文传媒超2亿，知名游资买入剑桥科技

14部原创大戏 北京演艺集团第九届五月演出季将至|全球微资讯

“扶摇”直上，小鹏乘风_环球报资讯

校本培训内容有哪些类型_校本培训内容有哪些

韩国总统暗示向乌军援，俄方强硬表态：想想在朝鲜见到俄制武器……|环球百事通

广东广厦G2前瞻：消耗胡金秋限制孙铭徽，老默可能出场

环球速递！人类的知识体系与虚构推理

苹果XR头盔：做不了下个iPhone，起码能做个iPad？

酒店的大镜子对着床做什么用的_从镜子里看我怎么C你|焦点速递

环球今亮点！如何涂抹娃娃头发

环球消息！上海期货交易所4月18日锌仓单日报

天天微头条丨投资银条多少钱一克（2023年4月20日）

全球快资讯：烟火气回归！100秒速看一季度消费大数据

尹锡悦访美前力挺韩美同盟|世界快资讯

世界速递！金巧福黄金价格今天多少一克（2023年04月20日）

次氯酸消毒液透明桶能用吗 世界时讯

天天观焦点：优惠来啦！约上小伙伴，一起游河北

速读：第133届广交会第一期入场超126万人次

环球快讯:美国童工问题愈演愈烈 美媒：白宫“不想知道”

庆祝2023年联合国中文日活动在联合国教科文组织总部举办

天天快消息！赤霉酸的作用和使用方法_赤霉酸

护河长安水长清，公主岭市开展清河行动今日快看

宁夏中卫市发布沙尘暴橙色预警信号能见度低于500米-天天视讯

天涯何处无芳草是到和银行“谈分手”时候了每日聚焦

出台务实管用政策措施多措并举巩固经济向好势头

天津市发文支持企业上市，最高奖励600万元时快讯

金开新能：4月20日融券净卖出1.29万股，连续3日累计净卖出3.17万股快报

国家安全局招聘_国家安全局招聘条件世界热资讯

刷爆朋友圈！中年男人都嗨起来了全球快讯

要闻速递：岳阳市屈原管理区：推进入河排污口整治强化化解环境风险隐患

南京白马高新技术产业开发区党工委委员、管委会副主任、管委会规划资源局局长王永被查每日热点

每日焦点！dns故障怎么处理方法是什么下面我们就一起来看教程吧

首批入滇泰国游客联名点赞云南旅游当前动态

今年内上市比亚迪B级纯电猎装SUV宋L获好评：成熟大厂作品世界快消息

掌握情绪价值密码赤水旅行目的地迎来新机遇头条焦点

新动态：dnf2023五一套装怎么买划算地下城与勇士五一套装购买推荐[多图]

14部原创大戏北京演艺集团第九届五月演出季将至|全球微资讯

次氯酸消毒液透明桶能用吗世界时讯

环球快讯:美国童工问题愈演愈烈美媒：白宫“不想知道”

宝宝创意涂色画板好玩吗宝宝创意涂色画板玩法简介

天天热文：蒙蒂：人们一直说我们要做出调整有时篮球就是沉下心做好防守

世界讯息：微信被盗怎么恢复原来的微信微信被盗了怎么恢复

消息称苹果在 iPhone 15 系列研发早期曾测试闪电接口版但很快放弃

全国畜牧总站组织开展中德项目实地考察工作世界滚动

全球今头条！冲正金额是什么意思？冲正金额会直接退回吗?

到下沙海滩过夏沙音乐节

消防电梯从首层到顶层的运行时间不用超过多少秒实时焦点

当前观察：午评：三大指数小幅下跌通信设备板块领涨

0到9数字规律万能公式数字规律万能公式世界今亮点

网贷逾期12个月后果如何？世界通讯

全球微速讯：重温经典电影《泰坦尼克号》感受电影中浪漫纯粹的绝世爱情

通达海（301378）4月18日主力资金净卖出1092.51万元环球观点

正宗红烧带鱼萝卜_正宗红烧带鱼全球资讯

玉蒲团之官人我要 1976年邵音音主演电影环球今热点

高职志愿院校排名大专院校排名榜全国-天天新要闻

顺控发展：2022年度净利润降12.83%至2.38亿元拟10派1.11元

自然防洪通过更好的沟通提高信任度天天热文

上交所：截至4月18日基础设施公募REITs市值合计688.13亿元-天天观天下

天津新闻 (2023-04-18）天天动态

特斯拉实际上可能会开发一百万英里的电池天天热资讯

美丽生态：我司与五矿二十三冶建设集团有限公司、中铁（贵州）市政工程有限公司等有合作看热讯