MP5: A Multi-modal Open-ended Embodied System in Minecraft via Active Perception

我要介绍的文献是一个多模态具身系统通过主动感知方法完成我的世界中的任务

首先我想说明一下这个方法提出的背景。

问题背景

构建能够解决长期开放世界具身任务、接近人类行为模式的通才智能体具有一定困难,某个任务中需要的物体(内容依赖),或者子任务之间的时序关系(过程依赖)阻碍了agent。
同时先前的解决方案中感知模块是近乎全知而不是有选择的,同时感知模块与其它模块的接口并不完全统一

这个方法的框架大致是由以下几个模块构成。

方法

parser 将长任务分解成短的一步步完成的子任务
percipient 为其它模块回答关于环境的各类问题,通常与内容信息相关
planner 根据当前情况给出动作序列并优化
performer 执行动作与环境交互
patroller 检测除了parser模块外的回复,来验证当前计划/行动,用以改善规划技巧同时改进动作执行

parser和planner有额外的记忆增强

执行的流程大致就是,给定一个任务,由parser将任务翻译成一系列需要完成的过程序列,也就是游戏中要达成目标需要按顺序获取哪些物体,
然后将该序列交给planner,planner会向patroller询问关于环境的信息,patroller依据任务要求向percipient进行询问,这一过程称为主动感知。然后percipient将环境描述告诉patroller,
patroller依据任务要求将环境描述与任务对齐将观察告诉planner,planner就会给出一系列的任务给performer,performer就会向patroller进行询问,在其指导下完成每个任务的动作,同时将动作结果反馈给patroller,
如果任务结束(序列结束,或者存在失败的反馈),patroller就会向planner要求重新规划任务。

那么关于实验结果呢

实验结果

主要进行了内容依赖、流程依赖以及消融的实验,实验表明了MP5在开放世界中任务完成率都是最佳的
但是依然存在困难任务完成率较为低下的情况