大模型任务分解

控制策略在理解和执行简单语言指令方面很有效,但它们往往在涉及多个子任务的长期任务中陷入困境,因此引入了大模型给出高层级的指导,将长期任务划分成子任务,方便控制策略能够顺序执行以完成最终任务。

SayCan

LID

引入ADG(主动收集数据),通过将标签分配给不成功的轨迹来解决当数据不可用时agent能够获得更多的训练数据的问题。

encode the inputs to a policy—including
observations, goals, and history—as a sequence of embeddings. These embeddings are passed
to a policy network initialized with the parameters of a pre-trained LM, which is fine-tuned to
predict actions. This framework is broadly applicable, accommodating goals and environment states
represented as natural language strings, image patches, or scene graphs.

Translated ⟨LM⟩

两个步骤构成,第一步由一个LLM将高层级指令分解为自由格式语言表达的下一动作,然后使用一个mask LLM将该动作翻译为agent所能理解的动作指令,然后将其加入到agent规划中,LLM再依据更新后的agent规划生成下一个动作(重复上述步骤)。

Re-prompting: 代理遇到前提条件错误时生成纠正措施。

EmbodiedGPT

使用CoT的方式给出任务规划,模型将视频的 8 个关键帧作为输入,包括任务描述、具体计划和结构化动名词对总结到原因,这篇文章重点更偏向于多模态的环境输入与提出的数据集。

Inner monologue

使用场景表述器和结果判断器, LLM 生成低级控制策略的语言指令,并根据从控制策略收到的反馈动态更新这些指令。反馈包括各种来源:成功反馈、对象和场景反馈以及人类反馈。(appendix中有plan的示例)

LLM-Planner

引入了一种构建分层策略的新方法,该策略由高级规划器和低级规划器组成。高级规划器利用 LLM 的功能来生成自然语言计划,而低级规划器将计划中的每个子目标转换为原始操作。虽然 LLM-Planner 的整体架构与之前的方法有相似之处,但它的独特之处在于融入了重新规划机制,帮助机器人“摆脱困境”。

Socratic Models (SMs)

利用多模态模型将非语言输入转换为语言描述,有效地统一语言空间内的不同模态。

ProgPrompt

引入了一种新颖的任务规划方法,通过类似程序的规范来提示LLM,详细说明可用的操作和对象。这使得LLM能够以几次方式生成家庭任务的高级计划。环境反馈可以通过程序中的断言纳入。这种激励计划利用了LLM的世界知识和编程技能。

ChatGPT for Robotics

利用 ChatGPT 的编程能力来促进“用户在环”控制,这与传统的“工程师在环”方法不同。该过程包括几个步骤:首先,定义一个API列表,例如物体检测API、抓取API、移动API;其次,为ChatGPT构建提示,指定环境、API功能、任务目标等;第三,迭代提示ChatGPT使用定义的可执行任务的API编写代码,提供模拟和用户反馈以评估代码质量和安全性;最后,执行 ChatGPT 生成的代码。在此过程中,ChatGPT 充当高级任务规划器,类似于 PaLM-E ,并且通过对相应低级 API 的函数调用来生成操作。

Code as policies (CaP)

利用的代码编写能力。它采用 GPT-3或Codex生成策略代码,进而调用感知模块和控制 API。

DEPS

“描述、解释、计划和选择”。这种方法采用法学硕士根据从环境中收集的反馈描述来生成计划并解释失败——这一过程被称为“自我解释”,有助于重新规划。此外,DEPS 引入了一个可训练的目标选择器,可以根据实现子目标的难易程度在并行候选子目标中进行选择

ConceptGraphs

介绍了一种将观察序列转换为开放词汇 3D 场景图的方法。使用 2D 分割模型从 RGB 图像中提取对象,并使用 VLM 来描述对象并建立对象间关系,从而形成 3D 场景图。然后可以将该图转换为文本描述 (JSON),为LLM提供实体之间丰富的语义和空间关系以进行任务规划。

似乎讲的很多其实并不是大模型任务分解方面的内容,而是如何将多模态融入到任务分解这一过程当中

端到端任务规划器与低级控制策略共享类似的架构,并且可以针对特定任务进行优化,但由于 LLM 和视觉 Transformer 相结合的模型规模较大,它们的训练成本可能会令人望而却步。 基于语言的任务规划器具有与现有语言条件控制策略无缝集成的优势。然而,它们通常需要微调或对齐方法来将生成的计划映射到可执行语言指令以实现低级控制策略。另一方面,基于代码的任务规划器利用法学硕士的编程能力来连接感知和行动模块。这种方法不需要额外的训练,但其性能可能受到现有模型能力的限制。