page
烦死了一周4门考试还要汇报进度
虽然老师让我汇报的是我讲过的内容,但是我讲过的内容和组会的东西也只有部分相关的,不多看一点感觉要被老师们说完全没进度。
但其实也无所谓,被骂两句而已,他们能把我怎么样呢
可以别人压力我,但我不能压力我自己
下面当作讲稿
LLM作为决策制定者
- 直接决策制定
使用决策transformer,将离线样本视为序列,从序列建模的角度直接预测动作
目标和观察被表示为一系列嵌入,并且用预先训练的LM初始化的策略网络预测下一个动作
用策略和动作交错描述训练transformer以表述agent下一步子目标以提高性能
使用transformer的上下文能力以帮助agent提高长期记忆能力 - 间接决策制定
- 动作候选
LLM生成系列动作,agent再进一步依据价值函数排序动作
在文本游戏中往往动作空间很大,但是在某一游戏状态下可选动作非常少,于是就用人工游戏历史训练LLM,由LLM提供可选的动作集
或者直接使用prompt的方式引导LLM给出候选的高层级技能再由agent依据高层级动作进行低级动作 - 参考策略
在人与AI协同方面,在人类数据近乎不可用的情况下为了避免agent收敛到一个人类不期望的平衡,就用LLM依据人类指令生成一个先验策略,在此策略上进行agent的训练
教师-学生模型中使用基于LLM的教师来训练较小的本地学生agent,逐渐将先验提炼到本地学生agent中
- 动作候选
规划模块(planning module)
面对复杂任务的时候,人们倾向于将任务分解成简单子任务。而这一模块就是模仿人类的这一能力。
无反馈规划
单一路径推理
将任务分解成多个中间的级联步骤,每个步骤仅有一个后续步骤。如思维链的方式,让LLM一步一步思考解决步骤并组成一个prompt进行自我提示。多条路径推理
以树结构进行推理,与人类的思考方式更类似,每一中间步骤都可能有多个子结果并引起更多的规划外部规划器
虽然LLM在零样本规划展示了很强的能力,但是在特定领域进行高效规划依然是一个挑战。在这个方法中LLM充当一个发现与总结者,其中的规划步骤则交给外部规划器做
有反馈推理
在面对真实世界场景,需要长远规划以解决复杂问题,这个时候直接生成完美计划是非常困难的,同样每一步骤执行的结果成功与否也未可知。
环境反馈
这一部分感觉也是研究最多的地方,反馈来自于agent处于的环境,比如会在每次规划前都考虑当前环境状态,然后进行action影响环境以此迭代以完成复杂任务,这样的框架可以让agent在当前状态下选取更合适的行动以达成目标。有很多框架基本上是将行动的成功与否、推理的有效性、失败的信息给纳入到环境状态中一起输入到规划程序中。人类反馈
人类反馈是一个主观信号,能帮助agent很好地与人类价值观和喜好对齐,同时减少幻觉。比如agent直接向人类所要环境描述,这样可以很灵活地让用户将各种反馈融入agent的推理。模型反馈
由agent内部模型给出反馈,比如agent做出一个结果交给内部LLM进行评估,再由评估对结果进行优化。基本上就是利用LLM对agent从规划步骤、到行动、到结果等各个阶段做评估,然后优化
SayCan
这个方法关心的智能体在给定状态、指令以及动作的情况下完成任务的成功概率。于是作者将这一过程拆分成两个部分,分别称为task-grounding和world-grounding。
Translated ⟨LM⟩
两个步骤构成,第一步由一个LLM将高层级指令分解为自由格式语言表达的下一动作,然后使用一个mask LLM将该动作翻译为agent所能理解的动作指令,然后将其加入到agent规划中,LLM再依据更新后的agent规划生成下一个动作(重复上述步骤)。
Inner
采用 LLM 生成低级控制策略的语言指令,并根据从控制策略收到的反馈动态更新这些指令。反馈包括各种来源:成功反馈、对象和场景反馈以及人类反馈。
闭环反馈:核心思想是创建一个反馈循环,LLM接收并处理各种形式的反馈,这些反馈随后用于后续的规划和动作。这个循环允许根据实时反馈不断调整和改进计划。
使用LLM进行规划:预训练的LLM利用其内在的知识和推理能力制定计划。当机器人与环境交互时,它会接收反馈并将其整合到规划提示中,使LLM能够动态更新和完善其计划。
技能执行:机器人拥有一套预训练的操作技能库,可以根据需要调用。LLM生成这些技能的序列,以实现由自然语言指令指定的高层次目标。
这些反馈包括:
成功检测:识别某个动作是否成功。
对象检测:识别环境中的物体。
场景描述:描述当前的场景。
视觉问答:回答有关视觉环境的问题。
人类反馈:接收来自人类的直接输入。
LLM-planner
构建prompt的时候会利用历史成功的规划,使用bert判断历史成功规划与当前需要规划的任务的适配程度,选取K个最适配的历史成功规划组合进prompt中
层次规划模型:LLM-Planner 采用层次规划模型,由高层规划器(HLP)和低层规划器组成。高层规划器利用 LLM 根据给定的语言指令生成一系列子目标(如导航到土豆、拾取土豆等)。低层规划器则将每个子目标映射为在当前环境和状态下实现该子目标的一系列原始动作
动态重规划:LLM-Planner 具备动态重规划能力。当代理无法完成当前子目标或经过固定时间步后,系统会触发重规划。通过将环境中检测到的对象列表注入到提示中,LLM-Planner 会生成新的高层规划,帮助代理在任务执行过程中不断调整并完成目标
Chatgptrobot
定义高层函数库:
研究人员或开发人员根据具体的机器人平台和任务需求,预先定义了一组高层函数。这些函数封装了机器人需要执行的各类操作(如导航、抓取、识别等),并映射到具体的底层实现中。
这些函数库的命名和描述需要足够清晰和具体,以便于LLM理解和正确调用。例如,一个导航函数可能被命名为navigate_to(location),其底层实现可能涉及具体的路径规划和运动控制算法。
任务规划:
用户通过自然语言指令与ChatGPT互动,描述需要完成的任务。ChatGPT解析这些指令,并根据上下文生成调用高层函数的代码或指令序列。
ChatGPT不直接生成底层实现代码,而是生成对高层函数的调用。这种方式使得LLM能够在不同机器人平台和任务之间具有更好的通用性和适应性。