page
烦死了一周4门考试还要汇报进度虽然老师让我汇报的是我讲过的内容,但是我讲过的内容和组会的东西也只有部分相关的,不多看一点感觉要被老师们说完全没进度。
但其实也无所谓,被骂两句而已,他们能把我怎么样呢
可以别人压力我,但我不能压力我自己
下面当作讲稿LLM作为决策制定者
直接决策制定 使用决策transformer,将离线样本视为序列,从序列建模的角度直接预测动作 目标和观察被表示为一系列嵌入,并且用预先训练的LM初始化的策略网络预测下一个动作 用策略和动作交错描述训练transformer以表述agent下一步子目标以提高性能 使用transformer的上下文能力以帮助agent提高长期记忆能力
间接决策制定
动作候选 LLM生成系列动作,agent再进一步依据价值函数排序动作 在文本游戏中往往动作空间很大,但是在某一游戏状态下可选动作非常少,于是就用人工游戏历史训练LLM,由LLM提供可选的动作集 或者直接使用prompt的方式引导LLM给出候选的高层级技能再由agent依据高层级动作进行低级动作
参考策略 在人与AI协同方面,在人类数据近乎不可用的情况 ...
无语死
大模型任务分解控制策略在理解和执行简单语言指令方面很有效,但它们往往在涉及多个子任务的长期任务中陷入困境,因此引入了大模型给出高层级的指导,将长期任务划分成子任务,方便控制策略能够顺序执行以完成最终任务。
SayCanLID引入ADG(主动收集数据),通过将标签分配给不成功的轨迹来解决当数据不可用时agent能够获得更多的训练数据的问题。
encode the inputs to a policy—includingobservations, goals, and history—as a sequence of embeddings. These embeddings are passedto a policy network initialized with the parameters of a pre-trained LM, which is fine-tuned topredict actions. This framework is broadly applicable, accommodating goals and environment statesrepresen ...
LLM 实时性探究
首先我要阐明这个问题的来由老师自己的项目出现了访问模型速度缓慢的问题,我感觉就是因为这个叫我去研究实时性的问题。当然这也是较为值得研究的问题,在关于李学龙的无人系统协同的那个例子中我就想到:不管无人系统如何设计,如果无人机向机器狗提出了开门需求后在等待机器狗完成任务过程中,有其它无人个体向无人机提出了一个优先级更高的任务将无人机调离了需要机器狗开门的任务,如果无人系统不做任何处理,可能机器狗就会做一个无用功,可怜狗狗开了门发现无人机又不需要进门了。这也是我想到的LLM agent在开放世界环境中可能会遇到的问题
问题1:一个LLM agent在开放世界中,环境瞬息万变,在某一个时间步agent可能会以API的方式或者直接访问本地部署的LLM进行对于环境信息的询问以获得下一步的行动或者指导,但是由于环境变化,以及LLM结果生成慢以及网络因素,导致在获得LLM的结果之后,该结果已经不能解决agent在当前环境遇到的问题,而导致agent需要重新进行提问(然后又遇到刚刚的问题)
问题2:假设LLM及时给出了解决方案,在agent执行过程中,环境同样发生了变化,但并不是朝着agent解决任务的 ...
page
Survey on Large Language Model-Enhanced Reinforcement Learning: Concept, Taxonomy, and Methods又要看综述了,现在感觉下来RL和LLM的结合可以从两方面来看
从LLM角度看,LLM本身也就只是文本输入文本输出,想要做更多的事,想要更好利用LLM的能力,就要有一个算法让它能够做能过扩展它的能力,也就是RL
从RL角度看,RL本身存在着很多问题,就将LLM引入看看能不能解决这方面的问题
背景RL
存在哪些问题当需要处理语言与视觉信息的时候 deep RL面临问题
表示学习和RL解耦,分开学习减少RL的负担使用NLP技术处理语言问题
采样效率 实际环境通常是复杂和不确定的,这意味着需要大量的交互来学习一个良好的策略。
反馈函数设计 奖励函数设计非常复杂,特别是在复杂环境和稀疏奖励环境(围棋),有可能设计次优函数或者引起agent意料之外的行为
泛化性 原因在于难以迁移RL已经学习的知识或者技能到一个新的未见过的场景中 通常在一个设定好的环境中进行训练
基于模型规划中的复合误差 ...
paper reading
Enabling Intelligent Interactions between an Agent and an LLM: A Reinforcement Learning Approach论文提出的背景问题
为什么需要引入LLM到强化学习任务中通过将LLM作为明确推理者,代理可以根据LLM提供的高级指令生成低级动作,并与目标环境进行交互,从而收集进一步的反馈。LLM的引入可以提高代理在处理复杂任务时的效率和准确性,同时为代理提供更多的决策支持和指导,从而增强代理的任务规划和执行能力。
引入LLM后会引发什么问题
agent与大模型交互非常耗费时间
大模型需要很大的部署空间,以至于只能运行在云服务器上
使用商业大模型会很耗钱
不足够的交互又容易导致LLM对环境理解不彻底从而导致不可预知的情况
那么什么时候才需要去query LLM获取指导就至关重要了过多的询问会引起资源损耗过少的询问会让任务失败
如何做呢将agent做出决策视为一个马尔可夫决策过程,并且使用选项框架作为策略的更高级的封装选项就是一个三元组<起始状态,策略,终止状态>,agent依据当前状态和选项 ...