首先我要阐明这个问题的来由

老师自己的项目出现了访问模型速度缓慢的问题,我感觉就是因为这个叫我去研究实时性的问题。
当然这也是较为值得研究的问题,在关于李学龙的无人系统协同的那个例子中我就想到:不管无人系统如何设计,如果无人机向机器狗提出了开门需求后在等待机器狗完成任务过程中,有其它无人个体向无人机提出了一个优先级更高的任务将无人机调离了需要机器狗开门的任务,如果无人系统不做任何处理,可能机器狗就会做一个无用功,可怜狗狗开了门发现无人机又不需要进门了。
这也是我想到的LLM agent在开放世界环境中可能会遇到的问题

问题1:一个LLM agent在开放世界中,环境瞬息万变,在某一个时间步agent可能会以API的方式或者直接访问本地部署的LLM进行对于环境信息的询问以获得下一步的行动或者指导,但是由于环境变化,以及LLM结果生成慢以及网络因素,导致在获得LLM的结果之后,该结果已经不能解决agent在当前环境遇到的问题,而导致agent需要重新进行提问(然后又遇到刚刚的问题)

问题2:假设LLM及时给出了解决方案,在agent执行过程中,环境同样发生了变化,但并不是朝着agent解决任务的那个方向变化的,agent还没有执行完LLM给出的解决方案它就又要去询问了,然后后续又碰到问题1或者问题2导致问题迟迟难以解决。

问题的原因

  • 大模型的性能问题
    • 本身就有输出速度慢的问题
    • 由于硬件资源的需求而只能远程部署,引入了网络延迟的问题
  • 网络延迟
  • agent的询问策略
    • 不合时宜的询问导致向LLM的询问变得无效
    • 不正确的询问方式导致LLM的回答难以帮助agent完全解决问题
  • 开放世界的动态变化
    • agent或许需要一个面向开放世界的LLM长久指导

论文有哪些可能有用呢

RL论文中引用的论文都讲了什么

实时动态坏境
基于LLM的代理由于缺乏解决特定目标问题的专业性,在实时动态环境中面临局限性。此外,在实际场景中部署这种基于LLM的代理既昂贵又耗时。在本文中,我们介绍了一种新颖的框架,该框架通过使用基于LLM的教师代理的指令训练较小规模的专业学生代理来解决这些挑战。通过利用教师提供的指导行动,LLM的先验知识被提炼到当地学生模型中。

Z. Zhou, B. Hu, P. Zhang, C. Zhao, and B. Liu, “Large Language Model is a Good Policy Teacher for Training Reinforcement Learning Agents,” Nov. 2023.

【样本收集】
利用LLM的少样本学习能力帮助解决现实世界中离线RL样本数据难以采集的问题。介绍了运动控制语言模型 (LaMo),这是一个有效利用预训练语言模型进行离线 RL 的框架。LaMo 由四个关键组件组成:使用预训练的 LM 初始化决策transformer、使用 LoRA 微调方法、采用非线性 MLP 转换以及在微调期间集成辅助语言预测损失

R. Shi, Y. Liu, Y. Ze, S. S. Du, and H. Xu, “Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning,” Nov. 2023.

【泛化/迁移】
由于缺乏大规模的现成数据集以及不同环境之间可移植性的高度差异,微调强化学习模型一直具有挑战性。最近的工作着眼于从序列建模的角度处理离线RL,由于引入了Transformer架构,结果得到了改善。然而,当从零开始训练模型时,它的收敛速度很慢。本文希望利用这种强化学习的公式作为序列建模,并研究预训练序列模型在离线RL任务(控制,游戏)上微调时在其他领域(视觉,语言)上的可转移性,于是提出了Wikipedia技术,以改善这些领域之间的转移。

M. Reid, Y. Yamada, and S. S. Gu, “Can Wikipedia Help Offline Reinforcement Learning?” Jul. 2022.

研究了语言建模在自主决策中支持学习和泛化的有效性。本文描述了一个模仿学习框架,其中目标和观察被表示为一系列嵌入,并使用由预先训练的transformer初始化的策略网络转化为行动LM。证明该框架能够跨不同环境(例如 VirtualHome 和 BabyAI)进行有效的组合泛化。证明了语言建模产生的表示不仅对语言建模有用,而且对目标和计划建模也有用。即使在语言处理之外,这些表示也可以帮助学习和概括。

S. Li, X. Puig, C. Paxton, Y. Du, C. Wang, L. Fan, T. Chen, D.-A. Huang et al., “Pre-Trained Language Models for Interactive DecisionMaking,” Oct. 2022

使用序列模型来应对泛化、长期记忆和元学习的挑战。最近的研究表明,离策略学习可以使具有循环策略的上下文强化学习变得可行。尽管如此,这些方法需要大量的调整,并通过在代理的内存容量、规划范围和模型大小方面产生关键瓶颈来限制可扩展性。 AMAGO 重新审视并重新设计了脱离策略的上下文方法,以便在整个部署过程中与端到端 RL 并行地成功训练长序列 Transformer。我们的代理具有独特的可扩展性,适用于广泛的问题。我们根据经验证明了它在元强化学习和长期记忆领域的强大性能。 AMAGO 对稀疏奖励和离策略数据的关注也允许上下文学习扩展到具有挑战性探索的目标条件问题。当与新颖的事后重新标记方案相结合时,AMAGO 可以解决以前困难的开放世界领域类别,其中代理在程序生成的环境中完成许多可能的指令。我们在三个目标条件领域评估我们的智能体,并研究其个体改进如何连接到创建通才策略。

J. Grigsby, L. Fan, and Y. Zhu, “AMAGO: Scalable In-Context Reinforcement Learning for Adaptive Agents,” Dec. 2023

将基于网络规模数据训练的视觉语言模型集成到机器人控制中,以增强泛化并实现语义推理。作者提出了一种在机器人轨迹数据和互联网规模的视觉语言任务上共同微调视觉语言模型的方法。它们将机器人动作表示为文本标记,并将它们合并到模型的训练集中。由此产生的模型被称为视觉-语言-行动 (VLA) 模型,展示了对新对象的改进泛化、解释机器人训练数据中不存在的命令的能力,以及响应用户命令的基本推理。

A. Brohan, N. Brown, J. Carbajal, Y. Chebotar, X. Chen, K. Choromanski, T. Ding, D. Driess et al., “RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control.”

【其它】
提出了一种将语言推理与单个策略中的操作统一起来的新方法。用单词输出来增强transformer策略,这样它就可以生成与动作交错的文本标题。

L. Mezghani, P. Bojanowski, K. Alahari, and S. Sukhbaatar, “Think Before You Act: Unified Policy for Interleaving Language Reasoning with Actions,” Apr. 2023

基于文本的游戏对自主代理以自然语言操作并处理巨大的动作空间提出了独特的挑战。本文提出了上下文动作语言模型(CALM)来在每个游戏状态生成一组紧凑的候选动作。主要见解是训练人类游戏玩法的语言模型,在这种模型中,人们展示了语言先验和对基于游戏历史的有希望的行动的一般游戏意识.将 CALM 与强化学习代理相结合,对生成的候选动作进行重新排序,以最大化游戏中的奖励。

S. Yao, R. Rao, M. Hausknecht, and K. Narasimhan, “Keep CALM and Explore: Language Models for Action Generation in Text-based Games,” Oct. 2020.

使人类能够通过自然语言指令指定他们期望人工智能合作伙伴采取什么样的策略。我们使用预训练的大型语言模型来生成以人类指令为条件的先验策略,并使用先验策略来规范 RL 目标。这导致 RL 代理收敛到符合人类偏好的平衡。

H. Hu and D. Sadigh, “Language Instructed Reinforcement Learning for Human-AI Coordination,” Jun. 2023.

以上内容均来自于LLM enhanced RL
然后我在LLM agent综述中也找了一下关于planning和action的内容中完全有没有解决实时性或者效率相关的问题

不过我在LLM agent中找打了另一篇可能会介绍LLM agent在实际使用过程中会遇到的问题的综述。