Survey on Large Language Model-Enhanced Reinforcement Learning: Concept, Taxonomy, and Methods

又要看综述了,现在感觉下来RL和LLM的结合可以从两方面来看

  • 从LLM角度看,LLM本身也就只是文本输入文本输出,想要做更多的事,想要更好利用LLM的能力,就要有一个算法让它能够做能过扩展它的能力,也就是RL
  • 从RL角度看,RL本身存在着很多问题,就将LLM引入看看能不能解决这方面的问题

背景

RL

  • 存在哪些问题
    当需要处理语言与视觉信息的时候 deep RL面临问题

    表示学习和RL解耦,分开学习减少RL的负担
    使用NLP技术处理语言问题

    1. 采样效率
    2. 反馈函数设计
      奖励函数设计非常复杂,特别是在复杂环境和稀疏奖励环境(围棋),有可能设计次优函数或者引起agent意料之外的行为
    3. 泛化性
      原因在于难以迁移RL已经学习的知识或者技能到一个新的未见过的场景中
      通常在一个设定好的环境中进行训练
    4. 基于模型规划中的复合误差
      随着预测范围的延申,预测的误差不断累积,导致与最佳轨迹存在显著偏差
  • 多模态强化学习
    使用视觉信息或者文本作为RL的观察空间、或者RL与环境交互过程中可能使用自然语言

    1. 以语言为条件的RL
      任务描述 - 任务或者指令由自然语言描述
      动作空间或者发现空间 - 自然语言是状态或者动作空间的一部分(文本游戏、日志系统、QA)
    2. 以语言为帮助的RL
      交流领域知识 - 告知agent任务领域相关知识
      结构化策略 - 基于语言而不是环境或模型的表示来传达有关环境状态或动态的信息。

LLM

  • 上下文学习
    上下文学习能力消除了显式模型再训练或梯度更新的需要,也就是告诉LLM一定的上下文消息,就能让LLM在之后的指令执行中给出基于此上下文的输出
  • 指令微调
    让LLM能够经过一定的结构化的指令输入后对于新任务有更强的适应力
  • 逐步推理

LLMenhanced RL

定义

LLM-enhanced RL是指利用预训练的、知识固有的AI模型的多模态信息处理、生成、推理等能力来辅助学习的方法。强化学习范式与传统的基于模型的强化学习不同,LLM-enhanced RL 的一个关键特征是它利用了具有通用知识的模型,这意味着该模型在学习过程开始时就具有相当水平的能力,并且与其他模型相比具有更好的泛化能力。

框架

见图2
智能体从环境中获取状态和奖励,LLM对此进行处理,并适当设计奖励从而加速agent的学习
LLM也能依据自身所具有的知识对当前状态下可选动作进行模拟来协助agent的决策

特点

  • 多模态信息理解
  • 多任务学习泛化
    基于已学习的知识可以设计奖励或生成动作帮助agent提高能力
  • 提高采样效率
    利用LLM模拟增强数据
  • 长视野处理
    利用LLM将复杂任务分解为子任务帮助agent进行长时间范围的规划
  • 反馈信号生成
    同2,帮助agent在稀疏奖励环境中进行学习

分类

依据LLM充当的不同部分进行分类

  • 信息处理
    当发现和任务表述包含语言或者视觉特征,agent理解全部的复杂信息变得具有挑战性,引入LLM来:1)提取有意义特征,2)翻译自然语言描述的环境信息或者翻译任务指引信息为结构化描述
  • 奖励设计
    在奖励稀疏或者高奖励行动反馈函数难以定义的时候,引入LLM充当奖励设计者:1)作为隐式奖励模型依据环境信息给出奖励,2)作为显示奖励模型直接生成奖励函数代码,该代码根据一定条件透明地给出奖励计算过程
  • 决策制定
    1)利用强大的序列建模能力和常识性知识做出直接决策,2)充当指导者给出候选动作集
  • 生成器
    基于模型的RL依赖于精准的世界模型帮助agent学习动态环境并模拟高保真轨迹,LLM可以1)生成准确轨迹,2)依据可解释的强化学习中相关信息给出agent的策略解释

LLM作为信息处理器

使用预训练的大模型或者视觉语言模型可以充当信息处理器,为下游网络提取观察表示或者将无界的自然语言翻译成形式化规范语言

  • 特征表示提取
    1. 直接使用冻结层的预训练模型:用来提取特征表示嵌入(使用LLM压缩历史观测序列,并将压缩序列与当前观测值的嵌入连接;利用多模态将历史视觉观察与文本对齐生成语义数据库,给定观察后从数据库中获取topk的嵌入作为策略优化的输入),该方法的局限性在于表示不能依据环境或任务进行动态调整
    2. 使用对比学习和对比损失进一步微调预训练模型,以在新环境中更好适应:对比学习旨在通过对比正例和负例来学习高维数据表示方法(给定一个查询q,算法使得查询距离正例比负例更近)最大化同一观察的不同变化之间的对齐,模型可以学习不变的表示,这解决了现实世界环境变化引起的适应问题,并提高了分布外泛化的样本效率。
  • 语言翻译
    自然语言长度不定、形式与结构也都不定,使用LLM可以将自然语言转换成正式的结构化的任务信息
    1. 指令信息翻译 - 将自然语言翻译成agent可理解的指令
    2. 环境信息翻译 - 将自然语言描述的环境信息转换成能体现MDP各元素(状态、奖励等等)
  • 未来可能的研究方向
    1. 计算资源消耗更少的特征提取器
    2. 提高特征提取器的泛化能力
    3. 使用多模态LLM作为翻译器帮助agent进行更通用的学习

LLM作为奖励设计器

一方面通过设计的奖励函数让agent获得人类期望行为十分困难或者需要大量的专家演示,另一方面准确提供学习信号的密集奖励需要手动分解总体目标为子目标,这两方面都需要专家的输入和细致的手工制作。

  • 隐式奖励模型
    1. 直接提示 - 通过使用LLM代替奖励函数来简化奖励函数的设计(以一定方式告知LLM agent所被期望的动作示例、或者告知LLM情景信息以及评估标准实现对agent行为的实时理解)
    2. 对齐评分 - 一般用在多模态的强化学习中,对齐指的是文本指令与agent的视觉观察做对齐
  • 显式奖励模型
    由大模型给出详细的奖励函数代码,该方法更具有解释性(给出了高级指令,由LLM给出低级行动的奖励函数代码、依据对agent行动评估或者人类反馈不断对LLM生成的奖励函数代码做修改)
  • 未来可能的研究方向
    1. 生成奖励的泛化性和可转移性,特别是在复杂高维的视觉环境中
    2. 奖励与人类复杂行为的对齐
    3. 改善通用知识训练而来的LLM在特定任务上的奖励函数设计
    4. 手动设计奖励提示模板限制了泛化性,自动化的提示模板设计过程需要被研究出来

LLM作为决策制定者

  • 直接决策制定
    使用决策transformer,将离线样本视为序列,从序列建模的角度直接预测动作
    也有用预训练LLM以添加目标和观察的方式并将结果转换成顺序数据提高agent在新任务中的泛化能力
    用策略和动作交错描述训练transformer以表述agent下一步子目标以提高性能
    使用transformer的上下文能力以帮助agent提高长期记忆能力
  • 间接决策制定
    1. 动作候选
      LLM生成系列动作,agent再进一步依据价值函数排序动作
      在文本游戏中往往动作空间很大,但是在某一游戏状态下可选动作非常少,于是就用人工游戏历史训练LLM,由LLM提供可选的动作集
      或者直接使用prompt的方式引导LLM给出候选的高层级技能再由agent依据高层级动作进行低级动作
    2. 参考策略
      在人与AI协同方面,在人类数据近乎不可用的情况下为了避免agent收敛到一个人类不期望的平衡,就用LLM依据人类指令生成一个先验策略,在此策略上进行agent的训练
      教师-学生模型中使用基于LLM的教师来训练较小的本地学生agent,逐渐将先验提炼到本地学生agent中
  • 未来可能的研究方向
    1. 直接使用LLM作为决策网络可能非常耗费资源,可以考虑使用LoRA探索更高效的LLM策略制定
    2. LLM本身不具备和环境互动的能力,如何从现实世界中获得信息提高LLM本身的现实性和推理性也十分重要

LLM作为生成器

  • 世界模型模拟
    通过迭代预测下一个状态和奖励来高保真地学习复杂的环境动态,从而提高基于模型的强化学习中的样本效率
    从现实世界中,可以收集知识和真实数据来构建世界模型模拟器,进一步对世界的动态表示进行建模,生成轨迹并帮助智能体在现实世界中进行策略学习。
    1. 轨迹延展
      使用基于Transformer的世界模型高效生成轨迹,解决agent的长期依赖问题,以在Atari游戏获得最优的策略
      使用Transformer在视觉任务中进行动态预测,或者通过无动作的视频来学习世界模型
    2. 动态表示学习者
      使用表示学习技术可以学习未来的潜在表征来协助agent决策
      利用多模态世界模型来预测未来的文本和图像表示,并根据表示采取行动,该方法使用过去的语言获得丰富的语言理解,还可以预测未来的语言、视频和奖励。
      将表征学习单独解耦出来以获得最佳性能
      为了解决视觉控制任务的OOD问题,利用语言世界模型,学习基于语言的视觉特征,为了增强泛化性就将边界框去除然后给定文本描述让其预测边界框
  • 策略解释
    可解释RL(XRL)旨在阐明学习代理的决策过程,XRL 的类别包括特征重要性、学习过程和 MDP 以及策略级别。目前,LLM在XRL中的使用仅限于政策层面,即作为政策解释者。
    主要就是利用状态和动作轨迹作为上下文信息,由LLM为人类做出可读的解释
  • 未来可能的研究方向
    1. 对齐LLM自身的抽象知识和它们所应用到的具体任务环境
    2. 现在基于模型的agent仅仅依赖观察世界模型,而与人类进行的复杂行动完全不同
    3. 如何利用领域知识和部分样本提高LLM对于复杂策略的解释仍然需要解决

讨论

  • 应用
    1. 机器人 - 1)提高人机交互效率 2)帮助机器人理解人类需求 3)增强决策和规划能力
    2. 自动驾驶 - 1)处理多模态信息和自然语言指令 2)依据安全、效率、乘客舒适度设计综合奖励
    3. 能源管理 - 1)通过奖励函数设计提高能源管理系统应对多目标(经济、安全、低碳)的能力
    4. 医疗保健推荐 - 1)提供准确判断和建议 2)加速RL推荐的学习过程
  • 机会
    1. 在RL众多分支的应用有待扩展,比如帮助多智能体强化学习协调agent间额沟通协作;安全强化学习给出符合安全标准的综合成本函数;迁移RL中利用LLM的知识库提高迁移RL的学习效率和跨不同任务的适应性
    2. 利用外部工具帮助LLM扩展能力,以提高LLM在强化学习任务中的性能
  • 挑战
    1. 依赖于LLM的能力,偏见和幻觉也会影响LLM的输出导致agent性能下降
    2. LLM训练自通用知识,在新颖或者特别指定的任务中能力可能不足,需要进行一定微调并且需要一个全面的能力评估方式
    3. LLM与agent交互效率问题严重
    4. 道德和安全问题,在实际任务中,法律、数据隐私、知识产权和人工智能决策责任分配等问题需要仔细讨论,同时引入的LLM可能也引入了额外的对抗性攻击领域