端午节

连休息都没得休息,一天天的就帮着老师搞什么机器人的东西了,搭建环境有问题,整整用了3天换了各种环境都没有成功,第三天饭都没吃就在搞,还没弄好,还好昨天跟老师说了复现不了,不然晚上想到要搞进度就要把机器人模拟环境搭好就很难受。
今天就换了一个任务做了,调研一下其它的决策大模型。

老师给了两篇文献看叫我看代码,其中一篇文献代码还没有呢,感觉是比较轻松的任务了(决策大模型感觉点子难想,但是学习别人的会比较容易学)。

然后这几天的打算是就调研一下决策大模型了,然后复现老师给的文献有代码的那个。周二说是有进展会,我就拿调研的和复习出现的问题说进度好了。昨天把强化学习的实验报告我的那部分写了,今天在跑深度学习实验二的代码,感觉就是我训练代码写的可能有问题?明明一模一样的模型用别人的代码训练就是快,用我的代码训练就是慢。

尽快把PPT 和word写了,下周进展会开完就写自己的作业(之前先休息一天呢)

决策大模型

ViLA

解决的什么问题:先前利用决策LLM进行规划存在着视觉和语言模态的这种分离导致视觉模块无法提供全面的、与任务相关的视觉信息,从而阻碍了法学硕士基于准确的与任务相关的视觉洞察力进行规划的问题。

主要贡献就是采用VLM将用户指令分解成以文本为形式的动作序列

方法是什么:利用视觉大模型来理解环境,使用GPT-4V,输入用户文本指令以及当前环境的视觉信息还有历史已完成的子任务给大模型,由大模型以CoT的方式给出目前环境存在哪些实体,这些实体处于什么状态,同时给出一个可行的步骤(可行来自于预先给定的机器人技能,大模型依据机器人学会的技能来规划),执行完成之后将其加入到历史已完成的子任务,然后重复上述步骤。

MLDT(有代码)

解决什么问题:开源大模型在长上下文任务上存在不足,长上下文任务是指与常规任务规划相比,复杂长期的任务规划涉及更多的任务目标和对象,导致复杂性更高

贡献是什么:提供了层级任务分解的方法、LongTask的评估数据集

方法是什么:将任务规划分成3层,任务目标-》子任务目标-》子任务步骤,最后汇总,该方法只在文本模态进行了实验,而且在实验过程中自己使用的大模型是经过针对于本框架所要用的数据进行指令微调过后比较的实验结果。

ROBOFLAMINGO

不存在任务分解的过程

解决什么问题:依然是将视觉模态引入机器人控制过程中,同时最终生成的也不再是文本而是机器人控制信号

贡献是什么:提供了一个端到端的从视觉语言到机器人的行动指令的方法

方法是:使用openflamingo的预训练模型,用视觉模块编码抓手视觉和第三视角视觉信息,将语言指令经过编码层也转换成特征向量,将两者结合送入feature fusion decoder获得视觉语言的混合特征并将其送入到策略头(循环神经网络LSTM或者Transformer)获得机器人位姿和抓取的动作。

CoPa

简单文本到机器人行动轨迹

解决什么问题:之前的研究结果对于场景理解非常粗略,导致需要细粒度物理理解的任务失败。(比如要求机器人拿起锤头敲钉子会把锤头拿起来而不是锤柄,用勺子啊搅拌咖啡会横着拿起勺子等等)

贡献是什么:提供了从理解环境粗到精的基础和约束生成模块的创新设计。

方法是:将大部分的机器人认为划分两个步骤:对物体的初始抓握以及完成任务所需的后续动作。于是就构建两个模块,任务导向的抓取、任务感知的规划。在任务导向的抓取模块中:首先用SoM对图像进行区域分割,然后再依据区域指令获取需要抓取物体的图像区域,利用抓取候选网络获取抓取点的候选集合(输出6自由度的抓取候选项,包括抓取点的信息、宽度、高度、深度和“抓取得分”,该得分表示成功抓取的可能性),并从中选取得分最高的抓取点进行抓取。在任务感知的规划模块中:首先也是要由粗粒度到细粒度地定位与任务相关的部件,再使用这些部件进行空间几何约束,例如,充电手机时,充电器的连接器必须与充电口对齐;同样,盖子必须直接放在瓶口上方才能盖上瓶子,然后利用这些约束再给出姿态规划。