SayCanPay
SayCanPay解决了什么问题以往的基于LLM的规划方法,生成的计划存在不可行的情况,比如厨房门关着的时候也会做出从冰箱里拿物品的规划,或者说预训练的LLM获得的知识与当前不符合,比如LLM直到开关可以按动,但是当现实的开关变成旋钮的时候规划就可能失效。
如何实现的总览:(1)Say:在每个步骤t,LLM生成具有相关概率m个候选动作。论文中采用了对令牌的集束搜索。 (2)Can:经过训练的特定领域模型会衡量这些候选操作的可行性。 (3)Pay:经过训练的特定领域估计器根据估计的收益来权衡候选动作。
规划的动作如何选取
贪婪动作选取每次取评分最高的动作
束动作选取每次LLM给出m个候选动作,每层对k个高得分动作进行扩展,在每个高得分动作上继续扩展重复上述步骤直至终止,然后选取最终得分最高的序列。
can model被定义为分类问题,将先决条件已经满足的动作分配最高概率训练模型的形式如下,就是当前评估的动作Input ⟨Goal⟩ pick up the purple box. ⟨Initial State⟩ Room 1 has yellow key, agent. Room 2 ...
MLDT笔记
实验复现完了要说明一下解决了哪些问题比较好,显得一直在做事情呢哈哈
首先就是找到了all-MiniLM-L6-v2这个模型,这个模型是用来判断句子相似度的(网络问题,模型从huggingface上面下载即使科技了依然速度只有几十KB)
对于LLM API调用进行代码更改,以适应我的免费API
阅读virtualhome的docs,对于环境代码略微修改,以便显示图形化界面(尚未解决)
整理MLDT论文
MLDT解决了什么问题与常规任务规划相比,复杂的长期任务规划涉及更多的任务目标、更多的交互对象和更长的动作序列。它需要理解大量的上下文信息并生成冗长的动作序列。这对于开源LLM过于困难,涉及过多的上下文信息作为输入和冗长的动作序列作为输出。以前的方法忽视了开源法学硕士有限的推理能力,并且难以应对这种任务规划场景。
本文研究重点在于如何让少量参数的LLM具有复杂长期任务规划能力。
相关研究
In-context learning
zero-shot planner 使用两个 LLM,一个用于生成计划,另一个用于将生成的计划转换为可执行操作
progprompt 通过采用程序化的 LL ...
page
调研到一个挺牛逼的paper listhttps://github.com/hyp1231/awesome-llm-powered-agent
里面有引用量比较高的和顶刊发表的论文提示,感觉挺有意思
当然我是从https://github.com/ysymyth/awesome-language-agents?tab=readme-ov-file这里找到的,这下面还有其它的paper list
page
关于WSL的重装环境因为硬盘实在是没空间了,要一直重装WSL,否则就会C盘爆红,这边记录一下重装记录好了。首先就是删除WSL,用的电脑管家直接把C盘里最大的文件给删掉了就是ext4.什么什么的文件
然后好像是重启了一下,再运行
1wsl -l
可以查看已经有的linux系统,把有的那个那个系统给删了
1wsl.exe --unregister <xxxxx>
然后再系统的搜索栏中搜索Ubuntu点击一下就安装好了,然后打开vscode就可以连接了
现在就是装git和miniconda了
git
123sudo apt updatesudo apt upgradesudo apt install git
minconda
12wget https://repo.anaconda.com/miniconda/Miniconda3-py39_4.9.2-Linux-x86_64.shbash Miniconda3-py39_4.9.2-Linux-x86_64.sh
然后复现就好了
记得
1pip config set global.index-url https://pyp ...
page
端午节连休息都没得休息,一天天的就帮着老师搞什么机器人的东西了,搭建环境有问题,整整用了3天换了各种环境都没有成功,第三天饭都没吃就在搞,还没弄好,还好昨天跟老师说了复现不了,不然晚上想到要搞进度就要把机器人模拟环境搭好就很难受。今天就换了一个任务做了,调研一下其它的决策大模型。
老师给了两篇文献看叫我看代码,其中一篇文献代码还没有呢,感觉是比较轻松的任务了(决策大模型感觉点子难想,但是学习别人的会比较容易学)。
然后这几天的打算是就调研一下决策大模型了,然后复现老师给的文献有代码的那个。周二说是有进展会,我就拿调研的和复习出现的问题说进度好了。昨天把强化学习的实验报告我的那部分写了,今天在跑深度学习实验二的代码,感觉就是我训练代码写的可能有问题?明明一模一样的模型用别人的代码训练就是快,用我的代码训练就是慢。
尽快把PPT 和word写了,下周进展会开完就写自己的作业(之前先休息一天呢)
决策大模型ViLA解决的什么问题:先前利用决策LLM进行规划存在着视觉和语言模态的这种分离导致视觉模块无法提供全面的、与任务相关的视觉信息,从而阻碍了法学硕士基于准确的与任务相关的视觉洞察力进行规划 ...